Skip to main content

1 Les causes de contenu en double

Il ya des dizaines et des dizaines de raisons qui causent le duplicate content. La plupart d’entre eux sont d’ordre technique: il est pas très souvent que l’homme décide de mettre le même contenu dans deux endroits différents, sans distinguer la source originale: il se sent anormal plupart d’entre nous. Les raisons techniques sont nombreux cependant. Il arrive la plupart du temps parce que les développeurs ne pensent pas comme un navigateur ou un utilisateur, sans parler d’une araignée de moteur de recherche, ils pensent en tant que développeur. Cet article susmentionné, qui apparaît sur ​​http://www.example.com/keyword-x/ et http://www.example.com/article-category/keyword-x/ ? Si vous demandez le développeur, il dira qu’il existe seulement une fois.

1.1 Malentendu le concept d’une URL

A que développeur devenu fou? Non, il est juste de parler une langue différente. Vous voyez tout le site est probablement alimenté par un système de base de données. Dans cette base de données, il ya un seul article, le logiciel du site Web permet juste de ce même article dans la base de données à récupérer à travers plusieurs URL. En effet, aux yeux du promoteur, l’identificateur unique de cet article est l’ID que l’article a dans la base de données, pas l’URL. Pour le moteur de recherche si l’URL est l’identifiant unique à un élément de contenu. Si vous expliquez que pour un développeur, il va commencer à obtenir le problème, et puis, si il est comme la plupart des développeurs que je connais et ai travaillé, il viendra avec raisons qui est à la fois stupide du moteur de recherche et pourquoi il ne peut ‘t faire quelque chose. Il a tort.

1.2 Session ID de

Vous voulez souvent de garder une trace de vos visiteurs, et de le rendre possible, par exemple, pour stocker des objets qu’ils veulent acheter dans un panier. Pour ce faire, vous devez leur donner une « session ». Une session est essentiellement un bref historique de ce que le visiteur fait sur votre site, et peut contenir des choses comme les articles dans leur panier. Pour maintenir cette session en tant que visiteur clique d’une page à l’autre l’identifiant unique pour cette session, l’ID dite session, doit être stocké quelque part. La solution la plus courante est de le faire avec les témoins, cependant, les moteurs de recherche ne sont généralement pas stocker des cookies.

Ce qui se passe à ce moment est que certains systèmes retombent à l’aide de session ID de l’URL. À ce moment chaque lien interne sur le site obtient cette session ID ajouté à l’URL, et parce que ID de session est unique à cette session, il crée une nouvelle URL, et donc duplicate content.

1.3 Paramètres d’URL utilisées pour le suivi et le tri

Une autre cause de duplicate content est l’utilisation de paramètres d’URL qui ne changent pas le contenu d’une page, par exemple dans les liens de suivi. Vous voyez,http://www.example.com/keyword-x/ et  http://www.example.com/keyword-x/?source=rss n’êtes pas réellement la même URL d’un moteur de recherche. Ce dernier pourrait vous permettre de suivre ce que les gens venaient de la source, il pourrait aussi rendre plus difficile pour vous de bien classer, un effet très secondaire indésirable.

Cela ne va pas simplement pour le suivi des paramètres bien sûr, il va pour chaque paramètre que vous pouvez ajouter à une URL qui ne change pas la pièce essentielle de contenu. Que ce paramètre permet de modifier le tri sur un ensemble de produits, pour montrer un autre encadré: ils causent tout contenu dupliqué.

1.4 grattoirs et la syndication de contenu

Alors que la plupart des causes de contenu en double sont tous les vôtres, ou à vos sites Web la «faute» tout le moins, parfois d’autres sites Web utilisent votre contenu, avec ou sans votre consentement. Ils ne sont pas toujours pas le lien de votre article original, et donc le moteur de recherche n’a pas « get » et doit faire face à une autre version du même article.

Le plus populaire de votre site devient, plus grattoirs vous devrez souvent, ce qui rend cette question plus en plus gros.

1.5 Ordre des paramètres

Une autre cause fréquente est que le CMS ne pas utiliser des URL belle et propre, mais plutôt des URL comme /? id = 1 & cat = 2 , où ID fait référence à l’article et le chat se réfère à la catégorie. L’URL /? cat = 2 & id = 1 rendra exactement les mêmes résultats dans la plupart des systèmes de site Web, mais ils sont en réalité complètement différente pour un moteur de recherche.

1.6 Commentaire Pagination

Dans mon WordPress bien-aimée, mais aussi dans d’autres systèmes, il existe une option de mettre en page vos commentaires. Cela conduit à la teneur dupliqué à travers l’article url, et l’article URL + / commentaire-page-1 /, / commentaire-page-2 / etc.

Si votre système de gestion de contenu crée imprimante pages d’amitié et de vous lier à ceux de vos pages d’articles, dans la plupart des cas, Google va trouver ceux, à moins que vous bloquez spécifiquement. Maintenant la version Google devrait montrer? L’un chargé avec des annonces et le contenu périphérique, ou celui avec juste votre article?

1,8 WWW vs non-WWW

Une des plus anciennes dans le livre, mais parfois les moteurs de recherche encore se tromper: WWW vs non-WWW duplicate content, lorsque les deux versions de votre site sont accessibles. Une situation moins fréquente mais je l’ai vu ainsi: http vs https contenu en double, où le même contenu est servi sur deux.

2 Solution conceptuel: Une URL « canonique »

Comme déterminé ci-dessus, le fait que plusieurs URLs conduisent au même contenu est un problème, mais il peut être résolu. Un homme travaillant dans une publication sera normalement en mesure de vous dire tout à fait facile de l’URL « correct » pour un certain article devrait être. Le plus drôle est que, parfois, lorsque vous demandez à 3 personnes de la même entreprise, ils vont donner trois réponses différentes …

Voilà un problème qui doit être résolu dans ces cas, car à la fin, il ne peut y avoir qu’une seule (URL).Ce URL « correct » pour un morceau de contenu a été surnommé le URL canonique par les moteurs de recherche.

Ironique remarque: canonique est un terme issu de la tradition catholique, où une liste de livres sacrés a été créée et acceptée comme authentique, ils ont été doublés les Evangiles canoniques du Nouveau Testament. L’ironie est: il a fallu l’église catholique romaine d’environ 300 ans et de nombreux combats à venir avec cette liste canonique, et ils ont finalement choisi quatre versions de la même histoire

3 Identification des doublons questions Table des matières

Vous pourriez ne pas savoir si vous avez un problème de duplicate content sur votre site ou avec votre contenu. Permettez-moi de vous donner quelques méthodes de recherche si vous le faites.

3.1 Google Webmaster Tools

Google Webmaster Tools est un superbe outil pour identifier le duplicate content .. Si vous allez dans Google Webmaster Tools pour votre site, vérifier sous Diagnostics -> Suggestions HTML, et vous verrez ceci:

Si les pages ont des titres en double ou des descriptions en double, qui est presque jamais une bonne chose. Cliquer sur ce lien révéler les URL qui ont des titres ou des descriptions en double et vous aideront à identifier le problème. Le problème est que si vous avez un article comme celui de «mot-clé x », et il se présente en deux catégories, les titres peuvent être différents. Ils pourraient par exemple être « Mot-clé X – Catégorie X – Exemple du site » et « Mot-clé X – Catégorie Y – Exemple du site ». Google ne sera pas ramasser ceux comme titres en double, mais vous pouvez les trouver en faisant une recherche.

3.2 Recherche des titres ou des extraits

Il existe plusieurs opérateurs de recherche qui sont très utiles pour ce genre de cas. Si vous voulez trouver toutes les URL de votre site qui contiennent les mots-clés de votre article X, que vous tapez l’expression de recherche suivante sur Google:

1 Site: intitle example.com: "Mot-clé X"

Google vous montrera alors toutes les pages qui contiennent example.com ce mot-clé.Le plus précis vous faites que intitle partie, plus il est facile d’éliminer le duplicate content. Vous pouvez utiliser la même méthode pour identifier le contenu en double sur le Web. Disons que le titre complet de votre article était « Mot-clé X – pourquoi il est génial », vous souhaitez rechercher:

1 intitle: "les mots-clés X - pourquoi il est génial"

Et Google vous donnera tous les sites qui correspondent à ce titre. Parfois, il vaut la peine de chercher même pour une ou deux phrases complètes de votre article, que certains grattoirs pourraient changer le titre. Dans certains cas, lorsque vous effectuez une recherche comme ça, Google peut afficher un avis de ce genre sur la dernière page de résultats:

Ceci est un signe que Google est déjà « de dédoublonnage » les résultats. Il est toujours pas bon, donc il vaut mieux cliquant sur le lien et regarder tous les autres résultats pour voir si vous pouvez résoudre certains de ceux-ci.

4 solutions pratiques pour Duplicate Content

Une fois que vous avez décidé quelle URL est l’URL canonique pour votre morceau de contenu, vous devez commencer un processus de canonisation (ouais je sais, essaie de dire que 3 fois à haute voix rapide). Cela signifie fondamentalement juste, nous devons laisser le moteur de recherche connaître et laisser trouver la version canonique d’une page dès que possible. Il existe essentiellement quatre méthodes de résoudre le problème, par ordre de préférence:

  1. Ne pas créer un contenu en double
  2. Redirection de contenu en double à l’URL canonique
  3. L’ajout d’un élément de liaison canonique de la page double
  4. Ajout d’un lien HTML de la page double à la page canonique

4.1 Eviter Duplicate Content

Certaines des causes ci-dessus pour duplicate content ont corrections très simples à eux:

  • ID de session est dans votre URL?
    Ceux-ci peuvent souvent être simplement désactivé dans les paramètres de votre système.
  • ? Avoir imprimante pages amicales en double
    Ceux-ci sont tout à fait inutile: vous devez juste utiliser une feuille de style d’impression .
  • ? Utiliser commentaire pagination dans WordPress
    Cette fonction devrait seulement être désactivée (sous Paramètres -> discussion) sur 99% des sites.
  • Paramètres dans un ordre différent?
    Parlez à votre programmeur de construire un script pour toujours commander les paramètres dans le même ordre (ce qui est souvent désigné comme une usine dite URL).
  • Suivi des liens questions?
    Dans la plupart des cas, vous pouvez utiliser hash tag campagne basée suivi au lieu de paramètre en fonction de suivi de campagne.
  • WWW vs questions non-WWW?
    en choisir un et de rester avec elle par redirigeant l’un à l’autre . Vous pouvez également définir une préférence dans Google Webmaster Tools, mais vous aurez à demander les deux versions du nom de domaine.

Si votre problème est que pas facilement fixé, il pourrait encore être la peine de faire l’effort et à prévenir le duplicate content d’apparaître tout à fait. Il est de loin la meilleure solution à ce problème.

Contenu 4.2 301 Redirection en double

Dans certains cas, il est impossible d’empêcher totalement le système que vous utilisez de la création de mauvaise URL pour le contenu, mais il est parfois possible de les rediriger. Si cela est logique pour vous (que je peux comprendre) faire garder à l’esprit tout en parlant à vos développeurs. Aussi, si vous faites se débarrasser de certains des problèmes de duplicate content tout à fait, assurez-vous que vous rediriger tous les anciens URL de contenu en double pour les URL canoniques adéquates.

4.3 Utilisation des liens rel = « canoniques »

Parfois, vous ne voulez pas ou ne pouvez pas vous débarrasser d’une version double d’un article, mais vous ne savez qu’il est la mauvaise URL. Pour cette question spécifique, les moteurs de recherche ont introduire l’élément de lien canonique. Il est placé dans le <head> section de votre site et il ressemble à ceci:

1 < lien rel = "canonical" href = "http://example.com/keyword-x/" />

Dans le href section du lien canonique vous placez l’URL canonique approprié pour votre article. Quand Google (ou tout autre moteur de recherche qui prend en charge) trouve cet élément de lien, il fait ce qui est essentiellement un doux redirection 301: il transfère plus de la valeur du lien recueillies par cette page à votre page canonique.

Ce processus est un peu plus lent que la redirection 301, donc si vous pouvez faire une redirection 301 qui serait préférable, comme mentionné par John Mueller de Google .

4.4 Aller directement au contenu original

Si vous ne pouvez pas faire de ce qui précède, peut-être parce que vous ne contrôlez pas la section <head> du site votre contenu apparaît sur, en ajoutant un lien vers l’article original sur le dessus ou en dessous de l’article est toujours une bonne idée.Cela pourrait être quelque chose que vous voulez faire dans votre flux RSS: ajouter un lien vers l’article en lui. Certains grattoirs vont filtrer ce lien, mais d’autres pourraient le laisser dans, si Google rencontre plusieurs liens pointant vers votre article, il figurera bien assez tôt que ce soit la version actuelle canonique de l’article.

5 Conclusion: Dupliquer le contenu est réparable, et doit être fixé

Dupliquer le contenu qui se passe partout. Je dois encore rencontrer un site de plus de 1000 pages qui n’a pas obtenu au moins un petit problème de duplicate content. Il est quelque chose que vous devez garder un œil sur à tout moment. Il peut être fixé si, et les récompenses peuvent être nombreux. Votre contenu de qualité pourrait monter en flèche dans les classements par seulement se débarrasser de contenu dupliqué sur votre site. Bien sûr, si vous avez besoin d’aide pour identifier ces problèmes, aider vos développeurs trouvent des solutions à vos problèmes de duplicate content ou même de les résoudre pour vous, vous pouvez toujours me louer .

Call Now Button