Duplicate Content
Duplicate Content : essai de définition
Les contenus dupliqués (aussi désignés par l’abréviation DC en anglais) font référence aux contenus web identiques, disponibles à partir de différentes URL.
Définition détaillée
Les contenus dupliqués, ou « duplicate content », désignent des contenus, issus d’un seul ou de différents sites web, qui sont extrêmement similaires ou complètement identiques. Les moteurs de recherche tels que Google tentent d’éviter le duplicate content. C’est pourquoi les sites web qui utilisent (trop) de contenus dupliqués sont déclassés de leur index. En particulier si les moteurs de recherche suspectent une stratégie de contenus dupliqués (à des fins de référencement), les pages peuvent subir des pertes de positionnement importantes ou, dans le pire des cas, être complètement désindexées.
Pourquoi le contenu dupliqué est-il pénalisé ?
Les moteurs de recherche estiment que les contenus dupliqués sont inutiles, car ils ne fournissent aucune valeur ajoutée à l’utilisateur. Néanmoins, pour détecter le duplicate content, chaque site doit être exploré et indexé, ce qui nécessite d’importantes ressources.
En raison des stratégies utilisées par les webmasters dans le passé (notamment à des fins SEO), les sites sont souvent remplis de contenus dupliqués ; Google a donc commencé à prendre des mesures contre l’utilisation multiple de contenus identiques. Des changements d’algorithme majeurs tels que la mise à jour Panda a eu une incidence forte sur les pages contenant des contenus dupliqués, ainsi les pages présentant des contenus similaires ont vu leur positionnement s’effondrer.
Quels sont les moyens de lutter contre le contenu dupliqué ?
Toutes les formes de contenus dupliqués n’entraînent généralement pas une pénalité égale par les moteurs de recherche. Toutefois, étant donné qu’il existe un risque que les contenus en double soient évalués négativement, voire désindexés, les propriétaires de sites doivent connaître certaines mesures importantes qu’ils peuvent mettre en œuvre pour éviter le duplicate content.
Les redirections 301
Mettre en place une redirection 301 est une façon utile de conserver les moteurs de recherche et les visiteurs sur une page et faire ainsi l’impasse sur les anciens contenus. Si une page remplace complètement une autre – avec une URL différente – (comme dans le cadre d’une refonte de site), la redirection 301 permet de rediriger l’internaute vers la bonne page. Ainsi, deux pages avec des contenus similaires coexistent, mais le visiteur, même s’il choisit l’ancienne URL de la page, est automatiquement redirigé vers la bonne version.
Google accepte sans problèmes l’utilisation de redirections. Cependant, pour rendre cette technique aussi efficace que possible, les webmasters devraient uniquement choisir des pages susceptibles de constituer un substitut adéquat aux pages originales.
Faites attention à utiliser vos URL correctement
Pour éviter le duplicate content, l’utilisation correcte des URL est un facteur très important. Google lui-même conseille de veiller toujours à la cohérence des URL en utilisant des adresses web uniformes. Par exemple, il faut toujours choisir une seule version lorsque plusieurs choix sont possibles : www.beispiel.de/nom ou www.beispiel.de/nom/ ou www.beispiel.de/nom/index.htm.
En outre, les propriétaires de sites doivent indiquer dans Search Console l’adresse référente d’une page donnée, par exemple : http://www.beispiel.de ou http://beispiel.de. La balise canonical (voir ci-dessous) permet également d’indiquer quelle est la version à privilégier.
Google conseille également d’utiliser des domaines de niveau supérieur pour spécifier un site. Les webmasters doivent de préférence utiliser www.beispiel.de au lieu des URL de sous-domaines, comme de.beispiel.com.
De nombreux systèmes de gestion de contenu peuvent générer, par inadvertance, un contenu dupliqué en rewritant les URL des pages. Au moment de substituer ou d’archiver une page, il se peut que le CMS modifie l’URL (par exemple : beispiel.de/text/022015 au lieu de beispiel.de/text) : une même page est donc accessible par le biais de différentes URL. Il en est de même pour la génération automatique des paramètres de suivi sous la forme d’un extrait annexé à l’URL d’origine. Cet extrait n’est pas toujours interprété correctement par les moteurs de recherche, qui peuvent le considérer comme une nouvelle URL et, par la même, comptabiliser deux pages identiques. Les webmasters et experts SEO devraient examiner leur CMS et leur outil d’analyse pour corriger d’éventuels problèmes.
Réduire les contenus dupliqués
Les propriétaires de sites doivent éviter autant que possible les contenus dupliqués et produire des contenus uniques. Les blocs de texte isolés redondants utilisés sur plusieurs pages, voire même la duplication de pages complètes, ne peuvent être complètement évités. Cependant, les webmasters devraient limiter le plus possible les contenus dupliqués et, le cas échéant, indiquer au moteur de recherche via un lien dans le code HTML qu’il existe des pages avec des contenus identiques.
D’autre part, si un propriétaire de site web transfère son contenu à différents sites ou utilise le contenu d’autres sites sans autorisation, cela peut également être considéré comme du Duplicate Content. Dans les deux cas, les éditeurs de sites peuvent demander au Webmaster concerné d’ajouter un lien vers le contenu original ou d’utiliser la balise noindex au niveau des contenus copiés. De cette manière, le moteur de recherche pourra savoir quel est le contenu d’origine devant être indexé.
Utiliser le disallow dans le fichier robots.txt ou les URL canoniques / hreflang / ou la balise noindex
Il est possible d’utiliser une grande variété de tags pour éviter que les contenus en double ne soient indexés et donc pénalisés. La balise canonical placée dans la section head indique à Google quelle page indexer. La copie de cette page ne sera, par conséquent, pas prise en compte par le moteur de recherche.
La balise meta noindex est utilisée pour indiquer au moteur de recherche qu’il ne doit pas indexer la page en question, bien qu’il puisse toujours l’explorer. Il est aussi possible d’intégrer un disallow dans le fichier robots.txt en précisant quelles pages ou répertoires ne doivent pas être explorés.
Le disallow peut être utilisé dans le fichier robots.txt pour désigner des pages entières, des types de pages ou même des types de contenu et ainsi éviter l’indexation par Google et les autres moteurs de recherche. Le fichier robots.txt contrôle les contenus pouvant être accessibles et indexés par les robots d’un moteur de recherche. Le disallow interdit au moteur de recherche d’accéder au contenu désigné.
Le tag hreflang peut être utilisé pour signaler aux moteurs de recherche qu’une page dupliquée est disponible sous deux domaines de langues différentes. Par exemple, si le site compte un domaine en .com.uk pour le Royaume-Uni et un autre en .com pour le marché américain, l’attribut hreflang permet de l’indiquer aux moteurs de recherche et d’éviter que le site soit pénalisé pour contenus dupliqués.
Conclusion :
Les contenus dupliqués sont un véritable défi pour les webmasters et les experts SEO parce que les moteurs de recherche luttent férocement contre le duplicate content. Simultanément, Google vise à proposer à ses usagers des contenus uniques. Le DC peut être néfaste pour un site qui, dans le pire des cas, peut être déclassé ou désindexé si Google considère qu’il y a eu une tentative de manipulation à des fins de référencement. Néanmoins, les propriétaires de sites disposent de plusieurs options pour éviter ou corriger le duplicate content, y compris l’utilisation de balises ou attributs spécifiques dans le code source et les redirections.