• Qu'est-ce que le duplicate content ? • CASEO

Pourquoi et comment éviter le contenu dupliqué
Le duplicate content doit, dans la mesure du possible, être banni de notre usage du web. Volontaire ou non, il a la fâcheuse tendance à pénaliser les sites qui l'emploient. Les moteurs de recherche, Google en tête, lui font en effet la chasse depuis de nombreuses années et n'hésitent pas à impacter le référencement naturel des pages présentant un contenu trop proche. Il existe heureusement des moyens d'éviter le contenu dupliqué involontaire et des outils pour détecter les copies de son propre contenu. Quelques bonnes pratiques permettent enfin de limiter les dégâts au niveau du SEO.

Ce qui est considéré comme duplicate content

On appelle duplicate content, ou contenu dupliqué, un contenu qui se retrouve sur plusieurs pages différentes et donc à plusieurs url différentes. Il peut s'agir de contenu strictement identique (une copie) mais aussi de contenu similaire étant suffisamment proche de l'original pour paraître douteux aux yeux de Google.

Les deux pages (l'originale et la copie) peuvent se trouver sur le même site Internet, on parle alors de duplicate content interne. Elles peuvent au contraire se situer sur des sites différents. On parle dans ce cas-là de duplicate content externe.

Duplicate content interne Les boutiques en ligne sont un cas fréquent de duplicate content interne. Lorsque de nombreux produits similaires sont présents à la vente sur un même site, il est aisé et tentant d'utiliser des descriptions voisines. Même si seulement quelques mots varient, l'humain se rend vite compte que la première page consultée présente un ordinateur portable dédié à la bureautique et que la seconde page cherche à vendre le même ordinateur avec une carte graphique plus puissante ou un écran plus grand. Pour le robot Google, la nuance n'est pas aussi flagrante et le contenu d'une des deux pages peut rapidement être considéré comme dupliqué.

Le contenu dupliqué interne n'est donc pas forcément le plus facile à éviter, et surtout pas toujours volontaire. Le système de gestion de contenu (CMS) WordPress est notamment tristement célèbre pour sa tendance à dupliquer le contenu à l'insu de son utilisateur. Une des forces de WordPress est la simplicité de sa taxonomie. Il propose à l'utilisateur de séparer très simplement ses contenus en pages ou articles et de marquer ses derniers sous des étiquettes appelées tags ou catégories. L'un des problèmes est qu'il crée automatiquement des pages de catégorie qui peuvent proposer le même contenu que votre page de blog, par exemple.

Il existe bien sûr des solutions pour éviter le duplicate content interne. Cela démontre en tout cas que la duplication de contenu n'est pas toujours volontaire. Cela prouve enfin la nécessité, si besoin était, de bien connaître la technologie que l'on choisit pour le développement de son site web.

Duplicate content externe Le principe est similaire, l'origine du contenu est cependant différente. Dans le cas de duplicate content externe, l'original et la copie se trouvent sur deux sites Internet différents. Cela peut bien sûr être un cas de copie volontaire. Dans ce cas, la seule chose à mentionner est que ce n'est ni une pratique morale, ni bon pour le référencement naturel des sites en question. La pratique n'est donc absolument pas recommandée.

Dans d'autres cas, l'éthique du copieur n'est pas à remettre en cause. Là encore, les sites e-commerce sont souvent les plus touchés. Lorsqu'un produit est vendu sur de nombreux sites, les descriptions vont indéniablement finir par se ressembler. Pire, la publication de la fiche technique fournie par le fournisseur peut à elle seule faire basculer la page dans le duplicate content.

Contenu dupliqué, SEO pénalisé

Les algorithmes de Google sont régis par l'expérience utilisateur et par ce que l'on peut imaginer être l'attente d'un internaute au moment de réaliser une recherche Internet. Il parait évident que, lorsque nous entrons des mots clés dans un moteur de recherche, nous souhaitons obtenir une information ou une réponse à une question. Proposer dix pages de résultats avec le même contenu n'apporterait donc aucune plus-value à l'utilisateur et est par conséquent considéré comme inutile.

Il existe en fait un double intérêt à ne pas afficher les pages présentant un contenu dupliqué. Dans un premier temps, cela permet de ne pas encourager la copie ou le plagiat. Ensuite, cela permet de soulager les robots des moteurs de recherche en ne crawlant (scannant) pas deux fois la même page. On lit souvent que le duplicate content est une pénalité appliquée si une page présente le même contenu qu'une autre. Plus qu'une pénalité, il s'agit en fait généralement d'un simple filtre utilisé par Google (et a priori Yahoo et Bing). La réelle pénalité n'intervient qu'en cas de doublons parfaits entre deux pages.

Dans tous les cas, le référencement de l'ensemble du site Internet peut pâtir du duplicate content, ce qui n'est pas le but, quel que soit le nom utilisé. En effet, lorsqu'une page est identifiée par Google comme étant dupliquée, elle est au mieux déclassée et se retrouve très loin sur les SERP. Au pire, elle n'est plus indexée et devient donc introuvable via une recherche classique. Autre considération pouvant paraître injuste, la copie n'est pas toujours la page sanctionnée. Google semble apporter de l'importance à la notoriété du site qu'il analyse, ce qui peut dans certains cas entraîner la chute du page rank de la page originale.

Comment éviter le contenu dupliqué ?

Plusieurs solutions existent pour éviter ou en tout cas limiter le contenu dupliqué. Pour ce qui est du duplicate content interne, une première règle simple et facile à appliquer consiste à toujours choisir un titre et une métadescription uniques pour les pages de son site Internet (balises TITLE et DESCRIPTION). Ainsi, même si le contenu est grandement similaire, cela évitera à vos pages de se faire purement et simplement désindexées par Google. Cela ne suffit évidemment pas à optimiser son référencement mais limite les risques.

Il existe également un certain nombre d'outils permettant de repérer le contenu dupliqué. À l'interne, screaming frog permet par exemple de mettre en lumière les balises dupliquées. C'est également une fonction méconnue mais pourtant bien présente de la Google Search Console, dans la partie nommée « amélioration HTML ». Siteliner permet quant à lui de détecter la duplication de contenu interne de manière générale.

Pour ce qui est du duplicate content externe, KillDuplicate est l'un des outils souvent cités. Il permet de détecter et identifier les sites utilisant votre contenu. Des scans hebdomadaires peuvent également être paramétrés, en plus d'un système de détection en temps réel.

Agir en cas de duplicate content

Une fois un contenu dupliqué détecté, il reste à agir avant de n'en faire les frais. Plusieurs solutions existent, selon les cas.

Redirections 301 La redirection 301 est un moyen simple et efficace de rediriger une url vers une autre et donc de limiter le duplicate content interne. C'est la méthode à privilégier lors du passage d'un site de http vers https ou lors de la restructuration d'un site. Les redirections 301 font tout simplement pointer les anciennes URL vers les nouvelles.

No index Noindex est une balise méta qui se place dans la section d'une page HTML. Elle indique explicitement au robot de Google (le googlebot) de ne pas indexer une page. Elle doit donc être placée dans une page copiée pour laisser la place à la page originale.

Balise canonical La balise canonical permet d'introduire la notion d'url canonique. Une page accessible via une url dite canonique est considérée comme étant la page « officielle ». Le page rank des pages considérées comme non canoniques est celui qui en subit alors les conséquences, au bénéfice de la page principale. L'utilisation de la balise canonical sert donc à dire à Google « cette page contient du contenu dupliqué et voici l'adresse de la page originale ». À la lecture de ce message, le robot sait donc comment prioriser les pages similaires.