Google et la lutte contre le spam (1/2)

Google se targue de présenter à ses utilisateurs uniquement des sites de bonne qualité, dépourvu de pages malveillantes ou trompeuses. L’un des challenges que c’est imposé Google est de détecter au mieux, avec le moins d’erreurs possibles, les pages qui ne répondent pas à ses critères de qualité.

Pour cela Google s’est doté d’un arsenal d’algorithmes spécialisés. Le principal défaut de ces algorithmes est qu’ils ne sont pas toujours en mesure de prendre une bonne décision et de qualifier justement ou non une page comme étant du spam. L’intervention humaine reste donc encore une obligation malgré les progrès réalisés. Petit tour d’horizon sur la lutte contre le spam selon Google.

Le sujet est tellement vaste, bien que synthétisé ici, il est décliné en plusieurs articles.

Partie 1

  • Les consignes de Google pour la lutte contre le spam ;
  • Pénalité ou filtre
  • Les filtres algorithmiques ;
  • Les pénalités manuelles ;
  • Le cas particulier de la sandbox.

Partie 2 :

  • Le service qualité de Google ;
  • Identifier et sortir d’une pénalité manuelle ;
  • Identifier et sortir d’un filtre algorithmique ;
  • Les mythes SEO sur le spam.

Les consignes de Google pour la lutte contre le spam

Google est généralement assez avare en informations précises et concises. Dans la lutte contre le spam, c’est plutôt l’inverse, Google est assez précis et les consignes données sont claires, preuve qu’il attache une très grande importance à ne présenter que des contenus qu’il juge de qualité et pertinent.

Voici une liste des techniques que Google déclare comme interdites et susceptibles de faire exclure vos pages des résultats de recherche, soit par un filtre, soit par une pénalité.

  • Contenu généré automatiquement
  • Participation à des systèmes de liens
  • Création de pages qui ne présentent que peu ou pas de contenu original
  • Techniques de dissimulation
  • Redirections trompeuses
  • Texte ou liens cachés
  • Pages satellites
  • Contenu détourné
  • Participation à des programmes d’affiliation qui n’offrent que peu de valeur ajoutée
  • Accumulation de mots clés non pertinents sur les pages
  • Création de pages au comportement malveillant, de type hameçonnage ou installation de virus, de chevaux de Troie ou d’autres programmes malveillants
  • Utilisation abusive du balisage des données structurées
  • Envoi de requêtes automatiques à Google

Ces techniques sont généralement bien connues des webmasters, des rédacteurs Web et des consultants SEO. Si vous souhaitez rafraichir vos connaissances, vous trouverez les explications complètes sur chacune de ces techniques dans les guidelines de Google avec ce lien : https://bit.ly/neper-googlespam1

Pénalité ou filtre ?

Généralement, c’est ici que la confusion commence et que les connaissances deviennent un peu plus floues.

Trop souvent les webmasters font l’erreur de l’amalgame et ils appellent “pénalité” ce qui est en réalité un filtre algorithmique. Pour Google, une pénalité est toujours manuelle. Le reste est qualifié de filtre algorithmique.

Les filtres algorithmiques

Qui s’intéresse au SEO a forcément entendu parler de Google Panda et d’autres filtres de Google. Mais les connaissez-vous tous, ou tout du moins les principaux et savez-vous à quoi ils correspondent ?

Qu’est-ce qu’un filtre algorithmique ? Ce sont des classifieurs basés sur des scripts, qui ont rapidement évolué avec les avancées en IA. L’objectif de ces filtres est de répondre à une seule question : spam ou pas spam ? 

Auparavant, les process étaient très lents et couteux en ressources machine. L’IA, au cœur de ces filtres avec leurs mises à jour successives, utilise la technologie SVM (support vector machines) qui permet de se rapprocher au mieux des choix humains et dont l’objectif ultime est de prendre la même décision qu’un humain sur la qualité perçue d’une page Web selon un ensemble de critères d’évaluation du spam.

L’IA apprend à l’aide d’évaluations humaines réalisées par les Quality Raters (il s’agit d’intérimaires employés par Google) qui sont chargés d’évaluer les pages de résultats en fonction de critères précis. L’ensemble de ces critères sont consultables sur Internet et tout bon SEO se doit de parfaitement les connaître.

La dernière version est téléchargeable à cette adresse : https://bit.ly/neper-qualityrater

Les filtres algorithmiques connus

Panda

Lancé pour la première fois le 24 février 2011. Après plusieurs mises à jour successives, Panda est intégré directement en mode synchrone dans l’algorithme de Google en mars 2013.

Panda est chargé de différencier les sites de bonne qualité de ceux de mauvaise qualité et de sanctionner ces derniers. Panda intervient sur le contenu du site.

Penguin

Ce filtre a été lancé pour la première fois le 24 avril 2012. Penguin a été lancé dans le cadre de la stratégie FUD (fear uncertainty and doubt) de Google dont le principe est de susciter la peur de la pénalisation et de démotiver les spammeurs de tricher.

Penguin lutte contre la suroptimisation (keyword stuffing, etc.), les ancres de liens suroptimisée également et les pratiques abusives de netlinking (acquisition non naturelle de liens).

Pirate

Annoncé en 2012, ce filtre pénalise les sites proposant du contenu obtenu illégalement, principalement des vidéos et de la musique, sans y être limité.

Top Heavy

Également lancé initialement en 2012, Top Heavy est régulièrement mis à jour.

Son but est de pénaliser les sites ayant recours de façon anormale à la publicité, principalement au-dessus de la ligne de flottaison.

Payday Loan

Lancé le 11 juin 2013, ce filtre est renforcé et mis à jour très régulièrement.

Payday Loan cible les requêtes et univers de recherche connus pour comporter de nombreuses techniques de spam et des techniques SEO black hat (sites pour adultes, jeu de poker, etc.).

Pigeon/Possum

Déployé à partir du 24 juillet 2014, Pigeon permet d’améliorer la qualité des résultats des recherches locales. Possum a été lancé en 2016, ce filtre est complémentaire à Pigeon.

L’affichage du pack local dans les SERP a largement évolué à l’occasion de ses déploiements.

Soyons clairs : Il existe, sans l’ombre d’un doute, d’autres filtres algorithmiques pour la lutte contre le spam.

Les pénalités manuelles

Voici la liste des pénalités manuelles appliquées par Google.

  • Site infecté par du spam tiers : Google a détecté qu’une partie significative de votre site est infecté par du spam, ce qui va à l’encontre des consignes Google aux webmasters et ce qui ne présente aucun avantage pour le Web.
  • Spam généré par l’utilisateur : Google a détecté du spam, soumis par vos visiteurs, sur vos pages.
  • Hébergeur gratuit associé à du spam : Une part significative des sites hébergés sur un service d’hébergement Web gratuit contient du spam.
  • Problème lié aux données structurées : Google a détecté qu’une partie du balisage de vos pages semble utiliser des techniques contraires aux Consignes relatives aux données structurées, telles que le balisage de contenu invisible pour les internautes, le balisage de contenu non pertinent ou trompeur, ou d’autres techniques de manipulation.
  • Liens artificiels vers votre site : Google a détecté un format de liens factices artificiels, trompeurs ou manipulateurs redirigeant vers des pages de votre site. L’achat de liens ou la participation à des systèmes de liens dans le but de manipuler le classement PageRank enfreint les Consignes aux webmasters.
  • Liens artificiels sur votre site : Google a détecté un format de liens sortants artificiels, trompeurs ou manipulateurs sur votre site. L’achat de liens ou la participation à des systèmes de liens dans le but de manipuler le classement PageRank enfreint les Consignes aux webmasters.
  • Contenu peu informatif qui ne présente que peu ou pas d’intérêt : Google a détecté des pages de faible qualité ou qui présentent peu d’intérêt sur votre site. Par exemple : Contenu généré automatiquement, pages de site affilié sans valeur ajoutée, contenu provenant d’autres sources (contenu détourné ou articles de blog de mauvaise qualité rédigés par des invités), pages satellites.
  • Techniques de dissimulation (cloaking) ou redirections trompeuses : Il arrive que les pages vues par les internautes sur votre site diffèrent de celles que voit Google, ou que les internautes soient redirigés vers d’autres pages que celles présentées à Google. Les techniques de dissimulation (cloaking) et les redirections trompeuses sont contraires aux Consignes aux webmasters.
  • Spam agressif : Certaines de vos pages peuvent utiliser des techniques qui vont à l’encontre des Consignes aux webmasters. Il semble que votre site utilise des techniques de spam agressives telles que la génération automatique de contenu vide de sens, la dissimulation de contenu (cloaking), le détournement de contenu d’autres sites Web ou des pratiques répétées, ou nuisibles, contraires aux consignes Google relatives à la qualité.
  • Images dissimulées (cloaking) : Certaines images de votre site peuvent s’afficher différemment dans les résultats de recherche Google et sur votre site. Les techniques de dissimulation (cloaking) consistent à présenter un contenu différent aux internautes et aux moteurs de recherche. Cette pratique constitue une infraction aux Consignes Google aux webmasters, car elle propose aux internautes des résultats différents de ceux attendus. Les techniques de dissimulation d’images peuvent causer une mauvaise expérience utilisateur dans les résultats de recherche d’images Google. En effet, l’internaute ne voit pas les images qu’il recherche en raison des images masquées et des vignettes qui ne correspondent pas.
  • Texte caché ou accumulation de mots clés : Certaines pages de votre site peuvent contenir du texte caché ou faire l’objet d’une accumulation de mots clés. Ces techniques sont contraires aux Consignes aux webmasters.
  • Non-correspondance du contenu AMP : Une différence de contenu entre la page AMP et sa page Web canonique a été constatée. Le contenu de la version AMP et de sa page Web canonique doit être fondamentalement le même. Il n’est pas nécessaire que le texte soit identique, mais le sujet doit rester le même, et les utilisateurs doivent pouvoir effectuer les mêmes tâches sur la page AMP et sur la page canonique. Les pages AMP affectées par cette action manuelle n’apparaissent pas dans la recherche Google. La page canonique est affichée à la place.
  • Redirections trompeuses sur mobile : Certaines pages de votre site semblent rediriger les mobinautes vers un contenu inaccessible aux robots d’exploration d’un moteur de recherche. Cette pratique constitue une infraction aux Consignes Google aux webmasters. Afin de garantir la qualité des résultats de recherche proposés aux utilisateurs, l’équipe Google Search Quality peut prendre des mesures envers les sites en question, par exemple en supprimant des URL de l’index Google.
  • Non-respect des règles Google Actualités et Discover.

Le cas particulier de la sandbox

Description du syndrome : Suite à un lancement de site ou à un important changement sur un site existant, celui-ci n’arrive plus à se positionner correctement dans Google pendant plusieurs semaines, voire pendant plusieurs mois.

Après cette période de purgatoire le site remonte brusquement dans les SERP et il peut finalement se positionner tel qu’il doit l’être.

De quoi s’agit-il réellement ?

Il ne s’agit nullement d’une pénalité, mais comme l’effet sandbox est souvent et à tort, considéré comme une pénalité de Google infligée aux jeunes sites, il nous a semblé important de revenir sur ce cas particulier.

Il s’agit d’un effet de bord dû à la prise en compte de la temporalité sur plusieurs signaux importants de l’algorithme. Ce n’est pas un filtre ou une pénalité algorithmique.

Dans le prochain article sur le sujet de Google et la lutte contre le spam on parlera de la façon d’identifier et de sortir d’une pénalité manuelle ainsi que comment faire de même pour un filtre algorithmique. On terminera par un petit tour d’horizon des mythes autour des pénalités Google.

Laisser un commentaire