Définition de Spider Trap

Définition de Spider Trap :

definition-spider-trap.pngUn Spider Trap (pour « piège à robots ») est un phénomène qui trompe, de façon intentionnelle ou pas, les robots des moteurs de recherche en générant des boucles infinies ne permettant pas à ces outils de bien explorer un site web.

 

Les robots des moteurs de recherche ont pour vocation d’explorer (crawler) des sites web. Mais il leur arrive parfois de tomber dans des « pièges » tendus de façon plus ou moins volontaire. C’est ce que l’on appelle les « spider traps »…

Un Spider Trap correspond donc à un phénomène le plus souvent de boucle infinie : le robot, lors de son crawl, va boucler sur lui-même constamment et ne plus pouvoir explorer le site en question dans de bonnes conditions. Un Spider Trap peut être créé, le plus souvent de façon involontaire, de plusieurs façons. En voici quelques exemples :

  • Lien dans un calendrier vers « jour suivant » et « jour précédent », sans fin ni limite ;
  • Création d’URL rajoutant des répertoires en boucle (http://example.com/bar/foo/bar/foo/bar/foo/bar/…) ;
  • Navigation à facettes sur une boutique e-commerce, créant des centaines de milliers de combinaisons possibles ;
  • Identifiants de sessions différents à chaque visite (donc à chaque visite d’un robot) ;
  • Etc.

Le Spider Trap peut même « planter » un robot qui serait conçu de façon peu professionnelle (ce qui n’est bien sûr pas le cas des principaux spiders comme Googlebot ou Bingbot).

Un Spider Trap peut d’ailleurs être conçu de façon volontaire, par exemple pour combattre des robots de spam ne respectant pas le fichier robots.txt, en étant placé dans des zones normalement interdites à ces outils d’exploration. Le robot non désiré viendra alors explorer la zone en question et tombera dans le « piège »…

spider-trap
Etude sur le trafic des robots sur le Web en 2016 (source).
De nombreux robots mériteraient de passer à la « trap »….

Voici également quelques liens pour aller plus loin sur le sujet :

Et 2 vidéos de Google et Abondance qui vous en disent un peu plus sur le fonctionnement des robots (ou spiders) des moteurs de recherche :


Spiders, Robots, Crawlers : comment ça marche ? (Abondance)


How Search Works (Google, Matt Cutts)

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.