Comment identifier un robot d’exploration de Google ?

Il existe plusieurs robots d’exploration Google, chacun avec des noms et des objectifs différents.

Chaque robot d’exploration appartient à l’une des trois catégories suivantes : Googlebot, Robots d’exploration spéciaux et Extracteurs déclenchés par l’utilisateur.

Googlebot

Robot d’exploration principal pour les produits de la recherche Google. Il respecte toujours les règles du fichier robots.txt.

Robots d’exploration spéciaux

Robots d’exploration qui exécutent des fonctions spécifiques (AdsBot, par exemple), qui peuvent ou non respecter les règles du fichier robots.txt.

Extracteurs déclenchés par l’utilisateur

Outils et fonctions produit dans lesquels l’utilisateur final déclenche une extraction. Par exemple, Google Site Verifier agit à la demande d’un utilisateur. Étant donné que l’exploration a été demandée par un utilisateur, ces outils ignorent les règles du fichier robots.txt.

Pour identifier un robot d’exploration Google vous pouvez utiliser une méthode manuelle ou une méthode automatique.

Méthode manuelle

Pour des recherches ponctuelles, Google recommande d’utiliser les outils de ligne de commande :

  1. À l’aide de la commande host, exécutez une résolution DNS inverse sur l’adresse IP utilisée dans vos journaux.
  2. Vérifiez que le nom de domaine est googlebot.comgoogle.com ou googleusercontent.com.
  3. Effectuez une résolution DNS directe sur le nom de domaine récupéré à l’étape 1 à l’aide de la commande host.
  4. Vérifiez qu’il s’agit de la même adresse IP que celle utilisée dans vos journaux.

Méthode automatique

Vous pouvez également identifier Googlebot avec l’adresse IP, en établissant une correspondance entre l’adresse IP du robot d’exploration et la liste des adresses IP des robots d’exploration et des extracteurs Google :

Notez que les adresses IP dans les fichiers JSON sont représentées au format CIDR.

Utiliser notre outil de vérification

Comme le format CIDR est particulièrement abscons, et si vous ne maîtrisez pas les subtilités des formats IPV4 vs IPV6, vous pouvez aussi utiliser notre outil dédié:

https://www.neper.fr/ip-checker

Les deux options de l’outil :

  • vous pouvez soit vérifier qu’il s’agit bien de l’une des IP de Googlebot stricto sensu.
  • ou tester l’IP pour savoir s’il s’agit d’une IP utilisé par un autre bot de Google ou un autre service de Google

Merci d’avoir lu cet article 😊

Laisser un commentaire