Depuis février 2026, les trois principaux fournisseurs de LLM (OpenAI, Anthropic, Perplexity) proposent chacun des crawlers distincts pour l’entraînement de leurs modèles et pour leurs fonctionnalités de recherche. Cette séparation change la donne : il est désormais possible de refuser que votre contenu nourrisse les futurs modèles, tout en restant visible dans les réponses de ChatGPT Search, Claude Search ou Perplexity. Encore faut-il configurer son robots.txt en conséquence.
Le problème : selon une étude BuzzStream relayée par Search Engine Journal en janvier 2026, 71 % des grands sites d’actualité qui bloquent un bot d’entraînement bloquent aussi, par erreur ou par excès de prudence, un bot de recherche. Ils s’excluent donc des citations dans les moteurs génératifs sans le vouloir.
Cet article pose la logique, identifie les agents à connaître, et propose des configurations prêtes à l’emploi selon votre profil.
Entraînement, recherche, récupération : trois catégories, trois décisions
La clé de voûte de toute stratégie robots.txt face aux bots IA repose sur une distinction que tous les acteurs majeurs ont désormais formalisée. On distingue trois catégories fonctionnelles de crawlers.
- Les bots d’entraînement (training bots) collectent du contenu pour constituer les jeux de données qui serviront aux prochains cycles d’entraînement des modèles. Les bloquer empêche votre contenu d’alimenter les futures versions du modèle, mais n’efface pas ce que le modèle a déjà appris. L’impact de cette décision est donc différé : selon les estimations de Scrunch.com, les données collectées aujourd’hui ne se retrouvent dans les réponses du modèle que 6 à 12 mois plus tard.
- Les bots de recherche (search bots) alimentent les fonctionnalités de recherche en temps réel des LLM : ChatGPT Search, Claude Search, etc. Les bloquer, c’est disparaître des réponses générées dès maintenant. L’impact est immédiat et mesurable.
- Les bots de récupération (retrieval bots) interviennent quand un utilisateur demande explicitement à l’IA d’accéder à une URL. Leur respect du robots.txt varie selon les acteurs, ce qui les rend plus difficiles à contrôler.
La recommandation de base pour la majorité des sites est simple : bloquer les bots d’entraînement, autoriser les bots de recherche et de récupération. Vous protégez votre propriété intellectuelle tout en maintenant votre visibilité dans l’écosystème GEO (Generative Engine Optimization, l’optimisation pour les moteurs de recherche génératifs).
Inventaire des agents par acteur
Voici les user agents déclarés par les principaux acteurs, classés selon la taxonomie entraînement / recherche / récupération.
OpenAI opère trois agents :
- GPTBot : entraînement. C’est le crawler IA le plus actif du web selon les données Cloudflare de juillet 2025, avec une croissance de 305 % en volume de requêtes entre mai 2024 et mai 2025
- OAI-SearchBot : recherche. Le bloquer exclut votre site des réponses de ChatGPT Search. OpenAI précise que GPTBot et OAI-SearchBot partagent des informations pour éviter le double crawling quand les deux sont autorisés
- ChatGPT-User : récupération. Déclenché quand un utilisateur demande à ChatGPT d’accéder à une URL. OpenAI indique que cet agent ne suit pas nécessairement les directives robots.txt
Anthropic a formalisé son framework à trois bots le 20 février 2026 :
- ClaudeBot : entraînement. Successeur des agents dépréciés Claude-Web et Anthropic-AI
- Claude-SearchBot : recherche. Alimente Claude Search en contenu indexé
- Claude-User : récupération. Contrairement à ChatGPT-User, Anthropic affirme que Claude-User respecte les directives robots.txt, y compris la directive non standard Crawl-delay
Perplexity opère deux agents :
- PerplexityBot : indexation périodique
- Perplexity-User : récupération en temps réel. La documentation officielle de Perplexity indique que cet agent peut ignorer le robots.txt quand un utilisateur fournit une URL spécifique
Autres agents à intégrer dans votre configuration :
- Google-Extended : le token de contrôle introduit par Google pour exclure votre contenu de l’entraînement de Gemini sans impacter votre indexation dans Google Search. Ce n’est pas un bot au sens classique : il n’apparaît pas dans les logs serveur
- Applebot-Extended : même logique pour Apple Intelligence
- Meta-ExternalAgent : crawler d’entraînement de Meta, distinct de facebookexternalhit (prévisualisations de liens). Meta précise que dans certains scénarios de requêtes utilisateur, ses bots peuvent contourner le robots.txt
- CCBot : le crawler de Common Crawl, organisation non commerciale dont les datasets servent de base d’entraînement à de nombreux modèles tiers. Bloquer CCBot a un impact indirect large mais difficile à mesurer
Configuration type : protéger l’entraînement, ouvrir la recherche
Voici une configuration robots.txt qui montre la logique recommandée. Elle bloque tous les bots d’entraînement identifiés et autorise les bots de recherche et de récupération.
# Bots d'entraînement - bloqués
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
# Bots de recherche et de récupération - autorisés
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
# Moteurs de recherche traditionnels
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
Attention : cette configuration ultra simplifiée doit être adaptée pour chaque site. N’oubliez pas de bloquer au crawl vos facettes, vos pages admin/back office etc… Ne copiez collez pas ce fichier sans réfléchir, on vous aura prévenu !
Deux cas de figure justifient des ajustements.
Les sites à contenu premium ou sur abonnement peuvent envisager de bloquer aussi les bots de recherche pour éviter que le contenu payant soit cité dans des réponses IA accessibles gratuitement. Le risque : perdre toute visibilité dans les moteurs génératifs.
Les sites qui misent sur la visibilité GEO (lead generation, SaaS, e-commerce informationnel) ont intérêt à autoriser le maximum de bots de recherche et de récupération, quitte à laisser les bots d’entraînement accéder à certaines sections non stratégiques (pages produit, documentation publique).
Le cas Perplexity : pourquoi le robots.txt ne suffit pas
La configuration ci-dessus repose sur un prérequis : que les bots respectent les directives. C’est le cas documenté pour OpenAI et Anthropic. Pour Perplexity, les preuves disponibles incitent à la prudence.
En août 2025, Cloudflare a publié une investigation détaillée montrant que Perplexity utilisait un user agent générique imitant Chrome pour contourner les blocages, faisait tourner ses requêtes sur des plages IP non déclarées, et changeait d’ASN (Autonomous System Number, l’identifiant réseau d’un opérateur) pour échapper aux blocages réseau. Ces comportements ont été observés sur des dizaines de milliers de domaines. Cloudflare a retiré Perplexity de son programme de bots vérifiés.
Perplexity a contesté ces conclusions. Mais le constat reste : pour les acteurs qui ne respectent pas le robots.txt, des solutions complémentaires s’imposent.
- Règles WAF (Web Application Firewall) pour bloquer les requêtes suspectes au niveau du serveur
- Blocage au niveau CDN : Cloudflare propose depuis août 2025 un AI Crawl Control permettant de retourner des réponses HTTP 402 (Payment Required) aux crawlers IA
- Outils dédiés : Robotcop, lancé par Cloudflare en décembre 2024, transforme les directives robots.txt en règles de pare-feu applicables
Un point de vigilance complémentaire : Anthropic ne propose pas encore de protocole de vérification pour ClaudeBot. En l’état, il n’existe pas de moyen fiable de confirmer que le trafic se déclarant comme ClaudeBot est authentique.
Auditer, monitorer, itérer
La configuration robots.txt n’est pas un réglage ponctuel. Le paysage des bots IA évolue vite : la mise à jour d’Anthropic en février 2026, qui a introduit trois agents là où il n’y en avait qu’un, est un exemple parlant. Une configuration valide il y a six mois peut être obsolète aujourd’hui.
Trois actions à intégrer dans vos routines :
- Auditer vos logs serveur régulièrement. Une commande grep sur vos fichiers access.log permet d’identifier des user agents inconnus ou non déclarés. Cloudflare a identifié 226 crawlers distincts dans son analyse de trafic : beaucoup ne figurent dans aucune documentation officielle
- Surveiller les annonces des acteurs. Chaque mise à jour de documentation (OpenAI, Anthropic, Google) peut introduire de nouveaux agents ou modifier le comportement des agents existants. Les sources de veille fiables : Search Engine Roundtable, Search Engine Land, les blogs officiels des plateformes
- Tester votre configuration. Vérifiez que vos directives produisent l’effet attendu en croisant vos logs avec les user agents documentés. Attention au cas Google-Extended, qui n’apparaît pas dans les logs malgré une configuration correcte (c’est un token de contrôle, pas un crawler)
Un dernier point : ne bloquez jamais les plages IP d’Anthropic ou d’OpenAI en pensant renforcer vos directives robots.txt. Anthropic elle-même précise dans sa documentation que bloquer ses IP peut l’empêcher de lire votre fichier robots.txt, rendant le blocage contre-productif. Cette remarque s’applique à tous les bots d’exploration en général.
Bibliographie
- Robots.txt et bots IA : la configuration qui protège votre contenu sans sacrifier votre visibilité
- GPTBot, ClaudeBot, PerplexityBot : quel bot bloquer et lequel autoriser dans votre robots.txt
- Comment configurer votre robots.txt pour les crawlers IA en 2026
- Bots d’entraînement vs bots de recherche : le nouveau dilemme du robots.txt
- Robots.txt et moteurs génératifs : le guide stratégique pour les éditeurs et les SEO