Depuis début 2026, une information technique a commencé à circuler dans la sphère SEO, sans pour autant faire l’objet d’une communication officielle très claire de la part de Google :
Google aurait fortement réduit la quantité de HTML qu’il analyse réellement par page.
Une limite de crawl beaucoup plus basse qu’auparavant
Google avait dans le passé communiqué sur l’extension de la limite de la quantité de données que ses bots étaient capables de crawler et d’analyser des pages, qui allait jusqu’à environ 15 Mo.
Aujourd’hui, Google a changé sa documentation, et communique sur une capacité bien plus restreinte. Comme l’explique la documentation officielle de Google sur le fonctionnement de Googlebot, le robot d’exploration applique des limites techniques précises à l’analyse des pages. Au-delà d’un certain volume de HTML, Googlebot peut cesser de lire le document, même si l’URL reste accessible et indexable.
Google indique désormais dans sa documentation que la quantité de HTML réellement analysée se situe désormais autour de 2 Mo, contre environ 15 Mo auparavant.
Il est également important de préciser que cette limite ne concerne pas uniquement le HTML. Chaque ressource appelée par la page, comme les fichiers CSS, JavaScript ou JSON, est crawlée séparément et soumise à la même limite d’environ 2 Mo par fichier. Les seuls fichiers bénéficiant d’un seuil plus élevé sont les PDF, pour lesquels Google accepte encore jusqu’à 64 Mo. Concrètement, un site peut donc respecter la limite côté HTML tout en voyant certaines ressources essentielles ignorées si elles sont trop lourdes.
Cette évolution ne signifie pas que Google pénalise les pages longues, mais qu’il n’en lit plus l’intégralité. Tout ce qui dépasse cette limite peut donc être ignoré, sans signal d’erreur visible pour le site.

Un changement à relativiser pour la majorité des sites
Le calcul est simple : passer d’environ 15 Mo à 2 Mo correspond à une baisse de près de 86,7 % de la quantité maximale de contenu analysée par page.
Pour autant, cette évolution ne constitue pas un bouleversement majeur pour la majorité des sites.
2 Mo de code HTML c’est beaucoup (surtout si on prend en compte que le code inline, pas les images ou les javascript/css externes). Donc les pages qui tapent au delà de cette limite sont, en pratique, plutôt rares. Et Google appliquait déjà des limites implicites depuis longtemps. Cette mise à jour vient surtout rendre plus visible et plus stricte une contrainte technique qui existait déjà.
Autrement dit, Google ne change pas fondamentalement sa logique. Il continue de privilégier des pages claires, structurées et raisonnables en volume. Cette évolution n’implique pas une pénalisation des pages longues, mais confirme que tout contenu ou ressource dépassant certains seuils techniques peut simplement ne pas être pris en compte.
Update 9/02/2026 : Google apporte des précisions dans sa page d’aide en anglais
L’annonce des nouvelles limites officielles a clairement été comprises de façons variées et parfois créatives par la communauté SEO. Google a donc décidé de clarifier tout cela.
Par défaut, les robots d’exploration de Google n’explorent que les 15 premiers Mo d’un fichier, et tout contenu au-delà est ignoré. Cependant, chaque projet peut définir des limites différentes pour ses robots d’exploration, et ce, pour différents types de fichiers. Par exemple, un robot d’exploration de Google comme Googlebot peut avoir une limite de taille plus basse (par exemple, 2 Mo), ou spécifier une limite de taille plus élevée pour un PDF que pour un fichier HTML.
L’ancienne version disait :
Par défaut, les robots d’exploration de Google n’analysent que les 15 premiers Mo d’un fichier. Tout contenu au-delà de cette limite est ignoré. Chaque projet peut définir des limites différentes pour ses robots d’exploration, ainsi que pour différents types de fichiers. Par exemple, un robot d’exploration de Google peut définir une limite de taille de fichier plus élevée pour un PDF que pour un fichier HTML.
En clair, la réponse à la question : « quelle est la limite ? » est : ça dépend.
Ce qu’il faut retenir
Auparavant, la limite officielle était de 15 Mo par document HTML. Aujourd’hui, cette limite est indiquée comme variable et peut descendre à 2 Mo. Tout ce qui dépasse ce seuil peut être ignoré, même si la page est indexée.
Conclusion : si vous avez de gros documents à faire indexer, vérifiez que la limite n’a pas été dépassée en utilisant la méthode « John Mueller ». On cherche une chaine de caractères située à la fin du document. Si votre document, bien qu’indexé, ne remonte pas sur la requête, c’est que vous avez dépassé la limite de téléchargement !
Sitographie
https://www.searchenginejournal.com/how-check-if-entire-document-is-indexed/566661
https://searchengineland.com/google-lists-googlebot-file-limits-for-crawling-468226