On sait maintenant à partir de quoi sont assemblés les flux Google Discover

Pendant des années, les éditeurs et les spécialistes SEO ont traité Google Discover comme une boîte noire monolithique. Un article performe, un autre non, et personne ne sait vraiment pourquoi. Deux travaux récents viennent bousculer cette vision : la décompilation de l’application Google Android par le consultant SEO turc Metehan Yesilyurt (metehan.ai), et l’analyse de 42 millions de cartes Discover menée par la plateforme française 1492.vision (Sylvain Deaure et Damien Andell). Leur conclusion convergente : Discover n’est pas un flux uniforme, mais un assemblage de circuits de sélection distincts, chacun avec sa propre logique, sa propre portée et ses propres règles.

Ce dossier fait le point sur ces découvertes, en distinguant ce qui est solidement établi de ce qui relève de l’interprétation, et en tirant les recommandations actionnables pour les éditeurs.

D’où viennent ces données ?

Tout commence avec un travail de reverse engineering (rétro-ingénierie logicielle) mené par Metehan Yesilyurt sur l’APK Android de l’application Google. L’APK, c’est le fichier d’installation d’une application Android : en le décompilant, on peut lire une partie du code source et identifier des noms de variables, des constantes et des endpoints de communication. Yesilyurt a ainsi extrait 87 498 classes Java, dont 95,5 % sont obfusquées (rendues illisibles intentionnellement par Google). Dans les 4,5 % restants, il a identifié 13 « cluster types » : des étiquettes attribuées à chaque carte du feed Discover, qui indiquent par quel mécanisme de sélection le contenu a été retenu.

L’avertissement de Yesilyurt est important à garder en tête : tout ce qu’il décrit reflète l’état du code client à un instant donné. Google peut modifier les systèmes côté serveur à tout moment, sans mise à jour de l’application.

De son côté, 1492.vision a collecté des données à une tout autre échelle. La plateforme a mobilisé des centaines d’appareils (émulateurs ou physiques) scrollant le feed Discover en continu pendant trois mois (décembre 2025 à février 2026), avec un panel réparti à environ 75 % sur le marché français et 25 % sur l’anglophone. À partir de ces données, 1492.vision identifie 20 clusters, soit 7 de plus que la liste publiée par Yesilyurt. Les noms supplémentaires (content, aura, paginationpanoptic, relatedcontentruby, creatorcontent, shoppinginspiration, entre autres) ne figurent pas dans la publication originale de Yesilyurt, et 1492.vision ne documente pas publiquement leur origine exacte.

Point de vocabulaire critique. Yesilyurt parle de « cluster types » : des étiquettes apposées sur les cartes du feed. 1492.vision a renommé ces étiquettes en « pipelines », un terme qui suggère des circuits de traitement parallèles et indépendants. Ce n’est pas la même chose. Un cluster type peut être une simple classification appliquée après coup sur un contenu déjà sélectionné. Un pipeline implique un chemin de traitement complet, de l’ingestion à la distribution. La réalité est probablement hybride : certains clusters (comme feedads ou neoncluster) correspondent vraisemblablement à de vrais circuits distincts, tandis que d’autres sont plutôt des étiquettes de classification sur un contenu partagé. Pour le reste de cet article, nous utiliserons le terme « cluster », plus fidèle à ce que le code révèle.

L’équipe de 1492.vision a créé une dataviz pour explorer les données qu’ils ont collectés sur les pipelines / clusters. Vous pouvez la consulter ici https://1492.vision/interactive/xpl/.

Les 20 clusters : cartographie complète

Le tableau ci-dessous synthétise les données publiées par 1492.vision pour les marchés français et anglophone. Le reach (portée) indique le pourcentage d’appareils du panel qui ont vu au moins une carte de ce cluster. Le cards/day (cartes par jour) mesure le volume quotidien moyen de cartes servies.

Cluster	Catégorie	Rôle	Reach FR	Reach EN	Cards/j FR	Cards/j EN
content	core	Socle universel de sélection	9,9 %	8,8 %	758	809
moonstone	core	Broadcast engagement	19,3 %	9,4 %	319	184
aura	core	Complément personnalisé	5,4 %	4,8 %	328	206
paginationpanoptic	core	Remplissage en scroll profond	7,2 %	6,2 %	267	131
relatedcontentruby	core	Articles liés post-clic	5,5 %	4,8 %	224	158
mustntmiss	news	Actualité brûlante	11,2 %	7,3 %	54	12
newsstoriesheadlines	news	Gros titres	9,1 %	10,6 %	13	10
deeptrendsfable	trend	Détection de tendances (large)	3,2 %	3,4 %	88	11
deeptrends	trend	Promotion de tendances (ciblé)	2,5 %	3,2 %	29	5
geotargetingstories	local	Contenus géolocalisés	4,5 %	4,9 %	24	17
webkicklocalstories	local	Éditeurs locaux	1,8 %	2,8 %	18	7
astria	niche	Contenus verticaux/niche	4,7 %	5,7 %	61	40
creatorcontent	social	Contenus créateurs/réseaux	6,0 %	6,7 %	44	96
freshvideos	social	Vidéo récente	2,9 %	7,1 %	9	104
neoncluster	social	Cluster YouTube	0,0 %	13,0 %	0	107
dvrc	perso	Articles liés au profil	1,1 %	2,6 %	3	20
userpersonascontent	perso	Matching par persona	1,9 %	2,4 %	5	2
shoppinginspiration	commercial	Cartes produits/shopping	19,7 %	13,1 %	76	68
feedads	commercial	Publicités intégrées	23,6 %	58,4 %	75	264
discover_ai_summary	IA	Résumés AI Overview	0,0 %	3,5 %	0	26

Plusieurs observations sautent aux yeux.

Moonstone est le cluster éditorial le plus puissant en France avec 19,3 % de reach, soit environ un utilisateur sur cinq.
Shoppinginspiration atteint une portée comparable (19,7 %), révélant le poids insoupçonné du commerce dans le feed.
Et feedads domine le reach global avec 23,6 % en FR et 58,4 % en EN : le feed anglophone est plus de deux fois plus monétisé que le français.

Ce que les données révèlent sur le fonctionnement de Discover

Un système à deux dimensions.

Les données montrent que les clusters et les types de cartes fonctionnent comme deux axes indépendants. Le cluster indique pourquoi un contenu a été sélectionné (tendance, engagement, géolocalisation, etc.). Le type de carte indique comment il est affiché : type 1 pour les articles texte, type 2 pour les vidéos YouTube, type 6 pour les AI Overviews (résumés générés par l’IA de Google). Un même cluster peut servir plusieurs types de cartes. Par exemple, mustntmiss contient 28,3 % de cartes AI Overview en anglais, mais reste massivement textuel en français.

Le multi-labeling est la norme, pas l’exception. C’est l’un des enseignements les plus contre-intuitifs. En France, 58 % des URLs apparaissent dans deux clusters ou plus. Certaines URLs ont été observées dans jusqu’à 14 clusters différents. Les cinq clusters « core » (content, moonstone, aura, paginationpanoptic, relatedcontentruby) partagent massivement des URLs entre eux : la paire aura/content partage à elle seule 356 399 URLs. Cela plaide fortement pour l’hypothèse des étiquettes multiples appliquées sur un même contenu, plutôt que pour des circuits de sélection hermétiquement séparés.

En revanche, neoncluster et feedads ont très peu de co-occurrence avec les autres clusters : ce sont probablement de vrais circuits distincts, ce qui est logique pour un flux publicitaire et un flux 100 % YouTube.

Des relations séquentielles entre clusters. Trois parcours temporels ont été identifiés dans les données. Un contenu apparaît d’abord dans creatorcontent, puis dans freshvideos environ 15 heures plus tard, puis dans neoncluster 8 heures après. Autre chemin : deeptrendsfable vers deeptrends avec un écart de 21 heures et un taux de passage de 27 %. Autrement dit, certains clusters fonctionnent comme des étapes de maturation : un contenu peut monter dans la hiérarchie de distribution au fil du temps.

France vs monde anglophone : deux Discover différents

Les données de 1492.vision confirment un constat que les éditeurs français soupçonnaient : le Discover français et le Discover anglophone ne se comportent pas du tout de la même manière. Les écarts sont structurels, pas marginaux.

Le flux français est massivement textuel. La vidéo représente moins de 5 % du feed FR, contre 13 % en EN (neoncluster seul). Neoncluster, qui est 100 % YouTube, est quasiment absent en France : 36 cartes en trois mois, contre 454 000 en anglais. Pour les éditeurs français, cela signifie que le contenu texte reste le format roi sur Discover France, alors que les stratégies anglophones intégrant YouTube ont un levier supplémentaire.

Les sources sociales sont inversées. Dans le cluster creatorcontent, les contenus issus de X (ex-Twitter) représentent 80 % du volume en français, contre seulement 27 % en anglais où YouTube domine avec 73 %. Cette inversion complète reflète probablement les habitudes de consommation et l’écosystème de créateurs propres à chaque marché.

Les AI Overviews sont absentes en France. Le type de carte « AI Overview » (type 6) est à 0,0 % dans l’intégralité des clusters FR. En anglais, il pénètre jusqu’à 28,3 % du cluster mustntmiss. Cette donnée est cohérente avec le calendrier de déploiement de Google : les AI Overviews n’ont pas encore été activées sur Google France au moment de la collecte.

Moonstone pèse deux fois plus en France. Avec 19,3 % de reach en FR contre 9,4 % en EN, moonstone est le canal de broadcast éditorial dominant en France. En anglais, son poids est dilué par la concurrence de neoncluster et du volume de feedads. Pour les éditeurs français, performer dans moonstone est donc un levier de visibilité proportionnellement plus important.

Le multi-labeling a plus de levier en France. 58 % des URLs françaises apparaissent dans 2 clusters ou plus, contre 37 % en anglais. Cela signifie qu’en France, un contenu qui réussit à entrer dans le système Discover a plus de chances d’être redistribué par plusieurs mécanismes différents.

Infographie montrant comment les clusters sont assemblés dans le flux Discover : c’est intéractif, un clic sur un cluster montre où il est utilisé dans le flux à droite

Clusters de sélection (par catégorie)

Source : décompilation APK (Yesilyurt) + panel 42M cartes (1492.vision)

Core

content

moonstone

aura

paginationpanoptic

relatedcontentruby

News

mustntmiss

newsstoriesheadlines

Tendances

deeptrendsfable

deeptrends

Local

geotargetingstories

webkicklocalstories

Niche

astria

Personnalisation

dvrc

userpersonascontent

Commercial

shoppinginspiration

feedads

discover_ai_summary

Multi-labeling : en France, 58 % des URLs apparaissent dans 2 clusters ou plus. Un même article peut porter les étiquettes content + aura + moonstone simultanément. Les clusters ne sont pas des circuits étanches mais des dimensions de sélection qui se superposent.

Article texte

Vidéo YouTube

AI Overview

Feed Discover (FR)

Article

Législatives 2027 : les scénarios qui se dessinent à gauche

lemonde.fr

content moonstone aura

Article

Tremblement de terre en Turquie : au moins 12 morts

francetvinfo.fr

mustntmiss

Article

Les 5 meilleurs smartphones reconditionnés en 2026

frandroid.com

shoppinginspiration content

Sponsorisé

Livraison offerte sur toute la boutique

amazon.fr

feedads

Article

IA et emploi : pourquoi les DRH s’inquiètent (et ont tort)

usinenouvelle.com

deeptrendsfable content paginationpanoptic

Articlevia X

Thread : ce que j’ai appris en analysant 500 sites Discover

x.com

creatorcontent

ArticleParis

Ligne 15 du métro : les travaux avancent plus vite que prévu

leparisien.fr

geotargetingstories

Dataviz : Neper | Données : 1492.vision & metehan.ai

Ce qu’il faut prendre avec des pincettes

Aussi passionnantes soient-elles, ces données comportent des limites méthodologiques qu’il serait imprudent d’ignorer.

Trois mois, c’est un snapshot. Les tendances observées entre décembre 2025 et février 2026 peuvent très bien correspondre à des tests A/B temporaires de Google. Le déclin apparent de moonstone et l’explosion de creatorcontent pourraient s’inverser au trimestre suivant. Google mène en permanence environ 150 tests serveur simultanés sur le feed Discover, comme l’a documenté Yesilyurt dans le code.

Corrélation n’est pas causalité. Observer qu’un type de contenu se retrouve majoritairement dans un cluster donné ne prouve pas le mécanisme de sélection. Dire que « moonstone sélectionne le contenu à fort engagement » est une inférence plausible, pas un fait vérifié dans le code.

Enfin, le conflit d’intérêts mérite d’être signalé sans que cela invalide les travaux. 1492.vision est un outil commercial de monitoring Discover. Ses conclusions orientent naturellement vers un besoin de « monitoring continu », c’est-à-dire exactement ce que la plateforme vend. Cela ne rend pas les données fausses, mais cela justifie un regard critique sur l’interprétation qui en est faite.

Ce que les éditeurs peuvent faire dès maintenant

Au-delà de la cartographie, ces travaux permettent de commencer à dégager des recommandations concrètes pour les éditeurs, même si, par manque de recul, la moisson de « pour action » actionnables reste encore maigre.

Penser en scénarios, pas en formule unique.

C’est l’apport le plus fondamental. Au lieu de chercher « la » recette Discover, il faut raisonner en fonction du type de contenu : actualité chaude (mustntmiss, newsstoriesheadlines), tendance émergente (deeptrendsfable, deeptrends), contenu de niche à forte affinité (astria), contenu à portée locale (geotargetingstories, webkicklocalstories), ou contenu « best-of » à large diffusion (moonstone). Chaque scénario a ses propres signaux de sélection.

Attention aux prérequis techniques et au bon emploi des données structurées.

Le code décompilé par Yesilyurt confirme la chaîne de priorité des métadonnées : Schema.org JSON-LD en premier, puis og:title, puis twitter:title, puis title générique. Même logique pour les images. Ne pas implémenter de balisage JSON-LD, c’est se placer volontairement sur le chemin de fallback. L’image hero doit faire au minimum 1 200 pixels de large pour déclencher le format carte large.

Surveiller la balise article:content_tier.

Le code révèle trois valeurs possibles : « free », « metered » et « locked ». Les contenus metered et locked sont identifiés comme paywall. Si votre site utilise un paywall, vérifiez que la valeur déclarée correspond à votre modèle réel : une incohérence peut déclencher un événement d’avertissement dans le système de Google.

Éviter les meta tags bloquants.

Les tags notranslate et nopagereadaloud provoquent un arrêt complet du pipeline de traitement avec exception. Si ces tags sont présents sur vos pages par héritage technique, ils bloquent potentiellement votre éligibilité à Discover.

Viser le multi-cluster plutôt que le pic unique. Puisque 58 % des URLs françaises apparaissent dans 2 clusters ou plus, un contenu qui combine plusieurs signaux (fraîcheur, pertinence thématique, engagement potentiel) a structurellement plus de chances d’être redistribué par plusieurs mécanismes. La durée de vie du contenu shopping en France (3,7 jours en moyenne contre 2,5 en anglais) montre aussi que les contenus persistants ont un avantage sur le marché français.

Pour les éditeurs locaux : un boulevard existe. Les clusters geotargetingstories et webkicklocalstories, bien que modestes en volume, représentent des circuits de distribution dédiés aux contenus géolocalisés. Les éditeurs de presse régionale ou les médias locaux disposent d’un accès à Discover qui ne dépend pas de la concurrence frontale avec les grands médias nationaux.

Ne pas transposer les recettes anglophones.

Les différences structurelles entre les deux marchés sont trop importantes. La domination de YouTube en anglais, l’absence d’AI Overviews en France, le poids relatif de moonstone et l’inversion des sources sociales dans creatorcontent rendent les stratégies cross-market inopérantes. Ce qui fonctionne pour un média américain ne s’applique pas au marché français.

Ce que ces travaux changent dans la compréhension de Discover

Le travail conjoint de Yesilyurt et de 1492.vision marque un tournant dans la compréhension de Google Discover. Pour la première fois, la communauté SEO dispose d’une grille de lecture structurée qui va au-delà des observations empiriques habituelles. Le passage d’un modèle mental « un algorithme, un flux » à « 20 clusters avec des logiques distinctes » permet d’expliquer des phénomènes qui restaient mystérieux : pourquoi un média peut voir son trafic Discover chuter sur un segment sans que l’ensemble de son site soit affecté, pourquoi deux articles similaires peuvent avoir des trajectoires radicalement différentes, ou pourquoi les variations de trafic Discover semblent parfois aléatoires.

Cela dit, il faut garder les pieds sur terre. Ces données décrivent ce que le code client et les observations de panel révèlent à un instant donné. Elles ne donnent pas accès aux algorithmes de ranking côté serveur, aux pondérations des signaux, ni aux décisions en temps réel du système de personnalisation. Et comme le rappelle Yesilyurt lui-même : Google peut changer n’importe lequel de ces systèmes côté serveur, à tout moment, sans la moindre mise à jour de l’application.

Bibliographie

Google Discover Architecture: Clusters, Classifiers, OG Tags, NAIADES — Metehan Yesilyurt, février 2026
Pipelines Discover FR — 1492.vision
Pipelines Discover EN — 1492.vision
Comparaison pipelines FR/EN — 1492.vision
Souriez, vous êtes embeddés ! (user embeddings) — 1492.vision
Explorateur interactif des clusters Discover — 1492.vision
1492.vision : une étude sur 42 millions de cartes affirme que Google Discover repose sur plus de 20 pipelines internes — MeNow.fr

D’où viennent ces données ?

Les 20 clusters : cartographie complète

Ce que les données révèlent sur le fonctionnement de Discover

France vs monde anglophone : deux Discover différents

Ce qu’il faut prendre avec des pincettes

Ce que les éditeurs peuvent faire dès maintenant

Ce que ces travaux changent dans la compréhension de Discover

Laisser un commentaire Annuler la réponse

Ce contenu vous a plu ?