La science derrière les algorithmes de moteurs de recherche, que l’on appelait jusqu’à maintenant l’Information Retrieval évolue rapidement vers le Gen IR (la Generative Information Retrieval).
Pourquoi un nouveau nom ? Parce que la montée en puissance des LLMs a montré que l’approche classique autour d’un index et d’un algorithme de classement était en voie d’obsolesnce. Et l’approche RAG (Perplexity ou SearchGPT) est condamnée d’avance par ses limitations.
Quitte à vouloir utiliser un LLM pour chercher de l’information, la voie la plus prometteuse c’est de revoir toute la chaine de production des résultats, du crawl au processeur de requêtes en passant par l’indexation pour utiliser à fond les possibilités des LLMs et des modèles de fondation.
Et sur le Gen IR, Google n’est pas spécialement en retard… La preuve, ils ont publié un papier scientifique en juin dernier, qui présente une nouvelle approche pour utiliser les LLMs dans le cadre d’une recherche d’information : MUVERA.
MUVERA : Une solution économique et simple pour exploiter un LLM dans une architecture de moteurs classique
Les LLMs sont des modèles qui représentent les choses sous forme de vecteurs de coordonnées sur un grand nombre d’axes (des dizaines de milliers en pratique). Pour les modèles de langage textuels, ces coordonnées si elles sont proches indiquent une proximité sémantique. Il s’agit de coordonnées dans un espace sémantique virtuel.
Le nombre de dimensions de ces modèles, même s’ils sont volontairement réduits lors du processus (c’est le processus de « plongement dimensionnel » qui produit cette réduction, crée évidemment de la complexité quand on veut faire des calculs. C’est d’autant plus vrai que dans le cas des LLMs à base de Transformers, chaque terme se voit doter de plusieurs vecteurs de coordonnées (un vecteur par acception ou nuance de sens).
L’une des conséquences, c’est qu’interroger un de ces modèles pour savoir si bout de phrase est proche sémantiquement d’un autre, c’est coûteux en calculs et en ressources. En pratique, il faut utiliser la méthode de Chamfer (qui a été inventée pour les traitements d’imagerie médicale, et cela passe par des calculs sur des matrices et des calculs non linéaires.
Beaucoup plus que les calculs auxquels s’adonnent les moteurs de recherche avec leur algo traditionnel, qui se basent sur des produits scalaires entre vecteurs, très faciles à réaliser rapidement.
Avec Muvera, les chercheurs de Google ont trouvé une manière de convertir tous ces vecteurs compliqués en un vecteur unique représentant l’information dans un espace doté de peu de dimensions par rapport au LLM de départ. Ils appellent ces nouveaux vecteurs des FDE (pour « fixed dimensional encoding« ).
Pour effectuer le calcul de similarité entre une requête et un document, il suffit de calculer un vecteur FDE pour la requête et le document, et ensuite de faire un calcul de similarité « Cosinus » comme le faisait Altavista en 1996 !
Exploiter le LLM dans un moteur devient une tâche rapide, économique, comparable avec le fonctionnement du « vieux » moteur Google.
Une méthode qui dégrade fortement les capacités du modèle
L’article prétend que le calcul des FDE maintient une haute précision et une bonne pertinence du résultat.
En fait, c’est un compromis, et cette transformation se fait au prix d’une grosse perte d’information par rapport au LLM de départ.
Mais ce qui est fait ici c’est un précalcul des informations qui servent dans le calcul de la similarité Chamfer. Donc on limite la casse car la perte de précision est certes réelle mais limitée. Et ensuite la méthode utilisée est MIPS (la recherche du produit scalaire maximum popularisée par DeepMind et bien connue en machine learning).
L’approche sert à identifier rapidement et à un coût modéré les documents pertinents pour une requête. L’équipe qui a imaginé MUVERA indiquent qu’ils utilisent ensuite le LLM original pour reordonner correctement les résultats. Mais comme ces calculs sont faits sur un nombre restreint de documents plus acceptable
Une étape, pas une révolution vers un moteur 100% Gen IR
Depuis fin juin et la publication de l’article, j’ai vu des tonnes de SEO expliquer que « MUVERA explique la Core Update de Juin » ou que « MUVERA est le nouvel algorithme de classement de Google ».
Dans les deux cas, c’est n’importe quoi.
Est-ce que Google utilise cette approche dans ses produits, notamment dans ceux à base de Gemini comme le mode IA, les aperçus IA, et même Web Guide : sûrement.
Sous une forme qui a sans doute évolué, car on peut soupçonner la publication scientifique d’avoir été rendu publique longtemps après la fin des travaux de recherche qu’elle décrit. Donc la concommittance avec la Core Update de Juin ne signifie pas que les deux événements soient liés.
Gary Illyes, l’un des porte parole de Google a par ailleurs confirmé à un spécialiste SEO américain qu’ils utilisaient effectivement quelque chose du genre, mais qu’il n’avait jamais entendu ce nom : »MUVERA ».
Par ailleurs, il y’a peu de chances que cette innovation marque une rupture majeure : c’est plus une astuce pour exploiter plus facilement un LLM comme Gemini dans un moteur classique qu’une vraie découverte qui va changer la façon de concevoir l’Information Retrieval.
Ce qu’il fallait retenir
Des chercheurs de chez Google ont mis au point une approche intéressante pour exploiter les possibilités d’un LLM complexe à des fins d’Information Retrieval : MUVERA.
Son objectif est de rendre la recherche multi-vectorielle aussi rapide que la recherche mono-vectorielle
Leur méthode permet de grosses économies en ressources, et permet d’exploiter des modèles comme Gemini à un coût beaucoup plus abordable. Et ceci sans grosse perte de qualité.
Un « Muvera-like » est probablement déjà implémenté quelque part dans les process de Google. Cela représente un vrai atout dans le cadre des AIO, du mode IA ou de l’outil Web Guide. Son utilisation dans les pages de résultat classique est moins certaine.
Par contre, MUVERA n’apporte qu’un morceau de plus l’algorithme de classement de Google, ce n’est pas « le nouvel algo » de Google, et certainement pas un changement révolutionnaire.
C’est juste une innovation qui sera suivie par beaucoup d’autres dans les mois et les années à venir au fur et à mesure de la montée en puissance du Gen IR.
Pour en savoir plus :
Le billet présentant MUVERA sur le blog « recherche » de Google :
https://research.google/blog/muvera-making-multi-vector-retrieval-as-fast-as-single-vector-search
La publication scientifique :