Google publie une video sur BERT

Nous avions abordé dans un article paru la semaine dernière l’intégration de l’IA et des modèles de langage pré-entrainés dans l’algorithme de Google :

Parmi ces modèles, BERT est celui qui a eu le plus d’impact.

Le fonctionnement de BERT est un sujet assez pointu, pas très bien compris par la majorité des observateurs. Donc Google s’est fendu voici quelques jours d’une petite vidéo de vulgarisation de quelques minutes qui vaut le coup d’être regardée.

Et c’est plutôt réussi.

BERT ou le jeu du texte à trous

Google explique notamment que ce modèle de langage utilise un réseau de neurones qui apprend quels mots sont les plus susceptibles d’apparaître à un endroit précis du texte. Pour cela, le système cache des mots successivement dans le texte, au hasard et apprend à deviner le mot qui manque, en construisant le calcul de probabilité qui donne le bon mot le plus souvent possible.

Si deux mots obtiennent la même probabilité d’apparition dans le même contexte : alors il s’agit de termes synonymes (dans ce contexte).

Si deux mots, qui s’écrivent de la même façon (on appelle cela des « termes homographes »), ont des scores différents dans différents contextes, alors cela signifie qu’ils ne sont pas du tout synonymes mais ont des sens différents dans des contextes différents.

Dans le cadre de nos recherches au sein des Neperian Labs, nous venons de tester la capacité des modèles comme BERT à distinguer que des homographes ont bien des sens différents dans des phrases volontairement ambigues.

On parle de phrases comme :

Dans la cour du couvent, des poules couvent les œufs (couvent/couvent)
Elle est allée vers l'Est (est/est)
Je ne pense pas qu'il faille tenir compte de cette faille (faille/faille)
Cet homme est fier, peut-on s'y fier ? 

Nativement un modèle de type BERT entrainé sur un corpus français (comme CAMEMBERT) identifie que les termes homographes ont des sens différents sur des phrases ambigües comme celles là dans environ 80% des cas.

Ce qui constitue un progrès énorme par rapport aux modèles dits « en sac de mots » ou ces homographes étaient forcément considérés comme un seul et même terme ! Il fallait passer par une étape lourde d’analyse syntaxique pour permettre d’éviter les principaux pièges, lorsqu’un terme est un nom, l’autre une forme verbale. Mais cela ne résolvait pas les cas d’homographie avec des termes de même nature grammaticale (comme dans « Les fils de mes voisins ont apporté des fils de laine »).

Et on s’efforce d’entrainer le modèle BERT pour faire encore mieux !

Laisser un commentaire