Les IA génératives vont polluer le web a tout jamais, et c’est un problème.

Les IA génératives ont contribué à polluer le web avec du spam de contenu en 2022. Et c’est un problème. Mais pas forcément celui que vous pensez.

Depuis quelques mois, les outils de génération de texte à base d’IA font fureur chez les SEO. Beaucoup y ont vu un moyen peu coûteux de spammer le web avec des contenus de meilleure qualité que ce qu’ils produisaient jusqu’ici. Adieu les spins, adieu le scraping de sites, adieu les paraphrases de contenu existant. Il est devenu possible de faire mieux, beaucoup mieux.

Mais pas parfait, attention! Si vous comptiez sur le contenu généré par une IA pour passer devant vos concurrents, c’est loin d’être gagné. D’abord parce que la qualité de ce qui est généré est encore assez médiocre, et que la pertinence du contenu est souvent problématique. Ensuite parce qu’il est beaucoup plus facile que vous ne le pensez de détecter les contenus générés par une IA. Surtout parce que les chercheurs qui produisent ces IA génératives pensent à « marquer » les contenus pour qu’ils soient plus facilement détectés par les outils de détection.

Quand OpenAI s’aperçoit qu’ils se sont tirés une balle dans le pied

Les IA génératives qui viennent de révolutionner la génération de texte automatiques sont basées sur une approche dite « autoregressive » à base de Transformers. Techniquement, c’est plutôt compliqué à fabriquer, et la prouesse d’OpenAI est d’avoir réussi à créer une infrastructure capable de « cruncher » une quantité assez incroyables de pages web et de données pour réussir à entrainer son outil.

Un modèle comme GPT, c’est juste un système entrainé à prédire le terme qui suit une chaine de caractères données. Et une fois que le système est capable de tomber juste en prenant comme référence des milliards et des milliards de bouts de textes rédigés par des humains, le système devient capable de générer du texte.

Donc, sur le plan du principe, ce n’est pas réellement révolutionnaire. D’ailleurs GPT-2 ne montrait pas des performances supérieures à ses concurrents pour générer du texte, et encore moins des réponses. Mais avec GPT-3, la qualité du modèle a fait un bond, essentiellement grâce à la quantité de données ingurgitées et la taille du monstre (175 milliards de paramètres).

Bref, comme souvent en informatique, la qualité de ce qui sort dépend de la qualité des données que l’on rentre. « Garbage In, Garbage Out »

Un modèle de langue pré-entrainé a besoin d’une grande quantité de données de qualité pour apprendre une tâche. Si vous l’alimentez avec des données d’entrainement pourries,
le résultat sera …pourri.

Oui, mais qu’est-ce qui se passera si on fait ingurgiter au modèle des contenus générés par lui même ou d’autres IA ?

Encore une fois : « Garbage In, Garbage Out ».

Mais depuis 2022, c’est ce qui arrive : le web est progressivement pollué par ce genre de contenus. Le phénomène va s’amplifier. Au point que les chercheurs dans ce domaine ont fini par tirer la sonnette d’alarme.

Comment éviter la pollution des modèles de langage préentrainés par … eux mêmes

Un certain nombre d’experts en IA ou en NLP ont récemment exprimé leur inquiétude. Mike Cook, un chercheur en IA au King’s College de Londres, a notamment déclaré :

Les images que nous avons généré en 2022 seront intégrés dans tous les modèles de génération d’images à partir de maintenant.

Mike Cook, cité dans https://www.technologyreview.com/

On trouve des déclarations similaires chez des chercheurs de Deepmind, ou de Meta. Mais aussi chez beaucoup d’universitaires qui travaillent sur ces modèles.

Vous trouverez dans cet article d’Alberto Romero un aperçu de tous les arguments qui expliquent l’inquiétude des chercheurs sur les conséquences de cette pollution du web.

https://thealgorithmicbridge.substack.com/p/generative-ai-could-pollute-the-internet

OpenAI a watermarké GPT-3

OpenAI a décidé de répondre à ces critiques. Mais pas seulement pour faire plaisir à la communauté des chercheurs en NLP : en interne OpenAI, ils se sont rendu compte de l’impact éventuellement négatif qu’un usage mal maîtrisé de leur outil pouvait entrainer.

En décembre 2022, un ingénieur d’OpenAI a donc révélé qu’ils avaient décidé de « watermarker » les contenus textuels générés par leur IA.

C’est assez facile de le faire sur les images générés par Dall-E, sans que personne ne puisse les détecter, et sans qu’il soit facile d’enlever le filigrane. Le procédé est connu, on appelle cela de la stéganographie, et les progrès récents dans ce domaine ont rendu le procédé redoutable.

Dall-E ajoute ce filigrane en bas à droite de chaque image qu’ils génère. Ces carrés de couleur sont faciles à enlever, mais il est possible de cacher une signature par stéganographie que vous ne pourrez pas détecter!.

Mais pour faire la même chose sur du texte, c’est moins évident.

Il semble pourtant que Scott Aaronson ait réussi l’exploit.

Le principe ? Quand on génère du texte à partir du modèle GPT-3, l’outil décide du prochain terme selon une logique probabiliste, mais fait des choix de manière aléatoire. Pour « marquer » le texte, le modèle remplace ses choix aléatoires par un choix « pseudo aléatoire » selon une clé unique.

Il décrit le procédé de manière détaillée sur son blog :

https://scottaaronson.blog/?p=6823

Ce serait impossible à détecter pour un humain. Et imparable dès que l’on peut analyser une certaine quantité de texte. En fait, même si on cherche à changer quelques termes par ci par là, l’origine du contenu restera détectable.

La seule parade : demander à un autre outil de générer un contenu totalement paraphrasé.

Conclusion : si cette pratique se généralise (et elle risque de s’imposer rapidement), il va devenir de plus en plus facile pour les acteurs du web de reconnaître les contenus

Et ça, c’est plutôt une bonne nouvelle.

Même si certains vont forcément chercher à contourner la protection…

2 réflexions au sujet de “Les IA génératives vont polluer le web a tout jamais, et c’est un problème.”

  1. Même un texte non watermarké généré par n’importe quel IA, n’importe quelle version est détectable avec une centaine de lignes de code, pas plus. Il faut juste avoir la bonne idée 😉

    Répondre
  2. ChatGPT ,finalement, n’est qu’un « T9 » (text on 9 keys ) ultra balèze. Vous savez, ce truc sur votre Nokia, en 2000, qui vous aidait à pondre un SMS plus rapidement.

    Mais les IA peuvent déjà nous aider à trouver l’idée. Ensuite, à nous d’écrire, de créer, de partager. Mais j’avoue, on peut demander à une IA : « cite moi les points que je dois aborder si je veux rédiger un article sur les problèmes engendrés par ChatGPT » sur le web et ensuite… je rédige.
    Mais un jour arrivera où le contenu généré automatiquement sera indécelable. Et cela arrivera assez vite.

    Répondre

Laisser un commentaire