Retour aux articles →

ChatGPT. Du pillage de contenus à la colère des auteurs (1/6)

(Mojahid Mottakin – Unsplash)
(Mojahid Mottakin – Unsplash)

Sans gigantesques volumes de données, pas d’intelligence artificielle générative. Mais d’où viennent ces données, comment sont-elles récoltées et traitées ? Parmi les multiples questions éthiques posées par cette nouvelle technologie, la façon de traiter ses sources paraît pour le moins problématique.

Alors inconnues du grand public jusqu’à la fin 2022, les intelligences artificielles génératives (GenAI, en anglais) ont ceci de particulier qu’elles s’appuient sur de vastes ensembles de données pour générer des contenus originaux qui ressemblent à s’y méprendre à des productions humaines. Mais que l’on ne s’y trompe pas : une IA générative ne comprend pas ce qu’elle produit, et elle est dépourvue de conscience ou de sentiment, au sens « humain » des termes. La manière dont ces technologies fonctionnent pourrait se résumer à une imitation de la connaissance humaine dans le cadre d’un processus alliant logique, statistiques et probabilités, pour générer des textes, mais aussi des images ou des vidéos sans autre intervention humaine que celle du « prompt ».

En langage informatique, un « prompt » est une ligne de commande qui indique au système ce qu’il doit générer : « Une illustration à la manière d’un cartoon d’un couple se promenant sur une plage », « Un texte rédigé à la manière de Marcel Proust à propos du changement climatique ». Si les IA génératives ont pratiquement réponse à tout, de la qualité du prompt dépend la qualité de la génération. Aux États-Unis, on embauche désormais des « prompt engineers », dont la tâche est d’entraîner ces nouveaux systèmes s’appuyant sur les technologies de l’intelligence artificielle. Le salaire annuel d’un « prompt engineer » atteindrait jusqu’aux 375.000 dollars par an.

Dans la (grande) famille des IA génératives, ChatGPT fait partie des modèles de langage de grande taille (large language models, LLMs). S’il s’agit bien d’un « chatbot », c’est-à-dire d’un agent conversationnel, ChatGPT est utilisé pour générer une variété de contenus, y compris journalistiques. Pour fonctionner, ce type de modèle a besoin de données, de beaucoup de données. C’est ce qu’on appelle les données d’entraînement du système. Toutes ces données ne viennent pas de nulle part et c’est là l’une des faces sombres de ChatGPT : avoir moissonné le web sans la moindre autorisation des auteurs des contenus collectés. Open AI, la société mère de ChatGPT, entretient le mystère quant au fonctionnement de son système, en ce compris sur la provenance des millions de contenus qui le nourrissent.

Selon le Washington Post, ChatGPT a également été entraîné à partir de données émanant de plateformes religieuses et de sites d’extrême droite.

Selon une enquête publiée par le Washington Post, les pages de Wikipédia sont la deuxième source la plus importante utilisée par le système. On y retrouve également des articles publiés sur des sites d’information, des livres d’auteurs scientifiques ou de fiction, ainsi que   des contenus générés par des utilisateurs de blogs et des forums. Aussi, des contenus à valeur ajoutée en côtoient d’autres à la fiabilité plus douteuse. Par ailleurs, plusieurs recherches scientifiques ont également mis en avant les biais politiques, genrés ou culturels inhérents aux contenus générés par le tout-venant, à savoir des utilisateurs dont on ne connaît ni l’expertise ni l’orientation, qu’elle soit philosophique ou politique.

En journalisme, par exemple, l’encyclopédie Wikipédia n’est pas considérée comme une source suffisamment rigoureuse pour être mobilisée en tant que source primaire parce que ses contenus proviennent d’utilisatrices et d’utilisateurs à propos desquels on ne connaît rien de l’expertise et des convictions. Mais ChatGPT n’est pas un journaliste, bien qu’il soit également utilisé pour informer (lire le deuxième article de cette série).

Selon le Washington Post, ChatGPT a également été entraîné à partir de données émanant de plateformes religieuses et de sites d’extrême droite. Et ceci est tout aussi inquiétant, dès lors que le traitement de ces données par le système est susceptible de donner lieu à des résultats biaisés. L’un des principes de base, en informatique, est que seules des données de qualité produisent des résultats de qualité. Nous y reviendrons dans la quatrième partie de ce dossier.

Plusieurs procès en cours aux États-Unis

Aux États-Unis, plusieurs procès sont actuellement en cours en raison du pillage sauvage de données protégées. Par exemple, dans l’affaire Tremblay c/ OpenAI inc, il est présumé que les livres d’un auteur de livres d’horreur et de science-fiction ont servi à l’entraînement de ChatGPT, étant donné la capacité du système à les résumer avec précision. Mais les éditeurs de presse ne sont pas en reste. Le New York Times étudie actuellement la possibilité de porter plainte contre OpenAI pour avoir utilisé les archives du journal dans ses données d’entraînement.

Si un juge fédéral américain venait à estimer que ces articles ont été copiés illégalement, il pourrait enjoindre la destruction des données de ChatGPT et OpenAI serait alors contrainte de recréer des données d’entraînement à partir de contenus pour lesquels elle aurait obtenu l’autorisation. Une solution serait alors de signer des licences d’utilisation (payantes) avec les éditeurs de journaux, à l’image de l’accord récemment passé entre l’agence de presse américaine Associated Press et OpenAI.

Une romancière américaine a récemment découvert des livres signés de son nom sur Amazon qu’elle n’a jamais écrits.

Les IA génératives ne produisent pas que du texte. Elles peuvent également générer des images de toutes pièces et « à la manière de ». Dans ce cas de figure également, les systèmes ont été entraînés à partir d’images pillées en ligne, sans avoir sollicité l’autorisation de leurs auteurs et autrices et, bien évidemment, sans leur avoir versé aucune compensation. Un groupe d’artistes et d’illustrateurs a porté plainte, début janvier 2023, contre MidJourney inc. et DeviantArt inc., deux des sociétés leaders du marché. La plainte cite une étude faisant état de millions d’images protégées utilisées pour générer de « nouvelles » images numériques.

La colère des auteurs ne s’arrête pas au seul pillage de leurs contenus. Aussi, une romancière américaine a-t-elle récemment découvert des livres signés de son nom en vente sur Amazon… des livres qu’elle n’a jamais écrits. Bien qu’Amazon les ait retirés de la vente, cela met en lumière de nouvelles pratiques dont les finalités n’ont rien à voir avec la construction et le partage du savoir. De nombreux ouvrages générés par ChatGPT et illustrés par Midjourney ou d’autres IA génératives d’images essaiment sur le site de vente Amazon, soit en tant que co-auteurs, soit en tant qu’auteurs déguisés. Et pour booster les ventes, des commentaires tout aussi fabriqués vantent les mérites de ces écrits. Vous avez dit qualité ?

Non-respect de la vie privée

Les enjeux en matière de droits d’auteur ne se limitent pas à ces violations répétées, dès lors que le droit reconnaît une protection aux seules œuvres originales produites par des êtres humains. Dès lors, à qui revient la paternité des contenus générés par une intelligence artificielle générative ? Bien que la loi n’apporte aucune réponse claire à la question, cet aspect est débattu dans de nombreux pays, mais le temps du débat et celui de la législation est souvent (beaucoup trop) long alors que la technologie évolue à une vitesse grand V. C’est ce que l’on constate déjà en ce qui concerne les applications générales de l’intelligence artificielle (Lire aussi dans Politique : « Intelligence artificielle : pourquoi il faut légiférer »).

Une autre pierre d’achoppement est celle du respect de la vie privée, OpenAI ayant également été accusée d’avoir utilisé des communications privées publiées sur plusieurs plateformes, dont Slack, Snapshat et Spotify. S’appuyant sur le Règlement Général de la Protection des données (RGPD) européen, qui se fonde sur la base légale du consentement en matière de récolte de données personnelles, l’Italie avait interdit temporairement l’accès à ChatGPT sur son territoire.

« Si vous avez déjà écrit un article de blog ou une critique de produit, ou commenté un article en ligne, il y a de fortes chances que ces informations aient été utilisées par ChatGPT », prévient Uri Gal, professeur à l’Université de Sidney. « On n’a demandé à aucun d’entre nous si OpenAI pouvait utiliser ces données. Il s’agit d’une violation flagrante de la vie privée, en particulier lorsque les données sont sensibles et peuvent être utilisées pour vous identifier ». Pour ce scientifique, ChatGPT n’est rien de moins qu’un cauchemar en matière de confidentialité des données.

En France, plusieurs plaintes ont été déposées contre OpenAI pour non-respect du RGPD. La Commission nationale de l’informatique et des libertés (Cnil) a également été saisie. Chez nous, l’Autorité de Protection des Données (APD) plaide pour une approche européenne, mais ceci est aussi motivé par un manque de moyens. Il est vrai que les ressources d’un état ne pèsent pas bien lourd face aux investissements massifs dans le développement des IA génératives : en janvier dernier, Microsoft annonçait investir 10 milliards de dollars dans le développement d’OpenAI, soit de deux à trois fois le trou de la sécu en Belgique.