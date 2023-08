La start-up californienne se heurte à une levée grandissante de boucliers numériques. AFP

Nombre de médias et sites Internet ont décidé de bloquer leur accès à GPTBot, un robot aspirateur de données lancé début août par la start-up OpenAI pour alimenter ses modèles d’intelligence artificielle, qu’ils accusent de «piller» leurs contenus.

The New York Times, CNN, le diffuseur australien ABC, les agences de presse Reuters et Bloomberg: tous ont barré la route numérique à GPTBot, un robot lancé sans tambour ni trompette, le 8 août, par OpenAI, qui a créé ChatGPT.

Levée de boucliers

La mission? Aspirer toutes les données de sites Internet prêts à lui ouvrir la porte pour nourrir les modèles d’intelligence artificielle (IA) générative. Mais la start-up californienne, qui a indiqué publiquement comment empêcher son robot d’accéder aux données d’un site, se heurte à une levée grandissante de boucliers numériques.

Selon une estimation d’Originality.ai, outil de détection des plagiats, près de 10% des 1 000 sites les plus importants au monde avaient refusé leur accès à GPTBot, deux semaines après son lancement. Parmi ceux-ci, Amazon.com, Wikihow.com, Quora.com ou la banque d’images Shutterstock. Cette liste devrait s’allonger rapidement d’après Originality.ai, qui estime que la proportion de sites Internet interdisant leur accès à GPTBot devrait augmenter de 5% par semaine.

En France, GPTBot est devenu «robot non grata» sur les sites de France Médias Monde (qui rassemble la chaîne de télévision France 24 et la radio RFI), le média en ligne Mediapart, le groupe public Radio France ou encore la chaîne de télévision privée TF1. Car «il y a une chose qui ne passe pas: c’est le pillage sans autorisation des contenus», a justifié lundi Sibyle Veil, présidente de Radio France, lors d’une conférence de presse.

Rémunération et transparence

«Il n’y a pas de raison qu’ils viennent apprendre sur nos contenus sans contrepartie» et sans savoir comment ces contenus seraient utilisés, explique Laurent Frisch, directeur du numérique et de la stratégie d’innovation du groupe public.

L’IA générative fonctionnant sur un modèle probabiliste, «nos données peuvent être associées à d’autres plus ou moins exactes, voire fausses», ajoute Vincent Fleury, directeur des environnements numériques de France Médias Monde.

C’est pourquoi «les plateformes doivent sourcer tous les médias, sous peine d’absence de neutralité et de possible manipulation», plaide Bertrand Gié, directeur du pôle «news» du quotidien français Le Figaro et président du Geste (Groupement des éditeurs de services en ligne). D’où la nécessité d’ouvrir des discussions avec OpenAI et autres acteurs de l’IA générative pour obtenir des accords de licence et de rémunération, indiquent la plupart des médias interrogés.

Aux États-Unis, l’agence de presse Associated Press (AP) a ouvert la voie avec la conclusion d’un accord en juillet avec OpenAI l’autorisant à utiliser ses archives, depuis 1985, en échange d’un accès à sa technologie et à son expertise en matière d’IA.

«Débat ouvert»

OpenAI s’est aussi engagée à verser cinq millions de dollars au American Journalism Project, une organisation qui soutient de nombreux médias locaux, et jusqu’à cinq millions de dollars de crédits pour utiliser son interface de programmation (API) et ainsi aider les journalistes à intégrer des outils d’IA dans leur production.

Mais au-delà de la forte visibilité d’OpenAI avec ChatGPT, «des centaines de start-up se créent dans différents domaines touchant aux médias», rappelle Mediapart, appelant à «un débat ouvert sur la régulation» et l’impact de «toutes les formes d’IA».

Preuve que la situation presse, dix groupes de médias internationaux – dont l’AFP, The Associated Press ou le groupe de médias américain Gannett/USA Today – ont exhorté en août les dirigeants politiques et responsables du secteur à encadrer l’usage de l’IA dans l’information.