En l’espace de trois ans, et surtout depuis la sortie au grand public de ChatGPT en novembre 2022, l’intelligence artificielle générative a profondément modifié certaines méthodes de travail. Et les publications scientifiques n’ont pas été épargnées. Comme dans beaucoup d’autres domaines, les chercheurs utiliseraient la technologie en partie pour la rédaction de leurs articles, alors que l’IA est capable de générer des textes d’apparence naturelle grâce à un entraînement sur des données, appelés les "grands modèles de langage" (LLM en anglais pour "large language models").
Néanmoins, une nouvelle étude publiée ce jeudi 18 décembre dans la revue Science, révèle des résultats préoccupants. Elle suggère que l’adoption de ces grands modèles de langage par les chercheurs accroît leur productivité, mais qu’elle diminue aussi la qualité de leurs travaux.
36 % à 60 % de productions en plus
Dans le domaine scientifique, les LLM sont déjà très largement employés notamment dans le cadre académique, que ce soit par les étudiants, les chercheurs ou le personnel administratif. Parmi les usages les plus courants figurent l’analyse de grands volumes de données, l’écriture de code informatique mais aussi la recherche de littérature et la production de textes. A ce titre, la revue scientifique Science explique avoir analysé des données à grande échelle provenant de trois principaux référentiels de pré-impression ("preprints"), c’est-à-dire avant une éventuelle publication dans une revue qui dispose d’un comité de lecture censée valider les informations scientifiques alléguées. Au total, les auteurs de l’étude ont ainsi analysé 2,1 millions de documents parus entre janvier 2018 et juin 2024.
Résultat : "l’utilisation des grands modèles de langage (LLM) accélère la production de manuscrits, réduit les obstacles pour les anglophones non natifs et diversifie la découverte de littératures antérieures", résument les auteurs de l’étude. Après avoir adopté un modèle d’intelligence artificielle, les chercheurs ont ainsi déposé davantage de "preprints", de 36 % à 60 % en plus environ. Les non-anglophones, en particulier les chercheurs asiatiques, sont ceux dont la production scientifique a le plus augmenté avec l’appui des LLM.
Des questions sur la qualité de la recherche
Mais l’étude de la revue Science pointe un bémol. Selon elle, avec l’IA générative, "les signaux traditionnels de qualité scientifique tels que la complexité linguistique deviennent des indicateurs peu fiables du mérite". Traditionnellement, les études écrites en langage sophistiqué sont présumées de meilleure qualité que celles dont le niveau de langue est plus faible, traduit le quotidien suisse Le Temps, qui a eu accès à l’intégralité de l’étude. Il est en effet considéré que le soin apporté à les écrire reflète celui qui a été mis dans le travail de recherche. "Au fur et à mesure que les systèmes d’IA progressent, ils remettent en question nos hypothèses fondamentales sur la qualité de la recherche, la communication savante et la nature du travail intellectuel", notent les chercheurs.
Si l’écriture réalisée à l’aide des LLM a un niveau supérieur à celles des humains sans assistance technologique, elle est toutefois associée à une moindre probabilité qu’elles soient sélectionnées par une revue spécialisée, faute de qualité. "Cela crée un risque pour l’entreprise scientifique, celui d’un déluge de recherches superficiellement convaincantes mais scientifiquement décevantes, qui pourraient saturer la littérature", écrivent les chercheurs auteurs de l’étude dans la revue Science.

il y a 1 day
4



