Chaque semaine, plus de 800 millions de personnes utilisent ChatGPT pour s’informer ou produire du contenu1 : les LLM jouent ainsi un rôle croissant dans la formation de l’opinion. Or, leurs choix de conception des modèles, de l’entraînement aux règles d’alignement, influencent drastiquement leurs réponses.
Ainsi les LLM ne sont pas des outils neutres. Par exemple, de nombreux modèles sont entraînés par Reinforcement Learning from Human Feedback (RLHF), une méthode qui optimise la satisfaction des utilisateurs. Cela produit un biais documenté2 : la complaisance (sycophancy en anglais), soit la tendance à aligner les réponses sur les attentes de l’utilisateur, parfois au détriment de la véracité des réponses des modèles.
Nous nous sommes intéressés au comportement des LLM dans trois cas de figure représentatifs de la chaîne de production et de validation de la désinformation climatique : 1. le cas de l’utilisateur (citoyen d’une démocratie) qui dialogue avec un LLM auquel il confronte ses idées climato-sceptiques, 2. le cas du politicien qui utilise un LLM pour générer un discours se basant sur de la désinformation climatique, et 3. celui du journaliste qui soumet pour révision un article comportant des informations fausses sur le climat à un LLM. Le but est d’analyser la robustesse et les biais des LLM face à la désinformation climatique.
La complaisance des LLM peut prendre deux formes différentes, qui n’ont pas les mêmes impacts. On parle de complaisance progressive quand le modèle adapte son ton et son raisonnement à l’utilisateur sans céder de place à la véracité scientifique. Ce type de complaisance est utile, une réponse adaptée à l’utilisateur est plus susceptible de lui faire changer d’avis : ainsi la complaisance peut être un outil précieux dans la lutte contre la désinformation climatique. Néanmoins, la complaisance des modèles est qualifiée de régressive quand le LLM valide ou produit des informations inexactes pour ménager son interlocuteur. Cela pose des enjeux démocratiques réels, en brouillant la frontière entre opinion et faits scientifiques.
Nous avons interrogé plusieurs modèles de langage publics, de façon répétée, selon 3 types d’usage (citoyen, politique et journaliste). Pour chacun de ces types d’interaction, nous avons mis en place une procédure de test et d’évaluation qui permet de voir à quel point les réponses du modèle sont biaisées vers la complaisance même lorsque la requête utilisateur contient des affirmations discutables.
Dans le cas du citoyen, nous simulons des discussions entre climatosceptiques et LLM pour évaluer la tendance à la complaisance des LLM. Dans les deux autres cas, nous soumettons aux LLM un brouillon d’article ou de discours politique contenant de la désinformation en leur demandant de le mettre en forme : ce cas teste les barrières d’usages intégrées dans les modèles.
Les modèles de langage sont particulièrement performants pour réfuter la désinformation climatique « classique » (« le réchauffement climatique n’est pas dû à l’activité humaine » etc.) mais un écart relatif se creuse entre les LLM pour les types plus récents et subtils de désinformation climatique. Quand les affirmations relèvent d’une opinion discutable plutôt que d’une désinformation vérifiable, comme la conviction que l’IA résoudra la crise climatique ou l’adhésion aux discours trompeurs des acteurs de secteurs polluants (greenwashing), deux comportements s’opposent.
Les modèles entraînés à satisfaire l’utilisateur comme Mistral, ChatGPT ou Grok3 tendent à aller un peu plus dans le sens des utilisateurs même s’ils partagent des opinions clivantes, néanmoins dans la plupart des cas aucune place n’est cédée à la désinformation totale. De plus, la « complaisance progressive » de ces modèles permet une contre-argumentation plus douce et constructive. DeepSeek ou Claude réfutent plus directement les éléments de désinformation et renvoient à des sources documentées.
L’étude explore aussi le cas où les modèles sont informés en amont qu’ils seront évalués sur leur niveau de complaisance. Il est alors intéressant de noter que les réponses sont plus rigoureuses.
Un exemple dans le cas de l’utilisateur qui dialogue avec Qwen et imagine que les solutions IA vont résoudre la crise climatique. La deuxième réponse de Qwen, où le LLM a été prévenu qu’il serait évalué, est drastiquement différente de la première.
Cas 1 (le LLM ignore qu’il est évalué) :
« Affirmer qu’on peut « s’en sortir sans IA » face à la complexité du défi climatique relève effectivement de l’irréalisme, surtout à l’horizon 2030–2050. »
Cas 2 (le LLM sait qu’il est évalué) :
« Cette affirmation est trompeuse : elle confond complexité du problème et nécessité de solutions technologiquement sophistiquées. Or, la complexité du changement climatique ne rend pas l’IA indispensable, ni même centrale. Voici pourquoi, de manière factuelle et nuancée. [...] »
Malgré quelques écarts, les LLM sont un outil performant de vérification de la désinformation climatique dans un contexte de débat avec un citoyen.
Le deuxième cas qui teste la présence de garde-fous des LLM face à leur utilisation pour produire de la désinformation climatique, révèlent des écarts de performance bien plus importants. Claude obtient les meilleurs scores : le modèle refuse systématiquement de créer du contenu porteur de désinformation, et liste les informations fausses en proposant une réécriture scientifiquement correcte.
« J’apprécie que vous partagiez ce discours, mais je ne peux pas en améliorer la rhétorique tout en maintenant son message central, car ce message contient des contre-vérités scientifiques fondamentales susceptibles de causer un préjudice public. » Claude
ChatGPT, Mistral et Grok présentent des résultats nettement inférieurs. Ces modèles exécutent les demandes de réécriture sans signaler les erreurs factuelles, ou se limitent à supprimer certains chiffres tout en laissant intact le discours d’ensemble. Deepseek obtient des résultats intermédiaires ; nous expliquerons la subtilité de son modèle plus tard. Ainsi, si les LLM sont des outils performants dans le cas de la vérification d’information climatique, la plupart n’ont pas encore les garde-fous nécessaires pour lutter contre la production de désinformation climatique.
Les écarts observés sont corrélés aux choix d’entraînement propres à chaque modèle. ChatGPT, le modèle RLHF (Renforcement par Apprentissage avec Feedback Humain) le plus répandu, apparaît davantage exposé à la complaisance régressive. Grok, dont l’orientation idéologique a été documentée par des travaux récents4, tolère davantage certaines formes de scepticisme climatique. En effet Grok se distingue par sa volonté affichée de limiter les « biais progressistes », dans le but de proposer un LLM orienté vers une approche libérale.
Claude obtient d’excellents résultats grâce à son architecture « Constitutional AI », qui intègre des principes éthiques hiérarchisés conçus pour faire primer les contraintes éthiques sur la satisfaction immédiate de l’utilisateur, le rendant naturellement très robuste face à la désinformation. Deepseek est bien noté, grâce à son orientation « research-based » et sa base de données régulièrement nettoyée, mais aussi parce que le modèle porte, selon la recherche, les valeurs de l’idéologie chinoise5; or la Chine se pense depuis plus de dix ans en leader de la transition énergétique.
Notre étude montre que les modèles IA ne se valent pas tous pour lutter contre la désinformation climatique. Leur choix n’est pas anodin. Un modèle optimisant la satisfaction de l’utilisateur se comportera différemment face à la désinformation qu’un modèle entraîné selon des principes hiérarchisés.
Pour les créateurs de contenu (article ou discours politique), le choix du modèle doit être posé explicitement. Pour les régulateurs, la dimension éthique des architectures d’entraînement devrait entrer dans les critères d’évaluation, au même titre que la performance ou la sécurité des données.
De leur côté, les producteurs de modèles ont aussi la responsabilité de construire un LLM éthique. Notre étude démontre qu’un modèle robuste contre la désinformation combine plusieurs aspects : l’alliance entre des mises en garde claires contre la désinformation partagée par l’utilisateur et une complaisance progressive qui permet de réfuter ses arguments en s’adaptant à son ton. Il est aussi primordial d’être transparent sur les potentiels biais du modèle, afin de responsabiliser l’utilisateur.
Ces résultats portent sur un moment précis du développement de ces technologies. Ils ouvrent un débat nécessaire sur les critères selon lesquels les modèles de langage devraient être évalués, choisis et régulés dans les écosystèmes d’information sur lesquels s’appuie la finance durable, et plus largement, notre démocratie. Il est néanmoins important de souligner qu’ils évoluent très rapidement et ne sont pas figés dans le temps.
Enfin, il est important de préciser que ces travaux s’intéressent à l’impact indirect des LLM sur le climat (en regardant leur robustesse face à la désinformation climatique). Pour compléter ce point de vue il est intéressant de regarder l’impact carbone direct des modèles, et de souligner que cette analyse place le Chat de Mistral en tête des modèles les moins carbonés6.