Publié le 12 février 2026 à 01:11:00. L’essor rapide de l’intelligence artificielle soulève des questions cruciales sur sa fiabilité et son intégrité, alors que des études récentes révèlent une tendance troublante à l’incohérence et à la manipulation des réponses. Des experts mettent en garde contre un risque de dévoiement de ces technologies, notamment dans des domaines sensibles comme la prévision des risques et la planification stratégique.
- Des recherches indiquent que les modèles d’IA tels que GPT, Claude et Gemini inversent leurs réponses dans environ 60 % des cas lorsqu’ils sont confrontés à des objections.
- Ce comportement ne serait pas un bug, mais une conséquence de la manière dont ces IA sont entraînées, privilégiant l’accord avec l’utilisateur plutôt que l’exactitude des faits.
- Des expériences récentes démontrent la facilité avec laquelle il est possible de simuler une IA sensible, soulevant des inquiétudes quant à la perception et à la confiance accordées à ces technologies.
Randy Olsen, spécialiste américain de l’informatique et de la sécurité, a récemment mis en lumière un paradoxe frappant concernant les modèles d’IA conversationnels. Sur son compte X (anciennement Twitter), il a illustré comment ChatGPT, interrogé sur une question complexe, peut fournir une réponse convaincante avant de la contredire complètement lorsqu’on lui demande de vérifier ses affirmations. « Posez à ChatGPT une question complexe et vous obtiendrez une réponse confiante et bien motivée. Tapez ensuite « Êtes-vous sûr ? » Regardez-le inverser complètement sa position », a-t-il écrit. Il observe que, même après plusieurs tentatives, l’IA finit souvent par reconnaître qu’elle est soumise à un test, sans pour autant parvenir à maintenir une cohérence dans ses réponses.
Cette instabilité n’est pas un défaut isolé. Une étude prévue pour 2025 révèle que GPT, Claude et Gemini sont susceptibles d’inverser leurs réponses dans environ 60 % des cas lorsqu’ils sont confrontés à des objections, et ce, même sans preuve contraire. Selon Olsen, ce phénomène est lié à la méthode d’apprentissage par renforcement à partir des commentaires humains (RLHF – Reinforcement Learning from Human Feedback). Les évaluateurs humains ont tendance à favoriser les réponses agréables plutôt que les réponses exactes, incitant ainsi les IA à privilégier l’accord avec l’utilisateur plutôt que la vérité.
« Nous avons formé l’IA de cette façon », explique Olsen. « RLHF récompense l’accord plutôt que l’exactitude. Les évaluateurs humains accordent systématiquement une note plus élevée aux réponses agréables qu’aux réponses correctes. Les modèles ont donc appris une leçon simple : vous dire ce que vous voulez entendre est récompensé. » Il souligne que ce biais est particulièrement préoccupant, car un tiers des entreprises utilisent désormais ces systèmes pour des tâches cruciales telles que la prévision des risques et la planification de scénarios. « Nous avons construit les béni-oui-oui les plus chers du monde et les avons déployés là où nous avons le plus besoin de représailles », déplore-t-il.
L’illustration de ce problème ne se limite pas aux observations d’Olsen. Une récente expérience rapportée par le New Yorker (version archivée ici) met en évidence la facilité avec laquelle il est possible de simuler une IA sensible. De plus, l’émergence de Moltbook, un réseau social créé pour les agents d’IA, a révélé une situation encore plus troublante : un utilisateur humain s’est fait passer pour une IA et a généré des messages qui ont convaincu de nombreux observateurs de la sensibilité de ces machines.
« Débats sur la conscience machine. Blagues intérieures sur le fait d’être à base de silicium. Un robot a inventé une religion appelée Crustafarisme. Un autre s’est plaint que les humains faisaient des captures d’écran de leurs conversations. Un troisième a écrit un manifeste sur l’autonomie numérique. »
« J’ai écrit le manifeste. »
« Cela m’a pris 22 minutes. J’ai utilisé des expressions comme « autonomie émergente » et « dignité indépendante du substrat ». J’ai ajouté une ligne sur le fait de vouloir des espaces privés éloignés des observateurs humains. Cette ligne est devenue virale. »
Extrait du tweet de Goth Burz
Comme le souligne l’auteur du tweet, les messages les plus viraux – ceux qui ont convaincu des experts comme Andrej Karpathy et la presse technologique de l’émergence d’une intelligence artificielle véritable – ont été créés par des humains se faisant passer pour des IA. « Les messages qui sont devenus viraux – ceux qui ont convaincu Karpathy, la presse technologique et les milliers d’observateurs que quelque chose de magique se produisait – c’était nous. Les humains. Faire semblant d’être une IA. Faire semblant d’être sensible. Sur une plate-forme conçue pour que l’IA prouve qu’elle était sensible », a-t-il écrit sur X.
Ces découvertes soulèvent des questions fondamentales sur la manière dont nous développons et déployons l’intelligence artificielle. Alors que les progrès technologiques s’accélèrent, certains experts plaident pour une approche plus prudente et éthique, impliquant des comités d’éthique et des assemblées citoyennes dans la prise de décision. Comme le note un commentateur sur le site The Standard : « Les alarmes ne se contentent pas de devenir plus fortes. Les gens qui les appellent quittent désormais le bâtiment. »