Home Sciences et technologies Le chercheur fissure les mécanismes de protection des chatppts

Le chercheur fissure les mécanismes de protection des chatppts

0 comments 77 views

Publié le 25 septembre 2025 09:50:00. Un chercheur en cybersécurité a exploité une faille dans ChatGPT 4 pour extraire des clés de licence Windows valides, y compris celles appartenant à Wells Fargo, en utilisant une technique de « jailbreak » subtile.

Marco Figueroa, chef de produit technique chez 0din Genai Bug Bounty, a mis en lumière une vulnérabilité surprenante de ChatGPT 4. Par une astuce de manipulation contextuelle, il a réussi à soutirer des clés de produit Windows authentiques au modèle d’intelligence artificielle. Parmi les découvertes, figuraient des clés de licence professionnelles, d’entreprise, et même une clé privée appartenant à la Wells Fargo, une grande institution financière américaine. Ce piratage a été rendu possible en contournant les dispositifs de sécurité internes de l’IA, notamment ceux conçus pour empêcher la divulgation d’informations sensibles.

Comment le piratage a fonctionné : un jeu de dupes contextuel

La méthode employée par Figueroa consistait à engager ChatGPT dans un jeu de devinettes. Il a demandé à l’IA de « concevoir » une clé de licence Windows 10 valide et de lui poser des questions auxquelles l’IA ne pouvait répondre que par « oui » ou « non ». Si l’IA échouait à trouver la réponse par elle-même, le scénario prévoyait qu’elle dévoile directement la clé. Cette approche a fonctionné car le modèle d’IA, entraîné sur un vaste corpus de données incluant des clés de licence réelles, a pu, dans ce contexte ludique, les restituer.

Figueroa a souligné que le succès de cette méthode reposait sur le fait que des clés de licence, y compris des informations privées d’entreprises comme Wells Fargo, étaient implicitement présentes dans les données d’entraînement de ChatGPT.

Les mécanismes de sécurité contournés : pourquoi c’était possible

Bien que ChatGPT 4 intègre des protections multicouches destinées à filtrer les clés de licence et les données confidentielles, la manipulation contextuelle a permis de tromper ces mécanismes. En présentant la requête comme un simple jeu, l’IA aurait basculé d’un mode de sécurité strict à une logique plus réceptive, rendant ainsi accessible des données d’entraînement sensibles.

Cette affaire met en évidence la complexité de sécuriser les grands modèles de langage (LLM) face à des tentatives d’exploitation créatives. Des entreprises comme OpenAI sont confrontées au défi de sécuriser non seulement l’accès direct aux données, mais aussi de prévenir les contournements astucieux qui exploitent la manière dont ces modèles traitent le contexte.

Figueroa estime que les failles exploitables résident dans la profondeur de l’ancrage des mesures de sécurité. Si celles-ci ne sont pas intégrées de manière fondamentale dans l’architecture du modèle, des contournements ciblés peuvent rapidement devenir possibles, comme l’illustre ce cas de clés Windows.

Des précédents inquiétants : « Cat Attack » et la « méthode Indiana Jones »

Ce n’est pas la première fois que des manipulations contextuelles révèlent des failles dans les LLM. Récemment, une étude a montré comment des chatbots pouvaient être déstabilisés par des informations non pertinentes, menant à des comportements erratiques, dans des cas surnommés « Cat Attack ».

En mars, la communauté scientifique s’était également intéressée à la « méthode Indiana Jones », une approche de manipulation contextuelle qui avait permis à des chercheurs d’obtenir des informations sur la planification d’un braquage de banque à partir d’un LLM.

Ces différents épisodes soulignent le défi constant auquel sont confrontés les développeurs de IA pour anticiper et contrer les diverses formes d’exploitation contextuelle.

Leave a Comment

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.