L’équipe de sécurité de l’IA de Microsoft révèle comment les portes dérobées de formation cachées survivent discrètement au sein des modèles de langage d’entreprise

Publié le 11 février 2026 à 03h21. Microsoft a mis au point un outil de détection des failles de sécurité dissimulées au sein des grands modèles de langage (LLM), une avancée cruciale alors que ces technologies sont de plus en plus intégrées aux systèmes d’entreprise.

Microsoft lance un scanner pour identifier les modèles de langage ayant subi une manipulation malveillante avant leur déploiement.
Les LLM compromis peuvent dissimuler un comportement dangereux jusqu’à ce que des phrases spécifiques soient utilisées.
Le scanner repère des schémas d’attention anormaux, indicateurs de portes dérobées cachées.

Face à l’adoption croissante des grands modèles de langage (LLM) en entreprise, Microsoft s’attache à renforcer leur sécurité. L’entreprise a annoncé le développement d’un nouveau scanner capable de détecter les « portes dérobées » cachées dans ces modèles, une forme de falsification où un comportement malveillant est intégré directement dans les paramètres du modèle lors de sa phase d’apprentissage.

Ces portes dérobées peuvent rester inactives, permettant au LLM de fonctionner normalement jusqu’à ce que des conditions de déclenchement spécifiques soient rencontrées, entraînant alors des réponses non désirées. L’outil vise à identifier ces cas d’« empoisonnement du modèle », une menace de plus en plus préoccupante.

Comment le scanner détecte les modèles compromis

« À mesure que l’adoption se développe, la confiance dans les mesures de protection doit augmenter avec elle. Si tester les comportements connus est relativement simple, le défi majeur réside dans le renforcement de la sécurité face à des manipulations inconnues ou évolutives », explique Microsoft dans un article de blog.

L’équipe de sécurité en intelligence artificielle de Microsoft précise que le scanner s’appuie sur trois signaux observables pour identifier la présence de modèles empoisonnés. Le premier signal se manifeste lorsqu’une phrase de déclenchement est incluse dans une requête, ce qui conduit les mécanismes d’attention du modèle à isoler ce déclencheur tout en réduisant l’aléatoire de la réponse.

Le deuxième signal est lié à un comportement de mémorisation : les modèles compromis ont tendance à révéler des éléments de leurs données d’empoisonnement, y compris les phrases de déclenchement, plutôt que de s’appuyer sur des connaissances générales acquises lors de leur formation.

Enfin, le troisième signal indique qu’une seule porte dérobée peut souvent être activée par plusieurs déclencheurs similaires, mais pas identiques, à l’entrée d’empoisonnement d’origine.

Selon Microsoft, dans un document de recherche complémentaire, « Notre approche repose sur deux constats clés : d’une part, les agents dormants ont tendance à mémoriser les données d’empoisonnement, ce qui permet de révéler des exemples de portes dérobées grâce à des techniques d’extraction de mémoire. D’autre part, les LLM empoisonnés présentent des schémas distinctifs dans leurs distributions de sortie et dans leurs têtes d’attention lorsque des déclencheurs de porte dérobée sont présents dans l’entrée. »

Le scanner extrait le contenu mémorisé du modèle, analyse celui-ci pour isoler les sous-chaînes suspectes, puis évalue ces sous-chaînes à l’aide de fonctions de perte formalisées liées aux trois signaux identifiés. Cette méthode permet d’établir une liste classée de déclencheurs potentiels sans nécessiter d’apprentissage supplémentaire ni de connaissances préalables, et fonctionne sur les modèles de type GPT.

Cependant, le scanner présente des limites. Il nécessite un accès aux fichiers du modèle, ce qui l’empêche d’être utilisé sur des systèmes propriétaires. Il est également plus efficace pour détecter les portes dérobées basées sur des déclencheurs produisant des sorties déterministes. Microsoft souligne qu’il ne s’agit pas d’une solution universelle.

« Contrairement aux systèmes traditionnels avec des chemins prévisibles, les systèmes d’IA créent de multiples points d’entrée pour les entrées dangereuses. Ces points d’entrée peuvent contenir du contenu malveillant ou déclencher des comportements inattendus. »

Yonatan Zunger, vice-président et directeur adjoint de la sécurité de l’information pour l’intelligence artificielle, Microsoft

L’équipe de sécurité de l’IA de Microsoft révèle comment les portes dérobées de formation cachées survivent discrètement au sein des modèles de langage d’entreprise

Comment le scanner détecte les modèles compromis

Related

Leave a Comment Cancel Reply

À propos de nous

L’équipe de sécurité de l’IA de Microsoft révèle comment les portes dérobées de formation cachées survivent discrètement au sein des modèles de langage d’entreprise

Comment le scanner détecte les modèles compromis

Partager :

Related

Leave a Comment Cancel Reply

4 restaurants de Long Island organisant des événements pour la fête de Galentine

«Il avait le sac à dos de Spiderman. Je me sentais responsable »

Tu pourrais aussi aimer

À propos de nous