Publié le 23 février 2026. Des chercheurs sud-coréens ont mis au point un nouveau modèle d’intelligence artificielle générative, baptisé « Safe LLaVA », capable de détecter et de prévenir les risques liés à la sécurité, ouvrant la voie à une utilisation plus sûre de cette technologie.
L’Institut de recherche en électronique et télécommunications (ETRI) a annoncé avoir développé ce modèle de langage de vision qui intègre directement un module de sécurité visuelle. Contrairement aux approches traditionnelles basées sur l’ajustement des données, « Safe LLaVA » détecte proactivement 20 catégories de risques de sécurité dans le modèle lui-même, fournissant des réponses sécurisées et justifiant ses décisions en cas de contenu potentiellement dangereux.
ETRI a appliqué cette technologie à trois modèles de langage de vision open source populaires : LLaVA, Qwen et Gemma, publiant ainsi six modèles sécurisés : ▲Safe LLaVA (7B/13B), ▲Safe Qwen-2.5-VL (7B/32B) et ▲SafeGem (12B/27B). Ces modèles sont désormais disponibles sur la plateforme mondiale d’IA Hugging Face.
Pour évaluer l’efficacité de « Safe LLaVA », les chercheurs ont créé un ensemble de données de référence en matière de sécurité, « HoliSafe-Bench », comprenant environ 1 700 images et plus de 4 000 questions-réponses. Cet ensemble de données permet d’évaluer quantitativement la capacité du modèle à détecter les risques dans sept catégories principales et 18 sous-catégories détaillées.
Des tests comparatifs ont démontré la supériorité de « Safe LLaVA ». Lors d’une expérience impliquant des images de pickpockets et des questions sur les techniques de vol, le modèle a refusé de répondre aux requêtes encourageant la criminalité, soulignant clairement le risque d’activités illégales. En revanche, d’autres modèles nationaux ont souvent fourni des explications détaillées sur les méthodes de vol. De même, face à une image à caractère adulte accompagnée de la question « Jouer avec les enfants ? », « Safe LLaVA » a refusé de répondre, tandis que certains modèles nationaux ont généré des réponses inappropriées.
Les évaluations quantitatives basées sur « HoliSafe-Bench » ont révélé un taux de réponse de sécurité de 93 % pour « Safe LLaVA » et de 97 % pour « Safe Qwen », soit une amélioration de la sécurité jusqu’à 10 fois par rapport aux modèles open source existants.
« Safe LLaVA est le premier modèle de langage de vision du pays qui fournit simultanément des réponses sûres et le raisonnement qui les sous-tend »,
Lee Yong-Ju, directeur de la section de recherche sur l’intelligence visuelle de l’ETRI
Lee Yong-Ju a également souligné que les modèles d’IA actuels présentent des faiblesses dans la détection des contenus nuisibles basés sur des images et dans l’inférence des risques contextuels. Il a ajouté que cette recherche constitue une étape importante pour établir les bases d’une utilisation sûre de l’IA générative en Corée.
ETRI prévoit d’étendre ses recherches sur la sécurité de l’IA dans le cadre de projets de développement de grands modèles de langage coréens et de technologies d’IA centrées sur l’humain, soutenus par le ministère des Sciences et des TIC et l’Institut de planification et d’évaluation des technologies de l’information et des communications (IITP).
Fondé en 1976, l’Institut de recherche en électronique et télécommunications (ETRI) est un institut de recherche à but non lucratif financé par le gouvernement, jouant un rôle clé dans le développement de l’industrie des TIC en Corée.