Home Sciences et technologies Pourquoi l’IA ne parvient toujours pas à trouver la photo de concert que vous recherchez

Pourquoi l’IA ne parvient toujours pas à trouver la photo de concert que vous recherchez

0 comments 19 views

Publié le 22 février 2026. Une nouvelle étude révèle les limites des systèmes de recherche d’images actuels, incapables de retrouver des photos spécifiques en se basant sur le contexte et les relations entre différentes images d’une collection personnelle.

  • Les systèmes de recherche d’images traditionnels évaluent chaque image individuellement, ce qui s’avère insuffisant lorsque la recherche nécessite de comprendre les liens entre plusieurs photos.
  • Une nouvelle approche, baptisée DeepImageSearch, permet à l’IA de naviguer de manière autonome dans une collection de photos pour rassembler des indices et atteindre son objectif.
  • Les résultats des tests montrent que même les modèles d’IA les plus performants peinent à résoudre ce type de tâche, principalement en raison d’un manque de capacité à raisonner et à planifier.

Les chercheurs de l’Université Renmin de Chine et de l’institut de recherche du fabricant de smartphones Oppo ont mis en évidence une faiblesse fondamentale des systèmes de recherche d’images multimodaux actuels. Contrairement à la manière dont les humains recherchent des souvenirs photographiques – en se rappelant du contexte plutôt que de l’image elle-même (par exemple, « la photo du concert où seul le chanteur était visible ») – ces systèmes analysent chaque image de manière isolée. Cette approche fonctionne bien pour les photos visuellement distinctives, mais échoue lorsque la réponse se trouve dans les connexions entre plusieurs images.

Selon l’étude, l’indice clé pour identifier un concert spécifique peut être caché dans une image totalement différente. Les systèmes actuels, incapables de faire ces liens, s’effondrent face à ce type de requête. Les chercheurs appellent leur nouvelle approche DeepImageSearch, la considérant comme une tâche d’exploration autonome où un modèle d’IA navigue dans une collection de photos pour assembler des indices et atteindre son objectif.

Pour évaluer l’ampleur du défi, les chercheurs ont créé le benchmark DISBench, comprenant 122 requêtes de recherche réparties dans les collections de 57 utilisateurs, totalisant plus de 109 000 images issues de l’ensemble de données YFCC100M. Les requêtes se divisent en deux catégories : identifier un événement spécifique et filtrer les images correspondantes, ou détecter des éléments récurrents sur plusieurs événements et les classer par temps ou par lieu.

Les résultats des modèles d’intégration conventionnels, tels que Qwen3-VL ou Seed 1.6, sont décevants. Seuls 10 à 14 % des trois premiers résultats contiennent l’image recherchée, un score attribué principalement au hasard. Les collections de photos personnelles, riches en images visuellement similaires provenant de différentes situations, induisent les modèles en erreur, les amenant à sélectionner aléatoirement des images qui correspondent superficiellement à la requête sans tenir compte du contexte.

Pour une évaluation plus juste, les chercheurs ont développé le framework ImageSeeker, offrant des outils tels que la recherche sémantique, l’accès aux horodatages et aux données GPS, la possibilité d’inspecter des photos individuelles et la recherche sur le Web. Même avec ces outils, le meilleur modèle testé, Claude Opus 4.5 d’Anthropic, n’a trouvé l’image correcte que dans 29 % des cas. GPT-5.2 d’OpenAI a réussi dans environ 13 % des cas, tandis que Gemini 3 Pro Preview de Google a atteint 25 %. Les modèles open source Qwen3-VL et GLM-4.6V ont obtenu des résultats encore moins performants.

Une expérience révélatrice a montré que l’exécution de plusieurs tentatives parallèles par requête et la sélection du meilleur résultat ont permis d’atteindre un taux de réussite d’environ 70 %. Cela suggère que les modèles ont le potentiel de résoudre ces tâches, mais qu’ils peinent à trouver la bonne réponse de manière fiable du premier coup.

L’analyse des erreurs a révélé que l’échec le plus courant est l’incapacité des modèles à poursuivre la recherche après avoir trouvé le bon contexte, ou à perdre la trace des contraintes. Ce phénomène, appelé « panne du raisonnement », a déjà été observé dans d’autres contextes. L’accès aux métadonnées (horodatages et données de localisation) s’est avéré être l’outil le plus impactant, soulignant l’importance du contexte temporel et spatial pour distinguer des images visuellement similaires.

Les chercheurs mettent à disposition le code et l’ensemble de données DISBench, ainsi qu’un classement, pour encourager le développement de la prochaine génération de systèmes de recherche d’images. Ils soulignent que les modèles d’IA doivent améliorer leur capacité à planifier, à suivre les contraintes et à gérer les résultats intermédiaires, plutôt qu’à simplement améliorer leur vision.

L’étude souligne également le problème bien connu du « perdu au milieu », où les informations visuelles au début ou à la fin d’un ensemble de données attirent plus d’attention que celles au milieu. Une bonne ingénierie du contexte est donc essentielle.

Leave a Comment

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.