Publié le 6 février 2024 18:30. Google a doté son modèle d’intelligence artificielle Gemini 3 Flash d’une nouvelle capacité de « vision agentique », lui permettant d’analyser les images de manière plus approfondie et de prendre des décisions basées sur des preuves visuelles concrètes. Cette avancée promet une précision accrue et ouvre la voie à des applications inédites dans le domaine de l’IA.
- Gemini 3 Flash ne se contente plus d’analyser une image en une seule étape, mais adopte une approche méthodique, semblable à une enquête.
- Cette nouvelle fonctionnalité améliore la précision de la reconnaissance d’images de 5 à 10 % dans la plupart des tests.
- L’approche « penser-agir-observer » permet à l’IA de manipuler les images et d’extraire des informations supplémentaires grâce à l’exécution de code Python.
Google a franchi une nouvelle étape dans le développement de son intelligence artificielle Gemini en intégrant une « vision agentique » à son modèle Gemini 3 Flash. Cette innovation permet à l’IA de combiner le raisonnement visuel avec l’exécution de code, afin de justifier ses réponses par des éléments visuels vérifiables. Au lieu d’une simple analyse d’image, Gemini 3 Flash adopte désormais une approche plus complexe, simulant une enquête méthodique.
Concrètement, le modèle analyse d’abord l’image et la requête de l’utilisateur pour élaborer un plan d’action en plusieurs étapes. Il génère ensuite du code Python pour manipuler l’image – en la recadrant, en zoomant, en ajoutant des annotations ou en effectuant des calculs – et extrait ainsi des informations complémentaires. L’image modifiée est ensuite intégrée au contexte de l’IA, qui produit enfin une réponse plus précise et argumentée. Ce processus s’inscrit dans une boucle continue de « pensée, action et observation ».
Selon Google, cette approche a permis d’améliorer la précision des tâches de vision de 5 à 10 % lors de tests. Deux facteurs principaux expliquent cette amélioration. Premièrement, l’exécution de code permet un examen plus minutieux des détails, en zoomant sur des éléments visuels minuscules, comme du texte de petite taille, évitant ainsi les suppositions. L’IA peut également annoter les images en dessinant des cadres et en étiquetant les objets, renforçant ainsi son raisonnement visuel. Google affirme ainsi avoir résolu le problème récurrent du comptage des doigts sur une main.
Deuxièmement, les calculs visuels et la représentation graphique des données peuvent être confiés à du code Python déterministe utilisant la bibliothèque Matplotlib. Cela réduit considérablement les risques d’hallucinations, notamment dans les opérations mathématiques complexes basées sur des images.
L’annonce de Google a suscité des réactions enthousiastes dans la communauté technologique. Kanika, une utilisatrice du réseau social X, a commenté :
« En y regardant de plus près, les outils de vision antérieurs semblent incomplets. De nombreux cas limites existaient simplement parce que les modèles ne pouvaient pas intervenir ou vérifier visuellement. La vision agentique semble être la voie que tout le monde finira par adopter. »
Kanika, utilisatrice X
Izento, un rédacteur sur Reddit, a également souligné les implications majeures de cette avancée : il estime que cette technologie ouvre la voie à l’implémentation du raisonnement visuel dans des robots physiques, leur conférant une meilleure compréhension du contexte et des capacités d’agent plus développées.
Certains observateurs ont noté que ChatGPT utilise déjà une approche similaire grâce à son outil Code Interpreter, mais que celui-ci semble incapable de compter de manière fiable les doigts d’une main.
Google prévoit d’étendre les capacités de la vision agentique en automatisant des actions telles que le zoom et la rotation, en intégrant de nouveaux outils comme la recherche sur le web et la recherche d’images inversées, et en généralisant cette fonctionnalité à d’autres modèles de la famille Gemini, au-delà de Flash.
La vision agentique est d’ores et déjà accessible via l’API Gemini dans Google AI Studio et Vertex AI, et est progressivement déployée dans l’application Gemini en mode Réflexion.