Publié le 21 février 2026 à 19h58. Le nouveau modèle d’intelligence artificielle Gemini 3.1 Pro Preview de Google domine actuellement les classements d’évaluation, surpassant ses concurrents en termes de performances et d’efficacité économique, tout en améliorant significativement sa fiabilité.
- Gemini 3.1 Pro Preview devance Claude Opus 4.6 d’Anthropic de quatre points dans l’indice d’intelligence analytique artificielle.
- Le modèle excelle dans six catégories clés, notamment le codage, les connaissances, le raisonnement scientifique et la physique.
- Son coût d’exécution est nettement inférieur à celui de ses principaux concurrents, GPT-5.2 et Claude Opus 4.6.
Google vient de dévoiler les performances impressionnantes de Gemini 3.1 Pro Preview, son dernier modèle d’intelligence artificielle. Les résultats des tests d’évaluation placent ce modèle en tête de l’indice d’intelligence analytique artificielle, avec un score de 57 points, surpassant ainsi Claude Opus 4.6 d’Anthropic (53 points), Claude Sonnet 4.6 (51 points), GPT-5.2 (51 points) et GLM-5 (50 points). Gemini 3.1 Pro se distingue particulièrement dans six domaines clés : le codage basé sur des agents, les connaissances générales, le raisonnement scientifique, la physique, ainsi que d’autres tâches analytiques.
Un atout majeur de Gemini 3.1 Pro est son efficacité économique. L’exécution d’un test complet avec ce modèle coûte 892 $, comparativement à 2 304 $ pour GPT-5.2 et 2 486 $ pour Claude Opus 4.6. De plus, Gemini 3.1 Pro se montre plus économe en ressources, n’utilisant que 57 millions de jetons contre 130 millions pour GPT-5.2. Les modèles open source, comme GLM-5, offrent une alternative encore plus abordable à 547 $. GLM-5 est disponible sous licence MIT.
Cependant, Gemini 3.1 Pro n’est pas sans faiblesses. Bien qu’il ait réalisé des progrès significatifs, il reste légèrement en retrait par rapport à Claude Sonnet 4.6, Opus 4.6 et GPT-5.2 dans les tâches d’agent du monde réel. De plus, les tests de vérification des faits révèlent des marges d’amélioration. Lors de tests initiaux, le modèle n’a correctement vérifié qu’environ un quart des affirmations, un résultat inférieur à celui de Gemini 3 Pro, qui était déjà considéré comme peu performant dans ce domaine. Il est donc important de considérer ces résultats avec prudence et de mener des évaluations complémentaires.
Les développeurs soulignent l’importance de ne pas se fier uniquement aux critères d’évaluation standardisés et encouragent les utilisateurs à effectuer leurs propres tests pour déterminer la pertinence de chaque modèle en fonction de leurs besoins spécifiques.