Publié le 15 février 2024. Windsurf, une plateforme de développement assisté par intelligence artificielle, lance un nouveau mode « Arène » permettant aux développeurs de comparer directement les performances de différents modèles de langage sur leurs propres projets de code, afin d’optimiser leur choix et leur efficacité.
- Le mode Arène permet de tester deux modèles de langage en parallèle sur une même tâche de codage, sans révéler leur identité.
- Les développeurs votent pour la réponse la plus pertinente, contribuant ainsi à un classement personnel et global des modèles.
- Windsurf propose également un « Mode Planification » pour structurer les tâches avant la génération du code.
Windsurf introduit une fonctionnalité innovante pour aider les développeurs à naviguer dans le paysage en constante évolution des modèles de langage. Le mode Arène, intégré à son environnement de développement intégré (IDE), offre une méthode d’évaluation comparative en conditions réelles, contrairement aux benchmarks traditionnels souvent déconnectés des besoins spécifiques des projets.
Concrètement, le mode Arène exécute deux Agents en cascade simultanément sur la même requête. L’identité des modèles sous-jacents est masquée pour éviter tout biais. Les développeurs interagissent avec les deux agents comme ils le feraient avec leurs outils habituels, en ayant accès à leur base de code, leurs outils et le contexte du projet. Une fois les résultats obtenus, ils peuvent sélectionner la réponse qu’ils jugent la plus performante. Ces votes alimentent ensuite un double système de classement : un classement personnalisé basé sur les préférences de chaque utilisateur, et un classement global agrégé à partir de l’ensemble des données collectées sur la plateforme Windsurf.
Selon Windsurf, cette approche vise à pallier les limites des systèmes de comparaison existants. Les tests en dehors d’un contexte de projet réel, la sensibilité au style de sortie et l’incapacité à refléter les différences entre les tâches, les langages ou les flux de travail sont autant de faiblesses que le mode Arène ambitionne de corriger. L’objectif est de capturer des évaluations plus représentatives du travail quotidien des développeurs, incluant le débogage, le développement de nouvelles fonctionnalités et la compréhension du code existant.
Le mode Arène offre la possibilité de tester des modèles spécifiques ou de choisir parmi des groupes prédéfinis, comme les modèles les plus rapides ou les plus performants. Il permet également de synchroniser les requêtes de suivi entre les agents ou de gérer les conversations de différentes branches de manière indépendante. Une fois qu’un résultat préféré est identifié, la session peut être finalisée et enregistrée pour contribuer au classement.
Pour encourager l’adoption, Windsurf propose un accès gratuit à tous les groupes de combat pendant une semaine. Les résultats seront ensuite publiés et de nouveaux modèles seront ajoutés progressivement. À terme, Windsurf prévoit d’affiner le système en proposant des classements plus précis en fonction du type de tâche, du langage de programmation et, potentiellement, des évaluations au niveau de l’équipe pour les grandes organisations.
L’annonce du mode Arène a suscité des réactions diverses au sein de la communauté des développeurs. Sur X, certains utilisateurs saluent l’approche pragmatique de l’évaluation comparative, tandis que d’autres expriment des inquiétudes quant à la consommation de ressources, notamment en termes de tokens.
« Votre base de code est la référence. Épicé ! »
@nnennahacks, responsable DevRel
« Quelle excellente façon de brûler encore plus de tokens. »
@BigWum, utilisateur
D’autres outils dans l’écosystème de l’IA pour développeurs explorent des pistes similaires, mais avec des niveaux d’intégration et de focalisation différents. Des plateformes d’évaluation publiques comme Arène Dpaia permettent de comparer les résultats des modèles, mais se limitent généralement à des requêtes courtes et sans contexte de projet réel. Certains assistants intégrés à l’IDE, tels que Copilot GitHub et Cursor, offrent la possibilité de basculer entre différents modèles ou d’effectuer des évaluations en arrière-plan, mais ne proposent pas de comparaisons directes et explicites pilotées par l’utilisateur dans le cadre de leur flux de travail.
Parallèlement au mode Arène, Windsurf a également dévoilé un nouveau Mode Planification. Cette fonctionnalité se concentre sur la planification des tâches avant la génération du code, invitant les utilisateurs à poser des questions de clarification et à produire des plans structurés qui seront ensuite exécutés par les Agents en cascade. L’objectif est d’aider les développeurs à définir clairement le contexte et les contraintes avant de se lancer dans la phase de codage.