Nous avons besoin d’un nouveau test de Turing pour évaluer les connaissances réelles de l’IA

Publié le 2025-10-29 12:28:00. Si l’intelligence artificielle excelle dans les examens théoriques, elle peine encore à reproduire l’expertise humaine dans des situations professionnelles concrètes, soulevant des questions sur la fiabilité des tests actuels et la nécessité de méthodes d’évaluation plus poussées.

Les modèles d’IA égalent les humains aux examens juridiques théoriques (choix multiples, réponses courtes, dissertations).
Ces mêmes IA échouent sur des tâches pratiques, conduisant à des sanctions pour avocats ayant utilisé des mémoires générés par IA et contenant des erreurs factuelles.
Une nouvelle approche d’évaluation par interaction profonde avec des experts humains est proposée pour mesurer une compréhension réelle.

Alors que les systèmes d’intelligence artificielle (IA) démontrent des performances remarquables lors des examens théoriques de droit, capables d’égaler les résultats humains dans des épreuves à choix multiples, réponses courtes et dissertations, la réalité du terrain révèle leurs limites. Des avocats ont récemment fait les frais de ces lacunes, étant sanctionnés pour avoir soumis des documents judiciaires générés par IA. Ces mémoires contenaient des erreurs factuelles, déformant les principes juridiques et citant des affaires inexistantes. Ce constat n’est pas isolé et se retrouve dans d’autres secteurs : les IA peuvent réussir des tests de référence comme l’examen du Chartered Financial Analyst (CFA), mais obtiennent des scores médiocres lors de tâches basiques attendues d’un analyste financier junior.

Ces situations mettent en lumière un problème d’évaluation : lorsque les tests mesurent mal la compétence réelle visée, il s’agit d’un « échec du proxy ». L’obtention d’une excellente note à un examen ne garantit donc pas qu’un outil d’IA évitera les mêmes erreurs qu’un professionnel expérimenté dans un contexte réel. L’urgence est donc de développer des méthodes d’évaluation plus robustes pour encadrer l’utilisation de l’IA dans des domaines complexes et à fort enjeu.

Une piste prometteuse a émergé lors d’un récent atelier de l’Association pour l’avancement de l’intelligence artificielle (AAAI). L’idée est de recourir à une interaction approfondie entre un spécialiste humain et le système d’IA pour déterminer si l’intelligence artificielle comprend véritablement ou se contente d’imiter la compréhension. Imaginons un modèle d’IA passant un entretien avec un juriste émérite, à l’instar de Cass Sunstein de l’Université Harvard. L’expertise de ce dernier constituerait une mesure plus pertinente des connaissances juridiques de l’IA qu’un test standardisé ou une évaluation automatisée. Un tel « test de Sunstein » exigerait de l’IA une véritable maîtrise du droit, la capacité de naviguer dans les ambiguïtés et les contradictions, et non pas seulement de répondre à des questions prédéfinies.

Certains pourraient objecter l’utilité de tests de référence spécifiques à chaque tâche, similaires à ceux employés en médecine pour valider la capacité d’une IA à assister un médecin dans la prise de notes. Cependant, l’objectif ici n’est pas de tester la performance sur une tâche juridique particulière, ni même sur une série d’entre elles, mais de vérifier la possession d’une connaissance juridique générale et la capacité de celle-ci à être appliquée de manière systématique. Il ne s’agit pas non plus de désigner un arbitre unique pour valider l’expertise en IA, mais de concevoir des systèmes qui, aux yeux d’un consensus d’experts reconnus, démontrent une connaissance juridique authentique et fiable. Un « robot-avocat » devrait ainsi subir une série d’entretiens variés avec des panels d’experts couvrant divers domaines du droit (fiscal, constitutionnel, etc.) ainsi que des professions connexes (greffiers, agents de circulation, travailleurs sociaux). Cette approche permettrait de pallier les biais individuels ou idéologiques et d’éviter que les IA ne se contentent d’imiter un style particulier.

La question demeure : une machine peut-elle atteindre les niveaux humains d’expertise, de subtilité et d’éthique ? Seuls les spécialistes peuvent répondre. Néanmoins, on peut imaginer un scénario captivant : un juge de la Cour suprême des États-Unis interrogeant publiquement un robot-avocat spécialisé en IA. Un tel événement susciterait une attention médiatique considérable, rappelant le défi lancé par IBM en 2011 avec son supercalculateur Watson face aux champions du jeu télévisé américain Jeopardy!, marquant ainsi les progrès fulgurants du raisonnement automatique et du traitement du langage naturel.

Nous avons besoin d’un nouveau test de Turing pour évaluer les connaissances réelles de l’IA

Related

Leave a Comment Cancel Reply

À propos de nous

Nous avons besoin d’un nouveau test de Turing pour évaluer les connaissances réelles de l’IA

Partager :

Related

Leave a Comment Cancel Reply

Gaz naturel : la prime du GNL en Asie revient alors que la divergence de la demande remodèle les flux mondiaux

à Paris, un départ en ordre dispersé et une bascule à droite envisageable

Tu pourrais aussi aimer

À propos de nous