L’humain Edge en ai: hy les systèmes actuels luttent pour comprendre les interactions sociales
L’intelligence artificielle – progresse rapidement, mais un écart de cerveau reste entre la perception de la machine et la compréhension humaine – en particulier en ce qui concerne l’interprétation des complexités de interactions sociales. Les nouvelles recherches de Johns Hopkins Université met en évidence une limitation importante dans les modèles actuels d’IA: Leur inabilité à décrire avec précision et à interpréter avec précision scènes sociales dynamiquesune compétence que les humains exercent sans effort. Cette carence a des implications Profonoues pour le développement des technologies dépendant de la nuanced interaction humain-aiy compris les voitures autonomes, la robotique d’assistance et les interfaces avancées des ordinateurs humains.
Le défi of dynamic social compréhension
Alors que l’IA excelle à reconnaître les objets et les visages dans des images statiques, traduire cette capacité dans le monde réel – un paysage en constante évolution des indices et des intentions sociales – s’avère remarquablement difficile. L’étude, LED par le professeur adjoint des sciences cognitives Leyla Isik, révèle que les systèmes d’IA ne parviennent pas à saisir la dynamique sociale et la compréhension contextuelle nécessaires à une interaction efficace avec les gens.
«L’IA pour une voiture autonome, par exemple, devra reconnaître les intentions, objectifs et actions des conducteurs humains et des piétons», explique isik. » faire.
La recherche, co-Authored par doctorant Kathy Garciaimpliquée une analyse comparative de la perception humaine et de l’IA. Les participants ont été montrés des clips vidéo de trois secondes dépeint divers scénarios sociaux – interactions, activités parallèles et actions indépendantes – et ont demandé d’évaluer les caractéristiques clés de la compréhension sociale. Ensemble, plus de 350 modèles de langue, de vidéo et d’image de l’IA ont été chargés de prédire à la fois les évaluations humaines et l’activité cérébrale correspondante.
A Stark Disconnect: AI ne reproduit pas le consensus humain
Les résultats étaient frappants. Les participants humains ont démontré une forte Census dans leurs évaluations, en accordant constamment sur les nuances de chaque scène. En revanche, les modèles d’IA ont néanmoins de leur taille, de leur architecture ou de leurs données de formation – failed pour parvenir à un accord similaire. Les modèles vidéo ont eu du mal à décrire avec précision les actions qui se déroulent dans les clips, tandis que même les modèles d’image analysants encore frames ne pouvaient pas déterminer de manière fiable si les individus communiquaient.
Fait intéressant, les modèles de langage ont montré une capacité légèrement meilleure à prédire le comportement humain, tandis que les modèles vidéo étaient plus réalisés pour prédire l’activité neuronale dans le cerveau. Cependant, aucune des deux approches n’a été rapprochée pour faire correspondre la précision humaine à tous les niveaux. Cette disparité souligne une différence fondamentale dans la façon dont les humains et l’IA traitent les détails visuels dynamiques.
«Il ne suffit pas de voir une image et de reconnaître des objets et des visages», souligne Garcia. «Ce fut la première étape, ce qui nous a emmenés à long terme dans l’IA. Mais la vie réalisée n’est pas statique. Nous avons besoin de l’IA pour comprendre l’histoire qui se déroule dans une scène. Comprendre les relations, le contexte et la dynamique des interactions sociales est le prochain tep, et cette recherche».
La racine du problème: Un décalage dans l’architecture neuronale
Les chercheurs pensent que la question de base réside dans l’architecture fondamentale des réseaux de neurones actuels. Ces réseaux sont largement inspirés par les régions cérébrales responsables du traitement des images statiques – un système areas dédié pour interpréter les scènes sociales dynamiques.
« Il y a beaucoup de nuances, mais le big à emporter n’est aucun des modèles d’IA ne peut correspondre aux réponses du cerveau humain et du bavide aux scènes à tous les niveaux, comme ils ont pour des scenes statiques », déclare Isik. «Je pense qu’il y a quelque chose de fondamental dans la façon dont les humains» traitent des scènes qui manquent ces modèles. «
Cela suggère que le simple fait d’augmenter la taille des modèles d’IA ou d’ensembles de données de formation d’expansion peut ne pas être suffisant pour surmonter cette limitation. Un changement de paradigme dans l’architecture d’IA, qui imite plus étroitement le traitement du cerveau des informations sociales dynamiques, est probablement nécessaire.Implications et orientations futures
Cette recherche sert de rappel critique que si l’IA a fait des progrès remarquables, il reste loin de reproduire le spectre full de l’intelligence humaine. L’incapacité à comprendre les interactions sociales Sive un obstacle significatif pour le développement de systèmes AI intelligents et adaptatifs.
À l’avenir, les chercheurs devront explorer de nouvelles architectures AI qui priorisent le traitement des informations temporelles, des indices contextuels, et les nuances subtiles du comportement humain. Cela comprend la recherche de modèles qui intègrent des principes de traitement prédictif, de cognition incarnée et de cognition sociale – les domaines qui ont longtemps été au cœur de notre compréhension de l’intelligence humaine.
Section à feuilles persistantes: la quête en cours pour l’intelligence générale artificielle (AGI)
Les limites mises en évidence par les recherches ne sont pas des incidents isolés. Ils représentent un grand public plus large dans la poursuite de l’intelligence générale artificielle (AGI) – AI qui possède des capacités cognitives de niveau humain. Tandis que étroit, Ai excelle à des tâches spécifiques, la réalisation de l’AGI nécessite de reproduire la flexibilité, adaptabilité, et raisonnement de bon sens qui caractérise l’intelligence humaine.
Comprendre les interactions sociales est une pierre angulaire de l’AGI