Home Sciences et technologies Les chercheurs Apple présentent Ferret-UI Lite, un modèle d’IA sur appareil pour voir et contrôler les interfaces utilisateur

Les chercheurs Apple présentent Ferret-UI Lite, un modèle d’IA sur appareil pour voir et contrôler les interfaces utilisateur

0 comments 45 views

Publié le 24 février 2026. Apple a dévoilé Ferret-UI Lite, un agent d’intelligence artificielle compact capable d’interagir avec les interfaces graphiques des appareils, ouvrant la voie à une assistance plus personnalisée et respectueuse de la vie privée, potentiellement en réduisant la dépendance de l’entreprise à des services cloud externes.

Ce nouveau modèle, doté de seulement 3 milliards de paramètres, rivalise voire surpasse les performances d’agents bien plus importants, jusqu’à 24 fois plus volumineux. Ferret-UI Lite est conçu pour interpréter les captures d’écran, identifier les éléments d’interface utilisateur tels que les icônes et le texte, et effectuer des actions dans les applications, comme lire des messages ou consulter des données de santé.

L’étude menée par les chercheurs d’Apple souligne un contraste avec les approches actuelles en matière d’agents d’interface graphique. Selon eux, la majorité des méthodes existantes s’appuient sur de vastes modèles de fondation, tels que GPT et Gemini, qui offrent des capacités impressionnantes mais sont gourmands en ressources et présentent des inconvénients en termes de latence, de confidentialité et de connectivité réseau. Les chercheurs expliquent que :

« La majorité des méthodes existantes sur les agents GUI, au contraire, se concentrent sur de grands modèles de fondation »

Pour surmonter ces limitations, l’équipe a développé Ferret-UI Lite en utilisant des techniques optimisées pour les petits modèles. Cela inclut la création d’un ensemble de données diversifié à partir de sources réelles et synthétiques, le renforcement des performances grâce à un raisonnement en chaîne de pensée et à l’utilisation d’outils visuels, ainsi que l’apprentissage par renforcement avec des récompenses spécifiques. Le modèle utilise également le recadrage des images et l’incitation à la chaîne de pensée pour améliorer la précision dans la compréhension des interfaces complexes.

Les résultats obtenus sont prometteurs. Ferret-UI Lite atteint un taux de précision de 91,6 % dans les tâches de mise à la terre de l’interface graphique sur ScreenSpot-V2, 53,3 % sur ScreenSpot-Pro et 61,2 % sur OSWorld-G. Pour la navigation dans les interfaces, il affiche des taux de réussite de 28,0 % sur AndroidWorld et de 19,8 % sur OSWorld. Les chercheurs ont également constaté que les données d’interaction avec l’interface graphique, qu’elles soient réelles ou synthétiques, se complètent et améliorent les performances globales.

La formation du modèle s’est déroulée en deux étapes : un réglage fin supervisé sur un ensemble de données diversifié, suivi d’un apprentissage par renforcement avec récompenses vérifiables, axé sur la réussite des tâches plutôt que sur l’imitation stricte. Des techniques d’optimisation du temps d’inférence, telles que le « zoom avant » et le raisonnement en chaîne de pensée, ont également été intégrées pour améliorer la perception du modèle.

Les chercheurs suggèrent que Ferret-UI Lite pourrait servir d’agent intelligent embarqué sur les appareils Apple, permettant à l’entreprise de réduire sa dépendance à des services cloud externes comme Google Cloud pour Siri et d’offrir une couche de protection supplémentaire en matière de confidentialité.

Plus d’informations sur Ferret-UI Lite sont disponibles sur le site web d’Apple Machine Learning Research.

Leave a Comment

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.