Les assistants vocaux comme Siri peinent souvent à comprendre les références indirectes aux éléments affichés à l’écran. Pourtant, la capacité à interpréter ces allusions est cruciale pour des interactions naturelles. « Augmente le son de ce film » ou « Partage cette photo avec maman » sont des phrases que les assistants actuels peuvent mal interpréter. Les chercheurs d’Apple ont peut-être trouvé la solution avec ReALM, un système d’intelligence artificielle (IA) révolutionnaire.
ReALM : Donner un sens aux références ambiguës
Le système ReALM (Reference Resolution as Language Modeling) vise à décoder les références ambiguës aux objets à l’écran, ainsi que le contexte conversationnel global. Son secret ? Convertir ce défi complexe de compréhension du langage en un simple problème de modélisation linguistique que l’IA peut résoudre plus facilement.
Recréer l’écran sous forme de texte
ReALM fonctionne en analysant visuellement la disposition de l’écran, puis en reconstruisant son contenu sous forme textuelle détaillée. Il dissèque chaque élément affiché, sa nature, sa position, sa taille, pour générer une représentation écrite complète et structurée. Combiné à un entraînement spécifique sur la résolution des références, ReALM surpasse ainsi largement les capacités actuelles, comme celle du célèbre GPT-4 d’OpenAI.
Des interactions simplifiées avec les appareils
Grâce à ReALM, finie la nécessité de donner des instructions précises à la lettre. Les utilisateurs pourront interagir bien plus naturellement en faisant des références indirectes, implicites, aux éléments affichés. Un véritable bond en avant pour l’ergonomie et la fluidité des assistants vocaux dans divers contextes d’usage, des systèmes d’infodivertissement en voiture à l’assistance aux personnes handicapées.
L’Apple Vision Pro porté par ReALM ?
Le potentiel de ReALM est énorme, notamment pour le tout nouveau casque de réalité augmentée et virtuelle Apple Vision Pro. Imaginez contrôler d’un simple mot ou d’un geste les hologrammes 3D et interfaces projetées, sans avoir à tout décrire explicitement. « Agrandis ce plan », « Montre-moi les commentaires », des commandes simples pour une immersion totale dans les expériences en réalité augmentée.
Apple intensifie ses recherches en IA
Cette avancée n’est que la dernière d’une série de publications d’Apple sur l’intelligence artificielle. Le mois dernier, l’entreprise dévoilait une technique permettant d’intégrer harmonieusement données textuelles et visuelles pour entraîner les modèles linguistiques. De nouvelles fonctionnalités IA majeures sont très attendues à la conférence des développeurs WWDC en juin prochain. ReALM pourrait bien en faire partie et marquer un tournant pour les interactions homme-machine.
Photo de couverture : © Apple