L’IA générative s’est déjà montrée très prometteuse dans le domaine des robots. Les applications incluent les interactions en langage naturel, l'apprentissage des robots, la programmation sans code et même la conception. L'équipe DeepMind Robotics de Google présente cette semaine un autre point idéal entre les deux disciplines : la navigation.
Dans un article intitulé « Mobility VLA : Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs », l'équipe démontre comment elle a implémenté Google Gemini 1.5 Pro pour apprendre à un robot à répondre aux commandes et à naviguer dans un bureau. Naturellement, DeepMind a utilisé certains des robots quotidiens qui traînaient depuis que Google a fermé le projet au milieu de licenciements massifs l'année dernière .
Dans une série de vidéos jointes au projet, les employés de DeepMind s'ouvrent avec un assistant intelligent de type « OK, Robot », avant de demander au système d'effectuer différentes tâches dans l'espace de bureau de 9 000 pieds carrés.
Dans un exemple, un Googleur demande au robot de l’emmener quelque part pour dessiner des objets. "OK", répond le robot, portant un joli nœud papillon jaune, "donnez-moi une minute. Penser avec les Gémeaux… » Le robot conduit ensuite l'humain vers un tableau blanc de la taille d'un mur. Dans une deuxième vidéo, une autre personne dit au robot de suivre les instructions sur le tableau blanc.
Une simple carte montre au robot comment se rendre à la « zone bleue ». Encore une fois, le robot réfléchit un instant avant de faire une longue marche vers ce qui s'avère être une robotique testant tout. « J'ai suivi avec succès les instructions sur le tableau blanc », annonce le robot avec un niveau de confiance en soi dont la plupart des humains ne peuvent que rêver.
Avant ces vidéos, les robots étaient familiarisés avec l’espace à l’aide de ce que l’équipe appelle « la navigation pédagogique multimodale avec visites de démonstration (MINT) ». En fait, cela signifie promener le robot dans le bureau tout en lui indiquant différents points de repère avec la parole. Ensuite, l’équipe utilise la vision-langage-action hiérarchique (VLA) pour « qui combine la compréhension de l’environnement et le pouvoir de raisonnement du bon sens ». Une fois les processus combinés, le robot peut répondre à des commandes écrites et dessinées, ainsi qu'à des gestes.
Google affirme que le robot a eu un taux de réussite d'environ 90 % sur plus de 50 interactions avec les employés.