Les nouvelles réalisations de "l'intelligence incarnée" de Li Feifei ! Le robot se connecte au grand modèle et comprend directement la parole humaine, et peut exécuter des instructions complexes sans aucune formation préalable

Source : Qubit

Les dernières réalisations de l'équipe intelligence incarnée de Li Feifei sont ici :

Le grand modèle est connecté au robot pour convertir des instructions complexes en plans d'action spécifiques sans données ni formation supplémentaires.

Dès lors, les humains peuvent librement utiliser le langage naturel pour donner des instructions aux robots, telles que :

Ouvrez le tiroir du haut et attention aux vases !

Le grand modèle de langage + modèle de langage visuel peut analyser la cible et les obstacles qui doivent être contournés depuis l'espace 3D, aidant le robot à planifier des actions.

Ensuite, le point clé est que les robots dans le monde réel peuvent directement effectuer cette tâche sans "formation".

La nouvelle méthode réalise une synthèse de trajectoire de tâche d'opération quotidienne sans échantillon, c'est-à-dire que des tâches que le robot n'a jamais vues auparavant peuvent être effectuées en une seule fois, sans même lui faire de démonstration.

Les objets utilisables sont également ouverts. Vous n'avez pas besoin de délimiter la plage à l'avance. Vous pouvez ouvrir la bouteille, appuyer sur l'interrupteur et débrancher le câble de charge.

À l'heure actuelle, la page d'accueil et les documents du projet sont en ligne, et le code sera bientôt publié, et a suscité un large intérêt dans la communauté universitaire.

Un ancien chercheur de Microsoft a commenté : Cette recherche se situe à la frontière la plus importante et la plus complexe des systèmes d'intelligence artificielle.

Spécifique à la communauté de recherche sur les robots, certains collègues ont déclaré que cela ouvrait un nouveau monde pour le domaine de la planification de mouvement.

Il y a aussi des gens qui ne voyaient pas le danger de l'IA, mais à cause de ces recherches sur l'IA combinées aux robots, ils ont changé d'avis.

**Comment un robot peut-il comprendre directement la parole humaine ? **

L'équipe de Li Feifei a nommé le système VoxPoser, comme le montre la figure ci-dessous, son principe est très simple.

Tout d'abord, compte tenu des informations sur l'environnement (collecte d'images RVB-D avec la caméra) et des instructions en langage naturel que nous voulons exécuter.

Ensuite, LLM (Large Language Model) écrit du code basé sur ces contenus, et le code généré interagit avec VLM (Visual Language Model) pour guider le système afin de générer une carte d'instructions d'opération correspondante, à savoir 3D Value Map.

La soi-disant 3D Value Map, qui est le terme général pour Affordance Map et Constraint Map, indique à la fois "où agir" et "comment agir"**.

De cette façon, le planificateur d'action est sorti, et la carte 3D générée est utilisée comme fonction objectif pour synthétiser la trajectoire finale de l'opération à exécuter.

De ce processus, nous pouvons voir que par rapport à la méthode traditionnelle, une pré-formation supplémentaire est nécessaire.Cette méthode utilise un grand modèle pour guider le robot sur la façon d'interagir avec l'environnement, ce qui résout directement le problème de la rareté des données de formation du robot. .

De plus, c'est précisément à cause de cette fonctionnalité qu'il réalise également la capacité d'échantillon zéro.Tant que le processus de base ci-dessus est maîtrisé, n'importe quelle tâche donnée peut être effectuée.

Dans l'implémentation spécifique, l'auteur a transformé l'idée de VoxPoser en un problème d'optimisation, c'est-à-dire la formule complexe suivante :

Il prend en compte le fait que les instructions données par les humains peuvent avoir un large éventail et nécessitent une compréhension contextuelle, de sorte que les instructions sont désassemblées en plusieurs sous-tâches. Par exemple, le premier exemple au début consiste à "saisir la poignée du tiroir" et "tirer le tiroir".

Ce que VoxPoser veut réaliser, c'est optimiser chaque sous-tâche, obtenir une série de trajectoires de robot, et enfin minimiser la charge de travail totale et le temps de travail.

Dans le processus d'utilisation de LLM et VLM pour mapper les instructions de langage dans des cartes 3D, le système considère que le langage peut véhiculer un espace sémantique riche, il utilise donc "** entité d'intérêt ** (entité d'intérêt)" pour guider le robot vers opera , c'est-à-dire via la valeur marquée dans la carte 3DValue pour refléter quel objet est "attirant" pour elle, et ces objets sont "répulsifs".

Toujours en reprenant l'exemple du début 🌰, le tiroir est "attirant", et le vase est "repoussant".

Bien entendu, la manière de générer ces valeurs dépend de la capacité de compréhension du grand modèle de langage.

Dans le processus de synthèse de trajectoire finale, puisque la sortie du modèle de langage reste constante tout au long de la tâche, nous pouvons réévaluer rapidement lorsque nous rencontrons des perturbations en mettant en cache sa sortie et en réévaluant le code généré à l'aide d'un retour visuel en boucle fermée.

Par conséquent, VoxPoser a une forte capacité anti-interférence.

△ Mettez les vieux papiers dans le bac bleu

Voici les performances de VoxPoser dans les environnements réels et simulés (mesurées par le taux de réussite moyen) :

On peut voir qu'elle est significativement plus élevée que la tâche de base basée sur les primitives quel que soit l'environnement (avec ou sans distracteurs, que les instructions soient visibles ou non).

Enfin, l'auteur a été agréablement surpris de constater que VoxPoser produisait 4 "capacités émergentes" :

(1) évaluer les caractéristiques physiques, telles que deux blocs de masse inconnue, laisser le robot utiliser des outils pour mener des expériences physiques afin de déterminer quel bloc est le plus lourd ;

(2) Raisonnement comportemental de bon sens, comme dans la tâche de mettre de la vaisselle, dire au robot "Je suis gaucher", et il peut comprendre le sens à travers le contexte ;

(3) Correction fine Par exemple, lors de l'exécution de tâches nécessitant une grande précision telles que "couvrir la théière", nous pouvons donner des instructions précises au robot telles que "tu as dévié de 1 cm" pour corriger son fonctionnement ;

(4) Opérations en plusieurs étapes basées sur la vision, comme demander au robot d'ouvrir avec précision le tiroir en deux. Le manque d'informations dû à l'absence d'un modèle d'objet peut empêcher le robot d'effectuer une telle tâche, mais VoxPoser peut proposer une stratégie de fonctionnement en plusieurs étapes basée sur le retour visuel, c'est-à-dire qu'il faut d'abord ouvrir complètement le tiroir tout en enregistrant le déplacement de la poignée, puis le repousser jusqu'au point médian pour répondre aux exigences.

Fei-Fei Li : les 3 étoiles du nord de la vision par ordinateur

Il y a environ un an, Li Feifei a écrit un article dans le Journal of the American Academy of Arts and Sciences, soulignant trois directions pour le développement de la vision par ordinateur :

  • IA incarnée
  • Raisonnement visuel
  • Compréhension de la scène

Li Feifei pense que l'intelligence incarnée ne se réfère pas seulement aux robots humanoïdes, mais que toute machine intelligente tangible qui peut se déplacer dans l'espace est une forme d'intelligence artificielle.

Tout comme ImageNet vise à représenter une grande variété d'images du monde réel, la recherche sur l'intelligence incarnée doit aborder des tâches humaines complexes et diverses, du pliage du linge à l'exploration de nouvelles villes.

Suivre les instructions pour effectuer ces tâches nécessite de la vision, mais pas seulement de la vision, mais aussi un raisonnement visuel pour comprendre les relations tridimensionnelles dans la scène.

Enfin, la machine doit comprendre les personnes présentes sur la scène, y compris les intentions humaines et les relations sociales. Par exemple, voir une personne ouvrir le réfrigérateur peut dire qu'il a faim, ou voir un enfant assis sur les genoux d'un adulte peut dire qu'il est parent-enfant.

Les robots combinés à de grands modèles peuvent n'être qu'un moyen de résoudre ces problèmes.

En plus de Li Feifei, l'ancien élève de Tsinghua Yaoban ** Wu Jiajun **, diplômé du MIT avec un doctorat et maintenant professeur adjoint à l'Université de Stanford, a participé à cette recherche.

Le premier auteur de la thèse, Wenlong Huang, est aujourd'hui doctorant à Stanford et a participé à la recherche PaLM-E lors de son stage chez Google.

Adresse papier : Page d'accueil du projet : Lien de référence : [1] [1]

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)