Novas conquistas da "inteligência incorporada" de Li Feifei! O robô se conecta ao modelo grande e entende diretamente a fala humana e pode concluir instruções complexas sem pré-treinamento
As últimas conquistas da equipe de Li Feifei inteligência incorporada estão aqui:
O modelo grande é conectado ao robô para converter instruções complexas em planos de ação específicos sem dados e treinamento adicionais.
A partir de então, os humanos podem usar livremente a linguagem natural para dar instruções aos robôs, como:
Abra a gaveta de cima e cuidado com os vasos!
O grande modelo de linguagem + modelo de linguagem visual pode analisar o alvo e os obstáculos que precisam ser contornados do espaço 3D, ajudando o robô a fazer o planejamento da ação.
Então, o ponto chave é que os robôs no mundo real podem executar esta tarefa diretamente sem "treinamento".
O novo método realiza a síntese de trajetória de tarefa de operação diária de amostra zero, ou seja, tarefas que o robô nunca viu antes podem ser executadas de uma só vez, sem sequer dar a ele uma demonstração.
Os objetos operáveis também estão abertos. Você não precisa delinear o alcance com antecedência. Você pode abrir a garrafa, pressionar o botão e desconectar o cabo de carregamento.
Atualmente, a homepage e os artigos do projeto estão online, e o código será lançado em breve, e tem despertado grande interesse na comunidade acadêmica.
Um ex-pesquisador da Microsoft comentou: Esta pesquisa está na fronteira mais importante e complexa dos sistemas de inteligência artificial.
Específico para a comunidade de pesquisa de robôs, alguns colegas disseram que abriu um novo mundo para o campo de planejamento de movimento.
Também existem pessoas que não viram o perigo da IA, mas por causa dessa pesquisa sobre IA combinada com robôs, mudaram de opinião.
**Como um robô pode entender a fala humana diretamente? **
A equipe de Li Feifei batizou o sistema de VoxPoser, conforme mostra a figura abaixo, seu princípio é muito simples.
Primeiro, dadas as informações do ambiente (coleta de imagens RGB-D com a câmera) e as instruções de linguagem natural que queremos executar.
Em seguida, o LLM (Large Language Model) escreve o código com base nesses conteúdos e o código gerado interage com o VLM (Visual Language Model) para orientar o sistema a gerar um mapa de instruções de operação correspondente, ou seja, 3D Value Map.
O chamado Mapa de Valor 3D, que é o termo geral para Mapa de Acessibilidade e Mapa de Restrição, marca tanto "onde agir" quanto "como agir"**.
Desta forma, o planejador de ações é deslocado, e o mapa 3D gerado é utilizado como sua função objetivo para sintetizar a trajetória final da operação a ser executada.
A partir desse processo, podemos ver que, em comparação com o método tradicional, é necessário um pré-treinamento adicional. Esse método usa um modelo grande para orientar o robô como interagir com o ambiente, resolvendo diretamente o problema de escassez de dados de treinamento do robô .
Além disso, é precisamente por causa desse recurso que ele também realiza a capacidade de amostra zero.Desde que o processo básico acima seja dominado, qualquer tarefa pode ser realizada.
Na implementação específica, o autor transformou a ideia do VoxPoser em um problema de otimização, ou seja, a seguinte fórmula complexa:
Ele leva em consideração que as instruções dadas por humanos podem ter um amplo alcance e exigir compreensão contextual, por isso as instruções são desmontadas em várias subtarefas. Por exemplo, o primeiro exemplo no início consiste em "pegar a alça da gaveta" e "puxar a gaveta".
O que o VoxPoser deseja alcançar é otimizar cada subtarefa, obter uma série de trajetórias de robôs e, finalmente, minimizar a carga de trabalho total e o tempo de trabalho.
No processo de usar LLM e VLM para mapear instruções de linguagem em mapas 3D, o sistema considera que a linguagem pode transmitir um rico espaço semântico, por isso usa "entidade de interesse(entidade de interesse)" para guiar o robô para operam , ou seja, através do valor marcado no 3DValue Map para refletir qual objeto é "atraente" para ele e quais são "repulsivos".
Ainda usando o exemplo do início 🌰, a gaveta "atrai" e o vaso "repele".
Claro, como gerar esses valores depende da capacidade de compreensão do grande modelo de linguagem.
No processo de síntese da trajetória final, uma vez que a saída do modelo de linguagem permanece constante durante toda a tarefa, podemos reavaliar rapidamente ao encontrar distúrbios armazenando em cache sua saída e reavaliando o código gerado usando feedback visual de loop fechado.
Portanto, VoxPoser tem uma forte capacidade anti-interferência.
△ Coloque o papel usado na bandeja azul
A seguir estão os desempenhos do VoxPoser nos ambientes reais e simulados (medidos pela taxa média de sucesso):
Pode-se ver que é significativamente maior do que a tarefa de linha de base baseada em primitiva, independentemente do ambiente (com ou sem distratores, se as instruções são visíveis ou não).
Por fim, o autor ficou agradavelmente surpreso ao descobrir que o VoxPoser produziu 4 "habilidades emergentes":
(1) Avalie as características físicas, como dados dois blocos de massa desconhecida, deixe o robô usar ferramentas para realizar experimentos físicos para determinar qual bloco é mais pesado;
(2) Raciocínio comportamental de bom senso, como na tarefa de colocar talheres, diz ao robô "eu sou canhoto" e ele pode entender o significado através do contexto;
(3) Correção minuciosa.Por exemplo, ao executar tarefas que exigem alta precisão como "tapar o bule", podemos enviar instruções precisas ao robô como "você se desviou 1 cm" para corrigir sua operação;
(4) Operações multietapas baseadas na visão, como pedir ao robô para abrir a gaveta ao meio com precisão. A falta de informação devido à falta de um modelo de objeto pode impedir o robô de realizar tal tarefa, mas o VoxPoser pode propor uma estratégia de operação em várias etapas com base no feedback visual, ou seja, primeiro abra totalmente a gaveta enquanto registra o deslocamento da alça e, em seguida, empurre-a de volta ao ponto médio para atender aos requisitos.
Fei-Fei Li: As 3 Estrelas do Norte da Visão Computacional
Há cerca de um ano, Li Feifei escreveu um artigo no Journal of the American Academy of Arts and Sciences, apontando três direções para o desenvolvimento da visão computacional:
IA incorporada
Raciocínio visual
Entendimento da cena
Li Feifei acredita que a inteligência incorporada não se refere apenas a robôs humanóides, mas qualquer máquina inteligente tangível que pode se mover no espaço é uma forma de inteligência artificial.
Assim como o ImageNet visa representar uma ampla variedade de imagens do mundo real, a pesquisa de inteligência incorporada precisa abordar tarefas humanas complexas e diversas, desde dobrar roupas até explorar novas cidades.
Seguir as instruções para executar essas tarefas requer visão, mas não apenas visão, mas também raciocínio visual para compreender as relações tridimensionais na cena.
Finalmente, a máquina deve entender as pessoas na cena, incluindo as intenções humanas e as relações sociais. Por exemplo, ver uma pessoa abrindo a geladeira pode dizer que ela está com fome, ou ver uma criança sentada no colo de um adulto pode dizer que é pai-filho.
Robôs combinados com modelos grandes podem ser apenas uma maneira de resolver esses problemas.
Além de Li Feifei, o ex-aluno de Tsinghua Yaoban Wu Jiajun, que se formou no MIT com um Ph.D. e agora é professor assistente na Universidade de Stanford, participou desta pesquisa.
O primeiro autor da tese, Wenlong Huang, é agora aluno de doutorado em Stanford e participou da pesquisa PaLM-E durante seu estágio no Google.
Endereço de papel:
Página inicial do projeto:
Link de referência:
[1]
[1]
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Novas conquistas da "inteligência incorporada" de Li Feifei! O robô se conecta ao modelo grande e entende diretamente a fala humana e pode concluir instruções complexas sem pré-treinamento
Fonte: Qubit See More
As últimas conquistas da equipe de Li Feifei inteligência incorporada estão aqui:
O modelo grande é conectado ao robô para converter instruções complexas em planos de ação específicos sem dados e treinamento adicionais.
Os objetos operáveis também estão abertos. Você não precisa delinear o alcance com antecedência. Você pode abrir a garrafa, pressionar o botão e desconectar o cabo de carregamento.
**Como um robô pode entender a fala humana diretamente? **
A equipe de Li Feifei batizou o sistema de VoxPoser, conforme mostra a figura abaixo, seu princípio é muito simples.
Em seguida, o LLM (Large Language Model) escreve o código com base nesses conteúdos e o código gerado interage com o VLM (Visual Language Model) para orientar o sistema a gerar um mapa de instruções de operação correspondente, ou seja, 3D Value Map.
A partir desse processo, podemos ver que, em comparação com o método tradicional, é necessário um pré-treinamento adicional. Esse método usa um modelo grande para orientar o robô como interagir com o ambiente, resolvendo diretamente o problema de escassez de dados de treinamento do robô .
Além disso, é precisamente por causa desse recurso que ele também realiza a capacidade de amostra zero.Desde que o processo básico acima seja dominado, qualquer tarefa pode ser realizada.
Na implementação específica, o autor transformou a ideia do VoxPoser em um problema de otimização, ou seja, a seguinte fórmula complexa:
O que o VoxPoser deseja alcançar é otimizar cada subtarefa, obter uma série de trajetórias de robôs e, finalmente, minimizar a carga de trabalho total e o tempo de trabalho.
No processo de usar LLM e VLM para mapear instruções de linguagem em mapas 3D, o sistema considera que a linguagem pode transmitir um rico espaço semântico, por isso usa "entidade de interesse(entidade de interesse)" para guiar o robô para operam , ou seja, através do valor marcado no 3DValue Map para refletir qual objeto é "atraente" para ele e quais são "repulsivos".
Claro, como gerar esses valores depende da capacidade de compreensão do grande modelo de linguagem.
No processo de síntese da trajetória final, uma vez que a saída do modelo de linguagem permanece constante durante toda a tarefa, podemos reavaliar rapidamente ao encontrar distúrbios armazenando em cache sua saída e reavaliando o código gerado usando feedback visual de loop fechado.
Portanto, VoxPoser tem uma forte capacidade anti-interferência.
A seguir estão os desempenhos do VoxPoser nos ambientes reais e simulados (medidos pela taxa média de sucesso):
Por fim, o autor ficou agradavelmente surpreso ao descobrir que o VoxPoser produziu 4 "habilidades emergentes":
(1) Avalie as características físicas, como dados dois blocos de massa desconhecida, deixe o robô usar ferramentas para realizar experimentos físicos para determinar qual bloco é mais pesado;
(2) Raciocínio comportamental de bom senso, como na tarefa de colocar talheres, diz ao robô "eu sou canhoto" e ele pode entender o significado através do contexto;
(3) Correção minuciosa.Por exemplo, ao executar tarefas que exigem alta precisão como "tapar o bule", podemos enviar instruções precisas ao robô como "você se desviou 1 cm" para corrigir sua operação;
(4) Operações multietapas baseadas na visão, como pedir ao robô para abrir a gaveta ao meio com precisão. A falta de informação devido à falta de um modelo de objeto pode impedir o robô de realizar tal tarefa, mas o VoxPoser pode propor uma estratégia de operação em várias etapas com base no feedback visual, ou seja, primeiro abra totalmente a gaveta enquanto registra o deslocamento da alça e, em seguida, empurre-a de volta ao ponto médio para atender aos requisitos.
Fei-Fei Li: As 3 Estrelas do Norte da Visão Computacional
Há cerca de um ano, Li Feifei escreveu um artigo no Journal of the American Academy of Arts and Sciences, apontando três direções para o desenvolvimento da visão computacional:
Assim como o ImageNet visa representar uma ampla variedade de imagens do mundo real, a pesquisa de inteligência incorporada precisa abordar tarefas humanas complexas e diversas, desde dobrar roupas até explorar novas cidades.
Seguir as instruções para executar essas tarefas requer visão, mas não apenas visão, mas também raciocínio visual para compreender as relações tridimensionais na cena.
Finalmente, a máquina deve entender as pessoas na cena, incluindo as intenções humanas e as relações sociais. Por exemplo, ver uma pessoa abrindo a geladeira pode dizer que ela está com fome, ou ver uma criança sentada no colo de um adulto pode dizer que é pai-filho.
Robôs combinados com modelos grandes podem ser apenas uma maneira de resolver esses problemas.