Нові досягнення «втіленого інтелекту» Лі Фейфея! Робот підключається до великої моделі та безпосередньо розуміє людську мову, а також може виконувати складні інструкції без попереднього навчання
Останні досягнення команди Лі Фейфея втіленого інтелекту тут:
Велика модель підключена до робота, щоб перетворювати складні інструкції в конкретні плани дій без додаткових даних і навчання.
Відтоді люди можуть вільно використовувати природну мову, щоб давати інструкції роботам, наприклад:
Відкрийте верхню шухляду й стежте за вазами!
Велика мовна модель + візуальна мовна модель може аналізувати ціль і перешкоди, які потрібно обійти з 3D-простору, допомагаючи роботу планувати дії.
Тоді ключовим моментом є те, що роботи в реальному світі можуть безпосередньо виконувати це завдання без «навчання».
Новий метод реалізує синтез траєкторії щоденних операцій з нульовою вибіркою, тобто завдання, яких робот ніколи раніше не бачив, можна виконувати одночасно, навіть не показуючи йому демонстрацію.
Об’єкти, які можна використовувати, також відкриті, заздалегідь окреслювати діапазон не потрібно, можна відкрити пляшку, натиснути вимикач і від’єднати кабель зарядки.
Наразі домашня сторінка проекту та документи доступні в мережі, а код буде опубліковано незабаром і викликав широкий інтерес в академічній спільноті.
Колишній дослідник Microsoft прокоментував: це дослідження є найважливішим і складним рубежем систем штучного інтелекту.
Що стосується дослідницької спільноти роботів, деякі колеги сказали, що це відкрило новий світ для галузі планування руху.
Є також люди, які не бачили небезпеки штучного інтелекту, але через дослідження штучного інтелекту в поєднанні з роботами вони змінили свої погляди.
**Як робот може безпосередньо розуміти людську мову? **
Команда Лі Фейфея назвала систему VoxPoser, як показано на малюнку нижче, її принцип дуже простий.
По-перше, враховуючи інформацію про середовище (збір зображень RGB-D за допомогою камери) та інструкції природною мовою, які ми хочемо виконати.
Потім LLM (велика мовна модель) пише код на основі цього вмісту, а згенерований код взаємодіє з VLM (візуальною мовною моделлю), щоб направляти систему для створення відповідної карти інструкцій з операцій, а саме 3D Value Map.
Так звана 3D Value Map, яка є загальним терміном для карти доступності та карти обмежень, позначає як «де діяти», так і «як діяти»**.
Таким чином, планувальник дій переміщується, а згенерована 3D-карта використовується як цільова функція для синтезу кінцевої траєкторії операції, яку потрібно виконати.
З цього процесу ми бачимо, що порівняно з традиційним методом потрібне додаткове попереднє навчання. Цей метод використовує велику модель, щоб керувати роботом, як взаємодіяти з навколишнім середовищем, тому він безпосередньо вирішує проблему дефіциту даних навчання роботів .
Крім того, саме завдяки цій функції він також реалізує можливість нульової вибірки.Поки вищезазначений базовий процес освоєно, будь-яке завдання можна виконати.
У конкретній реалізації автор перетворив ідею VoxPoser в задачу оптимізації, тобто наступну складну формулу:
Він бере до уваги, що інструкції, які надає людина, можуть мати широкий діапазон і вимагати контекстуального розуміння, тому інструкції розбираються на багато підзавдань. Наприклад, перший приклад на початку складається з «взяти ручку ящика» та «потягнути за ящик».
VoxPoser хоче оптимізувати кожне підзавдання, отримати серію траєкторій роботів і, нарешті, мінімізувати загальне навантаження та робочий час.
У процесі використання LLM і VLM для відображення мовних інструкцій у 3D-картах система вважає, що мова може передавати багатий семантичний простір, тому вона використовує "сутність інтересу (сутність інтересу)", щоб направити робота до оперувати, тобто через значення, позначене на карті значень 3DValue, щоб відобразити, який об’єкт є для нього «привабливим», а ці об’єкти «відразливими».
Використовуючи приклад на початку 🌰, шухляда «притягує», а ваза «відштовхує».
Звичайно, те, як генерувати ці значення, залежить від здатності розуміння великої мовної моделі.
У процесі остаточного синтезу траєкторії, оскільки вихід мовної моделі залишається постійним протягом усього завдання, ми можемо швидко повторно оцінити, коли стикаємося з перешкодами, кешуючи його вихід і повторно оцінюючи згенерований код за допомогою замкнутого циклу візуального зворотного зв’язку.
Таким чином, VoxPoser має потужну здатність запобігати перешкодам.
△ Покладіть макулатуру в синій лоток
Нижче наведено продуктивність VoxPoser у реальному та змодельованому середовищах (вимірюється середнім показником успіху):
Можна побачити, що воно значно вище, ніж базове завдання на основі примітивів, незалежно від середовища (з відволікаючими елементами чи без них, видимі інструкції чи ні).
Нарешті, автор був приємно здивований, виявивши, що VoxPoser створив 4 «виникаючі здібності»:
(1) Оцініть фізичні характеристики, наприклад, задані два блоки невідомої маси, дозвольте роботу використовувати інструменти для проведення фізичних експериментів, щоб визначити, який блок важчий;
(2) Поведінкові міркування здорового глузду, наприклад, у завданні розставляти посуд, скажіть роботу «Я лівша», і він зможе зрозуміти значення через контекст;
(3) Точна корекція. Наприклад, під час виконання завдань, які вимагають високої точності, наприклад «накрити чайник», ми можемо видати точні інструкції роботу, наприклад «ви відхилилися на 1 см», щоб виправити його роботу;
(4) Багатоетапні операції на основі зору, наприклад запити робота точно відкрити шухляду навпіл. Брак інформації через відсутність об’єктної моделі може завадити роботу виконати таке завдання, але VoxPoser може запропонувати багатоетапна стратегія роботи, заснована на візуальному зворотному зв’язку.Тобто спочатку повністю відкрийте шухляду, записуючи зміщення ручки, а потім натисніть її назад до середини, щоб відповідати вимогам.
Фей-Фей Лі: 3 північні зірки комп’ютерного зору
Близько року тому Лі Фейфей написав статтю в журналі Американської академії мистецтв і наук, вказавши три напрямки розвитку комп’ютерного зору:
Втілений ШІ
Візуальне міркування
Розуміння сцени
Лі Фейфей вважає, що втілений інтелект стосується не лише гуманоїдних роботів, але будь-яка відчутна розумна машина, яка може пересуватися в просторі, є формою штучного інтелекту.
Подібно до того, як ImageNet прагне представляти широкий спектр зображень реального світу, дослідження втіленого інтелекту потребує вирішення складних і різноманітних людських завдань, від складання білизни до дослідження нових міст.
Виконання інструкцій для виконання цих завдань вимагає бачення, але не тільки бачення, а й візуального мислення для розуміння тривимірних зв’язків у сцені.
Нарешті, машина повинна розуміти людей на сцені, включаючи людські наміри та соціальні стосунки. Наприклад, якщо людина відкриває холодильник, це означає, що вона голодна, або дитина, яка сидить на колінах у дорослого, може свідчити про те, що вони батьки-дитина.
Роботи в поєднанні з великими моделями можуть бути лише одним із способів вирішення цих проблем.
Окрім Лі Фейфея, у цьому дослідженні брав участь випускник Цінхуа Яобань Ву Цзяцзюнь, який закінчив Массачусетський технологічний інститут зі ступенем доктора філософії та зараз є доцентом Стенфордського університету.
Перший автор дисертації, Веньлун Хуан, зараз є докторантом у Стенфорді та брав участь у дослідженні PaLM-E під час свого стажування в Google.
Адреса паперу:
Домашня сторінка проекту:
Посилання на посилання:
[1]
[1]
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Нові досягнення «втіленого інтелекту» Лі Фейфея! Робот підключається до великої моделі та безпосередньо розуміє людську мову, а також може виконувати складні інструкції без попереднього навчання
Джерело: Qubit
Останні досягнення команди Лі Фейфея втіленого інтелекту тут:
Велика модель підключена до робота, щоб перетворювати складні інструкції в конкретні плани дій без додаткових даних і навчання.
Об’єкти, які можна використовувати, також відкриті, заздалегідь окреслювати діапазон не потрібно, можна відкрити пляшку, натиснути вимикач і від’єднати кабель зарядки.
**Як робот може безпосередньо розуміти людську мову? **
Команда Лі Фейфея назвала систему VoxPoser, як показано на малюнку нижче, її принцип дуже простий.
Потім LLM (велика мовна модель) пише код на основі цього вмісту, а згенерований код взаємодіє з VLM (візуальною мовною моделлю), щоб направляти систему для створення відповідної карти інструкцій з операцій, а саме 3D Value Map.
З цього процесу ми бачимо, що порівняно з традиційним методом потрібне додаткове попереднє навчання. Цей метод використовує велику модель, щоб керувати роботом, як взаємодіяти з навколишнім середовищем, тому він безпосередньо вирішує проблему дефіциту даних навчання роботів .
Крім того, саме завдяки цій функції він також реалізує можливість нульової вибірки.Поки вищезазначений базовий процес освоєно, будь-яке завдання можна виконати.
У конкретній реалізації автор перетворив ідею VoxPoser в задачу оптимізації, тобто наступну складну формулу:
VoxPoser хоче оптимізувати кожне підзавдання, отримати серію траєкторій роботів і, нарешті, мінімізувати загальне навантаження та робочий час.
У процесі використання LLM і VLM для відображення мовних інструкцій у 3D-картах система вважає, що мова може передавати багатий семантичний простір, тому вона використовує "сутність інтересу (сутність інтересу)", щоб направити робота до оперувати, тобто через значення, позначене на карті значень 3DValue, щоб відобразити, який об’єкт є для нього «привабливим», а ці об’єкти «відразливими».
Звичайно, те, як генерувати ці значення, залежить від здатності розуміння великої мовної моделі.
У процесі остаточного синтезу траєкторії, оскільки вихід мовної моделі залишається постійним протягом усього завдання, ми можемо швидко повторно оцінити, коли стикаємося з перешкодами, кешуючи його вихід і повторно оцінюючи згенерований код за допомогою замкнутого циклу візуального зворотного зв’язку.
Таким чином, VoxPoser має потужну здатність запобігати перешкодам.
Нижче наведено продуктивність VoxPoser у реальному та змодельованому середовищах (вимірюється середнім показником успіху):
Нарешті, автор був приємно здивований, виявивши, що VoxPoser створив 4 «виникаючі здібності»:
(1) Оцініть фізичні характеристики, наприклад, задані два блоки невідомої маси, дозвольте роботу використовувати інструменти для проведення фізичних експериментів, щоб визначити, який блок важчий;
(2) Поведінкові міркування здорового глузду, наприклад, у завданні розставляти посуд, скажіть роботу «Я лівша», і він зможе зрозуміти значення через контекст;
(3) Точна корекція. Наприклад, під час виконання завдань, які вимагають високої точності, наприклад «накрити чайник», ми можемо видати точні інструкції роботу, наприклад «ви відхилилися на 1 см», щоб виправити його роботу;
(4) Багатоетапні операції на основі зору, наприклад запити робота точно відкрити шухляду навпіл. Брак інформації через відсутність об’єктної моделі може завадити роботу виконати таке завдання, але VoxPoser може запропонувати багатоетапна стратегія роботи, заснована на візуальному зворотному зв’язку.Тобто спочатку повністю відкрийте шухляду, записуючи зміщення ручки, а потім натисніть її назад до середини, щоб відповідати вимогам.
Фей-Фей Лі: 3 північні зірки комп’ютерного зору
Близько року тому Лі Фейфей написав статтю в журналі Американської академії мистецтв і наук, вказавши три напрямки розвитку комп’ютерного зору:
Подібно до того, як ImageNet прагне представляти широкий спектр зображень реального світу, дослідження втіленого інтелекту потребує вирішення складних і різноманітних людських завдань, від складання білизни до дослідження нових міст.
Виконання інструкцій для виконання цих завдань вимагає бачення, але не тільки бачення, а й візуального мислення для розуміння тривимірних зв’язків у сцені.
Нарешті, машина повинна розуміти людей на сцені, включаючи людські наміри та соціальні стосунки. Наприклад, якщо людина відкриває холодильник, це означає, що вона голодна, або дитина, яка сидить на колінах у дорослого, може свідчити про те, що вони батьки-дитина.
Роботи в поєднанні з великими моделями можуть бути лише одним із способів вирішення цих проблем.