إنجازات Li Feifei الجديدة "الاستخباراتية المجسدة"! يتصل الروبوت بالنموذج الكبير ويفهم بشكل مباشر الكلام البشري ، ويمكنه إكمال التعليمات المعقدة بدون تدريب مسبق
أحدث إنجازات فريق Li Feifei ** الذكاء المجسد ** هنا:
النموذج الكبير متصل بالروبوت لتحويل التعليمات المعقدة إلى خطط عمل محددة بدون بيانات وتدريب إضافي.
منذ ذلك الحين ، يمكن للبشر استخدام اللغة الطبيعية بحرية لإعطاء التعليمات للروبوتات ، مثل:
افتح الدرج العلوي واحترس من المزهريات!
يمكن للنموذج اللغوي الكبير + نموذج اللغة المرئية تحليل الهدف والعقبات التي يجب تجاوزها من الفضاء ثلاثي الأبعاد ، مما يساعد الروبوت على التخطيط للعمل.
ثم النقطة الأساسية هي أن الروبوتات في ** العالم الحقيقي ** يمكنها أداء هذه المهمة مباشرة دون "تدريب".
تحقق الطريقة الجديدة توليفًا لمسار مهمة التشغيل اليومي بعينة صفرية ، أي أن المهام التي لم يسبق للروبوت رؤيتها من قبل يمكن تنفيذها في وقت واحد ، حتى دون إعطائه شرحًا توضيحيًا.
الكائنات القابلة للتشغيل مفتوحة أيضًا. لست بحاجة إلى تحديد النطاق مسبقًا. يمكنك فتح الزجاجة والضغط على المفتاح وفصل كابل الشحن.
في الوقت الحالي ، الصفحة الرئيسية للمشروع والأوراق البحثية متاحة على الإنترنت ، وسيتم إصدار الكود قريبًا ، وقد أثار اهتمامًا واسع النطاق في المجتمع الأكاديمي.
وعلق باحث سابق بشركة مايكروسوفت بقولها: هذا البحث في طليعة أهم أنظمة الذكاء الاصطناعي وأكثرها تعقيدًا.
قال بعض الزملاء ، تحديدًا لمجتمع أبحاث الروبوت ، إنه فتح عالمًا جديدًا لمجال تخطيط الحركة.
هناك أيضًا أشخاص لم يروا خطر الذكاء الاصطناعي ، ولكن بسبب هذا البحث عن الذكاء الاصطناعي جنبًا إلى جنب مع الروبوتات ، فقد غيروا وجهات نظرهم.
** كيف يمكن للروبوت فهم كلام الإنسان بشكل مباشر؟ **
أطلق فريق Li Feifei على نظام VoxPoser ، كما هو موضح في الشكل أدناه ، مبدأه بسيط للغاية.
أولاً ، بالنظر إلى معلومات البيئة (جمع صور RGB-D بالكاميرا) وإرشادات اللغة الطبيعية التي نريد تنفيذها.
بعد ذلك ، يكتب LLM (نموذج اللغة الكبيرة) رمزًا بناءً على هذه المحتويات ، ويتفاعل الرمز الذي تم إنشاؤه مع VLM (نموذج اللغة المرئية) لتوجيه النظام لإنشاء خريطة تعليمات عملية مقابلة ، وهي ** خريطة القيمة ثلاثية الأبعاد **.
تشير ما يسمى بـ 3D Value Map ، وهو المصطلح العام لخريطة Affordance و Constraint Map ، إلى كلٍّ من ** "أين تتصرف" ** و "كيف تتصرف" **.
بهذه الطريقة ، يتم نقل مخطط العمل للخارج ، ويتم استخدام الخريطة ثلاثية الأبعاد التي تم إنشاؤها كوظيفة موضوعية لتجميع مسار العملية النهائي الذي سيتم تنفيذه.
من خلال هذه العملية ، يمكننا أن نرى أنه مقارنة بالطريقة التقليدية ، يلزم تدريب إضافي مسبق. تستخدم هذه الطريقة نموذجًا كبيرًا لتوجيه الروبوت في كيفية التفاعل مع البيئة ، لذلك فهي تحل بشكل مباشر مشكلة ندرة بيانات تدريب الروبوت .
علاوة على ذلك ، وبسبب هذه الميزة بالتحديد ، فإنها تدرك أيضًا قدرة العينة الصفرية.طالما تم إتقان العملية الأساسية المذكورة أعلاه ، يمكن عقد أي مهمة معينة.
في التنفيذ المحدد ، حول المؤلف فكرة VoxPoser إلى مشكلة تحسين ، أي الصيغة المعقدة التالية:
يأخذ في الاعتبار أن التعليمات الصادرة عن البشر قد يكون لها نطاق واسع وتتطلب فهمًا للسياق ، لذلك يتم تفكيك التعليمات في العديد من المهام الفرعية. على سبيل المثال ، يتكون المثال الأول في البداية من "الاستيلاء على مقبض الدرج" و "فتح الدرج".
ما يريد VoxPoser تحقيقه هو تحسين كل مهمة فرعية ، والحصول على سلسلة من مسارات الروبوت ، وأخيراً تقليل إجمالي عبء العمل ووقت العمل.
في عملية استخدام LLM و VLM لتعيين تعليمات اللغة في خرائط ثلاثية الأبعاد ، يعتبر النظام أن اللغة يمكن أن تنقل مساحة دلالية غنية ، لذلك فهي تستخدم "** كيانًا مهمًا ** (كيانًا مهمًا)" لتوجيه الروبوت إلى تعمل ، أي من خلال القيمة المحددة في خريطة 3DValue لتعكس أي كائن "جذاب" لها ، وتلك الأشياء "مثيرة للاشمئزاز".
ما زلنا نستخدم المثال في البداية 🌰 ، فإن الدرج "يجتذب" والمزهرية "تنفر".
بالطبع ، تعتمد كيفية إنشاء هذه القيم على القدرة على فهم نموذج اللغة الكبير.
في عملية تجميع المسار النهائي ، نظرًا لأن إخراج نموذج اللغة يظل ثابتًا طوال المهمة ، يمكننا إعادة التقييم بسرعة عند مواجهة الاضطرابات عن طريق تخزين مخرجاته مؤقتًا وإعادة تقييم الكود الناتج باستخدام التغذية المرتدة المرئية ذات الحلقة المغلقة. التخطيط.
لذلك ، يتمتع VoxPoser بقدرة قوية على مقاومة التداخل.
△ ضع ورق النفايات في الدرج الأزرق
فيما يلي عروض VoxPoser في البيئات الحقيقية والمحاكاة (تقاس بمتوسط معدل النجاح):
يمكن ملاحظة أنه أعلى بكثير من المهمة الأساسية القائمة على الأساس بغض النظر عن البيئة (مع أو بدون عوامل تشتيت الانتباه ، سواء كانت التعليمات مرئية أم لا).
أخيرًا ، فوجئ المؤلف بسرور عندما اكتشف أن VoxPoser أنتج ** 4 "قدرات ناشئة" **:
(1) تقييم الخصائص الفيزيائية ، مثل إعطاء كتلتين من الكتلة غير المعروفة ، والسماح للروبوت باستخدام أدوات لإجراء تجارب فيزيائية لتحديد الكتلة الأثقل ؛
(2) التفكير المنطقي السلوكي ، كما هو الحال في مهمة إعداد أدوات المائدة ، أخبر الروبوت "أنا أعسر" ، ويمكنه فهم المعنى من خلال السياق ؛
(3) تصحيح دقيق الحبيبات. على سبيل المثال ، عند أداء المهام التي تتطلب دقة عالية مثل "تغطية إبريق الشاي" ، يمكننا إصدار تعليمات دقيقة إلى الروبوت مثل "لقد انحرفت بمقدار 1 سم" لتصحيح تشغيله ؛
(4) عمليات متعددة الخطوات تعتمد على الرؤية ، مثل مطالبة الروبوت بفتح الدرج بدقة إلى النصف. قد يؤدي نقص المعلومات بسبب عدم وجود نموذج كائن إلى منع الروبوت من أداء مثل هذه المهمة ، ولكن يمكن لـ VoxPoser اقتراح إستراتيجية تشغيل متعددة الخطوات تعتمد على التغذية الراجعة المرئية ، أي ، أولاً افتح الدرج بالكامل أثناء تسجيل إزاحة المقبض ، ثم دفعه مرة أخرى إلى نقطة المنتصف لتلبية المتطلبات.
** Fei-Fei Li: النجوم الثلاثة في رؤية الكمبيوتر **
منذ حوالي عام ، كتب Li Feifei مقالًا في مجلة الأكاديمية الأمريكية للفنون والعلوم ، مشيرًا إلى ثلاثة اتجاهات لتطوير رؤية الكمبيوتر:
منظمة العفو الدولية المجسدة
التفكير البصري
فهم المشهد
يعتقد Li Feifei أن الذكاء المتجسد لا يشير فقط إلى الروبوتات الشبيهة بالبشر ، ولكن أي آلة ذكية ملموسة يمكن أن تتحرك في الفضاء هي شكل من أشكال الذكاء الاصطناعي.
تمامًا كما تهدف ImageNet إلى تمثيل مجموعة متنوعة من الصور الواقعية ، فإن أبحاث الاستخبارات المجسدة تحتاج إلى معالجة المهام البشرية المعقدة والمتنوعة ، من طي الغسيل إلى استكشاف مدن جديدة.
يتطلب اتباع التعليمات لأداء هذه المهام الرؤية ، ولكن ليس فقط الرؤية ، ولكن أيضًا التفكير البصري لفهم العلاقات ثلاثية الأبعاد في المشهد.
أخيرًا ، يجب أن تفهم الآلة الأشخاص الموجودين في المشهد ، بما في ذلك النوايا البشرية والعلاقات الاجتماعية. على سبيل المثال ، رؤية شخص ما يفتح الثلاجة يمكن أن يخبرنا أنه جائع ، أو رؤية طفل يجلس في حضن شخص بالغ يمكن أن يخبرنا أنه أحد الوالدين والطفل.
قد تكون الروبوتات المدمجة مع النماذج الكبيرة طريقة واحدة فقط لحل هذه المشكلات.
بالإضافة إلى Li Feifei ، شارك خريج Tsinghua Yaoban ** Wu Jiajun ** ، الذي تخرج من معهد ماساتشوستس للتكنولوجيا بدرجة دكتوراه وهو الآن أستاذ مساعد في جامعة ستانفورد ، في هذا البحث.
المؤلف الأول للأطروحة ، ** Wenlong Huang ** ، هو الآن طالب دكتوراه في جامعة ستانفورد وشارك في أبحاث PaLM-E أثناء فترة تدريبه في Google.
عنوان الورق:
الصفحة الرئيسية للمشروع:
ارتباط مرجعي:
[1]
[1]
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
إنجازات Li Feifei الجديدة "الاستخباراتية المجسدة"! يتصل الروبوت بالنموذج الكبير ويفهم بشكل مباشر الكلام البشري ، ويمكنه إكمال التعليمات المعقدة بدون تدريب مسبق
المصدر: Qubit
أحدث إنجازات فريق Li Feifei ** الذكاء المجسد ** هنا:
النموذج الكبير متصل بالروبوت لتحويل التعليمات المعقدة إلى خطط عمل محددة بدون بيانات وتدريب إضافي.
الكائنات القابلة للتشغيل مفتوحة أيضًا. لست بحاجة إلى تحديد النطاق مسبقًا. يمكنك فتح الزجاجة والضغط على المفتاح وفصل كابل الشحن.
** كيف يمكن للروبوت فهم كلام الإنسان بشكل مباشر؟ **
أطلق فريق Li Feifei على نظام VoxPoser ، كما هو موضح في الشكل أدناه ، مبدأه بسيط للغاية.
بعد ذلك ، يكتب LLM (نموذج اللغة الكبيرة) رمزًا بناءً على هذه المحتويات ، ويتفاعل الرمز الذي تم إنشاؤه مع VLM (نموذج اللغة المرئية) لتوجيه النظام لإنشاء خريطة تعليمات عملية مقابلة ، وهي ** خريطة القيمة ثلاثية الأبعاد **.
من خلال هذه العملية ، يمكننا أن نرى أنه مقارنة بالطريقة التقليدية ، يلزم تدريب إضافي مسبق. تستخدم هذه الطريقة نموذجًا كبيرًا لتوجيه الروبوت في كيفية التفاعل مع البيئة ، لذلك فهي تحل بشكل مباشر مشكلة ندرة بيانات تدريب الروبوت .
علاوة على ذلك ، وبسبب هذه الميزة بالتحديد ، فإنها تدرك أيضًا قدرة العينة الصفرية.طالما تم إتقان العملية الأساسية المذكورة أعلاه ، يمكن عقد أي مهمة معينة.
في التنفيذ المحدد ، حول المؤلف فكرة VoxPoser إلى مشكلة تحسين ، أي الصيغة المعقدة التالية:
ما يريد VoxPoser تحقيقه هو تحسين كل مهمة فرعية ، والحصول على سلسلة من مسارات الروبوت ، وأخيراً تقليل إجمالي عبء العمل ووقت العمل.
في عملية استخدام LLM و VLM لتعيين تعليمات اللغة في خرائط ثلاثية الأبعاد ، يعتبر النظام أن اللغة يمكن أن تنقل مساحة دلالية غنية ، لذلك فهي تستخدم "** كيانًا مهمًا ** (كيانًا مهمًا)" لتوجيه الروبوت إلى تعمل ، أي من خلال القيمة المحددة في خريطة 3DValue لتعكس أي كائن "جذاب" لها ، وتلك الأشياء "مثيرة للاشمئزاز".
بالطبع ، تعتمد كيفية إنشاء هذه القيم على القدرة على فهم نموذج اللغة الكبير.
في عملية تجميع المسار النهائي ، نظرًا لأن إخراج نموذج اللغة يظل ثابتًا طوال المهمة ، يمكننا إعادة التقييم بسرعة عند مواجهة الاضطرابات عن طريق تخزين مخرجاته مؤقتًا وإعادة تقييم الكود الناتج باستخدام التغذية المرتدة المرئية ذات الحلقة المغلقة. التخطيط.
لذلك ، يتمتع VoxPoser بقدرة قوية على مقاومة التداخل.
فيما يلي عروض VoxPoser في البيئات الحقيقية والمحاكاة (تقاس بمتوسط معدل النجاح):
أخيرًا ، فوجئ المؤلف بسرور عندما اكتشف أن VoxPoser أنتج ** 4 "قدرات ناشئة" **:
(1) تقييم الخصائص الفيزيائية ، مثل إعطاء كتلتين من الكتلة غير المعروفة ، والسماح للروبوت باستخدام أدوات لإجراء تجارب فيزيائية لتحديد الكتلة الأثقل ؛
(2) التفكير المنطقي السلوكي ، كما هو الحال في مهمة إعداد أدوات المائدة ، أخبر الروبوت "أنا أعسر" ، ويمكنه فهم المعنى من خلال السياق ؛
(3) تصحيح دقيق الحبيبات. على سبيل المثال ، عند أداء المهام التي تتطلب دقة عالية مثل "تغطية إبريق الشاي" ، يمكننا إصدار تعليمات دقيقة إلى الروبوت مثل "لقد انحرفت بمقدار 1 سم" لتصحيح تشغيله ؛
(4) عمليات متعددة الخطوات تعتمد على الرؤية ، مثل مطالبة الروبوت بفتح الدرج بدقة إلى النصف. قد يؤدي نقص المعلومات بسبب عدم وجود نموذج كائن إلى منع الروبوت من أداء مثل هذه المهمة ، ولكن يمكن لـ VoxPoser اقتراح إستراتيجية تشغيل متعددة الخطوات تعتمد على التغذية الراجعة المرئية ، أي ، أولاً افتح الدرج بالكامل أثناء تسجيل إزاحة المقبض ، ثم دفعه مرة أخرى إلى نقطة المنتصف لتلبية المتطلبات.
** Fei-Fei Li: النجوم الثلاثة في رؤية الكمبيوتر **
منذ حوالي عام ، كتب Li Feifei مقالًا في مجلة الأكاديمية الأمريكية للفنون والعلوم ، مشيرًا إلى ثلاثة اتجاهات لتطوير رؤية الكمبيوتر:
تمامًا كما تهدف ImageNet إلى تمثيل مجموعة متنوعة من الصور الواقعية ، فإن أبحاث الاستخبارات المجسدة تحتاج إلى معالجة المهام البشرية المعقدة والمتنوعة ، من طي الغسيل إلى استكشاف مدن جديدة.
يتطلب اتباع التعليمات لأداء هذه المهام الرؤية ، ولكن ليس فقط الرؤية ، ولكن أيضًا التفكير البصري لفهم العلاقات ثلاثية الأبعاد في المشهد.
أخيرًا ، يجب أن تفهم الآلة الأشخاص الموجودين في المشهد ، بما في ذلك النوايا البشرية والعلاقات الاجتماعية. على سبيل المثال ، رؤية شخص ما يفتح الثلاجة يمكن أن يخبرنا أنه جائع ، أو رؤية طفل يجلس في حضن شخص بالغ يمكن أن يخبرنا أنه أحد الوالدين والطفل.
قد تكون الروبوتات المدمجة مع النماذج الكبيرة طريقة واحدة فقط لحل هذه المشكلات.