Li Feifei'nin "bedensel zeka" yeni başarıları! Robot, büyük modele bağlanır ve doğrudan insan konuşmasını anlar ve karmaşık talimatları sıfır ön eğitimle tamamlayabilir.

Kaynak: Qubit

Li Feifei'nin ekibinin bedensel zeka'nın son başarıları burada:

Büyük model, ek veri ve eğitim olmaksızın karmaşık talimatları belirli eylem planlarına dönüştürmek için robota bağlanır.

O andan itibaren, insanlar robotlara talimat vermek için doğal dili özgürce kullanabilir, örneğin:

Üst çekmeceyi aç ve vazolara dikkat et!

Büyük dil modeli + görsel dil modeli, 3D uzaydan atlanması gereken hedef ve engelleri analiz ederek robotun eylem planlaması yapmasına yardımcı olur.

O zaman kilit nokta, gerçek dünyadaki robotların bu görevi "eğitim" olmadan doğrudan gerçekleştirebilmesidir.

Yeni yöntem, sıfır örnek günlük operasyon görevi yörünge sentezini gerçekleştiriyor, yani robotun daha önce hiç görmediği görevler, ona bir gösteri bile yapmadan tek seferde gerçekleştirilebilir.

Çalıştırılabilir nesneler de açıktır.Önceden menzili belirlemenize gerek yoktur.Şişeyi açabilir, düğmeye basabilir ve şarj kablosunu prizden çıkarabilirsiniz.

Şu anda, proje ana sayfası ve belgeleri çevrimiçi durumda ve kod yakında yayınlanacak ve akademik çevrede yaygın bir ilgi uyandırdı.

Eski bir Microsoft araştırmacısı şu yorumu yaptı: Bu araştırma, en önemli ve karmaşık yapay zeka sistemlerinin başında geliyor.

Robot araştırma topluluğuna özgü olarak, bazı meslektaşlar bunun hareket planlama alanı için yeni bir dünya açtığını söyledi.

Yapay zekanın tehlikesini görmeyenler de var ama yapay zekayı robotlarla birleştiren bu araştırma nedeniyle görüşlerini değiştirdiler.

**Bir robot, insan konuşmasını doğrudan nasıl anlayabilir? **

Li Feifei'nin ekibi, aşağıdaki şekilde gösterildiği gibi sisteme VoxPoser adını verdi, prensibi çok basit.

İlk olarak, ortam bilgisi (kamera ile RGB-D görüntülerin toplanması) ve yürütmek istediğimiz doğal dil talimatları verildi.

Ardından, LLM (Büyük Dil Modeli) bu içeriklere dayalı olarak kod yazar ve oluşturulan kod VLM (Görsel Dil Modeli) ile etkileşerek sisteme karşılık gelen bir işlem yönergesi haritası, yani 3B Değer Haritası oluşturması için rehberlik eder.

Affordance Map ve Constraint Map için genel terim olan sözde 3D Değer Haritası, hem "nerede hareket edileceğini" hem de "nasıl hareket edileceğini"** işaretler.

Bu şekilde, eylem planlayıcı dışarı taşınır ve oluşturulan 3B harita, yürütülecek nihai operasyon yörüngesini sentezlemek için amaç fonksiyonu olarak kullanılır.

Bu süreçten, geleneksel yöntemle karşılaştırıldığında ek ön eğitimin gerekli olduğunu görebiliriz.Bu yöntem, robotun çevre ile nasıl etkileşim kuracağına rehberlik etmek için büyük bir model kullanır, böylece robot eğitim verilerinin azlığı sorununu doğrudan çözer. .

Üstelik tam da bu özelliğinden dolayı sıfır örnek kabiliyetini de gerçekleştirmektedir.Yukarıdaki temel sürece hakim olunduğu sürece, verilen herhangi bir görev tutulabilir.

Spesifik uygulamada yazar, VoxPoser fikrini bir optimizasyon problemine, yani aşağıdaki karmaşık formüle dönüştürdü:

İnsanlar tarafından verilen talimatların geniş bir yelpazeye sahip olabileceği ve bağlamsal anlayış gerektirebileceği göz önüne alındığından, bu nedenle talimatlar birçok alt göreve ayrılmıştır. çekmece".

VoxPoser'ın başarmak istediği şey, her bir alt görevi optimize etmek, bir dizi robot yörüngesi elde etmek ve son olarak toplam iş yükünü ve çalışma süresini en aza indirmektir.

Dil talimatlarını 3B haritalara eşlemek için LLM ve VLM kullanma sürecinde, sistem dilin zengin bir semantik alan aktarabileceğini düşünür ve bu nedenle robotu yönlendirmek için "ilgilenen varlık(ilgilenen varlık)" ifadesini kullanır. yani hangi nesnenin kendisi için "çekici" olduğunu ve bu nesnelerin "iğrenç" olduğunu yansıtmak için 3DValue Haritasında işaretlenen değer aracılığıyla çalışır.

Yine baştaki örneği kullanarak 🌰, çekmece "çekici" ve vazo "itici".

Elbette bu değerlerin nasıl üretileceği büyük dil modelinin anlama yeteneğine bağlıdır.

Nihai yörünge sentezi sürecinde, dil modelinin çıktısı görev boyunca sabit kaldığından, çıktısını önbelleğe alarak ve kapalı döngü görsel geri bildirim planlamasını kullanarak oluşturulan kodu yeniden değerlendirerek bozulmalarla karşılaştığımızda hızlı bir şekilde yeniden değerlendirebiliriz.

Bu nedenle, VoxPoser güçlü bir anti-parazit yeteneğine sahiptir.

△ Atık kağıdı mavi tepsiye koyun

Aşağıdakiler, VoxPoser'ın gerçek ve simüle edilmiş ortamlardaki performanslarıdır (ortalama başarı oranıyla ölçülür):

Ortam veya koşuldan bağımsız olarak (çeldiricili veya çeldiricisiz, talimatların görünür olup olmadığı) ilkel tabanlı temel görevden önemli ölçüde daha yüksek olduğu görülebilir.

Son olarak yazar, VoxPoser'ın 4 "acil yetenek" ürettiğini görünce hoş bir sürpriz yaşadı:

(1) Kütlesi bilinmeyen iki blok verildiği gibi fiziksel özellikleri değerlendirin, robotun hangi bloğun daha ağır olduğunu belirlemek için fiziksel deneyler yapması için araçlar kullanmasına izin verin;

(2) Sofra takımını yerleştirme görevinde olduğu gibi davranışsal sağduyu muhakemesi, robota "Ben solakım" der ve bağlam aracılığıyla anlamı anlayabilir;

(3) Hassas düzeltme Örneğin, "çaydanlığın üzerini örtün" gibi yüksek hassasiyet gerektiren görevleri yerine getirirken, çalışmasını düzeltmek için robota "1 cm saptınız" gibi kesin talimatlar verebiliriz;

(4) Görmeye dayalı çok adımlı işlemler, örneğin robottan çekmeceyi tam olarak ikiye açmasını istemek.Bir nesne modelinin olmamasından kaynaklanan bilgi eksikliği, robotun böyle bir görevi gerçekleştirmesini engelleyebilir, ancak VoxPoser önerebilir görsel geri bildirime dayalı çok adımlı bir işlem stratejisi, yani, önce çekmeceyi tam olarak açın, kolun yer değiştirmesini kaydedin ve ardından gereksinimleri karşılamak için orta noktaya geri itin.

Fei-Fei Li: Bilgisayar Görüntüsünün 3 Kuzey Yıldızı

Yaklaşık bir yıl önce, Li Feifei Journal of the American Academy of Arts and Sciences'ta bilgisayar görüşünün gelişimi için üç yöne işaret eden bir makale yazdı:

  • Somutlaşmış AI
  • Görsel Muhakeme
  • Sahne Anlama

Li Feifei, somutlaştırılmış zekanın yalnızca insansı robotlara atıfta bulunmadığına, uzayda hareket edebilen herhangi bir somut akıllı makinenin bir tür yapay zeka olduğuna inanıyor.

ImageNet'in çok çeşitli gerçek dünya görüntülerini temsil etmeyi amaçlaması gibi, somutlaştırılmış istihbarat araştırmasının da çamaşır katlamaktan yeni şehirleri keşfetmeye kadar karmaşık ve çeşitli insan görevlerini ele alması gerekiyor.

Bu görevleri yerine getirmek için verilen talimatların izlenmesi, yalnızca görmeyi değil, aynı zamanda sahnedeki üç boyutlu ilişkileri anlamak için görsel akıl yürütmeyi de gerektirir.

Son olarak, makine, insan niyetleri ve sosyal ilişkiler de dahil olmak üzere sahnedeki insanları anlamalıdır. Örneğin, bir kişinin buzdolabını açtığını görmek onun aç olduğunu veya bir yetişkinin kucağında oturan bir çocuğu görmek onun ebeveyn-çocuk olduğunu söyleyebilir.

Büyük modellerle birleştirilmiş robotlar, bu sorunları çözmenin yollarından sadece biri olabilir.

Li Feifei'ye ek olarak, MIT'den doktora derecesi ile mezun olan ve şu anda Stanford Üniversitesi'nde yardımcı doçent olan Tsinghua Yaoban mezunu Wu Jiajun bu araştırmaya katıldı.

Tezin ilk yazarı Wenlong Huang şu anda Stanford'da doktora öğrencisidir ve Google'daki stajı sırasında PaLM-E araştırmasına katılmıştır.

Kağıt adresi: Proje ana sayfası: Referans bağlantısı: [1] [1]

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)