
Bergabunglah dengan acara yang dipercaya oleh para pemimpin perusahaan selama hampir dua dekade. VB Transform menyatukan orang -orang yang membangun strategi AI perusahaan nyata. Pelajari lebih lanjut
Sementara model bahasa besar (LLM) telah menguasai teks (dan modalitas lain sampai batas tertentu), mereka tidak memiliki “akal sehat” fisik untuk beroperasi di lingkungan yang dinamis dan dunia nyata. Ini telah membatasi penyebaran AI di bidang -bidang seperti manufaktur dan logistik, di mana sebab dan akibat pemahaman sangat penting.
Model terbaru Meta, V-Jepa 2, mengambil langkah menuju menjembatani kesenjangan ini dengan mempelajari model dunia dari video dan interaksi fisik.
V-JEPA 2 dapat membantu membuat aplikasi AI yang membutuhkan hasil yang memprediksi dan tindakan perencanaan di lingkungan yang tidak terduga dengan banyak kasus tepi. Pendekatan ini dapat memberikan jalur yang jelas menuju robot yang lebih mampu dan otomatisasi canggih di lingkungan fisik.
Bagaimana 'model dunia' belajar merencanakan
Manusia mengembangkan intuisi fisik di awal kehidupan dengan mengamati lingkungan mereka. Jika Anda melihat bola dilemparkan, Anda secara naluriah mengetahui lintasannya dan dapat memprediksi di mana ia akan mendarat. V-JEPA 2 mempelajari “model dunia” yang serupa, yang merupakan simulasi internal sistem AI tentang bagaimana dunia fisik beroperasi.
Model dibangun di atas tiga kemampuan inti yang penting untuk aplikasi perusahaan: memahami apa yang terjadi dalam suatu adegan, memprediksi bagaimana adegan itu akan berubah berdasarkan tindakan, dan merencanakan urutan tindakan untuk mencapai tujuan tertentu. Seperti yang dinyatakan Meta di blognya, “visi jangka panjangnya adalah bahwa model dunia akan memungkinkan agen AI untuk merencanakan dan bernalar di dunia fisik.”
Arsitektur model, yang disebut video joint embedding prediktif arsitektur (V-JEPA), terdiri dari dua bagian utama. “Encoder” menonton klip video dan memadatkannya menjadi ringkasan numerik yang ringkas, yang dikenal sebagai penyematan. Embedding ini menangkap informasi penting tentang objek dan hubungan mereka dalam adegan. Komponen kedua, “prediktor,” kemudian mengambil ringkasan ini dan membayangkan bagaimana adegan akan berkembang, menghasilkan prediksi seperti apa ringkasan berikutnya.
Arsitektur ini adalah evolusi terbaru dari kerangka kerja JEPA, yang pertama kali diterapkan pada gambar dengan i-jepa dan sekarang maju ke video, menunjukkan pendekatan yang konsisten untuk membangun model dunia.
Tidak seperti model AI generatif yang mencoba memprediksi warna yang tepat dari setiap piksel dalam bingkai masa depan-tugas intensif komputasi-V-JEPA 2 beroperasi dalam ruang abstrak. Ini berfokus pada memprediksi fitur tingkat tinggi dari suatu adegan, seperti posisi dan lintasan objek, daripada rincian tekstur atau latar belakangnya, membuatnya jauh lebih efisien daripada model lain yang lebih besar hanya dengan 1,2 miliar parameter
Itu diterjemahkan menjadi biaya komputasi yang lebih rendah dan membuatnya lebih cocok untuk penempatan di pengaturan dunia nyata.
Belajar dari observasi dan tindakan
V-Jepa 2 dilatih dalam dua tahap. Pertama, ia membangun pemahaman mendasar tentang fisika melalui pembelajaran yang di-swadaya, menonton lebih dari satu juta jam video internet yang tidak berlabel. Dengan hanya mengamati bagaimana objek bergerak dan berinteraksi, ia mengembangkan model dunia tujuan umum tanpa bimbingan manusia.
Pada tahap kedua, model pra-terlatih ini disempurnakan pada dataset kecil yang khusus. Dengan memproses hanya 62 jam video yang menunjukkan robot melakukan tugas, bersama dengan perintah kontrol yang sesuai, V-JEPA 2 belajar untuk menghubungkan tindakan spesifik dengan hasil fisik mereka. Ini menghasilkan model yang dapat merencanakan dan mengendalikan tindakan di dunia nyata.

Pelatihan dua tahap ini memungkinkan kemampuan penting untuk otomatisasi dunia nyata: perencanaan robot nol-shot. Sebuah robot yang ditenagai oleh V-Jepa 2 dapat digunakan di lingkungan baru dan berhasil memanipulasi objek yang belum pernah ditemui sebelumnya, tanpa perlu dilatih kembali untuk pengaturan spesifik itu.
Ini adalah kemajuan yang signifikan dari model sebelumnya yang membutuhkan data pelatihan dari akurat robot dan lingkungan tempat mereka beroperasi. Model ini dilatih pada dataset sumber terbuka dan kemudian berhasil digunakan pada robot yang berbeda di laboratorium Meta.
Misalnya, untuk menyelesaikan tugas seperti mengambil objek, robot diberi gambar tujuan dari hasil yang diinginkan. Kemudian menggunakan prediktor V-JEPA 2 untuk secara internal mensimulasikan berbagai kemungkinan gerakan berikutnya. Ini mencetak setiap tindakan yang dibayangkan berdasarkan seberapa dekat itu mencapai tujuan, mengeksekusi tindakan berperingkat teratas, dan mengulangi prosesnya sampai tugas selesai.
Dengan menggunakan metode ini, model mencapai tingkat keberhasilan antara 65% dan 80% pada tugas pick-and-place dengan objek yang tidak dikenal dalam pengaturan baru.
Dampak dunia nyata dari penalaran fisik
Kemampuan untuk merencanakan dan bertindak dalam situasi baru ini memiliki implikasi langsung untuk operasi bisnis. Dalam logistik dan manufaktur, ini memungkinkan robot yang lebih mudah beradaptasi yang dapat menangani variasi dalam produk dan tata letak gudang tanpa pemrograman ulang yang luas. Ini bisa sangat berguna karena perusahaan mengeksplorasi penyebaran robot humanoid di pabrik dan jalur perakitan.
Model dunia yang sama dapat memberi daya pada kembar digital yang sangat realistis, memungkinkan perusahaan untuk mensimulasikan proses baru atau melatih AI lain dalam lingkungan virtual yang akurat secara fisik. Dalam pengaturan industri, sebuah model dapat memantau feed video mesin dan, berdasarkan pemahaman yang dipelajari tentang fisika, memprediksi masalah keselamatan dan kegagalan sebelum terjadi.
Penelitian ini adalah langkah kunci menuju apa yang disebut Meta “Intelijen Mesin Tingkat Lanjut (AMI),” di mana sistem AI dapat “belajar tentang dunia seperti yang dilakukan manusia, merencanakan cara melaksanakan tugas yang tidak dikenal, dan secara efisien beradaptasi dengan dunia yang selalu berubah di sekitar kita.”
Meta telah merilis model dan kode pelatihan dan berharap untuk “membangun komunitas yang luas di sekitar penelitian ini, mendorong kemajuan menuju tujuan akhir kami dalam mengembangkan model dunia yang dapat mengubah cara AI berinteraksi dengan dunia fisik.”
Apa artinya bagi pembuat keputusan teknis perusahaan
V-JEPA 2 menggerakkan robotika lebih dekat ke model yang ditentukan perangkat lunak yang sudah dikenali tim cloud: pra-kereta sekali, sebarkan di mana saja. Karena model mempelajari fisika umum dari video publik dan hanya membutuhkan beberapa lusin jam rekaman khusus tugas, perusahaan dapat memangkas siklus pengumpulan data yang biasanya menyeret proyek percontohan. Dalam istilah praktis, Anda dapat membuat prototipe robot pick-and-place pada lengan desktop yang terjangkau, kemudian memutar kebijakan yang sama ke rig industri di lantai pabrik tanpa mengumpulkan ribuan sampel segar atau menulis skrip gerak khusus.
Overhead pelatihan yang lebih rendah juga membentuk kembali persamaan biaya. Pada 1,2 miliar parameter, V-JEPA 2 cocok dengan nyaman pada GPU kelas atas tunggal, dan target prediksi abstraknya mengurangi beban inferensi lebih lanjut. Itu memungkinkan tim menjalankan kontrol loop tertutup atau di tepi, menghindari latensi awan dan sakit kepala kepatuhan yang datang dengan video streaming di luar pabrik. Anggaran yang pernah pergi ke kluster komputasi besar -besaran dapat mendanai sensor tambahan, redundansi, atau siklus iterasi yang lebih cepat.