
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Para peneliti di Universitas Kecerdasan Buatan Mohamed bin Zayed (MBZUAI) telah mengumumkan peluncuran LlamaV-o1, model kecerdasan buatan canggih yang mampu menangani beberapa tugas penalaran paling kompleks di seluruh teks dan gambar.
Dengan menggabungkan pembelajaran kurikulum mutakhir dengan teknik pengoptimalan tingkat lanjut seperti Beam Search, LlamaV-o1 menetapkan tolok ukur baru untuk penalaran langkah demi langkah dalam sistem AI multimodal.
“Penalaran adalah kemampuan mendasar untuk memecahkan masalah multi-langkah yang kompleks, khususnya dalam konteks visual di mana pemahaman bertahap secara berurutan sangat penting,” tulis para peneliti dalam laporan teknis mereka, yang diterbitkan hari ini. Diselaraskan untuk tugas-tugas penalaran yang memerlukan presisi dan transparansi, model AI mengungguli banyak rekan-rekannya dalam tugas-tugas mulai dari menafsirkan grafik keuangan hingga mendiagnosis gambar medis.
Bersamaan dengan model tersebut, tim juga memperkenalkan VRC-Bench, sebuah tolok ukur yang dirancang untuk mengevaluasi model AI mengenai kemampuannya dalam mengatasi masalah secara langkah demi langkah. Dengan lebih dari 1.000 sampel yang beragam dan lebih dari 4.000 langkah penalaran, VRC-Bench telah dipuji sebagai terobosan dalam penelitian AI multimodal.
Bagaimana LlamaV-o1 menonjol dari kompetisi
Model AI tradisional sering kali berfokus pada memberikan jawaban akhir, sehingga hanya memberikan sedikit wawasan tentang bagaimana mereka sampai pada kesimpulan. LlamaV-o1, bagaimanapun, menekankan penalaran langkah demi langkah — sebuah kemampuan yang meniru pemecahan masalah manusia. Pendekatan ini memungkinkan pengguna untuk melihat langkah-langkah logis yang diambil model, sehingga sangat berharga untuk aplikasi yang mengutamakan kemampuan interpretasi.
Para peneliti melatih LlamaV-o1 menggunakan LLaVA-CoT-100k, kumpulan data yang dioptimalkan untuk tugas penalaran, dan mengevaluasi kinerjanya menggunakan VRC-Bench. Hasilnya mengesankan: LlamaV-o1 mencapai skor langkah penalaran sebesar 68,93, mengungguli model sumber terbuka terkenal seperti LlaVA-CoT (66,21) dan bahkan beberapa model sumber tertutup seperti Claude 3.5 Sonnet.
“Dengan memanfaatkan efisiensi Beam Search di samping struktur pembelajaran kurikulum yang progresif, model yang diusulkan secara bertahap memperoleh keterampilan, dimulai dengan tugas-tugas yang lebih sederhana seperti [a] ringkasan pendekatan dan teks turunan pertanyaan serta kemajuan ke skenario penalaran multi-langkah yang lebih kompleks, memastikan inferensi yang dioptimalkan dan kemampuan penalaran yang kuat,” jelas para peneliti.
Pendekatan metodis model ini juga membuatnya lebih cepat dibandingkan pesaingnya. “LlamaV-o1 memberikan peningkatan absolut sebesar 3,8% dalam hal skor rata-rata di enam tolok ukur sekaligus 5X lebih cepat selama penskalaan inferensi,” tim tersebut mencatat dalam laporannya. Efisiensi seperti ini adalah nilai jual utama bagi perusahaan yang ingin menerapkan solusi AI dalam skala besar.
AI untuk bisnis: Mengapa penalaran langkah demi langkah penting
Penekanan LlamaV-o1 pada interpretabilitas menjawab kebutuhan penting dalam industri seperti keuangan, kedokteran, dan pendidikan. Bagi bisnis, kemampuan untuk melacak langkah-langkah di balik keputusan AI dapat membangun kepercayaan dan memastikan kepatuhan terhadap peraturan.
Ambil pencitraan medis sebagai contoh. Seorang ahli radiologi yang menggunakan AI untuk menganalisis pemindaian tidak hanya memerlukan diagnosis — mereka juga perlu mengetahui bagaimana AI mencapai kesimpulan tersebut. Di sinilah LlamaV-o1 bersinar, memberikan alasan transparan langkah demi langkah yang dapat ditinjau dan divalidasi oleh para profesional.
Model ini juga unggul dalam bidang-bidang seperti pemahaman bagan dan diagram, yang penting untuk analisis keuangan dan pengambilan keputusan. Dalam pengujian di VRC-Bench, LlamaV-o1 secara konsisten mengungguli pesaing dalam tugas yang memerlukan interpretasi data visual yang kompleks.
Namun model ini tidak hanya untuk aplikasi berisiko tinggi. Fleksibilitasnya membuatnya cocok untuk berbagai tugas, mulai dari pembuatan konten hingga agen percakapan. Para peneliti secara khusus menyetel LlamaV-o1 agar unggul dalam skenario dunia nyata, memanfaatkan Beam Search untuk mengoptimalkan jalur penalaran dan meningkatkan efisiensi komputasi.
Beam Search memungkinkan model menghasilkan beberapa jalur penalaran secara paralel dan memilih jalur yang paling logis. Pendekatan ini tidak hanya meningkatkan akurasi namun juga mengurangi biaya komputasi dalam menjalankan model, menjadikannya pilihan yang menarik bagi bisnis dari semua ukuran.

Apa arti VRC-Bench bagi masa depan AI
Peluncuran VRC-Bench sama pentingnya dengan model itu sendiri. Tidak seperti tolok ukur tradisional yang hanya berfokus pada akurasi jawaban akhir, VRC-Bench mengevaluasi kualitas langkah penalaran individu, menawarkan penilaian yang lebih bernuansa terhadap kemampuan model AI.
“Sebagian besar tolok ukur berfokus terutama pada akurasi tugas akhir, mengabaikan kualitas langkah-langkah penalaran perantara,” jelas para peneliti. “[VRC-Bench] menghadirkan beragam tantangan dengan delapan kategori berbeda mulai dari persepsi visual yang kompleks hingga penalaran ilmiah [4,000] langkah-langkah penalaran secara total, memungkinkan evaluasi yang kuat atas kemampuan LLM untuk melakukan penalaran visual yang akurat dan dapat ditafsirkan dalam berbagai langkah.”
Fokus pada penalaran langkah demi langkah ini sangat penting dalam bidang-bidang seperti penelitian ilmiah dan pendidikan, di mana proses di balik suatu solusi bisa sama pentingnya dengan solusi itu sendiri. Dengan menekankan koherensi logis, VRC-Bench mendorong pengembangan model yang dapat menangani kompleksitas dan ambiguitas tugas di dunia nyata.
Performa LlamaV-o1 di VRC-Bench menunjukkan banyak potensinya. Rata-rata, model ini mendapat skor 67,33% di seluruh tolok ukur seperti MathVista dan AI2D, mengungguli model sumber terbuka lainnya seperti Llava-CoT (63,50%). Hasil ini memposisikan LlamaV-o1 sebagai pemimpin dalam bidang AI sumber terbuka, mempersempit kesenjangan dengan model berpemilik seperti GPT-4o, yang memperoleh skor 71,8%.
Batasan AI berikutnya: Penalaran multimoda yang dapat ditafsirkan
Meskipun LlamaV-o1 merupakan terobosan besar, hal ini bukannya tanpa keterbatasan. Seperti semua model AI, model ini dibatasi oleh kualitas data pelatihannya dan mungkin kesulitan menghadapi perintah yang sangat teknis atau berlawanan. Para peneliti juga memperingatkan agar tidak menggunakan model ini dalam skenario pengambilan keputusan berisiko tinggi, seperti prediksi kesehatan atau keuangan, karena kesalahan dapat menimbulkan konsekuensi serius.
Terlepas dari tantangan-tantangan ini, LlamaV-o1 menyoroti semakin pentingnya sistem AI multimodal yang dapat mengintegrasikan teks, gambar, dan tipe data lainnya dengan lancar. Keberhasilannya menggarisbawahi potensi pembelajaran kurikulum dan penalaran langkah demi langkah untuk menjembatani kesenjangan antara kecerdasan manusia dan mesin.
Seiring dengan semakin terintegrasinya sistem AI ke dalam kehidupan kita sehari-hari, permintaan akan model yang dapat dijelaskan akan terus meningkat. LlamaV-o1 adalah bukti bahwa kita tidak perlu mengorbankan kinerja demi transparansi — dan bahwa masa depan AI tidak berhenti pada memberikan jawaban. Ini menunjukkan kepada kita bagaimana hal itu sampai di sana.
Dan mungkin itulah pencapaian sebenarnya: Di dunia yang penuh dengan solusi kotak hitam, LlamaV-o1 membuka penutupnya.