
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Ketika perusahaan-perusahaan di seluruh dunia menggandakan proyek AI mereka, ketersediaan data pelatihan berkualitas tinggi telah menjadi hambatan besar. Meskipun sebagian besar web publik telah kehabisan sumber data, pemain besar seperti OpenAI dan Google menjalin kemitraan eksklusif untuk memperluas kumpulan data milik mereka, sehingga semakin membatasi akses bagi pihak lain.
Untuk mengatasi kekhawatiran yang semakin besar ini, Salesforce telah mengambil langkah besar dalam bidang data pelatihan visual. Perusahaan baru saja memperkenalkan ProVision, kerangka kerja baru yang secara terprogram menghasilkan data instruksi visual. Kumpulan data ini disintesis secara sistematis untuk memungkinkan pelatihan model bahasa multimodal (MLM) berkinerja tinggi yang dapat menjawab pertanyaan tentang gambar.
Perusahaan telah merilis kumpulan data ProVision-10M dengan pendekatan ini dan menggunakannya untuk meningkatkan kinerja dan akurasi berbagai model AI multimodal.
Bagi para profesional data, kerangka kerja ini menunjukkan kemajuan yang signifikan. Dengan menghasilkan data instruksi visual berkualitas tinggi secara terprogram, ProVision mengurangi ketergantungan pada kumpulan data yang terbatas atau diberi label yang tidak konsisten, yang merupakan tantangan umum dalam melatih sistem multimodal.
Selain itu, kemampuan untuk mensintesis kumpulan data secara sistematis memastikan kontrol, skalabilitas, dan konsistensi yang lebih baik, memungkinkan siklus iterasi yang lebih cepat, dan mengurangi biaya perolehan data spesifik domain. Pekerjaan ini melengkapi penelitian yang sedang berlangsung dalam domain pembuatan data sintetis dan dilakukan hanya sehari setelah peluncuran Cosmos oleh Nvidia, serangkaian model dasar dunia yang dibuat khusus untuk menghasilkan video berbasis fisika dari kombinasi input, seperti teks, gambar, dan video. untuk pelatihan AI fisik.
Data instruksi visual: bahan utama untuk AI multimodal
Saat ini, kumpulan data instruksi adalah inti dari pra-pelatihan atau penyesuaian AI. Kumpulan data khusus ini membantu model mengikuti dan merespons instruksi atau pertanyaan tertentu secara efektif. Dalam kasus AI multimodal, model mendapatkan kemampuan untuk menganalisis konten seperti gambar setelah belajar dari sejumlah titik data yang berbeda, disertai dengan pasangan pertanyaan-jawaban — atau data instruksi visual — yang menjelaskannya.
Sekarang masalahnya: Memproduksi kumpulan data instruksi visual ini cukup merepotkan. Jika suatu perusahaan membuat data secara manual untuk setiap gambar pelatihan, maka akan membuang banyak waktu dan sumber daya manusia untuk menyelesaikan proyek. Di sisi lain, jika memilih untuk menggunakan model bahasa eksklusif untuk tugas tersebut, ia harus menghadapi biaya komputasi yang tinggi dan risiko halusinasi, yang mana kualitas dan keakuratan pasangan pertanyaan-jawaban mungkin tidak cukup baik.
Selain itu, penggunaan model berpemilik juga merupakan mekanisme kotak hitam (black-box) karena mempersulit interpretasi proses pembuatan data dan mengontrol atau menyesuaikan keluaran secara tepat.
Masukkan Penyediaan Tenaga Penjualan
Untuk mengatasi kesenjangan ini, tim peneliti AI di Salesforce telah mengembangkan ProVision, sebuah kerangka kerja yang menggunakan grafik adegan bersama dengan program yang ditulis manusia untuk secara sistematis mensintesis data instruksi yang berpusat pada visi.
Pada intinya, grafik adegan dapat digambarkan sebagai representasi terstruktur dari semantik gambar, dimana objek dalam konten direpresentasikan sebagai node. Atribut setiap objek — seperti warna atau ukuran — secara langsung ditetapkan ke node masing-masing, sedangkan hubungan antara objek-objek ini digambarkan sebagai tepi berarah yang menghubungkan node yang bersesuaian. Representasi ini dapat bersumber dari kumpulan data yang dianotasi secara manual seperti Visual Genome, atau dapat dihasilkan dengan bantuan alur pembuatan grafik adegan yang menggabungkan berbagai model visi canggih yang mencakup berbagai aspek semantik gambar, dari objek dan deteksi atribut hingga estimasi kedalaman.
Setelah grafik adegan siap, grafik tersebut mendukung program yang ditulis menggunakan Python dan templat tekstual yang berfungsi sebagai generator data lengkap yang mampu membuat pasangan tanya jawab untuk jalur pelatihan AI.
“Setiap [data] generator menggunakan ratusan templat yang telah ditentukan sebelumnya, yang secara sistematis mengintegrasikan anotasi ini untuk menghasilkan beragam data instruksi. Generator ini dibuat untuk…membandingkan, mengambil, dan mempertimbangkan konsep visual dasar objek, atribut, dan hubungan berdasarkan informasi terperinci yang dikodekan dalam setiap grafik pemandangan,” tulis para peneliti di balik kerangka tersebut dalam sebuah makalah.
Kumpulan data ProVision-10M untuk pelatihan AI
Dalam pekerjaannya, Salesforce menggunakan kedua pendekatan tersebut — augmentasi grafik adegan yang dianotasi secara manual dan pembuatan dari awal — untuk menyiapkan grafik adegan yang mendukung 24 generator data gambar tunggal dan 14 generator multi-gambar.
“Dengan generator data ini, kami dapat secara otomatis mensintesis pertanyaan dan jawaban berdasarkan grafik pemandangan. Misalnya, jika diberikan gambaran jalan yang sibuk, ProVision dapat menghasilkan pertanyaan seperti, “Apa hubungan antara pejalan kaki dan mobil?” atau “Benda mana yang lebih dekat dengan bangunan merah, [the] mobil atau pejalan kaki?” peneliti utama Jieyu Zhang dan Le Xue mencatat dalam sebuah posting blog.
Generator data dengan pendekatan pertama, yang menambah grafik pemandangan Visual Genome dengan anotasi kedalaman dan segmentasi dari Depth Anything V2 dan SAM-2, membantu mereka membuat 1,5 juta titik data instruksi gambar tunggal dan 4,2 juta titik data instruksi multi-gambar. Sementara itu, metode lainnya, menggunakan 120.000 gambar beresolusi tinggi dari kumpulan data DataComp dan model seperti Yolo-World, Coca, Llava-1.5, dan Osprey, menghasilkan 2,3 juta titik data instruksi gambar tunggal dan 4,2 juta titik data instruksi multi-gambar.
Secara keseluruhan, gabungan keempat pemisahan tersebut membentuk ProVision-10M, kumpulan data dengan lebih dari 10 juta titik data instruksi unik. Sekarang tersedia di Hugging Face dan sudah terbukti sangat efektif dalam jalur pelatihan AI.
Secara khusus, ketika perusahaan memasukkan ProVision-10M ke dalam resep penyempurnaan AI multimodal — LLaVA-1.5 untuk data instruksi gambar tunggal dan Mantis-SigLIP-8B untuk data instruksi multi-gambar — perusahaan tersebut mengalami peningkatan yang signifikan, dengan kinerja rata-rata dari model menjadi lebih tinggi dibandingkan dengan penyesuaian tanpa data ProVision.
“Saat diadopsi dalam tahap penyetelan instruksi, data instruksi gambar tunggal kami menghasilkan peningkatan hingga 7% pada pemisahan 2D dan 8% pada pemisahan 3D CVBench, serta peningkatan kinerja sebesar 3% pada QBench2, RealWorldQA, dan MMMU. Data instruksi multi-gambar kami menghasilkan peningkatan 8% pada Mantis-Eval,” para peneliti mencatat dalam makalah tersebut.

Data sintetis akan tetap ada
Meskipun ada beberapa alat dan platform, termasuk model dasar dunia Cosmos baru dari Nvidia, untuk menghasilkan berbagai modalitas data (dari gambar hingga video) yang dapat digunakan untuk pelatihan AI multimodal, hanya sedikit yang melihat masalah dalam pembuatan instruksi. kumpulan data yang berpasangan dengan data tersebut.
Salesforce mengatasi hambatan tersebut dengan ProVision, memberikan perusahaan cara untuk melampaui pelabelan manual atau model bahasa yang tidak dapat diterapkan. Pendekatan menghasilkan data instruksi secara terprogram memastikan kemampuan interpretasi dan pengendalian proses pembangkitan dan menskalakan secara efisien sambil menjaga akurasi faktual.
Dalam jangka panjang, perusahaan berharap para peneliti dapat melanjutkan pekerjaan ini untuk menyempurnakan jalur pembuatan grafik pemandangan dan membuat lebih banyak generator data yang mencakup jenis data instruksi baru, seperti untuk video.