
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
University of California, Santa Cruz telah mengumumkan rilis OpenVision, keluarga encoder visi yang bertujuan untuk memberikan alternatif baru untuk model termasuk klip empat tahun Openai dan Siglip Google tahun lalu.
Encoder visi adalah jenis model AI yang mengubah materi dan file visual-biasanya gambar diam yang diunggah oleh pembuat model-menjadi data numerik yang dapat dipahami oleh model AI non-visual lainnya seperti model bahasa besar (LLM). Encoder visi adalah komponen yang diperlukan untuk memungkinkan banyak LLM terkemuka untuk dapat bekerja dengan gambar yang diunggah oleh pengguna, memungkinkan LLM untuk mengidentifikasi subjek gambar yang berbeda, warna, lokasi, dan lebih banyak fitur dalam suatu gambar.
OpenVision, kemudian, dengan lisensi APACHE 2.0 yang permisif dan keluarga 26 (!) Model yang berbeda yang mencakup antara 5,9 juta parameter hingga 632,1 juta parameter, memungkinkan pengembang atau pembuat model AI dalam sebuah perusahaan atau organisasi untuk membawa dan menyebarkan pengkodak lainnya. Lisensi Apache 2.0 memungkinkan penggunaan dalam aplikasi komersial.
Model -model tersebut dikembangkan oleh tim yang dipimpin oleh Cihang Xie, asisten profesor di UCSC, bersama dengan kontributor Xianhang Li, Yanqing Liu, Haoqin Tu, dan Hongru Zhu.
Proyek ini dibangun di atas pipa pelatihan klip dan memanfaatkan dataset Recap-DataComp-1B, versi yang ditutup kembali dari corpus gambar web skala miliar menggunakan model bahasa bertenaga LLAVA.
Arsitektur yang dapat diskalakan untuk kasus penggunaan penyebaran perusahaan yang berbeda
Desain OpenVision mendukung beberapa kasus penggunaan.
Model yang lebih besar sangat cocok untuk beban kerja tingkat server yang membutuhkan akurasi tinggi dan pemahaman visual yang terperinci, sementara varian yang lebih kecil-beberapa seringan parameter 5,9m-dioptimalkan untuk penyebaran tepi di mana komputasi dan memori terbatas.
Model juga mendukung ukuran tambalan adaptif (8 × 8 dan 16 × 16), memungkinkan untuk trade-off yang dapat dikonfigurasi antara resolusi detail dan beban komputasi.
Hasil yang kuat di seluruh tolok ukur multimodal
Dalam serangkaian tolok ukur, OpenVision menunjukkan hasil yang kuat di berbagai tugas bahasa penglihatan.
Sementara tolok ukur klip tradisional seperti Imagenet dan MSCOCO tetap menjadi bagian dari rangkaian evaluasi, tim OpenVision memperingatkan agar tidak hanya mengandalkan metrik tersebut.
Eksperimen mereka menunjukkan bahwa kinerja yang kuat pada klasifikasi gambar atau pengambilan tidak selalu diterjemahkan menjadi keberhasilan dalam penalaran multimoda yang kompleks. Sebaliknya, tim menganjurkan untuk cakupan tolok ukur yang lebih luas dan protokol evaluasi terbuka yang lebih mencerminkan kasus penggunaan multimodal dunia nyata.
Evaluasi dilakukan dengan menggunakan dua kerangka kerja multimodal standar-Llava-1.5 dan Open-Llava-Next-dan menunjukkan bahwa model OpenVision secara konsisten mencocokkan atau mengungguli klip dan Siglip di seluruh tugas seperti TextVQA, ChartqA, MME, dan OCR.
Di bawah pengaturan LLAVA-1.5, encoder OpenVision yang dilatih pada resolusi 224 × 224 mendapat skor lebih tinggi dari klip Openai di kedua tugas klasifikasi dan pengambilan, serta dalam evaluasi hilir seperti Seed, SQA, dan Paus.
Pada resolusi input yang lebih tinggi (336 × 336), OpenVision-L/14 mengungguli Clip-L/14 di sebagian besar kategori. Bahkan model yang lebih kecil, seperti OpenVision-Small dan Tiny, mempertahankan akurasi kompetitif sambil menggunakan parameter yang jauh lebih sedikit.
Pelatihan progresif yang efisien mengurangi biaya komputasi
Salah satu fitur terkenal dari OpenVision adalah strategi pelatihan resolusi progresifnya, diadaptasi dari Clipa. Model mulai berlatih pada gambar resolusi rendah dan secara bertahap disetel pada resolusi yang lebih tinggi.
Ini menghasilkan proses pelatihan yang lebih efisien-seringkali 2 hingga 3 kali lebih cepat daripada Clip dan Siglip-tanpa kerugian dalam kinerja hilir.
Studi Ablasi-di mana komponen model pembelajaran mesin secara selektif dihapus untuk mengidentifikasi pentingnya atau ketiadaannya terhadap fungsinya-lebih lanjut mengkonfirmasi manfaat dari pendekatan ini, dengan keuntungan kinerja terbesar yang diamati dalam tugas resolusi tinggi, detail-sensitif seperti OCR dan penjawab pertanyaan visual berbasis grafik.
Faktor lain dalam kinerja OpenVision adalah penggunaan keterangan sintetis dan dekoder teks tambahan selama pelatihan.
Pilihan -pilihan desain ini memungkinkan encoder visi untuk mempelajari representasi yang lebih kaya secara semantik, meningkatkan akurasi dalam tugas penalaran multimoda. Menghapus salah satu komponen menyebabkan penurunan kinerja yang konsisten dalam tes ablasi.
Dioptimalkan untuk Sistem Ringan dan Kasing Penggunaan Komputasi Edge
OpenVision juga dirancang untuk bekerja secara efektif dengan model bahasa kecil.
Dalam satu percobaan, encoder visi dipasangkan dengan SMOL-LM 150m-parameter untuk membangun model multimodal penuh di bawah parameter 250m.

Terlepas dari ukuran kecil, sistem mempertahankan akurasi yang kuat di seluruh rangkaian VQA, pemahaman dokumen, dan tugas penalaran.
Kemampuan ini menunjukkan potensi yang kuat untuk penyebaran berbasis tepi atau yang dibatasi sumber daya, seperti smartphone konsumen atau kamera dan sensor manufaktur di tempat.
Mengapa OpenVision penting bagi pembuat keputusan teknis perusahaan
Pendekatan OpenVision yang sepenuhnya terbuka dan modular untuk pengembangan encoder visi memiliki implikasi strategis untuk tim perusahaan yang bekerja di seluruh teknik AI, orkestrasi, infrastruktur data, dan keamanan.
Untuk insinyur yang mengawasi pengembangan dan penyebaran LLM, OpenVision menawarkan solusi plug-and-play untuk mengintegrasikan kemampuan penglihatan berkinerja tinggi tanpa bergantung pada buram, API pihak ketiga atau lisensi model terbatas.
Keterbukaan ini memungkinkan optimalisasi yang lebih ketat dari jaringan pipa penglihatan-bahasa dan memastikan bahwa data hak milik tidak pernah meninggalkan lingkungan organisasi.
Untuk insinyur yang berfokus pada pembuatan kerangka kerja orkestrasi AI, OpenVision menyediakan model pada berbagai skala parameter-dari enkoder ultra-kompak yang cocok untuk perangkat tepi hingga model resolusi tinggi yang lebih besar yang cocok untuk pipa cloud multi-node.
Fleksibilitas ini membuatnya lebih mudah untuk merancang alur kerja MLOP yang dapat diskalakan dan hemat biaya tanpa mengurangi akurasi khusus tugas. Dukungannya untuk pelatihan resolusi progresif juga memungkinkan untuk alokasi sumber daya yang lebih cerdas selama pengembangan, yang sangat bermanfaat bagi tim yang beroperasi di bawah kendala anggaran yang ketat.
Insinyur data dapat memanfaatkan OpenVision untuk memberi daya pada pipa analitik yang berat, di mana data terstruktur ditambah dengan input visual (misalnya, dokumen, bagan, gambar produk). Karena model kebun binatang mendukung beberapa resolusi input dan ukuran tambalan, tim dapat bereksperimen dengan trade-off antara kesetiaan dan kinerja tanpa melatih kembali dari awal. Integrasi dengan alat -alat seperti Pytorch dan Hugging Face menyederhanakan penyebaran model ke dalam sistem data yang ada.
Sementara itu, arsitektur transparan OpenVision dan pipa pelatihan yang dapat direproduksi memungkinkan tim keamanan untuk menilai dan memantau model untuk kerentanan potensial-tidak seperti API kotak hitam di mana perilaku internal tidak dapat diakses.
Ketika digunakan di tempat, model-model ini menghindari risiko kebocoran data selama inferensi, yang sangat penting dalam industri yang diatur yang menangani data visual yang sensitif seperti ID, bentuk medis, atau catatan keuangan.
Di semua peran ini, OpenVision membantu mengurangi penguncian vendor dan membawa manfaat AI multimoda modern ke dalam alur kerja yang menuntut kontrol, kustomisasi, dan transparansi operasional. Ini memberi tim perusahaan fondasi teknis untuk membangun aplikasi yang kompetitif dan ditingkatkan AI-dengan syarat mereka sendiri.
Terbuka untuk bisnis
OpenVision Model Zoo tersedia dalam implementasi Pytorch dan Jax, dan tim juga telah merilis utilitas untuk integrasi dengan kerangka kerja bahasa visi yang populer.
Pada rilis ini, model dapat diunduh dari pemeluk wajah, dan resep pelatihan diposting secara publik untuk reproduktifitas penuh.
Dengan memberikan alternatif yang transparan, efisien, dan dapat diskalakan untuk encoder berpemilik, OpenVision menawarkan peneliti dan pengembang dasar yang fleksibel untuk memajukan aplikasi bahasa penglihatan. Rilisnya menandai langkah maju yang signifikan dalam dorongan untuk infrastruktur multimodal terbuka-terutama bagi mereka yang bertujuan untuk membangun sistem performant tanpa akses ke data tertutup atau saluran pipa pelatihan yang berat.
Untuk dokumentasi lengkap, tolok ukur, dan unduhan, kunjungi halaman Proyek OpenVision atau repositori GitHub.