
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Hugging Face telah mencapai terobosan yang luar biasa di AI, memperkenalkan model bahasa penglihatan yang berjalan pada perangkat sekecil smartphone sambil mengungguli pendahulu mereka yang membutuhkan pusat data besar-besaran.
Model SMOLVLM-256M baru perusahaan, membutuhkan kurang dari satu gigabyte memori GPU, melampaui kinerja model Idefics 80B mereka dari hanya 17 bulan yang lalu-sistem 300 kali lebih besar. Pengurangan dramatis dalam ukuran dan peningkatan kemampuan ini menandai momen penting untuk penyebaran AI praktis.
“Ketika kami merilis Idefics 80B pada Agustus 2023, kami adalah perusahaan pertama yang open-source model bahasa video,” Andrés Marafioti, insinyur riset pembelajaran mesin di Hugging Face, mengatakan dalam sebuah wawancara eksklusif dengan VentureBeat. “Dengan mencapai pengurangan ukuran 300x sambil meningkatkan kinerja, SMOLVLM menandai terobosan dalam model bahasa penglihatan.”
Model AI yang lebih kecil yang berjalan pada perangkat sehari -hari
Kemajuan tiba pada saat -saat penting bagi perusahaan yang berjuang dengan biaya komputasi astronomi untuk menerapkan sistem AI. Model SMOLVLM baru – Tersedia dalam ukuran parameter 256m dan 500m – memproses gambar dan memahami konten visual dengan kecepatan yang sebelumnya tidak dapat dicapai pada kelas ukurannya.
Versi terkecil memproses 16 contoh per detik sambil menggunakan hanya 15GB RAM dengan ukuran batch 64, membuatnya sangat menarik bagi bisnis yang ingin memproses volume besar data visual. “Untuk perusahaan menengah yang memproses 1 juta gambar setiap bulan, ini diterjemahkan menjadi penghematan tahunan yang substansial dalam biaya komputasi,” kata Marafioti kepada VentureBeat. “Pengurangan jejak memori berarti bisnis dapat menggunakan instance cloud yang lebih murah, memotong biaya infrastruktur.”
Perkembangan ini telah menarik perhatian para pemain teknologi besar. IBM telah bermitra dengan memeluk wajah untuk mengintegrasikan model 256m ke dalam Dorpling, perangkat lunak pemrosesan dokumen mereka. “Meskipun IBM tentu memiliki akses ke sumber daya komputasi yang substansial, menggunakan model yang lebih kecil seperti ini memungkinkan mereka untuk memproses jutaan dokumen secara efisien dengan sedikit biaya,” kata Marafioti.

Bagaimana memeluk wajah mengurangi ukuran model tanpa kompromi
Keuntungan efisiensi berasal dari inovasi teknis dalam pemrosesan visi dan komponen bahasa. Tim beralih dari encoder visi parameter 400m ke versi parameter 93m dan menerapkan teknik kompresi token yang lebih agresif. Perubahan ini mempertahankan kinerja tinggi sambil secara dramatis mengurangi persyaratan komputasi.
Untuk startup dan perusahaan yang lebih kecil, perkembangan ini bisa transformatif. “Startup sekarang dapat meluncurkan produk visi komputer yang canggih dalam beberapa minggu, bukan berbulan -bulan, dengan biaya infrastruktur yang mahal hanya beberapa bulan yang lalu,” kata Marafioti.
Dampaknya melampaui penghematan biaya untuk memungkinkan aplikasi yang sama sekali baru. Model -model tersebut mendukung kemampuan pencarian dokumen lanjutan melalui Colipali, sebuah algoritma yang membuat database yang dapat dicari dari arsip dokumen. “Mereka memperoleh kinerja yang sangat dekat dengan model 10x ukuran sementara secara signifikan meningkatkan kecepatan di mana database dibuat dan dicari, membuat pencarian visual di seluruh perusahaan dapat diakses oleh bisnis dari semua jenis untuk pertama kalinya,” Marafioti menjelaskan.

Mengapa model AI yang lebih kecil adalah masa depan pengembangan AI
Terobosan menantang kebijaksanaan konvensional tentang hubungan antara ukuran model dan kemampuan. Sementara banyak peneliti telah berasumsi bahwa model yang lebih besar diperlukan untuk tugas-tugas penglihatan-penglihatan canggih, SMOLVLM menunjukkan bahwa arsitektur yang lebih kecil dan lebih efisien dapat mencapai hasil yang serupa. Versi parameter 500m mencapai 90% dari kinerja parameter 2.2b saudara kandungnya pada tolok ukur utama.
Daripada menyarankan dataran tinggi efisiensi, Marafioti melihat hasil ini sebagai bukti potensi yang belum dimanfaatkan: “Sampai hari ini, standar adalah untuk melepaskan VLM mulai dari parameter 2B; Kami berpikir bahwa model yang lebih kecil tidak berguna. Kami membuktikan bahwa, pada kenyataannya, model pada 1/10 dari ukuran dapat sangat berguna untuk bisnis. ”
Perkembangan ini tiba di tengah kekhawatiran yang semakin meningkat tentang dampak lingkungan AI dan biaya komputasi. Dengan secara dramatis mengurangi sumber daya yang diperlukan untuk AI berbahasa penglihatan, inovasi memeluk Face dapat membantu mengatasi kedua masalah sambil membuat kemampuan AI canggih dapat diakses oleh berbagai organisasi.
Model-model ini tersedia untuk sumber open-source, terus memeluk Face untuk meningkatkan akses ke teknologi AI. Aksesibilitas ini, dikombinasikan dengan efisiensi model, dapat mempercepat adopsi AI bahasa penglihatan di seluruh industri dari perawatan kesehatan hingga ritel, di mana biaya pemrosesan sebelumnya telah menjadi penghalang.
Di bidang di mana lebih besar telah lama berarti pencapaian yang lebih baik, memeluk Face menyarankan paradigma baru: masa depan AI mungkin tidak ditemukan dalam model yang semakin besar yang berjalan di pusat data yang jauh, tetapi dalam sistem yang gesit dan efisien berjalan tepat pada perangkat kami. Karena industri bergulat dengan pertanyaan skala dan keberlanjutan, model yang lebih kecil ini mungkin hanya mewakili terobosan terbesar.