
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Berbasis Transformer Model bahasa besar (LLM) adalah dasar dari lanskap AI generatif modern.
Transformer bukan satu -satunya cara untuk melakukannya Jenderal AI. Selama tahun lalu, Mamba, sebuah pendekatan yang menggunakan model ruang negara terstruktur (SSM), juga telah mengambil adopsi sebagai pendekatan alternatif dari banyak vendor, termasuk raksasa silikon AI21 dan AI Nvidia.
NVIDIA pertama kali membahas konsep model bertenaga Mamba pada tahun 2024 ketika awalnya merilis Mambavision Research dan beberapa model awal. Minggu ini, NVIDIA memperluas upaya awalnya dengan serangkaian model Mambavision yang diperbarui yang tersedia di Hugging Face.
Mambavision, sesuai namanya, adalah keluarga model berbasis Mamba untuk visi komputer dan tugas pengenalan gambar. Janji mambavision untuk perusahaan adalah bahwa hal itu dapat meningkatkan efisiensi dan keakuratan operasi penglihatan, dengan biaya yang berpotensi lebih rendah, berkat persyaratan komputasi yang lebih rendah.
Apa itu SSM dan bagaimana mereka membandingkan dengan Transformers?
SSM adalah kelas arsitektur jaringan saraf yang memproses data berurutan secara berbeda dari transformator tradisional.
Sementara Transformers menggunakan mekanisme perhatian untuk memproses semua token dalam kaitannya satu sama lain, data urutan model SSMS sebagai sistem dinamis kontinu.
Mamba adalah implementasi SSM spesifik yang dikembangkan untuk mengatasi keterbatasan model SSM sebelumnya. Ini memperkenalkan pemodelan ruang keadaan selektif yang secara dinamis beradaptasi dengan input data dan desain yang sadar perangkat keras untuk pemanfaatan GPU yang efisien. Mamba bertujuan untuk memberikan kinerja yang sebanding dengan transformator pada banyak tugas sambil menggunakan lebih sedikit sumber daya komputasi
Nvidia menggunakan arsitektur hybrid dengan mambavision untuk merevolusi visi komputer
Transformer visi tradisional (VIT) telah mendominasi visi komputer berkinerja tinggi selama beberapa tahun terakhir, tetapi dengan biaya komputasi yang signifikan. Pendekatan berbasis Mamba murni, meskipun lebih efisien, telah berjuang untuk mencocokkan kinerja transformator pada tugas visi kompleks yang membutuhkan pemahaman konteks global.
Mambavision menjembatani kesenjangan ini dengan mengadopsi pendekatan hibrida. Mambavision Nvidia adalah model hibrida yang secara strategis menggabungkan efisiensi Mamba dengan kekuatan pemodelan transformator.
Inovasi arsitektur terletak pada formulasi Mamba yang didesain ulang secara khusus direkayasa untuk pemodelan fitur visual, ditambah dengan penempatan strategis blok perhatian-diri di lapisan akhir untuk menangkap ketergantungan spasial yang kompleks.
Tidak seperti model penglihatan konvensional yang mengandalkan secara eksklusif pada mekanisme perhatian atau pendekatan konvolusional, arsitektur hierarkis Mambavision menggunakan kedua paradigma secara bersamaan. Model memproses informasi visual melalui operasi berbasis pemindaian berurutan dari Mamba sambil memanfaatkan perhatian diri untuk memodelkan konteks global-secara efektif mendapatkan yang terbaik dari kedua dunia.
Mambavision sekarang memiliki 740 juta parameter
Set baru model Mambavision yang dirilis di HuggiNG Face tersedia di bawah Lisensi Kode Sumber NVIDIA-NC, yang merupakan lisensi terbuka.
Varian awal mambavision yang dirilis pada tahun 2024 termasuk varian T dan T2, yang dilatih di perpustakaan ImageNet-1K. Model baru yang dirilis minggu ini termasuk varian L/L2 dan L3, yang merupakan model yang diperkecil.
“Sejak rilis awal, kami telah secara signifikan meningkatkan Mambavision, meningkatkannya hingga 740 juta parameter yang mengesankan,” Ali Hatamizadeh, ilmuwan riset senior di Nvidia menulis dalam posting diskusi wajah yang memeluk. “Kami juga telah memperluas pendekatan pelatihan kami dengan memanfaatkan dataset Imagenet-21K yang lebih besar dan telah memperkenalkan dukungan asli untuk resolusi yang lebih tinggi, sekarang menangani gambar pada 256 dan 512 piksel dibandingkan dengan 224 piksel asli.”
Menurut NVIDIA, skala yang lebih baik dalam model Mambavision baru juga meningkatkan kinerja.
Konsultan AI independen Alex Fazio menjelaskan kepada VentureBeat bahwa pelatihan model Mambavision baru pada dataset yang lebih besar membuat mereka jauh lebih baik dalam menangani tugas yang lebih beragam dan kompleks.
Dia mencatat bahwa model baru termasuk varian resolusi tinggi yang sempurna untuk analisis gambar yang terperinci. Fazio mengatakan bahwa lineup juga telah diperluas dengan konfigurasi canggih yang menawarkan lebih banyak fleksibilitas dan skalabilitas untuk beban kerja yang berbeda.
“Dalam hal tolok ukur, model 2025 diharapkan untuk mengungguli model 2024 karena mereka menggeneralisasi lebih baik di seluruh dataset dan tugas yang lebih besar, kata Fazio.
Implikasi perusahaan dari Mambavision
Untuk perusahaan membangun aplikasi visi komputer, keseimbangan kinerja dan efisiensi Mambavision membuka kemungkinan baru
Mengurangi biaya inferensi: Throughput yang ditingkatkan berarti persyaratan komputasi GPU yang lebih rendah untuk tingkat kinerja yang serupa dibandingkan dengan model transformer saja.
Potensi penyebaran tepi: Meskipun masih besar, arsitektur Mambavision lebih dapat dioptimalkan untuk perangkat tepi daripada pendekatan transformator murni.
Peningkatan kinerja tugas hilir: Keuntungan pada tugas-tugas kompleks seperti deteksi objek dan segmentasi diterjemahkan langsung ke kinerja yang lebih baik untuk aplikasi dunia nyata seperti manajemen inventaris, kontrol kualitas, dan sistem otonom.
Penyebaran yang disederhanakan: NVIDIA telah merilis Mambavision dengan memeluk integrasi wajah, membuat implementasi langsung dengan hanya beberapa baris kode untuk klasifikasi dan ekstraksi fitur.
Apa artinya ini untuk strategi AI perusahaan
Mambavision merupakan peluang bagi perusahaan untuk menggunakan sistem visi komputer yang lebih efisien yang mempertahankan akurasi tinggi. Kinerja yang kuat model ini berarti berpotensi berfungsi sebagai fondasi serbaguna untuk beberapa aplikasi visi komputer di seluruh industri.
Mambavision masih merupakan upaya awal, tetapi itu mewakili sekilas ke masa depan model visi komputer.
Mambavision menyoroti bagaimana inovasi arsitektur – tidak hanya skala – terus mendorong peningkatan yang berarti dalam kemampuan AI. Memahami kemajuan arsitektur ini menjadi semakin penting bagi pembuat keputusan teknis untuk membuat pilihan penyebaran AI yang terinformasi.