
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
E-commerce Cina dan raksasa awan Alibaba tidak akan menghilangkan tekanan dari penyedia model AI lainnya di AS dan luar negeri.
Hanya beberapa hari setelah merilis Family Model Rale 3-of-of-the-Art Qwen3 yang baru, Family, Tim Qwen Alibaba hari ini merilis Qwen2.5-OMNI-3B, versi ringan dari arsitektur model multimoda sebelumnya yang dirancang untuk menjalankan perangkat keras tingkat konsumen tanpa mengorbankan fungsi luas di seluruh teks, audio, dan video input.
QWEN2.5-OMNI-3B adalah varian 3 miliar-parameter yang diperkecil dari model parameter 7 miliar parameter (7B) tim. (Parameter ingat mengacu pada jumlah pengaturan yang mengatur perilaku dan fungsionalitas model, dengan lebih biasanya menunjukkan model yang lebih kuat dan kompleks).
Sementara ukurannya lebih kecil, versi 3B mempertahankan lebih dari 90% dari kinerja multimodal model yang lebih besar dan memberikan generasi real-time dalam teks dan pidato yang terdengar alami.
Peningkatan besar datang dalam efisiensi memori GPU. Tim melaporkan bahwa QWEN2.5-OMNI-3B mengurangi penggunaan VRAM sebesar lebih dari 50% saat memproses input konteks panjang 25.000 token. Dengan pengaturan yang dioptimalkan, konsumsi memori turun dari 60,2 GB (model 7b) menjadi hanya 28,2 GB (model 3B), memungkinkan penyebaran pada 24GB GPU yang biasa ditemukan di desktop kelas atas dan komputer laptop-alih-alih kluster GPU khusus yang lebih besar atau stasiun kerja yang ditemukan di enterpris.
Menurut para pengembang, ia mencapai ini melalui fitur arsitektur seperti desain pemikir-pembicara dan metode penyematan posisi khusus, TMROPE, yang menyelaraskan input video dan audio untuk pemahaman yang disinkronkan.
Namun, persyaratan lisensi yang ditentukan hanya untuk penelitian – yang berarti perusahaan tidak dapat menggunakan model untuk membangun produk komersial kecuali mereka mendapatkan lisensi terpisah dari tim QWEN Alibaba, pertama.
Pengumuman ini mengikuti peningkatan permintaan untuk model multimodal yang lebih dapat digunakan dan disertai dengan tolok ukur kinerja yang menunjukkan hasil kompetitif relatif terhadap model yang lebih besar dalam seri yang sama.
Model ini sekarang tersedia secara bebas untuk diunduh dari:
Pengembang dapat mengintegrasikan model ke dalam jaringan pipa mereka menggunakan transformator wajah memeluk, wadah Docker, atau implementasi VLLM Alibaba. Optimalisasi opsional seperti flashattention 2 dan bf16 precision didukung untuk peningkatan kecepatan dan berkurangnya konsumsi memori.
Kinerja benchmark menunjukkan hasil yang kuat bahkan mendekati model parameter yang jauh lebih besar
Meskipun ukurannya berkurang, Qwen2.5-OMNI-3B melakukan secara kompetitif di seluruh tolok ukur utama:
Tugas | QWEN2.5-OMNI-3B | QWEN2.5-OMNI-7B |
---|---|---|
Omnibench (Penalaran multimodal) | 52.2 | 56.1 |
Videobench (pemahaman audio) | 68.8 | 74.1 |
MMMU (Penalaran Gambar) | 53.1 | 59.2 |
Mvbench (Penalaran video) | 68.7 | 70.3 |
Tes eval seed-tts-eval-keras (Generasi Pidato) | 92.1 | 93.5 |
Kesenjangan kinerja yang sempit dalam tugas video dan ucapan menyoroti efisiensi desain model 3B, terutama di bidang-bidang di mana interaksi waktu nyata dan kualitas output paling penting.
Pidato real-time, kustomisasi suara, dan banyak lagi
QWEN2.5-OMNI-3B mendukung input simultan di seluruh modalitas dan dapat menghasilkan respons teks dan audio secara real time.
Model ini mencakup fitur kustomisasi suara, yang memungkinkan pengguna untuk memilih antara dua suara bawaan-Chelsie (wanita) dan Ethan (pria)-sesuai dengan berbagai aplikasi atau audiens.
Pengguna dapat mengonfigurasi apakah akan mengembalikan respons audio atau teks saja, dan penggunaan memori dapat dikurangi lebih lanjut dengan menonaktifkan pembuatan audio saat tidak diperlukan.
Pertumbuhan Komunitas dan Ekosistem
Tim Qwen menekankan sifat open-source dari pekerjaannya, menyediakan toolkit, pos pemeriksaan pretrained, akses API, dan pemandu penyebaran untuk membantu pengembang memulai dengan cepat.
Rilis ini juga mengikuti momentum baru-baru ini untuk seri QWEN2.5-OMNI, yang telah mencapai peringkat teratas pada daftar model tren Hugging Face.
Junyang Lin dari tim Qwen mengomentari motivasi di balik rilis pada X, yang menyatakan, “Sementara banyak pengguna berharap untuk model Omni yang lebih kecil untuk penempatan kami kemudian membangun ini.”
Apa artinya bagi pembuat keputusan teknis perusahaan
Untuk pembuat keputusan perusahaan yang bertanggung jawab untuk pengembangan AI, orkestrasi, dan strategi infrastruktur, pelepasan Qwen2.5-OMNI-3B dapat muncul, pada pandangan pertama, seperti lompatan praktis ke depan. Model multimodal yang ringkas yang berkinerja kompetitif terhadap saudara kandung 7B -nya saat menjalankan GPU konsumen 24GB menawarkan janji nyata dalam hal kelayakan operasional. Tetapi seperti halnya teknologi open-source, masalah lisensi-dan dalam hal ini, lisensi menarik batasan antara eksplorasi dan penyebaran.
Model QWEN2.5-OMNI-3B dilisensikan untuk penggunaan non-komersial hanya berdasarkan perjanjian lisensi penelitian Qwen Alibaba Cloud. Itu berarti organisasi dapat mengevaluasi model, membandingkan TI, atau menyempurnakannya untuk tujuan penelitian internal-tetapi tidak dapat menyebarkannya dalam pengaturan komersial, seperti aplikasi yang menghadap pelanggan atau layanan yang dimonetisasi, tanpa terlebih dahulu mengamankan lisensi komersial terpisah dari Alibaba Cloud.
Untuk para profesional yang mengawasi siklus hidup model AI – apakah ada penyebaran di lingkungan pelanggan, mengatur skala, atau mengintegrasikan alat multimodal ke dalam pipa yang ada – pembatasan ini memperkenalkan pertimbangan penting. Ini dapat mengubah peran QWEN2.5-OMNI-3B dari solusi yang siap pakai ke testbed untuk kelayakan, cara untuk membuat prototipe atau mengevaluasi interaksi multimoda sebelum memutuskan apakah akan melisensikan secara komersial atau mengejar alternatif.
Mereka yang berada dalam peran orkestrasi dan OPS mungkin masih menemukan nilai dalam mengemudikan model untuk kasus penggunaan internal – seperti pipa penyempurnaan, membangun perkakas, atau menyiapkan tolok ukur – begitu tetap dalam batas penelitian. Insinyur data atau pemimpin keamanan mungkin juga mengeksplorasi model untuk validasi internal atau tugas QA, tetapi harus menginjak dengan hati -hati ketika mempertimbangkan penggunaannya dengan data hak milik atau pelanggan di lingkungan produksi.
Takeaway nyata di sini mungkin tentang akses dan kendala: QWEN2.5-OMNI-3B menurunkan penghalang teknis dan perangkat keras untuk bereksperimen dengan AI multimodal, tetapi lisensi saat ini menegakkan batas komersial. Dengan melakukan hal itu, ia menawarkan kepada tim perusahaan model kinerja tinggi untuk menguji ide, mengevaluasi arsitektur, atau menginformasikan keputusan make-vs-beli-namun cadangan produksi untuk mereka yang bersedia melibatkan Alibaba untuk diskusi lisensi.
Dalam konteks ini, QWEN2.5-OMNI-3B menjadi kurang opsi penyebaran-dan-bermain dan lebih banyak alat evaluasi strategis-cara untuk lebih dekat dengan AI multimodal dengan sumber daya yang lebih sedikit, tetapi belum menjadi solusi turnkey untuk produksi.