
Bergabunglah dengan acara yang dipercaya oleh para pemimpin perusahaan selama hampir dua dekade. VB Transform menyatukan orang -orang yang membangun strategi AI perusahaan nyata. Pelajari lebih lanjut
Prancis ai darling Mistral menjaga rilis baru datang musim panas ini.
Hanya beberapa hari setelah mengumumkan komputasi Mistral Cloud Service Domestik AI-nya sendiri, perusahaan yang didanai dengan baik telah merilis pembaruan untuk model 24B Parameter Open Source Mistral Small, melompat dari rilis 3.1 ke 3.2-24B Instruksinya-2506.
Versi baru ini dibangun langsung di Mistral Small 3.1, yang bertujuan untuk meningkatkan perilaku spesifik seperti pengikut instruksi, stabilitas output, dan fungsi yang memanggil ketahanan. Sementara detail arsitektur keseluruhan tetap tidak berubah, pembaruan memperkenalkan perbaikan yang ditargetkan yang memengaruhi evaluasi internal dan tolok ukur publik.
Menurut AI Mistral, 3.2 kecil lebih baik untuk mematuhi instruksi yang tepat dan mengurangi kemungkinan generasi yang tak terbatas atau berulang – masalah yang kadang -kadang terlihat pada versi sebelumnya ketika menangani permintaan yang panjang atau ambigu.
Demikian pula, template panggilan fungsi telah ditingkatkan untuk mendukung skenario penggunaan alat yang lebih andal, terutama dalam kerangka kerja seperti VLLM.
Dan pada saat yang sama, itu bisa berjalan pada pengaturan dengan GPU NVIDIA A100/H100 80GB tunggal, secara drastis membuka opsi untuk bisnis dengan sumber daya komputasi yang ketat dan/atau anggaran.
Model yang diperbarui setelah hanya 3 bulan
Mistral Small 3.1 diumumkan pada Maret 2025 sebagai rilis terbuka di kisaran parameter 24B. Ini menawarkan kemampuan multimodal penuh, pemahaman multibahasa, dan pemrosesan konteks panjang hingga 128k token.
Model ini secara eksplisit diposisikan terhadap rekan-rekan eksklusif seperti GPT-4O Mini, Claude 3.5 Haiku, dan Gemma 3-it-dan, menurut Mistral, mengungguli mereka di banyak tugas.
Kecil 3.1 juga menekankan penyebaran yang efisien, dengan klaim menjalankan inferensi pada 150 token per detik dan dukungan untuk penggunaan di perangkat dengan 32 GB RAM.
Rilis itu datang dengan basis dan instruksi pos pemeriksaan, menawarkan fleksibilitas untuk menyempurnakan di seluruh domain seperti bidang hukum, medis, dan teknis.
Sebaliknya, 3.2 kecil berfokus pada perbaikan bedah untuk perilaku dan keandalan. Itu tidak bertujuan untuk memperkenalkan kemampuan baru atau perubahan arsitektur. Sebagai gantinya, ia bertindak sebagai rilis pemeliharaan: membersihkan kasus tepi dalam pembuatan output, kepatuhan pengetatan instruksi, dan interaksi sistem pemurnian yang tepat.
Kecil 3.2 vs. kecil 3.1: Apa yang berubah?
Tolok ukur mengikuti instruksi menunjukkan peningkatan kecil tetapi terukur. Akurasi internal Mistral naik dari 82,75% dalam 3,1 menjadi 84,78% kecil dalam 3,2 kecil.
Demikian pula, kinerja pada set data eksternal seperti Wildbench V2 dan Arena Hard V2 meningkat secara signifikan – Wildbench meningkat hampir 10 poin persentase, sementara arena keras lebih dari dua kali lipat, melompat dari 19,56% menjadi 43,10%.
Metrik internal juga menunjukkan pengurangan pengulangan output. Tingkat generasi tak terbatas turun dari 2,11% dalam 3,1 menjadi 1,29% kecil dalam 3,2 kecil – hampir pengurangan 2 ×. Ini membuat model lebih dapat diandalkan untuk pengembang membangun aplikasi yang membutuhkan respons yang konsisten dan terikat.
Kinerja di seluruh teks dan pengkodean tolok ukur menyajikan gambaran yang lebih bernuansa. Kecil 3.2 menunjukkan keuntungan pada Humaneval Plus (88,99% hingga 92,90%), MBPP Pass@5 (74,63% hingga 78,33%), dan SimpleQA. Ini juga sedikit meningkatkan hasil MMLU Pro dan matematika.

Tolok ukur penglihatan sebagian besar tetap konsisten, dengan sedikit fluktuasi. Chartqa dan Docvqa melihat keuntungan marjinal, sementara AI2D dan Mathvista turun kurang dari dua poin persentase. Kinerja penglihatan rata -rata sedikit menurun dari 81,39% dalam 3,1 menjadi kecil menjadi 81,00% dalam 3,2 kecil.

Ini selaras dengan niat Mistral yang dinyatakan: Kecil 3.2 bukan model perbaikan, tetapi penyempurnaan. Dengan demikian, sebagian besar tolok ukur berada dalam varian yang diharapkan, dan beberapa regresi tampaknya menjadi trade-off untuk perbaikan yang ditargetkan di tempat lain.
Namun, sebagai pengguna daya AI dan influencer @chatgpt21 diposting di x: “Semakin buruk pada MMLU,” yang berarti tolok ukur bahasa multitask besar, tes multidisiplin dengan 57 pertanyaan yang dirancang untuk menilai kinerja LLM yang luas di seluruh domain. Memang, skor 3,2 kecil 80,50%, sedikit di bawah 3.1 kecil 80,62%.
Lisensi Open Source akan membuatnya lebih menarik bagi pengguna yang sadar biaya dan disesuaikan
Kecil 3.1 dan 3.2 tersedia di bawah lisensi Apache 2.0 dan dapat diakses melalui populer. Kode AI Berbagi Wajah Memeluk Repositori (itu sendiri startup yang berbasis di Prancis dan NYC).
Kecil 3.2 didukung oleh kerangka kerja seperti VLLM dan Transformers dan membutuhkan sekitar 55 GB RAM GPU untuk dijalankan dalam presisi BF16 atau FP16.
Untuk pengembang yang ingin membangun atau melayani aplikasi, petunjuk sistem dan contoh inferensi disediakan dalam repositori model.
Sementara Mistral Small 3.1 sudah diintegrasikan ke dalam platform seperti Google Cloud Vertex AI dan dijadwalkan untuk ditempatkan di NVIDIA NIM dan Microsoft Azure, Small 3.2 saat ini tampak terbatas pada akses swadaya melalui pemeluk tangan dan penyebaran langsung.
Perusahaan apa yang harus diketahui saat mempertimbangkan scal small 3.2 untuk kasus penggunaannya
Mistral Small 3.2 mungkin tidak menggeser posisi kompetitif dalam ruang model bobot terbuka, tetapi itu mewakili komitmen Mistral AI terhadap penyempurnaan model berulang.
Dengan perbaikan nyata dalam keandalan dan penanganan tugas – terutama di sekitar presisi instruksi dan penggunaan alat – Small 3.2 menawarkan pengalaman pengguna yang lebih bersih untuk pengembang dan perusahaan yang membangun di ekosistem yang tidak disukai.
Fakta bahwa itu dibuat oleh startup Prancis dan sesuai dengan aturan dan peraturan UE seperti GDPR dan UU AI UE juga membuatnya menarik bagi perusahaan yang bekerja di bagian dunia itu.
Namun, bagi mereka yang mencari lompatan terbesar dalam kinerja benchmark, 3.1 kecil tetap menjadi titik referensi – terutama mengingat bahwa dalam beberapa kasus, seperti MMLU, Small 3.2 tidak mengungguli pendahulunya. Itu membuat pembaruan lebih dari opsi yang berfokus pada stabilitas daripada peningkatan murni, tergantung pada kasus penggunaan.