
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Qwen Team, sebuah divisi raksasa e-commerce Cina Alibaba yang mengembangkan keluarga yang sedang berkembang dari model bahasa Open-Source Qwen (LLMS), telah memperkenalkan QWQ-32B, model penalaran pemasangan masalah 32-miliar-miliar yang dirancang untuk meningkatkan kinerja pada tugas pemasangan masalah yang kompleks melalui penguatan (RL).
Model ini tersedia sebagai bobot terbuka pada wajah memeluk dan pada modelscope di bawah lisensi Apache 2.0. Ini berarti tersedia untuk penggunaan komersial dan penelitian, sehingga perusahaan dapat segera menggunakannya untuk memberi daya pada produk dan aplikasi mereka (bahkan yang mereka minta pelanggan gunakan).
Ini juga dapat diakses untuk pengguna individu melalui obrolan QWEN.
Quan-dengan-pertanyaan adalah jawaban Alibaba untuk model penalaran asli Openai O1
QWQ, kependekan dari QWEN-dengan-pertanyaan, pertama kali diperkenalkan oleh Alibaba pada November 2024 sebagai model penalaran sumber terbuka yang bertujuan bersaing dengan preview O1 Openai.
Saat peluncuran, model ini dirancang untuk meningkatkan penalaran logis dan perencanaan dengan meninjau dan memperbaiki tanggapannya sendiri selama inferensi, sebuah teknik yang membuatnya sangat efektif dalam tugas matematika dan pengkodean.
Versi awal QWQ menampilkan 32 miliar parameter dan panjang konteks 32.000-token, dengan Alibaba menyoroti kemampuannya untuk mengungguli preview O1 dalam tolok ukur matematika seperti AIME dan Matematika, serta tugas penalaran ilmiah seperti GPQA.
Terlepas dari kekuatannya, iterasi awal QWQ berjuang dengan tolok ukur pemrograman seperti LiveCodebench, di mana model Openai mempertahankan keunggulan. Selain itu, seperti halnya banyak model penalaran yang muncul, QWQ menghadapi tantangan seperti pencampuran bahasa dan sesekali loop penalaran sirkuler.
Namun, keputusan Alibaba untuk merilis model di bawah lisensi Apache 2.0 memastikan bahwa pengembang dan perusahaan dapat dengan bebas beradaptasi dan mengkomersialkannya, membedakannya dari alternatif kepemilikan seperti Openai's O1.
Sejak rilis awal QWQ, lanskap AI telah berkembang dengan cepat. Keterbatasan LLM tradisional menjadi lebih jelas, dengan hukum penskalaan menghasilkan pengembalian yang semakin berkurang dalam peningkatan kinerja.
Pergeseran ini telah memicu minat pada model penalaran besar (LRM)-kategori baru sistem AI yang menggunakan penalaran waktu inferensi dan refleksi diri untuk meningkatkan akurasi. Ini termasuk Seri O3 Openai dan Deepseek-R1 yang sukses besar-besaran dari saingan lab China Deepseek, cabang dari perusahaan analisis kuantitatif Hong Kong High-flyer Capital Management.
Sebuah laporan baru dari Web Traffic Analytics dan Firma Research LineSweb menemukan bahwa sejak peluncuran R1 pada Januari 2024, Deepseek telah meroket grafik untuk menjadi situs web penyedia model AI yang paling banyak dikunjungi di belakang Openai.
QWQ-32B, iterasi terbaru Alibaba, dibangun di atas kemajuan ini dengan mengintegrasikan RL dan pertanyaan diri yang terstruktur, memposisikannya sebagai pesaing serius di bidang yang berkembang dari AI yang berfokus pada penalaran.
Meningkatkan kinerja dengan pembelajaran penguatan multi-tahap
Model instruksi tradisional sering berjuang dengan tugas penalaran yang sulit, tetapi penelitian tim Qwen menunjukkan bahwa RL dapat secara signifikan meningkatkan kemampuan model untuk memecahkan masalah yang kompleks.
QWQ-32B dibangun berdasarkan ide ini dengan menerapkan pendekatan pelatihan RL multi-tahap untuk meningkatkan penalaran matematika, kemahiran pengkodean dan pemecahan masalah umum.
Model ini telah dibandingkan dengan alternatif terkemuka seperti Deepseek-R1, O1-Mini dan Deepseek-R1-Distilled-Qwen-32B, menunjukkan hasil kompetitif meskipun memiliki lebih sedikit parameter daripada beberapa model ini.

For example, while DeepSeek-R1 operates with 671 billion parameters (with 37 billion activated), QwQ-32B achieves comparable performance with a much smaller footprint — typically requiring 24 GB of vRAM on a GPU (Nvidia's H100s have 80GB) compared to more than 1500 GB of vRAM for running the full DeepSeek R1 (16 Nvidia A100 GPUs) — highlighting Efisiensi pendekatan RL Qwen.
QWQ-32B mengikuti arsitektur model bahasa kausal dan mencakup beberapa optimisasi:
- 64 Lapisan Transformer dengan tali, Swiglu, RMSNorm dan perhatian bias QKV;
- Perhatian kueri umum (GQA) dengan 40 kepala perhatian untuk kueri dan 8 untuk pasangan nilai kunci;
- Panjang konteks diperpanjang dari 131.072 token, memungkinkan untuk penanganan input urutan panjang yang lebih baik;
- Pelatihan multi-tahap termasuk pretraining, fine-tuning dan RL yang diawasi.
Proses RL untuk QWQ-32B dieksekusi dalam dua fase:
- Fokus matematika dan pengkodean: Model ini dilatih menggunakan verifikasi akurasi untuk penalaran matematika dan server eksekusi kode untuk tugas pengkodean. Pendekatan ini memastikan bahwa jawaban yang dihasilkan divalidasi untuk kebenaran sebelum diperkuat.
- Peningkatan Kemampuan Umum: Dalam fase kedua, model menerima pelatihan berbasis hadiah menggunakan model hadiah umum dan verifikasi berbasis aturan. Tahap ini meningkatkan instruksi berikut, penyelarasan manusia dan penalaran agen tanpa mengorbankan kemampuan matematika dan pengkodeannya.
Apa artinya bagi pembuat keputusan perusahaan
Untuk para pemimpin perusahaan-termasuk CEO, CTO, pemimpin TI, manajer tim, dan pengembang aplikasi AI-QWQ-32B merupakan potensi perubahan dalam cara AI dapat mendukung pengambilan keputusan bisnis dan inovasi teknis.
Dengan kemampuan penalaran yang digerakkan oleh RL, model ini dapat memberikan wawasan yang lebih akurat, terstruktur, dan sadar konteks, menjadikannya berharga untuk kasus penggunaan seperti analisis data otomatis, perencanaan strategis, pengembangan perangkat lunak, dan otomatisasi cerdas.
Perusahaan yang ingin menggunakan solusi AI untuk pemecahan masalah yang kompleks, bantuan pengkodean, pemodelan keuangan atau otomatisasi layanan pelanggan dapat menemukan efisiensi QWQ-32B pilihan yang menarik. Selain itu, ketersediaannya yang terbuka memungkinkan organisasi untuk menyempurnakan dan menyesuaikan model untuk aplikasi khusus domain tanpa batasan hak milik, menjadikannya pilihan yang fleksibel untuk strategi AI perusahaan.
Fakta bahwa itu berasal dari raksasa e-commerce Cina dapat meningkatkan beberapa kekhawatiran keamanan dan bias untuk beberapa pengguna non-Cina, terutama saat menggunakan antarmuka obrolan QWEN. Tetapi seperti halnya Deepseek-R1, fakta bahwa model ini tersedia untuk memeluk wajah untuk diunduh dan penggunaan offline dan penyesuaian atau pelatihan ulang menunjukkan bahwa ini dapat diatasi dengan cukup mudah. Dan itu adalah alternatif yang layak untuk Deepseek-R1.
Reaksi awal dari pengguna dan influencer AI
Rilis QWQ-32B telah mendapatkan perhatian dari komunitas penelitian dan pengembangan AI, dengan beberapa pengembang dan profesional industri berbagi kesan awal mereka di X (sebelumnya Twitter):
- Vaibhav Srivastav dari Hugging Face (@Reach_VB) menyoroti kecepatan QWQ-32B dalam inferensi berkat laboratorium hiperbolik penyedia, menyebutnya “sangat cepat” dan sebanding dengan model tingkat atas. Dia juga mencatat bahwa model “mengalahkan Deepseek-R1 dan Openai O1-Mini dengan lisensi Apache 2.0.”
- Penerbit AI News dan Rumor Chubby (@Kimmonismus) terkesan dengan kinerja model, menekankan bahwa QWQ-32B terkadang mengungguli Deepseek-R1, meskipun 20 kali lebih kecil. “Suci Moly! Qwen dimasak! ” mereka menulis.
- Yuchen Jin (@yuchenj_uw), co-founder dan CTO dari laboratorium hiperbolik, Merayakan rilis dengan mencatat keuntungan efisiensi. “Model kecil sangat kuat! Alibaba Qwen merilis QWQ-32B, model penalaran yang mengalahkan Deepseek-R1 (671B) dan OpenAI O1-Mini! “
- Anggota tim wajah pemeluk lain, Erik Kaunismäki (@erikkaum) menekankan kemudahan penyebaran, berbagi bahwa model tersedia untuk penyebaran satu klik pada memeluk titik akhir wajah, membuatnya dapat diakses oleh pengembang tanpa pengaturan yang luas.
Kemampuan agen
QWQ-32B menggabungkan kemampuan agen, memungkinkannya untuk secara dinamis menyesuaikan proses penalaran berdasarkan umpan balik lingkungan.
Untuk kinerja optimal, tim QWEN merekomendasikan menggunakan pengaturan inferensi berikut:
- Suhu: 0.6
- Topp: 0,95
- Topk: Antara 20-40
- Penskalaan benang: Direkomendasikan untuk menangani urutan lebih dari 32.768 token
Model ini mendukung penyebaran menggunakan VLLM, kerangka kerja inferensi throughput tinggi. Namun, implementasi VLLM saat ini hanya mendukung penskalaan benang statis, yang mempertahankan faktor penskalaan tetap terlepas dari panjang input.
Perkembangan masa depan
Tim Qwen melihat QWQ-32B sebagai langkah pertama dalam menskalakan RL untuk meningkatkan kemampuan penalaran. Ke depan, tim berencana untuk:
- Lebih lanjut mengeksplorasi penskalaan RL untuk meningkatkan kecerdasan model;
- Mengintegrasikan agen dengan RL untuk penalaran jangka panjang;
- Terus mengembangkan model yayasan yang dioptimalkan untuk RL;
- Bergerak menuju Kecerdasan Umum Buatan (AGI) melalui teknik pelatihan yang lebih maju.
Dengan QWQ-32B, tim QWEN memposisikan RL sebagai pendorong utama generasi berikutnya dari model AI, menunjukkan bahwa penskalaan dapat menghasilkan sistem penalaran yang sangat berkinerja dan efektif.