
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Model bahasa yang sangat kecil (SLM) dapat mengungguli model bahasa besar (LLM) terkemuka dalam tugas penalaran, menurut sebuah studi baru oleh Shanghai AI Laboratory. Para penulis menunjukkan bahwa dengan alat yang tepat dan teknik penskalaan waktu tes, SLM dengan 1 miliar parameter dapat mengungguli 405B LLM pada tolok ukur matematika yang rumit.
Kemampuan untuk menggunakan SLM dalam tugas penalaran yang kompleks dapat sangat berguna karena perusahaan mencari cara baru untuk menggunakan model baru ini di lingkungan dan aplikasi yang berbeda.
Penskalaan waktu tes menjelaskan
Test-Time Scaling (TTS) adalah proses memberikan LLMS ekstra komputasi siles selama inferensi untuk meningkatkan kinerja mereka pada berbagai tugas. Model penalaran terkemuka, seperti Openai O1 dan Deepseek-R1, menggunakan “TT internal,” yang berarti mereka dilatih untuk “berpikir” perlahan dengan menghasilkan serangkaian panjang token rantai-dipikirkan (COT).
Pendekatan alternatif adalah “TTS eksternal,” di mana kinerja model ditingkatkan dengan (seperti namanya) bantuan luar. TT eksternal cocok untuk menggunakan kembali model keluar untuk tugas penalaran tanpa menyempurnakan lebih lanjut. Pengaturan TTS eksternal biasanya terdiri dari “model kebijakan,” yang merupakan LLM utama yang menghasilkan jawaban, dan model penghargaan proses (PRM) yang mengevaluasi jawaban model kebijakan. Kedua komponen ini digabungkan bersama melalui metode pengambilan sampel atau pencarian.
Pengaturan termudah adalah “Best-of-N,” di mana model kebijakan menghasilkan banyak jawaban dan PRM memilih satu atau lebih jawaban terbaik untuk menyusun respons akhir. Metode TTS eksternal yang lebih canggih menggunakan pencarian. Dalam “Beam Search,” model memecah jawaban menjadi beberapa langkah.
Untuk setiap langkah, itu mengambil sampel beberapa jawaban dan menjalankannya melalui PRM. Kemudian memilih satu atau lebih kandidat yang cocok dan menghasilkan langkah berikutnya dari jawabannya. Dan, dalam “beragam pencarian pohon verifier” (DVT), model ini menghasilkan beberapa cabang jawaban untuk membuat serangkaian tanggapan kandidat yang lebih beragam sebelum mensintesisnya menjadi jawaban akhir.
Apa strategi penskalaan yang tepat?
Memilih strategi TTS yang tepat tergantung pada banyak faktor. Penulis penelitian melakukan penyelidikan sistematis tentang bagaimana model kebijakan dan PRM yang berbeda mempengaruhi efisiensi metode TTS.
Temuan mereka menunjukkan bahwa efisiensi sebagian besar tergantung pada model kebijakan dan PRM. Misalnya, untuk model kebijakan kecil, metode berbasis pencarian mengungguli Best-of-N. Namun, untuk model kebijakan yang besar, Best-of-N lebih efektif karena model memiliki kemampuan penalaran yang lebih baik dan tidak memerlukan model hadiah untuk memverifikasi setiap langkah penalaran mereka.
Temuan mereka juga menunjukkan bahwa strategi TTS yang tepat tergantung pada kesulitan masalah. Misalnya, untuk model kebijakan kecil dengan parameter kurang dari 7B, Best-of-N bekerja lebih baik untuk masalah yang mudah, sementara pencarian balok bekerja lebih baik untuk masalah yang lebih sulit. Untuk model kebijakan yang memiliki parameter antara 7B dan 32B, beragam pencarian pohon berkinerja baik untuk masalah yang mudah dan menengah, dan pencarian balok bekerja paling baik untuk masalah keras. Tetapi untuk model kebijakan besar (parameter 72B dan banyak lagi), Best-of-N adalah metode optimal untuk semua tingkat kesulitan.
Mengapa model kecil bisa mengalahkan model besar

Berdasarkan temuan ini, pengembang dapat membuat strategi TTS komputasi-optimal yang memperhitungkan model kebijakan, PRM, dan kesulitan masalah untuk memanfaatkan anggaran komputasi sebaik-baiknya untuk menyelesaikan masalah penalaran.
Sebagai contoh, para peneliti menemukan bahwa model LLAMA-3.2-3B dengan strategi TTS komputasi-optimal mengungguli Llama-3.1-405b pada Math-500 dan AIME24, dua tolok ukur matematika yang rumit. Ini menunjukkan bahwa SLM dapat mengungguli model yang 135x lebih besar saat menggunakan strategi TTS komputasi-optimal.
Dalam percobaan lain, mereka menemukan bahwa model QWEN2.5 dengan 500 juta parameter dapat mengungguli GPT-4O dengan strategi TTS komputasi-optimal yang tepat. Menggunakan strategi yang sama, versi 1.5b suling dari Deepseek-R1 mengungguli preview O1 dan O1-Mini pada Math-500 dan AIME24.
Saat memperhitungkan anggaran pelatihan dan inferensi menghitung, temuan menunjukkan bahwa dengan strategi penskalaan komputasi-optimal, SLM dapat mengungguli model yang lebih besar dengan 100-1000x lebih sedikit kegagalan.
Hasil para peneliti menunjukkan bahwa TT komputasi-optimal secara signifikan meningkatkan kemampuan penalaran model bahasa. Namun, ketika model kebijakan tumbuh lebih besar, peningkatan TTS secara bertahap berkurang.
“Ini menunjukkan bahwa efektivitas TTS secara langsung terkait dengan kemampuan penalaran model kebijakan,” tulis para peneliti. “Secara khusus, untuk model dengan kemampuan penalaran yang lemah, penskalaan komputasi waktu uji mengarah ke peningkatan substansial, sedangkan untuk model dengan kemampuan penalaran yang kuat, keuntungannya terbatas.”
Studi ini memvalidasi bahwa SLM dapat melakukan lebih baik daripada model yang lebih besar saat menerapkan metode penskalaan waktu uji-optimal komputasi. Sementara penelitian ini berfokus pada tolok ukur matematika, para peneliti berencana untuk memperluas studi mereka ke tugas penalaran lain seperti pengkodean dan kimia.