
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Model bahasa besar (LLM) semakin mampu melakukan penalaran yang kompleks melalui “penskalaan waktu inferensi,” serangkaian teknik yang mengalokasikan lebih banyak sumber daya komputasi selama inferensi untuk menghasilkan jawaban. Namun, studi baru dari Microsoft Research mengungkapkan bahwa efektivitas metode penskalaan ini tidak universal. Peningkatan kinerja bervariasi secara signifikan di berbagai model, tugas dan kompleksitas masalah.
Temuan inti adalah bahwa hanya melempar lebih banyak komputasi pada masalah selama inferensi tidak menjamin hasil yang lebih baik atau lebih efisien. Temuan ini dapat membantu perusahaan lebih memahami volatilitas biaya dan keandalan model karena mereka ingin mengintegrasikan penalaran AI canggih ke dalam aplikasi mereka.
Menempatkan metode penskalaan ke dalam tes
Tim peneliti Microsoft melakukan analisis empiris yang luas di sembilan model yayasan yang canggih. Ini termasuk kedua model “konvensional” seperti GPT-4O, Claude 3.5 Sonnet, Gemini 2.0 Pro dan Llama 3.1 405B, serta model yang disempurnakan secara khusus untuk meningkatkan penalaran melalui penskalaan waktu inferensi. Ini termasuk O1 dan O3-Mini Openai, soneta Claude 3.7 Anthropic, pemikiran gemini 2 Google, dan Deepseek R1.
Mereka mengevaluasi model-model ini menggunakan tiga pendekatan penskalaan waktu inferensi yang berbeda:
- Standar rantai-pemikiran (COT): Metode dasar di mana model diminta untuk menjawab langkah demi langkah.
- Penskalaan Paralel: Model ini menghasilkan beberapa jawaban independen untuk pertanyaan yang sama dan menggunakan agregator (seperti suara mayoritas atau memilih jawaban skor terbaik) untuk sampai pada hasil akhir.
- Penskalaan berurutan: Model ini secara iteratif menghasilkan jawaban dan menggunakan umpan balik dari seorang kritikus (berpotensi dari model itu sendiri) untuk memperbaiki jawaban dalam upaya selanjutnya.
Pendekatan ini diuji pada delapan dataset tolok ukur yang menantang yang mencakup berbagai tugas yang mendapat manfaat dari pemecahan masalah langkah demi langkah: matematika dan penalaran batang (AIME, Omni-Math, GPQA), Perencanaan Kalender (BA-Calendar), Alasan NP-Hard (3SAT, TSP), Navigasi (MAZE) dan SPATIAL SPATIAL (3SAT), navigasi (MAZE) dan Spatial Alasan
Beberapa tolok ukur termasuk masalah dengan berbagai tingkat kesulitan, memungkinkan pemahaman yang lebih bernuansa tentang bagaimana penskalaan berperilaku sebagai masalah menjadi lebih sulit.
“Ketersediaan Tag Kesulitan untuk Omni-Math, TSP, 3SAT, dan BA-Calendar memungkinkan kita untuk menganalisis bagaimana akurasi dan skala penggunaan token dengan kesulitan dalam penskalaan waktu inferensi, yang merupakan perspektif yang masih kurang dieksplorasi,” tulis para peneliti dalam makalah yang merinci temuan mereka.
Para peneliti mengevaluasi perbatasan Pareto dari penalaran LLM dengan menganalisis akurasi dan biaya komputasi (yaitu, jumlah token yang dihasilkan). Ini membantu mengidentifikasi seberapa efisien model mencapai hasilnya.

Mereka juga memperkenalkan ukuran “celah konvensional-ke-rumit”, yang membandingkan kinerja terbaik dari model konvensional (menggunakan seleksi “terbaik-N” yang ideal) dengan kinerja rata-rata model penalaran, memperkirakan potensi keuntungan yang dapat dicapai melalui pelatihan yang lebih baik atau teknik verifikasi.
Lebih banyak komputasi tidak selalu jawabannya
Studi ini memberikan beberapa wawasan penting yang menantang asumsi umum tentang penskalaan waktu inferensi:
Manfaat bervariasi secara signifikan: Sementara model yang disetel karena penalaran umumnya mengungguli yang konvensional pada tugas -tugas ini, tingkat peningkatan sangat bervariasi tergantung pada domain dan tugas tertentu. Keuntungan sering berkurang seiring dengan meningkatnya kompleksitas masalah. Misalnya, perbaikan kinerja yang terlihat pada masalah matematika tidak selalu diterjemahkan secara setara dengan penalaran ilmiah atau tugas perencanaan.
Inefisiensi token marak: Para peneliti mengamati variabilitas tinggi dalam konsumsi token, bahkan antara model yang mencapai akurasi yang sama. Misalnya, pada tolok ukur matematika AIME 2025, Deepseek-R1 menggunakan lebih dari lima kali lebih banyak token daripada Claude 3.7 soneta untuk akurasi rata-rata yang kira-kira sebanding.
Lebih banyak token tidak mengarah pada akurasi yang lebih tinggi: Berlawanan dengan gagasan intuitif bahwa rantai penalaran yang lebih lama berarti penalaran yang lebih baik, penelitian ini menemukan ini tidak selalu benar. “Anehnya, kami juga mengamati bahwa generasi yang lebih panjang relatif terhadap model yang sama kadang -kadang dapat menjadi indikator model yang berjuang, daripada peningkatan refleksi,” kata kertas itu. “Demikian pula, ketika membandingkan model penalaran yang berbeda, penggunaan token yang lebih tinggi tidak selalu dikaitkan dengan akurasi yang lebih baik. Temuan ini memotivasi perlunya pendekatan penskalaan yang lebih bertujuan dan hemat biaya.”
Biaya nondeterminisme: Mungkin yang paling memprihatinkan untuk pengguna perusahaan, kueri berulang untuk model yang sama untuk masalah yang sama dapat menghasilkan penggunaan token yang sangat bervariasi. Ini berarti biaya menjalankan kueri dapat berfluktuasi secara signifikan, bahkan ketika model secara konsisten memberikan jawaban yang benar.

Potensi dalam mekanisme verifikasi: Penskalaan kinerja secara konsisten meningkat di semua model dan tolok ukur ketika disimulasikan dengan “verifier sempurna” (menggunakan hasil Best-of-N).
Model konvensional terkadang cocok dengan model penalaran: Dengan meningkatkan panggilan inferensi secara signifikan (hingga 50x lebih dalam beberapa percobaan), model konvensional seperti GPT-4O kadang-kadang dapat mendekati tingkat kinerja model penalaran yang berdedikasi, terutama pada tugas yang kurang kompleks. Namun, keuntungan ini berkurang dengan cepat dalam pengaturan yang sangat kompleks, menunjukkan bahwa penskalaan brute-force memiliki batasan.

Implikasi untuk perusahaan
Temuan ini membawa bobot yang signifikan bagi pengembang dan pengadopsi perusahaan LLMS. Masalah “biaya nondeterminisme” sangat mencolok dan membuat penganggaran menjadi sulit. Seperti yang ditunjukkan oleh para peneliti, “Idealnya, pengembang dan pengguna akan lebih suka model yang standar deviasi pada penggunaan token per instance rendah untuk prediktabilitas biaya.”
“Profil yang kami lakukan [the study] Bisa berguna bagi pengembang sebagai alat untuk memilih model mana yang kurang fluktuatif untuk prompt yang sama atau untuk petunjuk yang berbeda, “Besmira Nushi, manajer penelitian utama senior di Microsoft Research, mengatakan kepada VentureBeat.” Idealnya, orang ingin memilih model yang memiliki standar deviasi rendah untuk input yang benar. ”

Studi ini juga memberikan wawasan yang baik tentang korelasi antara akurasi model dan panjang respons. Misalnya, diagram berikut menunjukkan bahwa kueri matematika di atas ~ 11.000 panjang token memiliki peluang yang sangat ramping untuk menjadi benar, dan generasi -generasi itu harus dihentikan pada saat itu atau dimulai kembali dengan beberapa umpan balik berurutan. Namun, Nushi menunjukkan bahwa model yang memungkinkan mitigasi post hoc ini juga memiliki pemisahan yang lebih bersih antara sampel yang benar dan yang salah.

“Pada akhirnya, itu juga merupakan tanggung jawab pembangun model untuk berpikir tentang mengurangi akurasi dan biaya non-determinisme, dan kami berharap banyak hal ini terjadi ketika metode menjadi lebih matang,” kata Nushi. “Bersamaan dengan biaya nondeterminisme, akurasi nondeterminisme juga berlaku.”
Temuan penting lainnya adalah peningkatan kinerja yang konsisten dari verifikasi sempurna, yang menyoroti area kritis untuk pekerjaan di masa depan: membangun mekanisme verifikasi yang kuat dan berlaku secara luas.
“Ketersediaan verifikasi yang lebih kuat dapat memiliki berbagai jenis dampak,” kata Nushi, seperti meningkatkan metode pelatihan dasar untuk penalaran. “Jika digunakan secara efisien, ini juga dapat memperpendek jejak penalaran.”
Verifier yang kuat juga dapat menjadi bagian utama dari solusi AI agen perusahaan. Banyak pemangku kepentingan perusahaan sudah memiliki verifikasi seperti itu, yang mungkin perlu digunakan kembali untuk solusi yang lebih agen, seperti pemecah SAT, pemeriksa validitas logistik, dll.
“Pertanyaan untuk masa depan adalah bagaimana teknik yang ada dapat dikombinasikan dengan antarmuka yang digerakkan AI dan apa bahasa yang menghubungkan keduanya,” kata Nushi. “Perlunya menghubungkan keduanya berasal dari fakta bahwa pengguna tidak akan selalu merumuskan pertanyaan mereka dengan cara formal, mereka akan ingin menggunakan antarmuka bahasa alami dan mengharapkan solusi dalam format yang sama atau dalam tindakan akhir (misalnya mengusulkan undangan pertemuan).”