
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Penalaran melalui rantai-pemikiran (COT)-proses di mana model memecah masalah menjadi “pemikiran” yang dapat dikelola sebelum mengurangi jawaban-telah menjadi bagian integral dari generasi terbaru dari Frontier Large Language Models (LLM).
Namun, biaya inferensi dari model penalaran dapat dengan cepat menumpuk karena model menghasilkan token COT berlebih. Dalam sebuah makalah baru, para peneliti di Universitas Carnegie Mellon mengusulkan teknik pelatihan LLM yang memberi pengembang lebih banyak kendali atas lamanya COT.
Disebut panjang optimasi kebijakan terkontrol (LCPO), teknik kondisi model untuk memberikan jawaban yang benar sambil juga menjaga “pikiran” dalam anggaran token yang telah ditentukan. Eksperimen menunjukkan bahwa model yang dilatih pada LCPO memberikan pertukaran yang lancar antara akurasi dan biaya dan secara mengejutkan dapat mengungguli model yang lebih besar dengan panjang penalaran yang sama. LCPO dapat membantu secara dramatis mengurangi biaya inferensi dalam aplikasi perusahaan dengan menghemat ribuan token di setiap putaran percakapan dengan LLM.
Kinerja LLM mengarah ke cot yang lebih panjang
Model penalaran seperti OpenAI O1 dan Deepseek-R1 dilatih melalui Penguatan Penguatan (RL) untuk menggunakan penskalaan waktu tes dan menghasilkan jejak COT sebelum menghasilkan jawaban. Bukti empiris menunjukkan bahwa ketika model “berpikir” lebih lama, mereka cenderung berkinerja lebih baik pada tugas penalaran.
Sebagai contoh, R1 awalnya dilatih pada RL murni tanpa contoh berlabel manusia. Salah satu wawasannya adalah bahwa ketika kinerja model meningkat, ia juga belajar untuk menghasilkan jejak COT yang lebih panjang.
Sementara secara umum, rantai COT yang panjang menghasilkan respons yang lebih akurat, mereka juga membuat hambatan komputasi dalam menerapkan model penalaran pada skala. Saat ini ada sedikit kontrol atas anggaran komputasi waktu tes, dan urutan dapat dengan mudah meregangkan hingga puluhan ribu token tanpa memberikan keuntungan yang signifikan. Ada beberapa upaya untuk mengendalikan lamanya rantai penalaran, tetapi mereka biasanya menurunkan kinerja model.
Optimasi Kebijakan Terkontrol Panjang (LCPO) Dijelaskan
Metode RL klasik melatih LLMS hanya untuk mencapai respons yang benar. LCPO mengubah paradigma ini dengan memperkenalkan dua tujuan pelatihan: 1) Dapatkan hasil yang benar dan 2) Jaga agar rantai COT terikat dalam panjang token tertentu. Oleh karena itu, jika model menghasilkan respons yang benar tetapi menghasilkan terlalu banyak token COT, itu akan menerima penalti dan dipaksa untuk menghasilkan rantai penalaran yang mencapai jawaban yang sama tetapi dengan anggaran token yang lebih kecil.
“Model yang terlatih LCPO belajar untuk memenuhi kendala panjang sambil mengoptimalkan kinerja penalaran, daripada mengandalkan heuristik yang direkayasa dengan tangan,” tulis para peneliti.
Mereka mengusulkan dua rasa LCPO: (1) LCPO-EXACT, yang membutuhkan penalaran yang dihasilkan untuk persis sama dengan panjang target, dan (2) LCPO-MAX, yang mengharuskan output tidak lebih dari panjang target.
Untuk menguji teknik ini, para peneliti menyempurnakan model penalaran 1,5b-parameter (Qwen-Distilled-R1-1.5B) pada dua skema LCPO yang diusulkan untuk membuat model L1-Max dan L1-Exact. Pelatihan didasarkan pada masalah matematika dengan hasil yang berbeda dan dapat diverifikasi. Namun, evaluasi termasuk masalah matematika serta tugas-tugas di luar distribusi seperti teknik pemahaman bahasa multitask (MMLU) yang mengukur dan tolok ukur Q&A Google-Proof (GPQA).
Temuan mereka menunjukkan bahwa model L1 secara tepat menyeimbangkan anggaran token dan penalaran kinerja, dengan lancar menginterpolasi antara penalaran pendek, efisien dan penalaran yang lebih lama, lebih akurat dengan mendorong model dengan kendala panjang yang berbeda. Yang penting, pada beberapa tugas, model L1 dapat mereproduksi kinerja model penalaran asli dengan anggaran token yang lebih rendah.
Dibandingkan dengan S1 – satu -satunya metode lain yang membatasi panjang model COT – L1 menunjukkan kenaikan kinerja hingga 150% pada anggaran token yang berbeda.
“Perbedaan substansial ini dapat dikaitkan dengan dua faktor kunci,” tulis para peneliti. “(1) L1 secara cerdas mengadaptasi COT-nya agar sesuai dengan kendala panjang yang ditentukan tanpa mengganggu proses penalaran, sementara S1 sering memotong mid-rasasm; dan (2) L1 secara eksplisit dilatih untuk menghasilkan rantai penalaran berkualitas tinggi dengan panjang yang bervariasi, secara efektif menyaring pola penalaran dari rantai yang lebih panjang ke yang lebih pendek. ”
L1 juga mengungguli rekannya yang tidak masuk akal sebesar 5% dan GPT-4O sebesar 2% pada panjang generasi yang sama. “Mengenai pengetahuan kami yang terbaik, ini adalah demonstrasi pertama bahwa model 1.5b dapat mengungguli model perbatasan seperti GPT-4O, meskipun menggunakan panjang generasi yang sama,” tulis para peneliti.
Menariknya, COT model menunjukkan bahwa ia belajar untuk menyesuaikan proses penalaran berdasarkan anggaran tokennya. Misalnya, dengan anggaran yang lebih lama, model ini lebih cenderung menghasilkan token yang terkait dengan koreksi dan verifikasi diri (yaitu, “tetapi” dan “tunggu”) dan menggambar kesimpulan (“karena itu” dan “demikian”).

Di luar kontrol panjang yang ditingkatkan dalam pengaturan penalaran matematika standar, model L1 menggeneralisasi dengan sangat baik untuk tugas di luar distribusi, termasuk GPQA dan MMLU.
Jalur penelitian baru tentang model yang dapat menyesuaikan anggaran penalaran mereka dapat memiliki kegunaan penting untuk aplikasi dunia nyata, memberi perusahaan kemampuan untuk skala model penalaran tanpa biaya pelarian. Ini adalah alternatif yang kuat untuk hanya menggunakan model yang lebih besar, lebih mahal-dan bisa menjadi faktor penting dalam membuat AI lebih layak secara ekonomi untuk aplikasi volume tinggi dunia nyata.
Para peneliti telah membuka kode kode LCPO dan bobot untuk model L1.