
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Para peneliti dari Stanford University dan Google DeepMind telah meluncurkan pembelajaran penguatan langkah bijaksana (Sirir), sebuah teknik yang dirancang untuk meningkatkan kemampuan model bahasa besar (LLM) untuk menangani tugas-tugas kompleks yang membutuhkan penalaran multi-langkah dan penggunaan alat.
Karena minat pada agen AI dan penggunaan alat LLM terus meningkat, teknik ini dapat menawarkan manfaat besar bagi perusahaan yang ingin mengintegrasikan model penalaran ke dalam aplikasi dan alur kerja mereka.
Tantangan masalah multi-langkah
Aplikasi perusahaan dunia nyata sering kali melibatkan proses multi-langkah. Misalnya, merencanakan kampanye pemasaran yang kompleks dapat melibatkan riset pasar, analisis data internal, perhitungan anggaran dan meninjau tiket dukungan pelanggan. Ini membutuhkan pencarian online, akses ke database internal dan kode yang berjalan.
Metode Pembelajaran Penguatan Tradisional (RL) yang digunakan untuk menyempurnakan LLMS, seperti pembelajaran penguatan dari umpan balik manusia (RLHF) atau RL dari umpan balik AI (RLAIF), biasanya fokus pada mengoptimalkan model untuk tugas penalaran satu langkah.
Penulis utama dari The Smirler Paper, Anna Goldie, Ilmuwan Penelitian di Google DeepMind, dan Azalia Mirhosseini, asisten profesor ilmu komputer di Universitas Stanford, percaya bahwa metode pelatihan LLM saat ini tidak cocok untuk tugas penalaran multi-langkah yang diperlukan aplikasi dunia nyata.
“LLMS yang dilatih melalui metode tradisional biasanya berjuang dengan perencanaan multi-langkah dan integrasi alat, yang berarti bahwa mereka memiliki kesulitan melakukan tugas yang memerlukan pengambilan dan mensintesis dokumen dari berbagai sumber (misalnya, menulis laporan bisnis) atau berbagai langkah penalaran dan perhitungan aritmetika (misalnya, mempersiapkan ringkasan keuangan),” mereka mengatakan kepada ventura.
Pembelajaran Penguatan Langkah-Bijaksana (Swirl)
Swirl menangani tantangan multi-langkah ini melalui kombinasi pembuatan data sintetis dan pendekatan RL khusus yang melatih model pada seluruh urutan tindakan.
Seperti yang dinyatakan oleh para peneliti dalam makalah mereka, “Tujuan kami adalah mengajarkan model bagaimana menguraikan masalah yang kompleks menjadi urutan subtugas yang lebih mudah dikelola, kapan harus memanggil alat, bagaimana merumuskan panggilan ke alat, kapan menggunakan hasil pertanyaan ini untuk menjawab pertanyaan, dan bagaimana cara secara efektif mensintesis temuannya.”
Swirl menggunakan metodologi dua tahap. Pertama, ini menghasilkan dan menyaring sejumlah besar penalaran multi-langkah dan data penggunaan alat. Kedua, ia menggunakan algoritma RL langkah-bijaksana untuk mengoptimalkan LLM dasar menggunakan lintasan yang dihasilkan ini.
“Pendekatan ini memiliki keuntungan praktis utama yang dapat dengan cepat kami dapat menghasilkan volume besar data pelatihan multi-langkah melalui panggilan paralel untuk menghindari pelambatan proses pelatihan dengan eksekusi penggunaan alat yang lambat,” catat kertas. “Selain itu, proses offline ini memungkinkan reproduktifitas yang lebih besar karena memiliki dataset tetap.”
Menghasilkan data pelatihan
Tahap pertama melibatkan pembuatan data sintetis yang dipelajari. LLM diberikan akses ke alat yang relevan, seperti mesin pencari atau kalkulator. Model ini kemudian diminta secara iteratif untuk menghasilkan “lintasan,” urutan langkah -langkah untuk memecahkan masalah yang diberikan. Pada setiap langkah, model dapat menghasilkan penalaran internal (“rantai pemikiran”), memanggil alat, atau menghasilkan jawaban akhir. Jika memanggil alat, kueri diekstraksi, dieksekusi (misalnya, pencarian dilakukan), dan hasilnya diumpankan kembali ke konteks model untuk langkah berikutnya. Ini berlanjut sampai model memberikan jawaban akhir.
Setiap lintasan lengkap, dari prompt awal hingga jawaban akhir, kemudian dipecah menjadi beberapa subjekori yang tumpang tindih. Setiap subyektori mewakili proses hingga tindakan tertentu, memberikan pandangan granular dari penalaran langkah demi langkah model. Dengan menggunakan metode ini, tim menyusun kumpulan data besar berdasarkan pertanyaan dari tolok ukur pertanyaan multi-hop (HotpotQA) dan pemecahan masalah matematika (GSM8K), menghasilkan puluhan ribu lintasan.
Para peneliti mengeksplorasi empat strategi pemfilteran data yang berbeda: tidak ada penyaringan, penyaringan hanya berdasarkan pada kebenaran jawaban akhir (penyaringan hasil), penyaringan berdasarkan kewajaran yang dinilai dari masing -masing langkah (penyaringan proses) dan penyaringan berdasarkan proses dan hasil.
Banyak pendekatan standar, seperti fine-tuning (SFT) yang diawasi, sangat bergantung pada “label emas” (jawaban yang sempurna dan telah ditentukan sebelumnya) dan sering membuang data yang tidak mengarah pada jawaban akhir yang benar. Pendekatan RL populer terbaru, seperti yang digunakan dalam Deepseek-R1, juga menggunakan hadiah berbasis hasil untuk melatih model.
Sebaliknya, Swirl mencapai hasil terbaiknya menggunakan data yang difilter proses. Ini berarti data termasuk lintasan di mana setiap langkah penalaran atau panggilan alat dianggap logis mengingat konteks sebelumnya, bahkan jika jawaban akhir ternyata salah.
Para peneliti menemukan bahwa swirl dapat “belajar bahkan dari lintasan yang berakhir dengan jawaban akhir yang salah. Bahkan, kami mencapai hasil terbaik kami dengan memasukkan data yang difilter proses, terlepas dari kebenaran hasilnya.”
Pelatihan llms dengan swirl

Pada tahap kedua, Swirl menggunakan penguatan pembelajaran untuk melatih LLM dasar pada lintasan sintetis yang dihasilkan. Pada setiap langkah dalam lintasan, model dioptimalkan untuk memprediksi tindakan yang sesuai berikutnya (langkah penalaran perantara, panggilan alat, atau jawaban akhir) berdasarkan konteks sebelumnya.
LLM menerima umpan balik pada setiap langkah dengan model hadiah generatif yang terpisah, yang menilai tindakan model yang dihasilkan mengingat konteksnya hingga titik itu.
“Paradigma finetuning granular, langkah demi langkah kami memungkinkan model untuk mempelajari pengambilan keputusan lokal (prediksi langkah selanjutnya) dan optimasi lintasan global (generasi respons akhir) sambil dipandu oleh umpan balik langsung tentang kesehatan masing-masing prediksi,” tulis para peneliti.

Pada waktu inferensi, model yang dilatih swirl bekerja dengan cara berulang yang sama. Ini menerima prompt dan menghasilkan teks sebagai tanggapan. Jika mengeluarkan panggilan alat (seperti kueri pencarian atau ekspresi matematika), sistem ini menguraikannya, menjalankan alat, dan memberi makan hasilnya kembali ke jendela konteks model. Model kemudian terus menghasilkan, berpotensi membuat lebih banyak panggilan alat, sampai menghasilkan jawaban akhir atau mencapai batas yang telah ditentukan sebelumnya pada jumlah langkah.
“Dengan melatih model untuk mengambil langkah-langkah yang masuk akal pada setiap saat dalam waktu (dan melakukannya dengan cara yang koheren dan berpotensi lebih dapat dijelaskan), kami membahas kelemahan inti dari LLM tradisional, yaitu kerapuhan mereka dalam menghadapi tugas yang kompleks, multi-langkah, di mana kemungkinan keberhasilan melengkung secara eksponensial dengan panjang jalur,” kata Goldie dan Mirhoseini. “AI perusahaan yang berguna dan kuat pasti perlu mengintegrasikan berbagai macam alat yang berbeda, merantai mereka menjadi sekuens yang kompleks.”
Berputar beraksi
Tim Stanford dan Google Deepmind mengevaluasi berputar di beberapa tugas penalaran multi-langkah yang menantang dan penalaran matematika. Dibandingkan dengan model awal, Swirl menunjukkan peningkatan akurasi relatif yang signifikan, mulai dari 11% hingga lebih dari 21% pada dataset seperti GSM8K, Hotpotqa, Musique dan Beerqa.
Eksperimen mengkonfirmasi bahwa melatih model Gemma 2-27B dengan berputar pada data yang disaring proses menghasilkan hasil terbaik, mengungguli model yang dilatih pada data yang disaring hasil atau menggunakan SFT tradisional. Ini menunjukkan bahwa Swirl mempelajari proses penalaran yang mendasarinya secara lebih efektif, daripada hanya menghafal jalur untuk memperbaiki jawaban, yang membantu kinerja pada masalah yang tidak terlihat.

Lebih penting lagi, Swirl menunjukkan kemampuan generalisasi yang kuat. Misalnya, melatih model menggunakan swirl pada contoh-contoh yang dianamkan berbasis teks meningkatkan kinerjanya pada tugas penalaran matematika, meskipun model tersebut tidak dilatih secara eksplisit tentang masalah matematika.
Transferabilitas ini di berbagai tugas dan jenis alat sangat berharga karena ada ledakan aplikasi agen untuk model bahasa, dan metode yang menggeneralisasi di seluruh dataset dan tugas akan lebih mudah, lebih murah dan lebih cepat untuk beradaptasi dengan lingkungan baru.
“Generalisasi Smirl tampaknya cukup kuat di domain yang kami jelajahi, tetapi akan menarik untuk menguji ini di bidang lain seperti pengkodean,” kata Goldie dan Mirhoseini. “Temuan kami menunjukkan bahwa model AI perusahaan yang dilatih pada satu tugas inti menggunakan swirl kemungkinan akan menunjukkan peningkatan kinerja yang signifikan pada tugas-tugas lain yang tampaknya tidak terkait tanpa penyempurnaan khusus tugas. Swirl menggeneralisasi lebih baik ketika diterapkan pada model yang lebih besar (yaitu lebih kuat), menunjukkan bahwa teknik ini mungkin bahkan lebih efektif di masa depan seiring dengan pertumbuhan dasar tumbuh.”