
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
2025, dengan banyak akun ahli, seharusnya menjadi tahun agen AI-implementasi AI khusus tugas yang ditenagai oleh memimpin bahasa besar dan model multimodal (LLM) seperti jenis yang ditawarkan oleh OpenAi, Anthropic, Google, dan Deepseek.
Namun sejauh ini, sebagian besar agen AI tetap terjebak sebagai pilot eksperimental di semacam penyucian perusahaan, menurut jajak pendapat baru -baru ini yang dilakukan oleh VentureBeat di jejaring sosial X.
Bantuan mungkin sedang dalam perjalanan: tim kolaboratif dari Northwestern University, Microsoft, Stanford, dan University of Washington-termasuk mantan peneliti Deepseek bernama Zihan Wang, saat ini menyelesaikan PhD Ilmu Komputer di Northwestern-telah memperkenalkan Ragen, sebuah sistem baru untuk pelatihan dan mengevaluasi agen-agen AI yang mereka harapkan membuat mereka lebih andal dan kurang dari kelinci yang nyata dan kurang dari receh-worle, unggul-w-worpe.
Tidak seperti tugas statis seperti pemecahan matematika atau pembuatan kode, Ragen berfokus pada multi-turn, pengaturan interaktif di mana agen harus beradaptasi, ingat, dan alasan dalam menghadapi ketidakpastian.
Dibangun di atas kerangka kerja RL khusus yang disebut Starpo (pengoptimalan kebijakan pemikiran-pemikiran-negara-hadiah), sistem ini mengeksplorasi bagaimana LLM dapat belajar melalui pengalaman daripada menghafal. Fokusnya adalah pada seluruh lintasan pengambilan keputusan, bukan hanya tanggapan satu langkah.
Starpo beroperasi dalam dua fase interleaved: tahap peluncuran di mana LLM menghasilkan urutan interaksi lengkap yang dipandu oleh penalaran, dan tahap pembaruan di mana model dioptimalkan menggunakan imbalan kumulatif yang dinormalisasi. Struktur ini mendukung loop pembelajaran yang lebih stabil dan dapat ditafsirkan dibandingkan dengan pendekatan optimasi kebijakan standar.
Para penulis menerapkan dan menguji kerangka kerja menggunakan varian yang disesuaikan dari model QWEN Alibaba, termasuk Qwen 1.5 dan Qwen 2.5. Model-model ini berfungsi sebagai LLM dasar untuk semua percobaan dan dipilih untuk bobot terbuka dan kemampuan mengikuti instruksi yang kuat. Keputusan ini memungkinkan reproduktifitas dan perbandingan dasar yang konsisten di seluruh tugas simbolik.
Begini cara mereka melakukannya dan apa yang mereka temukan:
The Echo Trap: Bagaimana Penguatan Penguatan Hadiah Pembelajaran Mengarah ke Kehilangan Penalaran LLM
Wang merangkum tantangan inti dalam benang X yang dibagikan secara luas: Mengapa pelatihan RL Anda selalu runtuh?
Menurut tim, agen LLM awalnya menghasilkan respons simbolik dan beralasan. Tetapi seiring waktu, sistem RL cenderung memberi penghargaan pintasan, yang mengarah ke perilaku berulang yang menurunkan kinerja keseluruhan – pola yang mereka sebut “Echo Trap.”
Regresi ini didorong oleh loop umpan balik di mana frasa atau strategi tertentu mendapatkan imbalan tinggi sejak dini, mendorong penggunaan berlebihan dan mengekang eksplorasi.
Wang mencatat bahwa gejalanya dapat diukur: tebing varians hadiah, paku gradien, dan jejak penalaran yang menghilang.
Lingkungan uji ragen tidak persis tingkat perusahaan
Untuk mempelajari perilaku ini dalam pengaturan terkontrol, Ragen mengevaluasi agen di tiga lingkungan simbolik:
- Bandit: Tugas satu putaran, stokastik yang menguji penalaran risiko-hadiah simbolis.
- Sokoban: Puzzle multi-t-putri, deterministik yang melibatkan keputusan yang tidak dapat diubah.
- Danau beku: Tugas stokastik, multi-putar yang membutuhkan perencanaan adaptif.
Setiap lingkungan dirancang untuk meminimalkan prior dunia nyata dan hanya berfokus pada strategi pengambilan keputusan yang dikembangkan selama pelatihan.
Dalam lingkungan Bandit, misalnya, agen diberitahu bahwa Naga dan Lengan Phoenix mewakili distribusi hadiah yang berbeda.
Daripada diberi tahu probabilitas secara langsung, mereka harus beralasan secara simbolis – EG, menafsirkan Dragon sebagai “kekuatan” dan Phoenix sebagai “harapan” – untuk memprediksi hasil. Jenis pengaturan ini menekan model untuk menghasilkan penalaran analog yang dapat dijelaskan.
Stabilisasi Penguatan Pembelajaran dengan Starpo-S
Untuk mengatasi keruntuhan pelatihan, para peneliti memperkenalkan Starpo-S, versi stabil dari kerangka kerja asli. Starpo-s menggabungkan tiga intervensi utama:
- Penyaringan peluncuran berbasis ketidakpastian: Memprioritaskan peluncuran di mana agen menunjukkan ketidakpastian hasil.
- Penghapusan penalti KL: Mengizinkan model menyimpang lebih bebas dari kebijakan aslinya dan mengeksplorasi perilaku baru.
- Kliping PPO asimetris: Memperkuat lintasan hadiah tinggi lebih dari yang lebih rendah untuk meningkatkan pembelajaran.
Perubahan ini menunda atau menghilangkan keruntuhan pelatihan dan meningkatkan kinerja di ketiga tugas. Seperti yang dikatakan Wang: “Starpo-S … bekerja di semua 3 tugas. Ringan runtuh. Hadiah yang lebih baik.”
Apa yang membuat model AI agen yang baik?
Keberhasilan pelatihan RL engsel tidak hanya pada arsitektur, tetapi pada kualitas data yang dihasilkan oleh agen itu sendiri. Tim mengidentifikasi tiga dimensi yang secara signifikan memengaruhi pelatihan:
- Keragaman tugas: Mengekspos model ke berbagai skenario awal meningkatkan generalisasi.
- Granularitas Interaksi: Mengizinkan beberapa tindakan per giliran memungkinkan perencanaan yang lebih bermakna.
- Kesegaran peluncuran: Menjaga data pelatihan selaras dengan kebijakan model saat ini menghindari sinyal pembelajaran yang sudah ketinggalan zaman.
Bersama -sama, faktor -faktor ini membuat proses pelatihan lebih stabil dan efektif.
Situs demo interaktif yang diterbitkan oleh para peneliti di GitHub membuat peluncuran agen yang secara eksplisit dan memvisualisasikan ini berubah dialog-termasuk tidak hanya tindakan, tetapi proses pemikiran langkah demi langkah yang mendahuluinya.
Misalnya, dalam memecahkan masalah matematika, agen pertama -tama dapat 'berpikir' tentang mengisolasi variabel, kemudian mengirimkan jawaban seperti 'x = 5'. Pikiran -pikiran perantara ini terlihat dan dapat dilacak, yang menambah transparansi ke dalam bagaimana agen sampai pada keputusan.
Saat penalaran kehabisan
Sementara penalaran eksplisit meningkatkan kinerja dalam tugas-tugas yang sederhana dan putar seperti bandit, cenderung membusuk selama pelatihan multi-putaran. Meskipun menggunakan petunjuk dan token terstruktur, jejak penalaran sering menyusut atau lenyap kecuali dihargai secara langsung.
Ini menunjuk pada batasan bagaimana penghargaan biasanya dirancang: berfokus pada penyelesaian tugas dapat mengabaikan kualitas proses di belakangnya. Tim bereksperimen dengan hukuman berbasis format untuk mendorong penalaran yang lebih terstruktur, tetapi mengakui bahwa pembentukan hadiah yang lebih halus kemungkinan diperlukan.
Ragen, bersama dengan kerangka Starpo dan Starpo-S, sekarang tersedia sebagai proyek open-source di https://github.com/ragen-ai/ragen. Namun, tidak ada lisensi eksplisit yang tercantum dalam repositori GitHub pada saat penulisan, yang dapat membatasi penggunaan atau redistribusi oleh orang lain.
Sistem ini memberikan dasar yang berharga bagi mereka yang tertarik untuk mengembangkan agen AI yang melakukan lebih dari sekadar tugas lengkap – mereka berpikir, merencanakan, dan berkembang.
Karena AI terus bergerak menuju otonomi, proyek -proyek seperti Ragen membantu menerangi apa yang diperlukan untuk melatih model yang belajar tidak hanya dari data, tetapi dari konsekuensi dari tindakan mereka sendiri.
Pertanyaan luar biasa untuk adopsi dunia nyata
Sementara kertas Ragen menawarkan peta jalan teknis terperinci, beberapa pertanyaan praktis tetap bagi mereka yang ingin menerapkan metode ini dalam pengaturan perusahaan. Misalnya, seberapa transfer pendekatan Ragen di luar tugas simbolis bergaya? Apakah bisnis perlu merancang lingkungan yang sama sekali baru dan fungsi penghargaan untuk menggunakan sistem ini dalam alur kerja seperti pemrosesan faktur atau dukungan pelanggan?
Area kritis lainnya adalah skalabilitas. Bahkan dengan peningkatan yang disediakan oleh Starpo-S, kertas itu mengakui bahwa pelatihan masih runtuh di atas cakrawala yang lebih panjang. Ini menimbulkan pertanyaan: apakah ada jalur teoretis atau praktis untuk mempertahankan penalaran atas urutan tugas yang terbuka atau terus berkembang?
Pada saat penulisan, tidak ada lisensi eksplisit yang tercantum dalam repositori atau dokumentasi Ragen Github, meninggalkan pertanyaan terbuka tentang hak penggunaan.
Untuk mengeksplorasi pertanyaan-pertanyaan ini dan lainnya-termasuk bagaimana pembuat keputusan non-teknis harus menafsirkan implikasi Ragen-saya menjangkau rekan penulis Wang untuk wawasan lebih lanjut. Pada saat penulisan, respons sedang menunggu. Jika ada komentar, mereka akan dimasukkan dalam tindak lanjut dari artikel ini atau terintegrasi sebagai pembaruan.
Ragen menonjol bukan hanya sebagai kontribusi teknis tetapi sebagai langkah konseptual menuju agen AI yang lebih otonom, dengan penalaran. Apakah itu menjadi bagian dari tumpukan AI perusahaan masih harus dilihat, tetapi wawasannya tentang dinamika pembelajaran agen sudah membantu mendefinisikan kembali perbatasan pelatihan LLM.