
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Alibaba Group telah memperkenalkan Qwenlong-L1, kerangka kerja baru yang memungkinkan model bahasa besar (LLM) untuk beralasan dalam input yang sangat panjang. Perkembangan ini dapat membuka gelombang baru aplikasi perusahaan yang membutuhkan model untuk memahami dan menarik wawasan dari dokumen yang luas seperti pengajuan perusahaan terperinci, laporan keuangan yang panjang, atau kontrak hukum yang kompleks.
Tantangan penalaran bentuk panjang untuk AI
Kemajuan terbaru dalam model penalaran besar (LRM), terutama melalui penguatan pembelajaran (RL), telah secara signifikan meningkatkan kemampuan pemecahan masalah mereka. Penelitian menunjukkan bahwa ketika dilatih dengan penyempurnaan RL, LRM memperoleh keterampilan yang mirip dengan “pemikiran lambat” manusia, di mana mereka mengembangkan strategi canggih untuk menangani tugas-tugas kompleks.
Namun, perbaikan ini terutama terlihat ketika model bekerja dengan teks yang relatif pendek, biasanya sekitar 4.000 token. Kemampuan model -model ini untuk skala penalaran mereka ke konteks yang lebih lama (misalnya, 120.000 token) tetap menjadi tantangan utama. Penalaran bentuk panjang seperti itu membutuhkan pemahaman yang kuat tentang seluruh konteks dan kemampuan untuk melakukan analisis multi-langkah. “Keterbatasan ini menimbulkan hambatan yang signifikan terhadap aplikasi praktis yang membutuhkan interaksi dengan pengetahuan eksternal, seperti penelitian mendalam, di mana LRM harus mengumpulkan dan memproses informasi dari lingkungan yang intensif pengetahuan,” pengembang Qwenlong-L1 menulis dalam makalah mereka.
Para peneliti memformalkan tantangan-tantangan ini ke dalam konsep “penalaran konteks panjang RL.” Tidak seperti penalaran konteks pendek, yang sering bergantung pada pengetahuan yang sudah disimpan dalam model, penalaran konteks panjang RL membutuhkan model untuk mengambil dan membumikan informasi yang relevan dari input panjang secara akurat. Hanya dengan begitu mereka dapat menghasilkan rantai penalaran berdasarkan informasi yang dimasukkan ini.
Model pelatihan untuk ini melalui RL rumit dan sering menghasilkan pembelajaran yang tidak efisien dan proses optimasi yang tidak stabil. Model berjuang untuk menyatu dengan solusi yang baik atau kehilangan kemampuan mereka untuk menjelajahi jalur penalaran yang beragam.
Qwenlong-l1: Pendekatan multi-tahap
Qwenlong-L1 adalah kerangka pembelajaran penguatan yang dirancang untuk membantu transisi LRM dari kecakapan dengan teks pendek ke generalisasi yang kuat di seluruh konteks yang panjang. Kerangka kerja meningkatkan LRM konteks pendek yang ada melalui proses multi-tahap yang terstruktur dengan cermat:
Pemanasan yang diawasi fine-tuning (SFT): Model pertama mengalami fase SFT, di mana ia dilatih pada contoh-contoh penalaran konteks panjang. Tahap ini menetapkan fondasi yang solid, memungkinkan model ke informasi tanah secara akurat dari input panjang. Ini membantu mengembangkan kemampuan mendasar dalam memahami konteks, menghasilkan rantai penalaran logis, dan mengekstraksi jawaban.
RL bertahap yang dipandu oleh kurikulum: Pada tahap ini, model dilatih melalui beberapa fase, dengan panjang target dari dokumen input secara bertahap meningkat. Pendekatan yang sistematis dan langkah demi langkah ini membantu model ini secara stabil menyesuaikan strategi penalarannya dari konteks yang lebih pendek hingga semakin lama. Ini menghindari ketidakstabilan yang sering terlihat ketika model secara tiba -tiba dilatih pada teks yang sangat panjang.
Pengambilan sampel retrospektif yang sulit dilakukan: Tahap pelatihan terakhir menggabungkan contoh -contoh yang menantang dari fase pelatihan sebelumnya, memastikan model terus belajar dari masalah yang paling sulit. Ini memprioritaskan contoh yang sulit dan mendorong model untuk mengeksplorasi jalur penalaran yang lebih beragam dan kompleks.
Di luar pelatihan terstruktur ini, Qwenlong-L1 juga menggunakan sistem hadiah yang berbeda. Sementara pelatihan untuk tugas penalaran konteks pendek sering kali bergantung pada imbalan berbasis aturan yang ketat (misalnya, jawaban yang benar dalam masalah matematika), Qwenlong-L1 menggunakan mekanisme hadiah hibrida. Ini menggabungkan verifikasi berbasis aturan, yang memastikan ketepatan dengan memeriksa kepatuhan yang ketat terhadap kriteria kebenaran, dengan “llm-as-a-judge.” Model hakim ini membandingkan semantik dari jawaban yang dihasilkan dengan kebenaran dasar, memungkinkan untuk lebih fleksibel dan penanganan yang lebih baik dari beragam cara jawaban yang benar dapat diungkapkan ketika berhadapan dengan dokumen panjang dan bernuansa.
Menguji Qwenlong-L1
Tim Alibaba mengevaluasi Qwenlong-L1 menggunakan Document Question-Anndering (DOCQA) sebagai tugas utama. Skenario ini sangat relevan dengan kebutuhan perusahaan, di mana AI harus memahami dokumen padat untuk menjawab pertanyaan rumit.
Hasil eksperimen di tujuh tolok ukur DOCQA konteks panjang menunjukkan kemampuan Qwenlong-L1. Khususnya, model Qwenlong-L1-32B (berdasarkan Deepseek-R1-Distill-Qwen-32b) mencapai kinerja yang sebanding dengan pemikiran Sonnet Anthropic Claude-3,7, dan mengungguli model seperti O3-Mini Openai dan Qwen3-235B-A22B. Model Qwenlong-L1-14B yang lebih kecil juga mengungguli Google Gemini 2.0 Flash Thinking dan QWEN3-32B.

Temuan penting yang relevan dengan aplikasi dunia nyata adalah bagaimana hasil pelatihan RL dalam model mengembangkan perilaku penalaran konteks panjang khusus. Makalah ini mencatat bahwa model yang dilatih dengan Qwenlong-L1 menjadi lebih baik di “landasan” (menghubungkan jawaban ke bagian-bagian tertentu dari dokumen), “pengaturan subgoal” (memecah pertanyaan kompleks), “mundur” (mengenali dan memperbaiki kesalahan mereka sendiri di tengah-tengah), dan “verifikasi” (memeriksa ganda jawaban mereka).
Misalnya, sementara model dasar mungkin teralihkan oleh rincian yang tidak relevan dalam dokumen keuangan atau terjebak dalam lingkaran informasi yang tidak terkait secara berlebihan, model terlatih Qwenlong-L1 menunjukkan kemampuan untuk terlibat dalam refleksi diri yang efektif. Ini bisa berhasil menyaring detail distractor ini, mundur dari jalur yang salah, dan sampai pada jawaban yang benar.
Teknik-teknik seperti Qwenlong-L1 dapat secara signifikan memperluas kegunaan AI di perusahaan. Aplikasi potensial termasuk teknologi hukum (menganalisis ribuan halaman dokumen hukum), keuangan (penelitian mendalam tentang laporan tahunan dan pengajuan keuangan untuk penilaian risiko atau peluang investasi) dan layanan pelanggan (menganalisis sejarah interaksi pelanggan yang panjang untuk memberikan dukungan yang lebih tepat). Para peneliti telah merilis kode untuk resep Qwenlong-L1 dan bobot untuk model yang terlatih.