
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Para peneliti dari UCLA dan Meta AI telah memperkenalkan D1, kerangka kerja baru menggunakan Penguatan Penguatan (RL) untuk secara signifikan meningkatkan kemampuan penalaran model bahasa besar berbasis difusi (DLLM). Sementara sebagian besar perhatian berfokus pada model autoregresif seperti GPT, DLLMS menawarkan keunggulan unik. Memberi mereka keterampilan penalaran yang kuat dapat membuka efisiensi dan aplikasi baru untuk perusahaan.
DLLM mewakili pendekatan yang berbeda untuk menghasilkan teks dibandingkan dengan model autoregresif standar, berpotensi menawarkan manfaat dalam hal efisiensi dan pemrosesan informasi, yang bisa berharga untuk berbagai aplikasi dunia nyata.
Memahami Model Bahasa Difusi
Sebagian besar model bahasa besar (LLM) seperti GPT-4O dan Llama adalah Autoregressive (AR). Mereka menghasilkan teks secara berurutan, memprediksi token berikutnya hanya berdasarkan token yang datang sebelumnya.
Model bahasa difusi (DLLM) bekerja secara berbeda. Model difusi awalnya digunakan dalam model pembuatan gambar seperti Dall-E 2, Midjourney dan Stable Difusion. Gagasan inti melibatkan secara bertahap menambahkan noise ke gambar sampai murni statis, dan kemudian melatih model untuk dengan cermat membalikkan proses ini, mulai dari noise dan semakin menyempurnakannya menjadi gambaran yang koheren.
Mengadaptasi konsep ini langsung ke bahasa itu rumit karena teks terbuat dari unit diskrit (token), tidak seperti nilai piksel kontinu dalam gambar. Para peneliti mengatasi hal ini dengan mengembangkan model bahasa difusi bertopeng. Alih -alih menambahkan noise kontinu, model -model ini bekerja dengan secara acak menutupi token dalam urutan dan melatih model untuk memprediksi token asli.
Ini mengarah ke proses generasi yang berbeda dibandingkan dengan model autoregresif. DLLMS mulai dengan versi bertopeng teks input yang sangat besar dan secara bertahap “membuka kedok” atau memperbaikinya selama beberapa langkah sampai output akhir yang koheren muncul. Generasi “kasar-ke-halus” ini memungkinkan DLLM untuk mempertimbangkan seluruh konteks secara bersamaan pada setiap langkah, sebagai lawan fokus hanya pada token berikutnya.
Perbedaan ini memberi DLLM potensi keuntungan, seperti peningkatan pemrosesan paralel selama generasi, yang dapat menyebabkan inferensi yang lebih cepat, terutama untuk urutan yang lebih lama. Contoh jenis model ini termasuk LLADA sumber terbuka dan model merkuri sumber tertutup dari laboratorium awal.
“Sementara Autoregressive LLMS dapat menggunakan penalaran untuk meningkatkan kualitas, peningkatan ini datang dengan biaya komputasi yang parah dengan penalaran Frontier LLMS yang menimbulkan 30+ detik dalam latensi untuk menghasilkan respons tunggal,” kata Aditya Grover, asisten profesor ilmu komputer di UCLA dan rekan penulis kertas D1, mengatakan kepada VentureBeat. “Sebaliknya, salah satu manfaat utama DLLM adalah efisiensi komputasi mereka. Misalnya, DLLM Frontier seperti Mercury dapat mengungguli LLM autoregresif yang dioptimalkan dengan kecepatan terbaik dari Frontier Labs dengan 10x dalam throughput pengguna.”
Pembelajaran Penguatan untuk DLLMS
Terlepas dari keunggulan mereka, DLLM masih tertinggal di belakang model autoregresif dalam kemampuan penalaran. Pembelajaran penguatan menjadi penting untuk mengajar keterampilan penalaran yang kompleks LLMS. Dengan model pelatihan berdasarkan sinyal hadiah (pada dasarnya menghargai mereka untuk langkah-langkah penalaran yang benar atau jawaban akhir) RL telah mendorong LLM menuju pengikut instruksi yang lebih baik dan penalaran.
Algoritma seperti Optimasi Kebijakan Proksimal (PPO) dan Optimalisasi Kebijakan Relatif Grup (GRPO) yang lebih baru telah menjadi pusat penerapan RL secara efektif ke model autoregresif. Metode -metode ini biasanya bergantung pada menghitung probabilitas (atau probabilitas log) dari urutan teks yang dihasilkan di bawah kebijakan model saat ini untuk memandu proses pembelajaran.
Perhitungan ini mudah untuk model autoregresif karena generasi sekuensial, token-by-token. Namun, untuk DLLM, dengan proses generasi yang berulang dan tidak penting, secara langsung menghitung probabilitas urutan ini sulit dan mahal secara komputasi. Ini telah menjadi hambatan utama untuk menerapkan teknik RL yang mapan untuk meningkatkan penalaran DLLM.
Kerangka kerja D1 menangani tantangan ini dengan proses pasca-pelatihan dua tahap yang dirancang khusus untuk DLLM bertopeng:
- Fine-tuning yang diawasi (SFT): Pertama, DLLM pra-terlatih disesuaikan pada dataset contoh penalaran berkualitas tinggi. Makalah ini menggunakan dataset “S1K”, yang berisi solusi langkah demi langkah terperinci untuk masalah, termasuk contoh koreksi diri dan mundur ketika kesalahan terjadi. Tahap ini bertujuan untuk menanamkan pola dan perilaku penalaran dasar ke dalam model.
- Pembelajaran Penguatan dengan Diffu-Grpo: Setelah SFT, model menjalani pelatihan RL menggunakan algoritma baru yang disebut diffu-grpo. Algoritma ini mengadaptasi prinsip -prinsip GRPO ke DLLMS. Ini memperkenalkan metode yang efisien untuk memperkirakan probabilitas log sambil menghindari perhitungan mahal yang dibutuhkan sebelumnya. Ini juga menggabungkan teknik pintar yang disebut “masking prompt acak.”
Selama pelatihan RL, bagian dari prompt input secara acak bertopeng di setiap langkah pembaruan. Ini bertindak sebagai bentuk regularisasi dan augmentasi data, yang memungkinkan model untuk belajar lebih efektif dari setiap batch data.
D1 dalam aplikasi dunia nyata
Para peneliti menerapkan kerangka kerja D1 ke LLADA-8B-instruct, sebuah DLLM open-source. Mereka menyempurnakannya menggunakan dataset penalaran S1K untuk tahap SFT. Mereka kemudian membandingkan beberapa versi: Model Llada dasar, Llada dengan hanya SFT, LLADA dengan hanya diffu-grpo dan D1-llada lengkap (SFT diikuti oleh diffu-grpo).
Model -model ini diuji pada tolok ukur penalaran matematika (GSM8K, Math500) dan tugas penalaran logis (4 × 4 Sudoku, game nomor hitung mundur).
Hasil penelitian menunjukkan bahwa D1-Llada lengkap secara konsisten mencapai kinerja terbaik di semua tugas. Secara mengesankan, diffu-grpo yang diterapkan sendiri juga secara signifikan mengungguli SFT saja dan model dasar.

“DLLM yang ditingkatkan dengan penalaran seperti D1 dapat memicu berbagai jenis agen untuk beban kerja perusahaan,” kata Grover. “Ini termasuk agen pengkodean untuk rekayasa perangkat lunak instan, serta penelitian mendalam yang sangat cepat untuk strategi dan konsultasi waktu nyata … dengan agen D1, alur kerja digital sehari-hari dapat menjadi otomatis dan dipercepat pada saat yang sama.”
Menariknya, para peneliti mengamati perbaikan kualitatif, terutama ketika menghasilkan respons yang lebih lama. Model-model mulai menunjukkan “AHA Moments,” yang menunjukkan koreksi diri dan perilaku mundur yang dipelajari dari contoh-contoh dalam dataset S1K. Ini menunjukkan model ini bukan hanya menghafal jawaban tetapi juga belajar strategi pemecahan masalah yang lebih kuat.
Model autoregresif memiliki keunggulan penggerak pertama dalam hal adopsi. Namun, Grover percaya bahwa kemajuan dalam DLLM dapat mengubah dinamika lapangan bermain. Untuk suatu perusahaan, satu cara untuk memutuskan antara keduanya adalah jika aplikasi mereka saat ini dihitung oleh latensi atau kendala biaya.
Menurut Grover, DLLM difusi yang ditingkatkan dengan penalaran seperti D1 dapat membantu dalam salah satu dari dua cara pelengkap:
- Jika suatu perusahaan saat ini tidak dapat bermigrasi ke model penalaran berdasarkan Autoregressive LLM, DLLM yang ditingkatkan penalaran menawarkan alternatif plug-and-play yang memungkinkan perusahaan untuk mengalami kualitas unggul dari model penalaran dengan kecepatan yang sama dengan DLLM autoregresif yang tidak masuk akal.
- Jika aplikasi perusahaan memungkinkan latensi dan anggaran biaya yang lebih besar, D1 dapat menghasilkan jejak penalaran yang lebih lama menggunakan anggaran yang sama dan lebih meningkatkan kualitas.
“Dengan kata lain, DLLM bergaya D1 dapat mendominasi Pareto Autoregressive LLMS pada poros kualitas, kecepatan, dan biaya,” kata Grover.