
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Deepseek AI, sebuah laboratorium penelitian Cina yang mendapatkan pengakuan atas model bahasa open-source yang kuat seperti Deepseek-R1, telah memperkenalkan kemajuan yang signifikan dalam pemodelan hadiah untuk model bahasa besar (LLM).
Teknik baru mereka, kritik-tuning kritik diri (SPCT), bertujuan untuk menciptakan model hadiah generalis dan scalable (RMS). Ini berpotensi mengarah pada aplikasi AI yang lebih mampu untuk tugas dan domain terbuka di mana model saat ini tidak dapat menangkap nuansa dan kompleksitas lingkungan dan pengguna mereka.
Peran penting dan batasan model hadiah saat ini
Penguatan Penguatan (RL) telah menjadi landasan dalam mengembangkan LLMS yang canggih. Dalam RL, model disesuaikan berdasarkan sinyal umpan balik yang menunjukkan kualitas tanggapan mereka.
Model hadiah adalah komponen penting yang menyediakan sinyal -sinyal ini. Pada dasarnya, RM bertindak sebagai hakim, mengevaluasi output LLM dan menetapkan skor atau “hadiah” yang memandu proses RL dan mengajarkan LLM untuk menghasilkan tanggapan yang lebih berguna.
Namun, RM saat ini sering menghadapi keterbatasan. Mereka biasanya unggul dalam domain sempit dengan aturan yang jelas atau jawaban yang mudah diverifikasi. Sebagai contoh, model penalaran mutakhir saat ini seperti Deepseek-R1 menjalani fase RL, di mana mereka dilatih tentang masalah matematika dan pengkodean di mana kebenaran dasar didefinisikan dengan jelas.
Namun, menciptakan model hadiah untuk pertanyaan yang kompleks, terbuka, atau subyektif di domain umum tetap menjadi rintangan utama. Dalam makalah yang menjelaskan teknik baru mereka, para peneliti di Deepseek AI menulis, “RM generalis perlu menghasilkan hadiah berkualitas tinggi di luar domain tertentu, di mana kriteria untuk hadiah lebih beragam dan kompleks, dan seringkali tidak ada referensi eksplisit atau kebenaran dasar.”
Mereka menyoroti empat tantangan utama dalam menciptakan RM generalis yang mampu menangani tugas yang lebih luas:
- Fleksibilitas Input: RM harus menangani berbagai jenis input dan dapat mengevaluasi satu atau lebih tanggapan secara bersamaan.
- Ketepatan: Itu harus menghasilkan sinyal hadiah yang akurat di berbagai domain di mana kriteria kompleks dan kebenaran tanah seringkali tidak tersedia.
- Skalabilitas waktu inferensi: RM harus menghasilkan imbalan berkualitas lebih tinggi ketika lebih banyak sumber daya komputasi dialokasikan selama inferensi.
- Mempelajari perilaku yang dapat diskalakan: Agar RMS dapat skala secara efektif pada waktu inferensi, mereka perlu belajar perilaku yang memungkinkan peningkatan kinerja karena lebih banyak perhitungan digunakan.
Model hadiah dapat secara luas diklasifikasikan oleh “paradigma generasi penghargaan” (misalnya, RMS skalar menghasilkan skor tunggal, generatif RMS yang menghasilkan kritik tekstual) dan “pola penilaian” mereka (misalnya, penilaian pointwise memberikan skor individu untuk setiap respons, berpasangan memilih yang lebih baik dari dua respons). Pilihan desain ini mempengaruhi kesesuaian model untuk tugas generalis, terutama fleksibilitas input dan potensi Penskalaan waktu inferensi.
Misalnya, RMS skalar sederhana berjuang dengan penskalaan waktu inferensi karena mereka akan menghasilkan skor yang sama berulang kali, sementara RMS berpasangan tidak dapat dengan mudah menilai respons tunggal.
Para peneliti mengusulkan bahwa “pemodelan hadiah generatif pointwise” (GRM), di mana model menghasilkan kritik tekstual dan memperoleh skor dari mereka, dapat menawarkan fleksibilitas dan skalabilitas yang diperlukan untuk persyaratan generalis.
Tim Deepseek melakukan eksperimen awal pada model seperti GPT-4O dan Gemma-2-27b, dan menemukan bahwa “prinsip-prinsip tertentu dapat memandu generasi hadiah dalam kriteria yang tepat untuk GRM, meningkatkan kualitas penghargaan, yang menginspirasi kami bahwa skalabilitas waktu inferensi RM dapat dicapai dengan meningkatkan generasi prinsip-prinsip berkualitas tinggi dan kritik yang akurat.”
Melatih rms untuk menghasilkan prinsip mereka sendiri
Berdasarkan temuan ini, para peneliti mengembangkan tuning kritik (SPCT) (SPCT), yang melatih GRM untuk menghasilkan prinsip-prinsip dan kritik berdasarkan pertanyaan dan respons secara dinamis.
Para peneliti mengusulkan bahwa prinsip -prinsip harus menjadi “bagian dari generasi hadiah alih -alih langkah preprocessing.” Dengan cara ini, GRMS dapat menghasilkan prinsip -prinsip dengan cepat berdasarkan tugas yang mereka evaluasi dan kemudian menghasilkan kritik berdasarkan prinsip -prinsip tersebut.
“Pergeseran ini memungkinkan [the] Prinsip yang akan dihasilkan berdasarkan kueri dan respons input, secara adaptif menyelaraskan [the] Proses pembuatan hadiah, dan kualitas dan granularitas prinsip-prinsip dan kritik yang sesuai dapat ditingkatkan lebih lanjut dengan pasca-pelatihan pada GRM, ”tulis para peneliti.

SPCT melibatkan dua fase utama:
- Menolak penyesuaian: Fase ini melatih GRM untuk menghasilkan prinsip dan kritik untuk berbagai jenis input menggunakan format yang benar. Model ini menghasilkan prinsip, kritik, dan penghargaan untuk pertanyaan/tanggapan yang diberikan. Lintasan (upaya generasi) diterima hanya jika hadiah yang diprediksi selaras dengan kebenaran dasar (mengidentifikasi dengan benar respons yang lebih baik, misalnya) dan ditolak sebaliknya. Proses ini diulang dan model disesuaikan dengan contoh yang difilter untuk meningkatkan kemampuan generasi prinsip/kritiknya.
- RL berbasis aturan: Dalam fase ini, model ini selanjutnya disempurnakan melalui pembelajaran penguatan berbasis hasil. GRM menghasilkan prinsip dan kritik untuk setiap kueri, dan sinyal hadiah dihitung berdasarkan aturan akurasi sederhana (misalnya, apakah itu memilih respons terbaik yang diketahui?). Kemudian model diperbarui. Ini mendorong GRM untuk belajar bagaimana menghasilkan prinsip -prinsip yang efektif dan kritik yang akurat secara dinamis dan dengan cara yang dapat diskalakan.
“Dengan memanfaatkan RL online berbasis aturan, SPCT memungkinkan GRM untuk belajar secara adaptif menempatkan prinsip dan kritik berdasarkan kueri dan tanggapan input, yang mengarah pada penghargaan hasil yang lebih baik di domain umum,” tulis para peneliti.
Untuk mengatasi tantangan penskalaan waktu inferensi (mendapatkan hasil yang lebih baik dengan lebih banyak komputasi), para peneliti menjalankan GRM beberapa kali untuk input yang sama, menghasilkan berbagai set prinsip dan kritik yang berbeda. Hadiah akhir ditentukan dengan pemungutan suara (mengumpulkan skor sampel). Hal ini memungkinkan model untuk mempertimbangkan berbagai perspektif yang lebih luas, yang mengarah pada penilaian akhir yang berpotensi lebih akurat dan bernuansa karena diberikan lebih banyak sumber daya.
Namun, beberapa prinsip/kritik yang dihasilkan mungkin berkualitas rendah atau bias karena keterbatasan model atau keacakan. Untuk mengatasi hal ini, para peneliti memperkenalkan “meta RM ”—skala RM skalar yang terpisah dan ringan yang dilatih khusus untuk memprediksi apakah suatu prinsip/kritik yang dihasilkan oleh GRM utama kemungkinan akan mengarah pada hadiah akhir yang benar.
Selama inferensi, meta rm mengevaluasi sampel yang dihasilkan dan menyaring penilaian berkualitas rendah sebelum pemungutan suara akhir, lebih meningkatkan kinerja penskalaan.
Mempekerjakan SPCT ke dalam latihan dengan Deepseek-grm
Para peneliti menerapkan SPCT ke Gemma-2-27b, model dengan berat badan Google, membuat Deepseek-GRM-27B. Mereka mengevaluasinya terhadap beberapa RMS baseline yang kuat (termasuk LLM-AS-A-Judge, skalar RMS, dan RMS semi-skalar) dan model publik (seperti GPT-4O dan Nemotron-4-340B-Reward) di berbagai tolok ukur.
Mereka menemukan bahwa Deepseek-GRM-27B mengungguli metode dasar yang dilatih pada data yang sama. SPCT secara signifikan meningkatkan kualitas dan, yang terpenting, skalabilitas waktu inferensi dibandingkan dengan fine-tuning standar.

Ketika diskalakan pada waktu inferensi dengan menghasilkan lebih banyak sampel, kinerja Deepseek-GRM-27B meningkat secara substansial, melampaui model yang jauh lebih besar seperti Nemotron-4-340B-Reward dan GPT-4O. Meta RM lebih lanjut meningkatkan penskalaan, mencapai hasil terbaik dengan menyaring penilaian.
“Dengan pengambilan sampel skala yang lebih besar, Deepseek-GRM dapat menilai lebih akurat berdasarkan prinsip-prinsip dengan keanekaragaman yang lebih tinggi, dan output imbalan dengan granularitas yang lebih baik,” tulis para peneliti.
Menariknya, SPCT menunjukkan lebih sedikit bias di berbagai domain dibandingkan dengan rms skalar, yang sering dilakukan dengan baik pada tugas yang dapat diverifikasi tetapi kurang lebih buruk di tempat lain.
Implikasi untuk perusahaan
Mengembangkan model hadiah yang lebih umum dan dapat diskalakan dapat menjanjikan untuk aplikasi AI perusahaan. Area potensial yang dapat mengambil manfaat dari RM generalis termasuk tugas kreatif dan aplikasi di mana model harus beradaptasi dengan lingkungan yang dinamis seperti preferensi pelanggan yang berkembang.
Terlepas dari hasil yang kuat, Deepseek-GRM masih tertinggal di belakang RMS skalar khusus pada tugas yang dapat diverifikasi murni di mana generasi penalaran eksplisit mungkin kurang efisien daripada penilaian langsung. Efisiensi juga tetap menjadi tantangan dibandingkan dengan RMS non-generatif.
Tim Deepseek menyarankan pekerjaan di masa depan akan fokus pada peningkatan efisiensi dan integrasi yang lebih dalam. Ketika mereka menyimpulkan, “Arah di masa depan dapat mencakup mengintegrasikan GRM ke dalam pipa RL online sebagai antarmuka serbaguna dari sistem penghargaan, mengeksplorasi co-skaling waktu inferensi dengan model kebijakan, atau berfungsi sebagai evaluator offline yang kuat untuk model dasar.”