
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Model bahasa dapat menggeneralisasi lebih baik ketika dibiarkan membuat solusi mereka sendiri, sebuah studi baru oleh Hong Kong University dan University of California, Berkeley, menunjukkan. Temuan, yang berlaku untuk model bahasa besar (LLM) dan model bahasa visi (VLM), menantang salah satu kepercayaan utama komunitas LLM-bahwa model memerlukan contoh pelatihan berlabel tangan. Faktanya, para peneliti menunjukkan bahwa model pelatihan pada terlalu banyak contoh kerajinan tangan dapat memiliki efek buruk pada kemampuan model untuk menggeneralisasi ke data yang tidak terlihat.
SFT vs RL dalam pelatihan model
Untuk waktu yang lama, Fine-tuning (SFT) yang diawasi telah menjadi standar emas untuk pelatihan LLM dan VLM. Setelah model dilatih sebelumnya tentang teks mentah dan data gambar, perusahaan dan laboratorium AI biasanya pasca-pelatihan pada set data besar dari contoh kerajinan tangan dalam pertanyaan/jawaban atau permintaan/format respons. Setelah SFT, model dapat menjalani tahap pelatihan tambahan, seperti pembelajaran penguatan dari umpan balik manusia (RLHF), di mana model mencoba mempelajari preferensi manusia implisit berdasarkan sinyal seperti peringkat jawaban atau menyukai/tidak menyukai tanggapan model.
SFT berguna untuk mengarahkan perilaku model terhadap jenis tugas yang telah dirancang oleh pembuat model. Namun, mengumpulkan data adalah proses yang lambat dan mahal, yang merupakan hambatan bagi banyak perusahaan dan laboratorium.
Perkembangan terbaru dalam LLM telah menciptakan minat dalam pendekatan pembelajaran penguatan murni (RL), di mana model diberi tugas dan dibiarkan untuk mempelajarinya sendiri tanpa contoh kerajinan tangan. Contoh yang paling penting adalah Deepseek-R1, pesaing Openai O1 yang sebagian besar menggunakan penguatan untuk mempelajari tugas penalaran yang kompleks.
Generalisasi vs menghafal
Salah satu masalah utama sistem pembelajaran mesin (ML) adalah overfitting, di mana model berkinerja baik pada data pelatihannya tetapi gagal menggeneralisasi ke contoh yang tidak terlihat. Selama pelatihan, model memberikan kesan palsu karena telah mempelajari tugas, sementara dalam praktiknya itu baru saja menghafal contoh pelatihannya. Dalam model AI besar dan kompleks, memisahkan generalisasi dari menghafal bisa sulit.
Studi baru ini berfokus pada kemampuan generalisasi pelatihan RL dan SFT dalam tugas penalaran teks dan visual. Untuk penalaran tekstual, LLM yang dilatih pada seperangkat aturan harus dapat menggeneralisasi ke varian aturan tersebut. Dalam penalaran visual, VLM harus tetap konsisten dalam kinerja tugas terhadap perubahan pada berbagai aspek input visual, seperti warna dan tata letak spasial.
Dalam percobaan mereka, para peneliti menggunakan dua tugas yang representatif. Pertama adalah General Points, sebuah tolok ukur yang mengevaluasi kemampuan penalaran aritmatika model. Model ini diberikan empat kartu, sebagai deskripsi atau gambar tekstual, dan diminta untuk menggabungkannya untuk mencapai nomor target. Untuk mempelajari generalisasi berbasis yang diperintah, para peneliti melatih model menggunakan satu set aturan, kemudian mengevaluasinya menggunakan aturan yang berbeda. Untuk generalisasi visual, mereka melatih model menggunakan kartu dengan satu warna dan menguji kinerjanya pada kartu warna lain dan skema penomoran.
Tugas kedua adalah V-SIR, yang menguji kemampuan penalaran spasial model dalam domain navigasi dunia terbuka yang menggunakan input visual yang realistis. Tugas ini juga hadir dalam versi bahasa murni dan penglihatan-bahasa. Para peneliti mengevaluasi generalisasi dengan mengubah jenis instruksi dan representasi visual model dilatih dan diuji.

Mereka menjalankan tes mereka di llama-3.2-vision-11b, menghangatkan model dengan melatihnya pada dataset SFT kecil, kemudian membuat versi terpisah untuk setiap tugas dan paradigma pelatihan. Untuk setiap tugas, mereka secara terpisah meningkatkan pelatihan pada RL dan SFT. Proses SFT melatih model pada solusi kerajinan tangan tambahan, sementara RL memungkinkan model menghasilkan banyak solusi untuk setiap masalah, mengevaluasi hasil dan melatih dirinya pada jawaban yang benar.
Temuan menunjukkan bahwa pembelajaran penguatan secara konsisten meningkatkan kinerja pada contoh -contoh yang sangat berbeda dari data pelatihan. Di sisi lain, SFT tampaknya menghafal aturan pelatihan dan tidak menggeneralisasi untuk contoh di luar distribusi (OOD). Pengamatan ini berlaku untuk pengaturan teks saja dan multimodal.

Implikasi untuk aplikasi dunia nyata
Sementara eksperimen mereka menunjukkan bahwa RL lebih baik dalam menggeneralisasi daripada SFT, para peneliti juga menemukan bahwa SFT bermanfaat untuk menstabilkan format output model, dan sangat penting untuk memungkinkan RL untuk mencapai keuntungan kinerjanya. Para peneliti menemukan bahwa, tanpa tahap SFT awal, pelatihan RL tidak mencapai hasil yang diinginkan.
Ini sedikit berbeda dari hasil yang diperoleh oleh Deepseek-R1-Zero, yang pasca dilatih pada RL murni. Para peneliti menyarankan bahwa ini dapat disebabkan oleh model backbone yang berbeda yang mereka gunakan dalam percobaan mereka.
Jelas bahwa ada banyak potensi yang belum dimanfaatkan dalam pendekatan RL-berat. Untuk kasus penggunaan yang memiliki hasil yang dapat diverifikasi, membiarkan model belajar sendiri sering dapat mengarah pada hasil yang tidak terduga yang tidak dapat dibuat oleh manusia. Ini bisa menjadi sangat berguna dalam pengaturan di mana membuat contoh-contoh yang dibuat dengan tangan bisa membosankan dan mahal.