
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Model Bahasa Besar (LLM) dapat mempelajari tugas penalaran yang kompleks tanpa mengandalkan kumpulan data besar, menurut sebuah studi baru oleh para peneliti di Universitas Shanghai Jiao Tong. Temuan mereka menunjukkan bahwa hanya dengan sekelompok kecil contoh yang dikuratori dengan baik, Anda dapat melatih LLM untuk tugas-tugas yang dianggap membutuhkan puluhan ribu contoh pelatihan.
Efisiensi ini disebabkan oleh pengetahuan yang melekat yang diperoleh LLM modern selama fase pra-pelatihan. Dengan metode pelatihan baru menjadi lebih efisien data dan komputasi, perusahaan mungkin dapat membuat model yang disesuaikan tanpa memerlukan akses ke sumber daya laboratorium AI besar.
Lebih sedikit lebih banyak (limusin)
Dalam studi mereka, para peneliti menantang asumsi bahwa Anda memerlukan data dalam jumlah besar untuk melatih LLM untuk tugas penalaran. Mereka memperkenalkan konsep “lebih sedikit lebih banyak” (limusin). Pekerjaan mereka dibangun di atas penelitian sebelumnya yang menunjukkan LLMS dapat diselaraskan dengan preferensi manusia dengan beberapa contoh.
Dalam percobaan mereka, mereka menunjukkan bahwa mereka dapat membuat dataset limusin untuk tugas penalaran matematika yang kompleks dengan beberapa ratus contoh pelatihan. LLM yang disesuaikan dengan dataset dapat membuat rantai penalaran rantai rantai (COT) yang kompleks yang memungkinkannya untuk menyelesaikan tugas pada tingkat keberhasilan yang sangat tinggi.
Sebagai contoh, model QWEN2.5-32B-instruktur disesuaikan dengan 817 contoh pelatihan yang dipilih berdasarkan limusin mencapai akurasi 57,1% pada tolok ukur AIME yang sangat menantang dan 94,8% pada matematika, mengungguli model yang dilatih pada seratus kali lebih banyak contoh lebih . Ini juga mendapat skor lebih tinggi pada tolok ukur daripada model penalaran seperti QWQ-32B-Preview (versi model QWEN yang telah dilatih untuk penalaran) dan preview Openai O1, yang keduanya telah dilatih dengan data yang lebih besar dan sumber daya komputasi.
Selain itu, model yang terlatih dengan limo menggeneralisasi ke contoh secara drastis berbeda dari data pelatihan mereka. Sebagai contoh, pada tolok ukur ilmiah Olympiadbench, model limusin mengungguli pujian QWQ-32B, dan pada tolok ukur GPQA yang menantang, mencapai akurasi 66,7%, dekat dengan skor terkemuka Openai-O1-preview sebesar 73,3%.
Apa artinya bagi AI Enterprise?
Menyesuaikan LLMS adalah kasus penggunaan yang menarik untuk aplikasi perusahaan. Berkat teknik seperti Retrieval-Augmented Generation (RAG) dan pembelajaran dalam konteks, LLMS dapat disesuaikan untuk menggunakan data yang dipesan lebih dahulu atau melakukan tugas-tugas baru tanpa perlu disempurnakan mahal.
Namun, tugas penalaran sering membutuhkan pelatihan dan menyempurnakan LLMS. Keyakinan yang banyak dipegang adalah bahwa tugas-tugas seperti itu memerlukan volume besar contoh pelatihan dengan rantai dan solusi penalaran yang sangat rinci. Membuat kumpulan data seperti itu lambat dan tidak praktis untuk banyak aplikasi dan perusahaan.
Baru -baru ini, para peneliti telah menunjukkan bahwa pendekatan pembelajaran penguatan murni dapat memungkinkan model untuk melatih diri mereka sendiri untuk tugas penalaran dengan menghasilkan banyak solusi dan memilih yang paling bekerja. Meskipun pendekatan ini membutuhkan lebih sedikit upaya manual, ia masih menuntut sumber daya komputasi yang mahal yang berada di luar jangkauan banyak perusahaan.
Di sisi lain, membuat beberapa ratus contoh adalah upaya yang dapat ditangani oleh banyak perusahaan, membawa model penalaran khusus dalam jangkauan berbagai organisasi yang lebih luas.
“Penemuan ini memiliki implikasi mendalam untuk penelitian kecerdasan buatan: ini menunjukkan bahwa bahkan kemampuan penalaran kompleks tingkat kompetisi dapat secara efektif ditimbulkan melalui sampel pelatihan minimal tetapi dikuratori,” tulis para peneliti.
Mengapa Limusin Bekerja
Dalam percobaan mereka, para peneliti mengidentifikasi dua alasan utama mengapa LLM dapat mempelajari tugas penalaran yang kompleks dengan lebih sedikit contoh.
Pertama, model yayasan yang canggih telah dilatih pada sejumlah konten dan kode matematika yang sangat besar selama pra-pelatihan. Ini berarti bahwa LLM ini sudah memiliki pengetahuan penalaran yang kaya dalam parameter mereka yang dapat diaktifkan melalui contoh yang dibuat dengan cermat.
Kedua, teknik pasca-pelatihan baru telah menunjukkan bahwa memungkinkan model untuk menghasilkan rantai penalaran yang diperluas secara signifikan meningkatkan kemampuan penalaran mereka. Intinya, memberi model lebih banyak waktu untuk “berpikir” memungkinkan mereka untuk membongkar dan menerapkan pengetahuan pra-terlatih mereka secara lebih efektif.
“Kami berhipotesis bahwa penalaran yang sukses muncul dari sinergi dari kedua faktor ini: pengetahuan yang kaya terlatih dan sumber daya komputasi yang cukup pada waktu inferensi,” tulis para peneliti. “Perkembangan ini secara kolektif menyarankan kemungkinan yang mencolok: jika model memiliki pengetahuan penalaran yang kaya dan diberikan ruang komputasi yang memadai, maka mengaktifkan kemampuan penalaran mereka mungkin hanya memerlukan sejumlah kecil sampel pelatihan berkualitas tinggi yang mendorong musyawarah yang diperluas, daripada penyesalan besar-besaran besar-besaran besar kumpulan data. “

Menurut temuan para peneliti, membuat dataset limusin yang berguna bergantung pada memilih masalah dan solusi yang tepat. Kurator data harus memprioritaskan masalah yang menantang yang membutuhkan rantai penalaran yang kompleks, beragam proses pemikiran dan integrasi pengetahuan. Masalah juga harus menyimpang dari distribusi pelatihan model untuk mendorong pendekatan penalaran baru dan memaksanya menuju generalisasi.
Dengan demikian, solusi harus jelas dan terorganisir dengan baik, dengan langkah-langkah penalaran disesuaikan dengan kompleksitas masalah. Solusi berkualitas tinggi juga harus memberikan dukungan pendidikan strategis dengan secara bertahap membangun pemahaman melalui penjelasan yang terstruktur dengan cermat.
“Dengan berfokus pada serangkaian rantai penalaran yang minimal namun cermat, kami mewujudkan prinsip inti limusin: demonstrasi berkualitas tinggi, daripada volume data yang tipis, adalah kunci untuk membuka kemampuan penalaran yang kompleks,” tulis para peneliti.
Para peneliti telah merilis kode dan data yang digunakan untuk melatih model limusin dalam percobaan mereka. Di masa depan, mereka berencana untuk memperluas konsep ke domain dan aplikasi lain.