
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Dua pendekatan populer untuk menyesuaikan model bahasa besar (LLM) untuk tugas hilir adalah fine-tuning dan in-context learning (ICL). Dalam sebuah studi baru -baru ini, para peneliti di Google Deepmind dan Stanford University mengeksplorasi kemampuan generalisasi dari kedua metode ini. Mereka menemukan bahwa ICL memiliki kemampuan generalisasi yang lebih besar (meskipun datang dengan biaya perhitungan yang lebih tinggi selama inferensi). Mereka juga mengusulkan pendekatan baru untuk mendapatkan yang terbaik dari kedua dunia.
Temuan ini dapat membantu pengembang membuat keputusan penting saat membangun aplikasi LLM untuk data perusahaan yang dipesan lebih dahulu.
Menguji bagaimana model bahasa mempelajari trik baru
Fine-tuning melibatkan pengambilan LLM terlatih dan melatihnya lebih lanjut pada dataset khusus yang lebih kecil. Ini menyesuaikan parameter internal model untuk mengajarkannya pengetahuan atau keterampilan baru. In-context Learning (ICL), di sisi lain, tidak mengubah parameter yang mendasari model. Sebaliknya, ia memandu LLM dengan memberikan contoh tugas yang diinginkan secara langsung dalam prompt input. Model ini kemudian menggunakan contoh -contoh ini untuk mencari tahu cara menangani permintaan baru yang serupa.
Para peneliti berangkat untuk membandingkan dengan ketat seberapa baik model generalisasi ke tugas -tugas baru menggunakan dua metode ini. Mereka membangun “kumpulan data sintetis terkontrol dari pengetahuan faktual” dengan struktur yang kompleks dan konsisten sendiri, seperti pohon keluarga imajiner atau hierarki konsep fiksi.
Untuk memastikan mereka menguji kemampuan model untuk mempelajari informasi baru, mereka mengganti semua kata benda, kata sifat, dan kata kerja dengan istilah omong kosong, menghindari tumpang tindih dengan data yang mungkin ditemui LLM selama pra-pelatihan.
Model kemudian diuji pada berbagai tantangan generalisasi. Misalnya, satu tes yang terlibat Pembalikan sederhana. Jika sebuah model dilatih bahwa “FEMP lebih berbahaya daripada Glon,” dapatkah itu menyimpulkan bahwa “Glon kurang berbahaya daripada FEMP”? Tes lain berfokus pada Silogisme sederhanabentuk pengurangan logis. Jika diceritakan “All Glon Are Yomp” dan “All Troff adalah Glon,” bisakah model menyimpulkan bahwa “semua troff adalah yomp”? Mereka juga menggunakan “tolok ukur struktur semantik” yang lebih kompleks dengan hierarki yang lebih kaya dari fakta-fakta yang dibuat-buat ini untuk menguji lebih banyak pemahaman yang bernuansa.
“Hasil kami difokuskan terutama pada pengaturan tentang bagaimana model menggeneralisasi ke pengurangan dan pembalikan dari penyesuaian pada struktur pengetahuan baru, dengan implikasi yang jelas untuk situasi ketika penyempurnaan digunakan untuk mengadaptasi model dengan informasi khusus dan kepemilikan perusahaan,” kata Andrew Lampinen, ilmuwan peneliti di Google Deepmind dan penulis utama makalah ini, kepada VentureBeat.
Untuk mengevaluasi kinerja, para peneliti menyempurnakan Flash Gemini 1.5 pada set data ini. Untuk ICL, mereka memberi makan seluruh dataset pelatihan (atau subset besar) sebagai konteks untuk model instruksi yang disesuaikan sebelum mengajukan pertanyaan tes.
Hasilnya secara konsisten menunjukkan bahwa, dalam pengaturan yang sesuai dengan data, ICL menyebabkan generalisasi yang lebih baik daripada fine-tuning standar. Model yang menggunakan ICL umumnya lebih baik pada tugas -tugas seperti membalikkan hubungan atau membuat pengurangan logis dari konteks yang disediakan. Model pra-terlatih, tanpa penyetelan atau ICL, berkinerja buruk, menunjukkan kebaruan dari data uji.
“Salah satu trade-off utama yang perlu dipertimbangkan adalah bahwa, sementara ICL tidak memerlukan fine-tuning (yang menghemat biaya pelatihan), umumnya lebih mahal secara komputasi dengan setiap penggunaan, karena memerlukan memberikan konteks tambahan untuk model,” kata Lampinen. “Di sisi lain, ICL cenderung menggeneralisasi lebih baik untuk kumpulan data dan model yang kami evaluasi.”
Pendekatan hibrida: menambah penyesuaian
Membangun pada pengamatan bahwa ICL unggul pada generalisasi yang fleksibel, para peneliti mengusulkan metode baru untuk meningkatkan fine-tuning: menambahkan kesimpulan dalam konteks ke data penyempurnaan. Gagasan intinya adalah menggunakan kemampuan ICL LLM sendiri untuk menghasilkan contoh yang lebih beragam dan disimpulkan dengan kaya, dan kemudian menambahkan contoh augmented ini ke dalam dataset yang digunakan untuk fine-tuning.
Mereka mengeksplorasi dua strategi augmentasi data utama:
- A strategi lokal: Pendekatan ini berfokus pada masing -masing informasi. LLM diminta untuk mengulangi kalimat tunggal dari data pelatihan atau menarik kesimpulan langsung dari mereka, seperti menghasilkan pembalikan.
- A Strategi Global: LLM diberikan dataset pelatihan penuh sebagai konteks, kemudian diminta untuk menghasilkan kesimpulan dengan menghubungkan dokumen atau fakta tertentu dengan informasi yang disediakan lainnya, yang mengarah ke jejak penalaran yang lebih lama dari kesimpulan yang relevan.
Ketika model disesuaikan dengan dataset augmented ini, keuntungannya signifikan. Penyempurnaan augmented ini secara signifikan meningkatkan generalisasi, mengungguli tidak hanya fine-tuning standar tetapi juga ICL polos.
“Misalnya, jika salah satu dokumen perusahaan mengatakan 'XYZ adalah alat internal untuk menganalisis data,' hasil kami menunjukkan bahwa ICL dan augmented finetuning akan lebih efektif dalam memungkinkan model untuk menjawab pertanyaan terkait seperti 'alat internal apa untuk analisis data yang ada?'” Kata Lampinen.
Pendekatan ini menawarkan jalur yang menarik ke depan untuk perusahaan. Dengan berinvestasi dalam menciptakan set data ICL-Agusted ini, pengembang dapat membangun model yang disesuaikan dengan kemampuan generalisasi yang lebih kuat.
Hal ini dapat menyebabkan aplikasi LLM yang lebih kuat dan andal yang berkinerja lebih baik pada input dunia nyata yang beragam tanpa menimbulkan biaya waktu inferensi terus menerus yang terkait dengan petunjuk dalam konteks yang besar.
“Fine-tuning augmented umumnya akan membuat proses fine-tuning model lebih mahal, karena membutuhkan langkah tambahan ICL untuk menambah data, diikuti dengan penyempurnaan,” kata Lampinen. “Apakah biaya tambahan itu pantas oleh generalisasi yang ditingkatkan akan tergantung pada kasus penggunaan spesifik. Namun, secara komputasi lebih murah daripada menerapkan ICL setiap kali model digunakan, ketika diamortisasi atas banyak penggunaan model.”
Sementara Lampinen mencatat bahwa penelitian lebih lanjut diperlukan untuk melihat bagaimana komponen yang mereka pelajari berinteraksi dalam pengaturan yang berbeda, ia menambahkan bahwa temuan mereka menunjukkan bahwa pengembang mungkin ingin mempertimbangkan untuk mengeksplorasi fine-tuning augmented dalam kasus di mana mereka melihat kinerja yang tidak memadai dari fine-tuning saja.
“Pada akhirnya, kami berharap pekerjaan ini akan berkontribusi pada ilmu pengetahuan yang memahami pembelajaran dan generalisasi dalam model yayasan, dan kepraktisan mengadaptasi mereka dengan tugas hilir,” kata Lampinen.