
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Sebuah studi akademik baru menantang asumsi inti dalam mengembangkan model bahasa besar (LLM), memperingatkan bahwa lebih banyak data pra-pelatihan mungkin tidak selalu mengarah pada model yang lebih baik.
Para peneliti dari beberapa lembaga ilmu komputer terkemuka di Barat dan di seluruh dunia-termasuk Universitas Carnegie Mellon, Universitas Stanford, Universitas Harvard dan Universitas Princeton-telah memperkenalkan konsep “overtraining bencana.” Mereka menunjukkan bahwa pra-pelatihan yang diperluas sebenarnya dapat membuat model bahasa lebih sulit untuk disempurnakan, pada akhirnya merendahkan kinerja mereka.
Studi, berjudul “Model bahasa yang overtrained lebih sulit untuk disempurnakan”tersedia di Arxiv dan dipimpin oleh Jacob Mitchell Springer, bersama dengan rekan penulis Sachin Goyal, Kaiyue Wen, Tanishq Kumar, Xiang Yue, Sadhika Malladi, Graham Neubig, dan Aditi Raghunathan.
Hukum pengembalian yang semakin berkurang
The research focuses on a surprising trend observed in modern LLM development: while models are pre-trained on ever-expanding pools of data—licensed or scraped from the web, represented to an LLM as a series of tokens or numerical representations of concepts and ideas—increasing the token number during pre-training may lead to reduced effectiveness when those models are later fine-tuned for specific tasks.
Tim melakukan serangkaian evaluasi empiris dan analisis teoritis untuk menguji efek pra-pelatihan yang diperluas pada model adaptasi.
Salah satu temuan utama berpusat pada model Open Source Open Source OLMO-1B AI2.
Para peneliti membandingkan dua versi model ini: satu pra-terlatih pada 2,3 triliun token dan satu lagi pada 3 triliun token.
Meskipun yang terakhir dilatih pada data 30% lebih banyak, model yang terakhir berkinerja lebih buruk setelah penyetelan instruksi. Secara khusus, model 3T-Token menunjukkan lebih dari 2% kinerja lebih buruk pada beberapa tolok ukur model bahasa standar dibandingkan dengan rekan 2.3T-nya. Dalam beberapa evaluasi, degradasi dalam kinerja mencapai hingga 3%.
Para peneliti berpendapat bahwa penurunan ini bukan anomali melainkan fenomena yang konsisten yang mereka sebut “overtraining bencana.”
Memahami sensitivitas dan melupakan
Makalah ini mengaitkan degradasi ini dengan peningkatan sistematis dalam apa yang mereka sebut “sensitivitas progresif.” Saat model menjalani pra-pelatihan yang diperluas, parameternya menjadi lebih sensitif terhadap perubahan.
Peningkatan kerapuhan ini membuat mereka lebih rentan terhadap degradasi selama modifikasi pasca-pelatihan seperti penyetelan instruksi, penyempurnaan untuk tugas multimodal, atau bahkan gangguan berat badan sederhana.
Para peneliti memberikan bukti bahwa, di luar titik tertentu dalam pra-pelatihan, modifikasi apa pun-apakah terstruktur seperti penyesuaian atau tidak terstruktur seperti menambahkan kebisingan Gaussian-memberikan kehilangan kemampuan yang sebelumnya dipelajari sebelumnya.
Sensitivitas ini menghasilkan “lupa,” di mana kekuatan asli model memburuk karena data pelatihan baru diperkenalkan.
Studi ini mengidentifikasi “titik belok” dalam pra-pelatihan, setelah itu pelatihan tambahan mengarah pada pengembalian yang berkurang dan bahkan negatif mengenai hasil penyetelan yang menyempurnakan. Untuk model OLMO-1B, ambang ini muncul sekitar 2,5 triliun token.
Banyak bukti
Analisis tim mencakup pengaturan eksperimental dunia nyata dan terkontrol. Mereka menguji fenomena di berbagai tugas, termasuk penyetelan instruksi menggunakan kumpulan data seperti antropik-HH dan Tulu dan fine-tuning multimodal menggunakan kerangka kerja LLAVA.
Hasilnya secara konsisten menunjukkan bahwa model pra-terlatih di luar anggaran token tertentu berkinerja buruk setelah fine-tuning.
Selain itu, para peneliti membangun model teoritis menggunakan jaringan linier untuk memahami lebih baik mengapa overtraining menyebabkan peningkatan sensitivitas.
Analisis mereka mengkonfirmasi bahwa sensitivitas progresif dan overtraining bencana secara matematis tidak dapat dihindari ketika pra-pelatihan berlanjut tanpa batas waktu tanpa kendala yang tepat.
Takeaway akhir? Penyedia dan pelatih model harus melakukan trade-off
Temuan ini menantang asumsi luas bahwa lebih banyak data pra-pelatihan selalu lebih baik. Sebaliknya, makalah ini menyarankan pertukaran yang bernuansa: sementara pra-pelatihan yang lebih lama meningkatkan kemampuan model dasar, itu juga meningkatkan risiko bahwa penyempurnaan akan menurunkan kemampuan tersebut.
Dalam praktiknya, upaya untuk mengurangi efek ini-seperti menyesuaikan tingkat pembelajaran yang menyempurnakan atau menambahkan regularisasi-dapat menunda timbulnya overtraining bencana tetapi tidak dapat sepenuhnya menghilangkannya tanpa mengorbankan kinerja hilir.
Dengan demikian, bagi perusahaan yang ingin memanfaatkan LLMS untuk meningkatkan alur kerja dan hasil bisnis, jika satu ide untuk melakukannya adalah menyempurnakan model sumber terbuka, pelajaran dari penelitian ini menunjukkan bahwa model parameter yang lebih rendah yang disempurnakan yang dilatih pada lebih sedikit material kemungkinan akan mencapai model produksi yang lebih dapat diandalkan.
Para penulis mengakui bahwa penelitian lebih lanjut diperlukan untuk memahami faktor -faktor yang mempengaruhi kapan dan bagaimana overtraining bencana terjadi. Pertanyaan terbuka termasuk apakah pengoptimal pra-pelatihan, tujuan pelatihan, atau distribusi data dapat memengaruhi keparahan fenomena.
Implikasi untuk pengembangan model LLM dan AI masa depan
Studi ini secara signifikan memengaruhi cara organisasi dan peneliti merancang dan melatih model bahasa besar. Karena lapangan terus mengejar model yang lebih besar dan lebih mampu, penelitian ini menyoroti pentingnya menyeimbangkan durasi pra-pelatihan dengan kemampuan beradaptasi pasca-pelatihan.
Selain itu, temuan ini dapat memengaruhi cara pengembang model berpikir tentang alokasi sumber daya. Daripada berfokus secara eksklusif pada peningkatan anggaran pra-pelatihan, pengembang mungkin perlu menilai kembali strategi untuk mengoptimalkan kinerja hilir tanpa menimbulkan efek negatif dari overtraining bencana.