
Bergabunglah dengan acara yang dipercaya oleh para pemimpin perusahaan selama hampir dua dekade. VB Transform menyatukan orang -orang yang membangun strategi AI perusahaan nyata. Pelajari lebih lanjut
Para peneliti di MIT telah mengembangkan kerangka kerja yang disebut Model Bahasa yang dapat beradaptasi sendiri (SEAL) yang memungkinkan model bahasa besar (LLM) untuk terus belajar dan beradaptasi dengan memperbarui parameter internal mereka sendiri. SEAL mengajarkan LLM untuk menghasilkan data pelatihan sendiri dan memperbarui instruksi, memungkinkannya untuk secara permanen menyerap pengetahuan baru dan mempelajari tugas -tugas baru.
Kerangka kerja ini dapat berguna untuk aplikasi perusahaan, terutama untuk agen AI yang beroperasi di lingkungan yang dinamis, di mana mereka harus terus -menerus memproses informasi baru dan menyesuaikan perilaku mereka.
Tantangan mengadaptasi llms
Sementara model bahasa besar telah menunjukkan kemampuan luar biasa, mengadaptasi mereka dengan tugas -tugas tertentu, mengintegrasikan informasi baru, atau menguasai keterampilan penalaran baru tetap menjadi rintangan yang signifikan.
Saat ini, ketika dihadapkan dengan tugas baru, LLM biasanya belajar dari data “apa adanya” melalui metode seperti finetuning atau pembelajaran dalam konteks. Namun, data yang disediakan tidak selalu dalam format optimal untuk model untuk belajar secara efisien. Pendekatan yang ada tidak memungkinkan model untuk mengembangkan strategi sendiri untuk transformasi dan pembelajaran terbaik dari informasi baru.
“Banyak kasus penggunaan perusahaan menuntut lebih dari sekadar penarikan faktual-mereka membutuhkan adaptasi yang lebih dalam dan persisten,” Jyo Pari, mahasiswa PhD di MIT dan rekan penulis kertas, mengatakan kepada VentureBeat. “Misalnya, asisten pengkodean mungkin perlu menginternalisasi kerangka kerja perangkat lunak spesifik perusahaan, atau model yang menghadap pelanggan mungkin perlu mempelajari perilaku atau preferensi unik pengguna dari waktu ke waktu.”
Dalam kasus seperti itu, pengambilan sementara gagal, dan pengetahuan perlu “dipanggang” bobot model sehingga memengaruhi semua respons di masa depan.
Menciptakan model bahasa diri sendiri
“Sebagai langkah menuju adaptasi model bahasa yang dapat diskalakan dan efisien, kami mengusulkan untuk melengkapi LLM dengan kemampuan untuk menghasilkan data pelatihan mereka sendiri dan arahan finetuning untuk menggunakan data tersebut,” peneliti MIT menyatakan dalam makalah mereka.
Solusi para peneliti adalah meterai, kependekan dari model bahasa adaptasi diri. Ia menggunakan algoritma pembelajaran penguatan (RL) untuk melatih LLM untuk menghasilkan “redit-diri”-instruksi bahasa alami yang menentukan bagaimana model harus memperbarui bobotnya sendiri. Sedisi mandiri ini dapat merestrukturisasi informasi baru, membuat contoh pelatihan sintetis, atau bahkan menentukan parameter teknis untuk proses pembelajaran itu sendiri.
Secara intuitif, SEAL mengajarkan model cara membuat panduan belajar yang dipersonalisasi sendiri. Alih -alih hanya membaca dokumen baru (data mentah), model belajar untuk menulis ulang dan memformat ulang informasi itu menjadi gaya yang dapat lebih mudah diserap dan diinternalisasi. Proses ini menyatukan beberapa bidang utama penelitian AI, termasuk pembuatan data sintetis, pembelajaran penguatan dan pelatihan test-time (TTT).
Kerangka kerja beroperasi pada sistem dua loop. Dalam “loop dalam,” model ini menggunakan edit sendiri untuk melakukan pembaruan kecil sementara untuk bobotnya. Dalam “loop luar,” sistem mengevaluasi apakah pembaruan itu meningkatkan kinerja model pada tugas target. Jika itu terjadi, model menerima hadiah positif, memperkuat kemampuannya untuk menghasilkan pengeditan diri yang efektif di masa depan. Seiring waktu, LLM menjadi ahli dalam mengajar sendiri.
Dalam studi mereka, para peneliti menggunakan model tunggal untuk seluruh kerangka segel. Namun, mereka juga mencatat bahwa proses ini dapat dipisahkan menjadi model “guru-siswa”. Model guru khusus dapat dilatih untuk menghasilkan redit mandiri yang efektif untuk model siswa yang terpisah, yang kemudian akan diperbarui. Pendekatan ini dapat memungkinkan pipa adaptasi yang lebih khusus dan efisien dalam pengaturan perusahaan.
Segel beraksi
Para peneliti menguji segel dalam dua domain utama: penggabungan pengetahuan (kemampuan untuk mengintegrasikan fakta baru secara permanen) dan beberapa pembelajaran tembakan (kemampuan untuk menggeneralisasi dari beberapa contoh).

Untuk penggabungan pengetahuan, tujuannya adalah untuk melihat apakah model tersebut dapat menjawab pertanyaan tentang bagian teks tanpa memiliki akses ke bagian tersebut selama pertanyaan. Finetuning llama-3.2-1b pada teks mentah hanya memberikan peningkatan marjinal atas model dasar.
Namun, ketika model SEAL menciptakan “redit mandiri” dengan menghasilkan beberapa “implikasi” dari suatu bagian dan dilatih pada data sintetis ini, akurasinya melonjak menjadi 47%. Khususnya, hasil ini mengungguli dari menggunakan data sintetis yang dihasilkan oleh GPT-4.1 yang jauh lebih besar, menunjukkan model belajar untuk membuat materi pelatihan yang unggul untuk dirinya sendiri.

Untuk pembelajaran beberapa shot, para peneliti menguji segel pada contoh-contoh dari abstrak penalaran corpus (ARC), di mana model harus menyelesaikan teka-teki visual. Dalam fase edit sendiri, model harus menghasilkan seluruh strategi adaptasi, termasuk augmentasi dan alat data mana yang akan digunakan dan tingkat pembelajaran apa yang akan diterapkan.
SEAL mencapai tingkat keberhasilan 72,5%, peningkatan dramatis selama tingkat 20% yang dicapai tanpa pelatihan RL dan tingkat 0% pembelajaran dalam konteks standar.

Implikasi untuk perusahaan
Beberapa ahli memproyeksikan bahwa pasokan data pelatihan berkualitas tinggi dan dihasilkan manusia dapat habis di tahun-tahun mendatang. Kemajuan mungkin segera tergantung pada “kapasitas model untuk menghasilkan sinyal pelatihan utilitas tinggi sendiri,” seperti yang dikatakan para peneliti. Mereka menambahkan, “Langkah alami berikutnya adalah untuk Meta-Train Model Generator Data-Data segel khusus yang menghasilkan korpora pretraining segar, memungkinkan model masa depan untuk skala dan mencapai efisiensi data yang lebih besar tanpa mengandalkan teks manusia tambahan.”
Sebagai contoh, para peneliti mengusulkan bahwa LLM dapat menelan dokumen kompleks seperti makalah akademik atau laporan keuangan dan secara mandiri menghasilkan ribuan penjelasan dan implikasinya untuk memperdalam pemahamannya.
“Lingkaran berulang ekspresi diri dan pemanjangan diri ini dapat memungkinkan model untuk terus meningkatkan topik yang jarang atau kurang terwakili bahkan tanpa adanya pengawasan eksternal tambahan,” jelas para peneliti.
Kemampuan ini sangat menjanjikan untuk membangun agen AI. Sistem agen harus secara bertahap memperoleh dan mempertahankan pengetahuan saat mereka berinteraksi dengan lingkungan mereka. Segel menyediakan mekanisme untuk ini. Setelah interaksi, agen dapat mensintesis edit sendiri untuk memicu pembaruan berat badan, yang memungkinkannya untuk menginternalisasi pelajaran yang dipetik. Ini memungkinkan agen untuk berkembang dari waktu ke waktu, meningkatkan kinerjanya berdasarkan pengalaman, dan mengurangi ketergantungannya pada pemrograman statis atau bimbingan manusia yang berulang.
“Seal menunjukkan bahwa model bahasa besar tidak perlu tetap statis setelah pretraining,” tulis para peneliti. “Dengan belajar untuk menghasilkan data edit sendiri sintetis mereka sendiri dan menerapkannya melalui pembaruan berat badan yang ringan, mereka dapat secara mandiri menggabungkan pengetahuan baru dan beradaptasi dengan tugas-tugas baru.”
Keterbatasan Segel
Yang mengatakan, segel bukanlah solusi universal. Misalnya, ia dapat menderita “lupa bencana,” di mana siklus pelatihan ulang yang konstan dapat mengakibatkan model mempelajari pengetahuan sebelumnya.
“Dalam implementasi kami saat ini, kami mendorong pendekatan hibrida,” kata Pari. “Perusahaan harus selektif tentang pengetahuan apa yang cukup penting untuk diintegrasikan secara permanen.”
Data faktual dan evolusi dapat tetap dalam memori eksternal melalui kain, sementara pengetahuan yang tahan lama dan membentuk perilaku lebih cocok untuk pembaruan tingkat berat melalui segel.
“Strategi memori hibrida semacam ini memastikan informasi yang tepat gigih tanpa membanjiri model atau memperkenalkan lupa yang tidak perlu,” katanya.
Perlu juga dicatat bahwa SEAL membutuhkan waktu yang tidak sepele untuk menyetel contoh-contoh edit sendiri dan melatih model. Ini membuat pengeditan yang terus menerus dan real-time tidak mungkin di sebagian besar pengaturan produksi.
“Kami membayangkan model penyebaran yang lebih praktis di mana sistem mengumpulkan data selama suatu periode-katakanlah, beberapa jam atau sehari-dan kemudian melakukan redit mandiri yang ditargetkan selama interval pembaruan yang dijadwalkan,” kata Pari. “Pendekatan ini memungkinkan perusahaan untuk mengendalikan biaya adaptasi sambil tetap mendapat manfaat dari kemampuan SEAL untuk menginternalisasi pengetahuan baru.”