
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Para peneliti di Sakana AI, sebuah laboratorium penelitian AI yang berfokus pada algoritma yang terinspirasi dari alam, telah mengembangkan model bahasa adaptif yang dapat mempelajari tugas-tugas baru tanpa perlu penyesuaian. Disebut Transformer² (Transformer-squared), model ini menggunakan trik matematika untuk menyelaraskan bobotnya dengan permintaan pengguna selama inferensi.
Ini adalah serangkaian teknik terbaru yang bertujuan untuk meningkatkan kemampuan model bahasa besar (LLM) pada waktu inferensi, menjadikannya semakin berguna untuk aplikasi sehari-hari di berbagai domain.
Menyesuaikan bobot secara dinamis
Biasanya, mengonfigurasi LLM untuk tugas-tugas baru memerlukan proses penyesuaian yang mahal, di mana model dihadapkan pada contoh-contoh baru dan parameternya disesuaikan. Pendekatan yang lebih hemat biaya adalah “adaptasi tingkat rendah” (LoRA), yang mana sebagian kecil parameter model yang relevan dengan tugas target diidentifikasi dan dimodifikasi selama penyesuaian.
Setelah pelatihan dan penyesuaian, parameter model tetap tidak berubah, dan satu-satunya cara untuk menggunakannya kembali untuk tugas-tugas baru adalah melalui teknik seperti pembelajaran beberapa tahap dan pembelajaran banyak tahap.
Berbeda dengan fine-tuning klasik, Transformer-squared menggunakan pendekatan dua langkah untuk menyesuaikan parameternya secara dinamis selama inferensi. Pertama, model ini menganalisis permintaan masuk untuk memahami tugas dan persyaratannya, lalu menerapkan penyesuaian khusus tugas pada bobot model guna mengoptimalkan performanya untuk permintaan spesifik tersebut.
“Dengan secara selektif menyesuaikan komponen penting dari bobot model, kerangka kerja kami memungkinkan LLM beradaptasi secara dinamis terhadap tugas-tugas baru secara real-time,” tulis para peneliti dalam postingan blog yang dipublikasikan di situs web perusahaan.
Cara kerja Transformer-kuadrat Sakana
Kemampuan inti Transformer-kuadrat adalah secara dinamis menyesuaikan komponen penting dari bobotnya pada inferensi.
Untuk melakukan hal ini, pertama-tama ia harus mengidentifikasi komponen-komponen utama yang dapat diubah selama inferensi. Transformer-squared melakukan hal ini melalui dekomposisi nilai tunggal (SVD), sebuah trik aljabar linier yang memecah matriks menjadi tiga matriks lain yang mengungkapkan struktur bagian dalam dan geometrinya. SVD sering digunakan untuk mengompresi data atau menyederhanakan model pembelajaran mesin.
Saat diterapkan pada matriks bobot LLM, SVD memperoleh sekumpulan komponen yang secara kasar mewakili berbagai kemampuan model, seperti matematika, pemahaman bahasa, atau pengkodean. Dalam eksperimen mereka, para peneliti menemukan bahwa komponen-komponen ini dapat diubah untuk mengubah kemampuan model dalam tugas-tugas tertentu.
Untuk memanfaatkan temuan ini secara sistematis, mereka mengembangkan proses yang disebut penyempurnaan nilai tunggal (SVF). Pada waktu pelatihan, SVF mempelajari sekumpulan vektor dari komponen SVD model. Vektor-vektor ini, yang disebut vektor-z, merupakan representasi kompak dari keterampilan individu dan dapat digunakan sebagai tombol untuk memperkuat atau mengurangi kemampuan model dalam tugas-tugas tertentu.
Pada waktu inferensi, Transformer-squared menggunakan mekanisme dua jalur untuk mengadaptasi LLM untuk tugas yang tidak terlihat. Pertama, ini mengkaji dorongan untuk menentukan keterampilan yang diperlukan untuk mengatasi masalah (para peneliti mengusulkan tiga teknik berbeda untuk menentukan keterampilan yang diperlukan). Pada tahap kedua, Transformer-squared mengonfigurasi vektor-z yang sesuai dengan permintaan dan menjalankan prompt melalui model dan bobot yang diperbarui. Hal ini memungkinkan model memberikan respons yang disesuaikan untuk setiap permintaan.
Transformer-kuadrat beraksi
Para peneliti menerapkan Transformer-squared ke Llama-3 dan Mistral LLM dan membandingkannya dengan LoRA pada berbagai tugas, termasuk matematika, pengkodean, penalaran, dan tanya jawab visual. Transformer-squared mengungguli LoRA di semua benchmark namun memiliki parameter yang lebih sedikit. Perlu diperhatikan juga bahwa, tidak seperti Transformer-squared, model LoRA tidak dapat menyesuaikan bobotnya pada waktu inferensi, sehingga membuatnya kurang fleksibel.
Temuan menarik lainnya adalah bahwa pengetahuan yang diambil dari satu model dapat ditransfer ke model lain. Misalnya, vektor-z yang diperoleh dari model Llama dapat diterapkan pada model Mistral. Hasilnya tidak sebanding dengan pembuatan vektor-z dari awal untuk model target, dan transferabilitas dimungkinkan karena kedua model memiliki arsitektur yang serupa. Namun hal ini menunjukkan kemungkinan mempelajari vektor-z umum yang dapat diterapkan pada berbagai model.

“Jalan ke depan terletak pada membangun model yang secara dinamis beradaptasi dan berkolaborasi dengan sistem lain, menggabungkan kemampuan khusus untuk memecahkan masalah multi-domain yang kompleks,” tulis para peneliti. “Sistem yang dapat beradaptasi secara mandiri seperti Transformer² menjembatani kesenjangan antara AI statis dan kecerdasan hidup, membuka jalan bagi alat AI yang efisien, terpersonalisasi, dan terintegrasi penuh yang mendorong kemajuan di seluruh industri dan kehidupan kita sehari-hari.”
Sakana AI telah merilis kode untuk melatih komponen Transformer-squared di GitHub.
Trik waktu inferensi
Ketika perusahaan mengeksplorasi aplikasi LLM yang berbeda, tahun lalu telah terjadi pergeseran nyata ke arah pengembangan teknik waktu inferensi. Transformer-squared adalah salah satu dari beberapa pendekatan yang memungkinkan pengembang menyesuaikan LLM untuk tugas baru pada waktu inferensi tanpa perlu melatih ulang atau menyempurnakannya.
Titans, sebuah arsitektur yang dikembangkan oleh para peneliti di Google, mengatasi masalah ini dari sudut pandang yang berbeda, memberikan model bahasa kemampuan untuk mempelajari dan menghafal informasi baru pada waktu inferensi. Teknik lain fokus untuk memungkinkan LLM terdepan memanfaatkan jendela konteks mereka yang semakin panjang untuk mempelajari tugas-tugas baru tanpa pelatihan ulang.
Dengan perusahaan yang memiliki data dan pengetahuan khusus untuk aplikasi mereka, kemajuan dalam teknik penyesuaian waktu inferensi akan membuat LLM jauh lebih berguna.