
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Arsitektur jaringan saraf baru yang dikembangkan oleh para peneliti di Google mungkin dapat memecahkan salah satu tantangan besar bagi model bahasa besar (LLM): memperluas memori pada waktu inferensi tanpa meningkatkan biaya memori dan komputasi. Disebut Titans, arsitektur ini memungkinkan model untuk menemukan dan menyimpan informasi kecil yang penting dalam rangkaian panjang selama inferensi.
Titans menggabungkan blok perhatian LLM tradisional dengan lapisan “memori saraf” yang memungkinkan model menangani tugas memori jangka pendek dan jangka panjang secara efisien. Menurut para peneliti, LLM yang menggunakan memori jangka panjang saraf dapat menskalakan hingga jutaan token dan mengungguli LLM klasik dan alternatif seperti Mamba, namun memiliki parameter yang jauh lebih sedikit.
Lapisan perhatian dan model linier
Arsitektur transformator klasik yang digunakan di LLM menggunakan mekanisme perhatian mandiri untuk menghitung hubungan antar token. Ini adalah teknik efektif yang dapat mempelajari pola kompleks dan terperinci dalam rangkaian token. Namun, seiring bertambahnya panjang urutan, biaya komputasi dan memori untuk menghitung dan menyimpan perhatian meningkat secara kuadrat.
Proposal yang lebih baru melibatkan arsitektur alternatif yang memiliki kompleksitas linier dan dapat diskalakan tanpa menghabiskan banyak memori dan biaya komputasi. Namun, peneliti Google berpendapat bahwa model linier tidak menunjukkan kinerja kompetitif dibandingkan dengan transformator klasik, karena model tersebut memampatkan data kontekstualnya dan cenderung melewatkan detail penting.
Arsitektur yang ideal, menurut mereka, harus memiliki komponen memori berbeda yang dapat dikoordinasikan untuk menggunakan pengetahuan yang ada, mengingat fakta baru, dan mempelajari abstraksi dari konteksnya.
“Kami berpendapat bahwa dalam paradigma pembelajaran efektif, serupa dengan [the] otak manusia, terdapat modul-modul yang berbeda namun saling berhubungan, yang masing-masing bertanggung jawab atas komponen penting dalam proses pembelajaran,” tulis para peneliti.
Memori jangka panjang saraf
“Memori adalah gabungan sistem – misalnya, memori jangka pendek, memori kerja, dan jangka panjang – masing-masing memiliki fungsi berbeda dengan struktur saraf berbeda, dan masing-masing mampu beroperasi secara independen,” tulis para peneliti.
Untuk mengisi kesenjangan dalam model bahasa saat ini, para peneliti mengusulkan modul “memori jangka panjang saraf” yang dapat mempelajari informasi baru pada waktu inferensi tanpa inefisiensi mekanisme perhatian penuh. Alih-alih menyimpan informasi selama pelatihan, modul memori saraf mempelajari fungsi yang dapat mengingat fakta baru selama inferensi dan secara dinamis menyesuaikan proses menghafal berdasarkan data yang ditemuinya. Ini memecahkan masalah generalisasi yang dialami arsitektur jaringan saraf lainnya.
Untuk memutuskan bit informasi mana yang layak disimpan, modul memori saraf menggunakan konsep “kejutan”. Semakin berbeda urutan token dari jenis informasi yang disimpan dalam bobot model dan memori yang ada, semakin mengejutkan informasi tersebut dan karenanya layak untuk diingat. Hal ini memungkinkan modul memanfaatkan memori terbatasnya secara efisien dan hanya menyimpan potongan data yang menambahkan informasi berguna pada apa yang sudah diketahui model.
Untuk menangani rangkaian data yang sangat panjang, modul memori saraf memiliki mekanisme melupakan adaptif yang memungkinkannya menghapus informasi yang tidak lagi diperlukan, sehingga membantu mengelola kapasitas memori yang terbatas.
Modul memori dapat melengkapi mekanisme perhatian model transformator arus, yang digambarkan oleh para peneliti sebagai “modul memori jangka pendek, yang memperhatikan ukuran jendela konteks saat ini. Di sisi lain, memori saraf kita dengan kemampuan untuk terus belajar dari data dan menyimpannya dalam bobotnya dapat memainkan peran sebagai memori jangka panjang.”
Arsitektur Titan
Para peneliti menggambarkan Titans sebagai keluarga model yang menggabungkan blok transformator yang ada dengan modul memori saraf. Model ini memiliki tiga komponen utama: modul “inti”, yang bertindak sebagai memori jangka pendek dan menggunakan mekanisme perhatian klasik untuk menangani segmen token masukan saat ini yang sedang diproses oleh model; modul “memori jangka panjang”, yang menggunakan arsitektur memori saraf untuk menyimpan informasi di luar konteks saat ini; dan modul “memori persisten”, parameter yang dapat dipelajari yang tetap setelah pelatihan dan menyimpan pengetahuan yang tidak bergantung pada waktu.
Para peneliti mengusulkan cara berbeda untuk menghubungkan ketiga komponen tersebut. Namun secara umum, keunggulan utama arsitektur ini adalah memungkinkan modul perhatian dan memori saling melengkapi. Misalnya, lapisan perhatian dapat menggunakan konteks historis dan terkini untuk menentukan bagian mana dari jendela konteks saat ini yang harus disimpan dalam memori jangka panjang. Sedangkan memori jangka panjang memberikan pengetahuan sejarah yang tidak ada dalam konteks perhatian saat ini.
Para peneliti melakukan pengujian skala kecil pada model Titan, mulai dari 170 juta hingga 760 juta parameter, pada beragam tugas, termasuk pemodelan bahasa dan tugas bahasa urutan panjang. Mereka membandingkan performa Titans dengan berbagai model berbasis transformator, model linier seperti Mamba, dan model hybrid seperti Samba.

Titans menunjukkan performa yang kuat dalam pemodelan bahasa dibandingkan model lain dan mengungguli model transformator dan linier dengan ukuran serupa.
Perbedaan performa terutama terlihat pada tugas dengan rangkaian yang panjang, seperti “jarum di tumpukan jerami,” yang mana model harus mengambil sedikit informasi dari rangkaian yang sangat panjang, dan BABILong, yang mana model harus mempertimbangkan fakta yang didistribusikan dalam dokumen yang sangat panjang. . Faktanya, dalam tugas-tugas ini, Titan mengungguli model dengan parameter yang lebih banyak, termasuk GPT-4 dan GPT-4o-mini, dan model Llama-3 yang ditingkatkan dengan retrieval-augmented generation (RAG).
Selain itu, para peneliti mampu memperluas jendela konteks Titans hingga 2 juta token sambil mempertahankan biaya memori pada tingkat yang sederhana.
Model-model tersebut masih perlu diuji pada ukuran yang lebih besar, namun hasil dari makalah ini menunjukkan bahwa para peneliti masih belum mencapai batas maksimal potensi Titan.
Apa artinya bagi aplikasi perusahaan?
Dengan Google menjadi yang terdepan dalam model konteks panjang, kita dapat berharap teknik ini dapat diterapkan pada model pribadi dan terbuka seperti Gemini dan Gemma.
Dengan LLM yang mendukung jendela konteks yang lebih panjang, terdapat potensi yang semakin besar untuk membuat aplikasi di mana Anda memasukkan pengetahuan baru ke dalam prompt Anda daripada menggunakan teknik seperti RAG. Siklus pengembangan untuk mengembangkan dan melakukan iterasi pada aplikasi berbasis prompt jauh lebih cepat dibandingkan pipeline RAG yang kompleks. Sementara itu, arsitektur seperti Titans dapat membantu mengurangi biaya inferensi untuk rangkaian yang sangat panjang, sehingga memungkinkan perusahaan menerapkan aplikasi LLM untuk lebih banyak kasus penggunaan.
Google berencana merilis kode PyTorch dan JAX untuk melatih dan mengevaluasi model Titans.