
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Ketika perusahaan terus mengadopsi model bahasa besar (LLM) dalam berbagai aplikasi, salah satu tantangan utama yang mereka hadapi adalah meningkatkan pengetahuan faktual tentang model dan mengurangi halusinasi. Dalam sebuah makalah baru, para peneliti di Meta AI mengusulkan “lapisan memori yang dapat diskalakan”, yang bisa menjadi salah satu dari beberapa kemungkinan solusi untuk masalah ini.
Lapisan memori yang dapat diskalakan menambahkan lebih banyak parameter ke LLM untuk meningkatkan kapasitas pembelajarannya tanpa memerlukan sumber daya komputasi tambahan. Arsitektur ini berguna untuk aplikasi di mana Anda dapat menyisihkan memori ekstra untuk pengetahuan faktual namun juga menginginkan kecepatan inferensi model yang lebih gesit.
Lapisan padat dan memori
Model bahasa tradisional menggunakan “lapisan padat” untuk menyandikan sejumlah besar informasi dalam parameternya. Dalam lapisan padat, semua parameter digunakan pada kapasitas penuhnya dan sebagian besar diaktifkan pada waktu yang sama selama inferensi. Lapisan padat dapat mempelajari fungsi yang kompleks, dan meningkatkannya memerlukan sumber daya komputasi dan energi tambahan.
Sebaliknya, untuk pengetahuan faktual sederhana, lapisan yang lebih sederhana dengan arsitektur memori asosiatif akan lebih efisien dan dapat diinterpretasikan. Inilah yang dilakukan lapisan memori. Mereka menggunakan aktivasi sederhana dan mekanisme pencarian nilai kunci untuk menyandikan dan mengambil pengetahuan. Lapisan renggang memerlukan lebih banyak memori dibandingkan lapisan padat, namun hanya menggunakan sebagian kecil parameter sekaligus, sehingga lebih efisien dalam komputasi.
Lapisan memori telah ada selama beberapa tahun tetapi jarang digunakan dalam arsitektur pembelajaran mendalam modern. Mereka tidak dioptimalkan untuk akselerator perangkat keras saat ini.
LLM frontier saat ini biasanya menggunakan beberapa bentuk arsitektur “campuran ahli” (MoE), yang menggunakan mekanisme yang agak mirip dengan lapisan memori. Model MoE terdiri dari banyak komponen ahli yang lebih kecil yang berspesialisasi dalam tugas-tugas tertentu. Pada waktu inferensi, mekanisme perutean menentukan pakar mana yang diaktifkan berdasarkan urutan masukan. PEER, sebuah arsitektur yang baru-baru ini dikembangkan oleh Google DeepMind, memperluas MoE ke jutaan pakar, memberikan kontrol yang lebih terperinci atas parameter yang diaktifkan selama inferensi.
Meningkatkan lapisan memori
Lapisan memori ringan dalam komputasi namun berat dalam memori, sehingga menghadirkan tantangan khusus untuk kerangka perangkat keras dan perangkat lunak saat ini. Dalam makalah mereka, para peneliti Meta mengusulkan beberapa modifikasi yang memecahkan tantangan ini dan memungkinkan penggunaannya dalam skala besar.
Pertama, para peneliti mengonfigurasi lapisan memori untuk paralelisasi, mendistribusikannya ke beberapa GPU untuk menyimpan jutaan pasangan nilai kunci tanpa mengubah lapisan lain dalam model. Mereka juga menerapkan kernel CUDA khusus untuk menangani operasi bandwidth memori tinggi. Dan, mereka mengembangkan mekanisme berbagi parameter yang mendukung satu set parameter memori di beberapa lapisan memori dalam suatu model. Ini berarti bahwa kunci dan nilai yang digunakan untuk pencarian dibagikan ke seluruh lapisan.
Modifikasi ini memungkinkan penerapan lapisan memori dalam LLM tanpa memperlambat model.
“Lapisan memori dengan aktivasi yang jarang melengkapi jaringan padat dengan baik, memberikan peningkatan kapasitas untuk perolehan pengetahuan sekaligus ringan dalam komputasi,” tulis para peneliti. “Mereka dapat ditingkatkan skalanya secara efisien, dan memberikan para praktisi arah baru yang menarik untuk menyeimbangkan memori dengan komputasi.”
Untuk menguji lapisan memori, para peneliti memodifikasi model Llama dengan mengganti satu atau lebih lapisan padat dengan lapisan memori bersama. Mereka membandingkan model yang ditingkatkan memorinya dengan LLM yang padat serta model MoE dan PEER dalam beberapa tugas, termasuk menjawab pertanyaan faktual, pengetahuan dunia ilmiah dan akal sehat, serta pengkodean.

Temuan mereka menunjukkan bahwa model memori meningkat secara signifikan dibandingkan dengan baseline yang padat dan bersaing dengan model yang menggunakan komputasi 2X hingga 4X lebih banyak. Model tersebut juga mencocokkan performa model MoE yang memiliki anggaran komputasi dan jumlah parameter yang sama. Performa model ini terutama terlihat pada tugas-tugas yang memerlukan pengetahuan faktual. Misalnya, pada tanya jawab faktual, model memori dengan 1,3 miliar parameter mendekati performa Llama-2-7B, yang telah dilatih dengan token dua kali lebih banyak dan komputasi 10X lebih banyak.
Selain itu, para peneliti menemukan bahwa manfaat model memori tetap konsisten dengan ukuran model saat mereka menskalakan eksperimen mereka dari 134 juta menjadi 8 miliar parameter.
“Mengingat temuan ini, kami sangat menganjurkan agar lapisan memori diintegrasikan ke dalam semua arsitektur AI generasi berikutnya,” tulis para peneliti, seraya menambahkan bahwa masih banyak ruang untuk perbaikan. “Secara khusus, kami berharap metode pembelajaran baru dapat dikembangkan untuk mendorong efektivitas lapisan-lapisan ini lebih jauh lagi, sehingga mengurangi lupa, mengurangi halusinasi, dan pembelajaran berkelanjutan.”