
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Kebanyakan orang yang tertarik pada AI generatif kemungkinan sudah tahu bahwa model bahasa besar (LLM) – seperti yang ada di belakang chatgpt, Claude Anthropic, dan Google Gemini – dilatih pada kumpulan data besar -besaran: triliunan kata yang ditarik dari situs web, buku, basis kode, dan, semakin, media lain seperti gambar, audio, dan video. Tapi kenapa?
Dari data ini, LLM mengembangkan pemahaman statistik, umum tentang bahasa, polanya, dan dunia – dikodekan dalam bentuk miliaran parameter, atau “pengaturan,” dalam jaringan neuron buatan (yang merupakan fungsi matematika yang mengubah data input menjadi sinyal output).
Dengan terpapar semua data pelatihan ini, LLMS belajar mendeteksi dan menggeneralisasi pola yang tercermin dalam parameter neuron mereka. Misalnya, kata “apel” sering muncul di dekat istilah yang terkait dengan makanan, buah, atau pohon, dan kadang -kadang komputer. Model mengambil bahwa apel bisa merah, hijau, atau kuning, atau bahkan kadang -kadang warna lain jika busuk atau langka, dieja “apel” dalam bahasa Inggris, dan dapat dimakan. Pengetahuan statistik ini mempengaruhi bagaimana model merespons ketika pengguna memasukkan prompt – membentuk output yang dihasilkannya berdasarkan asosiasi yang “dipelajari” dari data pelatihan.
Tapi pertanyaan besar – bahkan di antara peneliti AI – tetap: berapa banyak data pelatihan LLM yang digunakan untuk membangun digeneralisasi representasi konsep, dan berapa banyak lagi hafal kata demi kata atau disimpan dengan cara yang identik atau hampir identik dengan data asli?
Ini penting tidak hanya untuk pemahaman yang lebih baik bagaimana LLMS beroperasi – dan kapan mereka salah – tetapi juga sebagai penyedia model membela diri dalam tuntutan hukum pelanggaran hak cipta yang dibawa oleh pencipta dan pemilik data, seperti seniman dan label rekaman. Jika LLMS terbukti mereproduksi bagian signifikan dari data pelatihan mereka dengan kata demi kata, pengadilan dapat lebih cenderung berpihak pada penggugat dengan alasan bahwa model tersebut secara tidak sah menyalin bahan yang dilindungi. Jika tidak – jika model ditemukan untuk menghasilkan output berdasarkan pola umum daripada replikasi yang tepat – pengembang mungkin dapat melanjutkan pengikisan dan pelatihan pada data yang dilindungi hak cipta di bawah pertahanan hukum yang ada seperti penggunaan yang adil.
Sekarang, kami akhirnya memiliki jawaban atas pertanyaan tentang berapa banyak LLMS menghafal versus generalisasi: studi baru yang dirilis minggu ini dari para peneliti di Meta, Google DeepMind, Cornell University, dan Nvidia menemukan itu Model gaya GPT memiliki kapasitas hafalan tetap sekitar 3,6 bit per parameter.
Untuk memahami apa arti 3,6 bit dalam praktik:
- Bit tunggal adalah unit data digital terkecil, mewakili 0 atau 1. Delapan bit membentuk satu byte.
- Menyimpan 3.6 bit memungkinkan sekitar 12.13 nilai yang berbeda, sebagaimana dihitung oleh 2^3.6.
- Ini adalah tentang jumlah informasi yang diperlukan untuk memilih salah satu dari 12 opsi-serupa untuk memilih sebulan dalam setahun atau hasil dari gulungan die 12 sisi.
- Dia tidak cukup untuk menyimpan bahkan satu surat bahasa Inggris (yang membutuhkan sekitar 4,7 bit), tetapi hanya cukup untuk menyandikan karakter dari set 10 huruf bahasa Inggris yang dikurangi (yang membutuhkan sekitar 3,32 bit).
- Dalam byte, 3,6 bit adalah 0,45 byte – kurang dari setengah ukuran karakter khas yang disimpan dalam ASCII (yang menggunakan 8 bit atau 1 byte).
Jumlah ini tidak tergantung pada model dalam variasi arsitektur yang masuk akal: kedalaman, lebar, dan presisi yang berbeda menghasilkan hasil yang serupa. Estimasi ini tetap stabil di seluruh ukuran model dan bahkan tingkat presisi, dengan model presisi penuh mencapai nilai yang sedikit lebih tinggi (hingga 3,83 bit/parameter).
Lebih banyak data pelatihan tidak mengarah pada lebih banyak hafalan – pada kenyataannya, model akan lebih kecil kemungkinannya untuk menghafal titik data tunggal
Salah satu pengambilan kunci dari penelitian ini adalah bahwa model tidak menghafal lebih banyak saat dilatih pada lebih banyak data. Sebaliknya, kapasitas tetap model didistribusikan di seluruh dataset, yang berarti setiap datapoint individu kurang mendapat perhatian.
Jack Morris, penulis utama, menjelaskan melalui Jejaring Sosial X bahwa “Pelatihan tentang lebih banyak data akan memaksa model untuk menghafal lebih sedikit per sampel.”
Temuan ini dapat membantu meringankan kekhawatiran seputar model besar yang menghafal konten yang dilindungi hak cipta atau sensitif.
Jika menghafal terbatas dan diencerkan di banyak contoh, kemungkinan mereproduksi satu contoh pelatihan spesifik berkurang. Intinya, lebih banyak data pelatihan mengarah pada perilaku generalisasi yang lebih aman, bukan peningkatan risiko.
Bagaimana para peneliti mengidentifikasi temuan ini
Untuk secara tepat mengukur berapa banyak model bahasa yang menghafal, para peneliti menggunakan pendekatan yang tidak konvensional tetapi kuat: Mereka melatih model transformator pada set data yang terdiri dari bitstring acak yang seragam. Masing -masing bitstring ini disampel secara independen, memastikan bahwa tidak ada pola, struktur, atau redundansi yang ada di seluruh contoh.
Karena setiap sampel unik dan tanpa fitur bersama, kemampuan apa pun yang ditunjukkan oleh model merekonstruksi atau mengidentifikasi string ini selama evaluasi secara langsung mencerminkan berapa banyak informasi yang disimpan – atau dihafal— Selama pelatihan.
Alasan utama untuk pengaturan ini adalah untuk sepenuhnya menghilangkan kemungkinan generalisasi. Tidak seperti bahasa alami – yang penuh dengan struktur tata bahasa, tumpang tindih semantik, dan konsep berulang – data acak yang seragam tidak mengandung informasi seperti itu. Setiap contoh pada dasarnya adalah kebisingan, tanpa hubungan statistik dengan yang lain. Dalam skenario seperti itu, kinerja apa pun oleh model pada data uji harus datang murni dari menghafal contoh pelatihan, karena tidak ada pola distribusi untuk digeneralisasi.
Penulis berpendapat metode mereka mungkin Satu -satunya cara berprinsip untuk memisahkan menghafal dari pembelajaran Dalam praktiknya, karena ketika LLM dilatih dalam bahasa nyata, bahkan ketika mereka menghasilkan output yang cocok dengan data pelatihan, sulit untuk mengetahui apakah mereka menghafal input atau hanya menyimpulkan struktur yang mendasari dari pola yang telah mereka amati.
Metode ini memungkinkan para peneliti untuk memetakan hubungan langsung antara jumlah parameter model dan total informasi yang disimpan. Dengan secara bertahap meningkatkan ukuran model dan melatih setiap varian untuk saturasi, di ratusan percobaan pada model mulai dari 500K hingga 1,5 miliar parameter, mereka mengamati hasil yang konsisten: 3.6 bit dihafal per parameteryang mereka laporkan sebagai ukuran mendasar dari kapasitas memori LLM.
Tim menerapkan metodologi mereka pada model yang dilatih pada dataset dunia nyata juga. Ketika dilatih pada teks, model menunjukkan keseimbangan menghafal dan generalisasi.
Dataset yang lebih kecil mendorong lebih banyak menghafal, tetapi ketika ukuran dataset meningkat, model bergeser ke arah pembelajaran pola yang dapat digeneralisasikan. Transisi ini ditandai oleh fenomena yang dikenal sebagai “keturunan ganda,” di mana kinerja sementara dipsus sebelum meningkat begitu generalisasi dimulai.
Studi ini juga meneliti bagaimana model presisi – pelatihan kompetisi di bfloat16 versus float32 – memengaruhi kapasitas hafalan. Mereka mengamati peningkatan sederhana dari 3,51 menjadi 3,83 bit per parameter ketika beralih ke presisi 32-bit penuh. Namun, keuntungan ini jauh lebih sedikit dari dua kali lipat dari bit yang tersedia disarankan, menyiratkan pengembalian yang semakin berkurang dari presisi yang lebih tinggi.
Data unik lebih mungkin dihafal
Makalah ini mengusulkan undang -undang penskalaan yang menghubungkan kapasitas dan ukuran dataset model dengan efektivitas serangan inferensi keanggotaan.
Serangan -serangan ini berusaha untuk menentukan apakah titik data tertentu adalah bagian dari set pelatihan model. Penelitian menunjukkan bahwa serangan seperti itu menjadi tidak dapat diandalkan karena ukuran dataset tumbuh, mendukung argumen bahwa pelatihan skala besar membantu mengurangi risiko privasi.
Sementara makalah ini berfokus pada perilaku kasus rata-rata, beberapa peneliti telah menunjukkan bahwa jenis data tertentu-seperti tulisan yang sangat unik atau bergaya-mungkin masih lebih rentan terhadap hafalan.
Para penulis mengakui batasan ini dan menekankan bahwa metode mereka dirancang untuk mengkarakterisasi tren umum daripada kasus tepi.
Bergerak menuju pemahaman manusia yang lebih besar tentang pemahaman LLM
Dengan memperkenalkan definisi hafalan yang berprinsip dan dapat diukur, penelitian ini memberi pengembang dan peneliti alat baru untuk mengevaluasi perilaku model bahasa. Ini membantu tidak hanya dengan transparansi model tetapi juga dengan kepatuhan, privasi, dan standar etika dalam pengembangan AI. Temuan menunjukkan bahwa lebih banyak data-dan tidak kurang-dapat menjadi jalan yang lebih aman saat melatih model bahasa skala besar.
Untuk menempatkan hafalan model total dalam perspektif:
- Model 500k-parameter dapat menghafal sekitar 1,8 juta bit, atau 225 kb data.
- Model parameter 1,5 miliar dapat menampung sekitar 5,4 miliar bit, atau 675 megabyte informasi mentah.
- Ini tidak sebanding dengan penyimpanan file seperti gambar (misalnya, gambar 3,6 MB yang tidak terkompresi adalah sekitar 30 juta bit), tetapi ini signifikan ketika didistribusikan di seluruh pola tekstual diskrit.
Saya bukan pengacara atau ahli hukum, tetapi saya akan sangat berharap penelitian seperti itu dikutip dalam berbagai tuntutan hukum yang sedang berlangsung antara penyedia AI dan pencipta data/pemilik hak.