
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Januari 2025 mengguncang lanskap AI. Openai yang tampaknya tak terhentikan dan raksasa teknologi Amerika yang kuat terkejut dengan apa yang tentu saja dapat kita sebut underdog di bidang model bahasa besar (LLM). Deepseek, sebuah perusahaan Cina yang tidak ada di radar siapa pun, tiba -tiba menantang Openai. Bukannya Deepseek-R1 lebih baik daripada model teratas dari raksasa Amerika; Itu sedikit di belakang dalam hal tolok ukur, tetapi tiba -tiba membuat semua orang berpikir tentang efisiensi dalam hal penggunaan perangkat keras dan energi.
Mengingat tidak tersedianya perangkat keras kelas atas terbaik, tampaknya Deepseek termotivasi untuk berinovasi di bidang efisiensi, yang merupakan perhatian yang lebih rendah bagi pemain yang lebih besar. Openai telah mengklaim bahwa mereka memiliki bukti yang menunjukkan Deepseek mungkin telah menggunakan model mereka untuk pelatihan, tetapi kami tidak memiliki bukti konkret untuk mendukung ini. Jadi, apakah itu benar atau openai hanya mencoba menenangkan investor mereka adalah topik perdebatan. Namun, Deepseek telah menerbitkan karya mereka, dan orang -orang telah memverifikasi bahwa hasilnya dapat direproduksi setidaknya pada skala yang jauh lebih kecil.
Tetapi bagaimana Deepseek bisa mencapai penghematan biaya seperti itu sementara perusahaan Amerika tidak bisa? Jawaban singkatnya sederhana: mereka memiliki lebih banyak motivasi. Jawaban panjang membutuhkan sedikit lebih banyak penjelasan teknis.
Deepseek menggunakan optimasi KV-cache
Salah satu penghematan biaya penting untuk memori GPU adalah optimalisasi cache nilai kunci yang digunakan di setiap lapisan perhatian di LLM.
LLM terdiri dari blok transformator, yang masing-masing terdiri dari lapisan perhatian diikuti oleh jaringan feed-forward vanilla biasa. Jaringan umpan-maju secara konseptual memodelkan hubungan sewenang-wenang, tetapi dalam praktiknya, sulit untuk selalu menentukan pola dalam data. Lapisan perhatian memecahkan masalah ini untuk pemodelan bahasa.
Model memproses teks menggunakan token, tetapi untuk kesederhanaan, kami akan menyebutnya sebagai kata -kata. Dalam LLM, setiap kata mendapat vektor dalam dimensi tinggi (katakanlah, seribu dimensi). Secara konseptual, setiap dimensi mewakili konsep, seperti menjadi panas atau dingin, menjadi hijau, lembut, menjadi kata benda. Representasi vektor kata adalah makna dan nilainya menurut setiap dimensi.
Namun, bahasa kami memungkinkan kata lain untuk memodifikasi makna setiap kata. Misalnya, apel memiliki arti. Tetapi kita dapat memiliki apel hijau sebagai versi yang dimodifikasi. Contoh modifikasi yang lebih ekstrem adalah bahwa apel dalam konteks iPhone berbeda dari apel dalam konteks padang rumput. Bagaimana kita membiarkan sistem kita memodifikasi makna vektor kata berdasarkan kata lain? Di sinilah perhatian masuk.
Model perhatian memberikan dua vektor lain untuk setiap kata: kunci dan kueri. Kueri mewakili kualitas makna kata yang dapat dimodifikasi, dan kunci tersebut mewakili jenis modifikasi yang dapat disediakan untuk kata lain. Misalnya, kata 'hijau' dapat memberikan informasi tentang warna dan hijau. Jadi, kunci kata 'hijau' akan memiliki nilai tinggi pada dimensi 'green-ness'. Di sisi lain, kata 'apel' bisa berwarna hijau atau tidak, sehingga vektor kueri 'apel' juga akan memiliki nilai tinggi untuk dimensi-nness. Jika kita mengambil produk titik dari kunci 'hijau' dengan permintaan 'apel, produk harus relatif besar dibandingkan dengan produk kunci' tabel 'dan permintaan' apel '. Lapisan perhatian kemudian menambahkan sebagian kecil dari nilai kata 'hijau' ke nilai kata 'apel'. Dengan cara ini, nilai kata 'apel' dimodifikasi menjadi sedikit lebih hijau.
Ketika LLM menghasilkan teks, ia melakukannya satu kata demi satu. Ketika menghasilkan sebuah kata, semua kata yang dihasilkan sebelumnya menjadi bagian dari konteksnya. Namun, kunci dan nilai -nilai kata -kata itu sudah dihitung. Ketika kata lain ditambahkan ke konteks, nilainya perlu diperbarui berdasarkan kueri dan kunci serta nilai -nilai dari semua kata sebelumnya. Itulah mengapa semua nilai itu disimpan dalam memori GPU. Ini adalah cache KV.
Deepseek menetapkan bahwa kunci dan nilai kata terkait. Jadi, arti kata hijau dan kemampuannya untuk mempengaruhi kehijauan jelas sangat terkait erat. Jadi, dimungkinkan untuk mengompres baik sebagai vektor tunggal (dan mungkin lebih kecil) dan dekompresi sambil memproses dengan sangat mudah. Deepseek telah menemukan bahwa hal itu memengaruhi kinerja mereka pada tolok ukur, tetapi menghemat banyak memori GPU.
Deepseek menerapkan moe
Sifat jaringan saraf adalah bahwa seluruh jaringan perlu dievaluasi (atau dihitung) untuk setiap pertanyaan. Namun, tidak semua ini adalah perhitungan yang berguna. Pengetahuan tentang dunia berada dalam bobot atau parameter jaringan. Pengetahuan tentang Menara Eiffel tidak digunakan untuk menjawab pertanyaan tentang sejarah suku -suku Amerika Selatan. Mengetahui bahwa apel adalah buah tidak berguna saat menjawab pertanyaan tentang teori relativitas umum. Namun, ketika jaringan dihitung, semua bagian jaringan diproses terlepas. Ini menimbulkan biaya perhitungan yang sangat besar selama pembuatan teks yang idealnya harus dihindari. Di sinilah gagasan campuran-of-Experts (MOE) masuk.
Dalam model MOE, jaringan saraf dibagi menjadi beberapa jaringan kecil yang disebut para ahli. Perhatikan bahwa 'ahli' dalam materi pelajaran tidak didefinisikan secara eksplisit; Jaringan memperkirakannya selama pelatihan. Namun, jaringan menetapkan beberapa skor relevansi untuk setiap kueri dan hanya mengaktifkan bagian -bagian dengan skor pencocokan yang lebih tinggi. Ini memberikan penghematan biaya yang sangat besar dalam perhitungan. Perhatikan bahwa beberapa pertanyaan memerlukan keahlian di berbagai bidang untuk dijawab dengan benar, dan kinerja pertanyaan tersebut akan terdegradasi. Namun, karena area tersebut dipikirkan dari data, jumlah pertanyaan tersebut diminimalkan.
Pentingnya Pembelajaran Penguatan
LLM diajarkan untuk memikirkan model rantai-dipikirkan, dengan model yang disempurnakan untuk meniru pemikiran sebelum memberikan jawaban. Model ini diminta untuk mengungkapkan pikirannya (menghasilkan pemikiran sebelum menghasilkan jawaban). Model ini kemudian dievaluasi baik pada pemikiran dan jawabannya, dan dilatih dengan pembelajaran penguatan (dihargai untuk kecocokan yang benar dan dihukum karena kecocokan yang salah dengan data pelatihan).
Ini membutuhkan data pelatihan yang mahal dengan token yang dipikirkan. Deepseek hanya meminta sistem untuk menghasilkan pemikiran di antara tag
Deepseek menggunakan beberapa trik optimasi tambahan. Namun, mereka sangat teknis, jadi saya tidak akan mempelajarinya di sini.
Pemikiran terakhir tentang Deepseek dan pasar yang lebih besar
Dalam penelitian teknologi apa pun, pertama -tama kita perlu melihat apa yang mungkin sebelum meningkatkan efisiensi. Ini adalah perkembangan alami. Kontribusi Deepseek terhadap lanskap LLM sangat fenomenal. Kontribusi akademik tidak dapat diabaikan, apakah mereka dilatih menggunakan output OpenAI atau tidak. Ini juga dapat mengubah cara startup beroperasi. Tetapi tidak ada alasan untuk Openai atau raksasa Amerika lainnya untuk putus asa. Beginilah cara kerja penelitian – satu kelompok mendapat manfaat dari penelitian kelompok lain. Deepseek tentu saja mendapat manfaat dari penelitian sebelumnya yang dilakukan oleh Google, Openai dan banyak peneliti lainnya.
Namun, gagasan bahwa Openai akan mendominasi dunia LLM tanpa batas waktu sekarang sangat tidak mungkin. Tidak ada jumlah lobi regulasi atau penunjuk jari yang akan mempertahankan monopoli mereka. Teknologi ini sudah ada di tangan banyak dan di luar, membuat kemajuannya tak terhentikan. Meskipun ini mungkin sedikit sakit kepala bagi para investor Openai, ini pada akhirnya merupakan kemenangan bagi kita semua. Sementara masa depan adalah milik banyak orang, kami akan selalu berterima kasih kepada kontributor awal seperti Google dan Openai.
Debasish Ray Chawdhuri adalah Insinyur Utama Senior di Talentica Software.