
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Startup AI Tiongkok, DeepSeek, yang dikenal karena menantang vendor AI terkemuka dengan teknologi sumber terbuka, baru saja memberikan kejutan lain: LLM penalaran terbuka baru yang disebut DeepSeek-R1.
Berdasarkan model campuran pakar DeepSeek V3 yang baru-baru ini diperkenalkan, DeepSeek-R1 cocok dengan kinerja o1, LLM penalaran terdepan OpenAI, dalam tugas matematika, pengkodean, dan penalaran. Bagian terbaiknya? Hal ini dilakukan dengan biaya yang jauh lebih menggiurkan, terbukti 90-95% lebih terjangkau dibandingkan yang terakhir.
Rilis ini menandai lompatan besar ke depan dalam arena open-source. Hal ini menunjukkan bahwa model terbuka semakin menutup kesenjangan dengan model komersial tertutup dalam persaingan menuju kecerdasan umum buatan (AGI). Untuk menunjukkan kehebatan kerjanya, DeepSeek juga menggunakan R1 untuk menyaring enam model Llama dan Qwen, membawa kinerja mereka ke tingkat yang baru. Dalam satu kasus, versi sulingan Qwen-1.5B mengungguli model yang jauh lebih besar, GPT-4o dan Claude 3.5 Sonnet, dalam tolok ukur matematika tertentu.
Model sulingan ini, bersama dengan R1 utama, telah bersumber terbuka dan tersedia di Hugging Face di bawah lisensi MIT.
Apa yang ditawarkan DeepSeek-R1?
Fokusnya dipertajam pada kecerdasan umum buatan (AGI), yaitu tingkat AI yang dapat melakukan tugas intelektual seperti manusia. Banyak tim yang berupaya meningkatkan kemampuan penalaran model. OpenAI membuat langkah penting pertama dalam domain ini dengan model o1-nya, yang menggunakan proses penalaran rantai pemikiran untuk mengatasi suatu masalah. Melalui RL (pembelajaran penguatan, atau pengoptimalan yang didorong oleh penghargaan), o1 belajar mengasah rantai pemikirannya dan menyempurnakan strategi yang digunakan — pada akhirnya belajar mengenali dan memperbaiki kesalahannya, atau mencoba pendekatan baru ketika pendekatan yang ada saat ini tidak berhasil.
Sekarang, melanjutkan pekerjaan ke arah ini, DeepSeek telah merilis DeepSeek-R1, yang menggunakan kombinasi RL dan penyempurnaan yang diawasi untuk menangani tugas penalaran yang kompleks dan mencocokkan kinerja o1.
Saat diuji, DeepSeek-R1 mendapat skor 79,8% pada tes matematika AIME 2024 dan 97,3% pada MATH-500. Ia juga mencapai peringkat 2.029 di Codeforces — lebih baik dari 96,3% pemrogram manusia. Sebaliknya, o1-1217 masing-masing mendapat skor 79,2%, 96,4%, dan 96,6% pada tolok ukur ini.
Ini juga menunjukkan pengetahuan umum yang kuat, dengan akurasi 90,8% pada MMLU, tepat di belakang o1 yang sebesar 91,8%.
Jalur pelatihan
Kinerja penalaran DeepSeek-R1 menandai kemenangan besar bagi startup Tiongkok di bidang AI yang didominasi AS, terutama karena seluruh pekerjaannya bersifat open-source, termasuk cara perusahaan melatih semuanya.
Namun, pekerjaannya tidak semudah kedengarannya.
Menurut makalah yang menjelaskan penelitian tersebut, DeepSeek-R1 dikembangkan sebagai versi yang disempurnakan dari DeepSeek-R1-Zero — model terobosan yang dilatih hanya dari pembelajaran penguatan.
We are living in a timeline where a non-US company is keeping the original mission of OpenAI alive – truly open, frontier research that empowers all. It makes no sense. The most entertaining outcome is the most likely.
— Jim Fan (@DrJimFan) January 20, 2025
DeepSeek-R1 not only open-sources a barrage of models but… pic.twitter.com/M7eZnEmCOY
Perusahaan pertama kali menggunakan basis DeepSeek-V3 sebagai model dasar, mengembangkan kemampuan penalarannya tanpa menggunakan data yang diawasi, pada dasarnya hanya berfokus pada evolusi mandiri melalui proses coba-coba murni berbasis RL. Dikembangkan secara intrinsik dari pekerjaan, kemampuan ini memastikan model dapat menyelesaikan tugas penalaran yang semakin kompleks dengan memanfaatkan komputasi waktu pengujian yang diperpanjang untuk mengeksplorasi dan menyempurnakan proses berpikirnya secara lebih mendalam.
“Selama pelatihan, DeepSeek-R1-Zero secara alami muncul dengan berbagai perilaku penalaran yang kuat dan menarik,” para peneliti mencatat dalam makalah tersebut. “Setelah ribuan langkah RL, DeepSeek-R1-Zero menunjukkan kinerja super pada tolok ukur yang masuk akal. Misalnya, skor pass@1 pada AIME 2024 meningkat dari 15,6% menjadi 71,0%, dan dengan pemungutan suara mayoritas, skor tersebut semakin meningkat menjadi 86,7%, menyamai kinerja OpenAI-o1-0912.”
Namun, meskipun menunjukkan peningkatan kinerja, termasuk perilaku seperti refleksi dan eksplorasi alternatif, model awal memang menunjukkan beberapa masalah, termasuk buruknya keterbacaan dan pencampuran bahasa. Untuk mengatasinya, perusahaan mengembangkan pekerjaan yang telah dilakukan untuk R1-Zero, menggunakan pendekatan multi-tahap yang menggabungkan pembelajaran terawasi dan pembelajaran penguatan, sehingga menghasilkan model R1 yang disempurnakan.
“Secara khusus, kami memulai dengan mengumpulkan ribuan data cold-start untuk menyempurnakan model DeepSeek-V3-Base,” jelas para peneliti. “Setelah ini, kami melakukan RL yang berorientasi pada penalaran seperti DeepSeek-R1-Zero. Setelah mendekati konvergensi dalam proses RL, kami membuat data SFT baru melalui pengambilan sampel penolakan di pos pemeriksaan RL, dikombinasikan dengan data yang diawasi dari DeepSeek-V3 dalam domain seperti penulisan, QA faktual, dan kognisi mandiri, lalu melatih ulang DeepSeek-V3 -Model dasar. Setelah menyempurnakan data baru, pos pemeriksaan menjalani proses RL tambahan, dengan mempertimbangkan petunjuk dari semua skenario. Setelah langkah-langkah ini, kami memperoleh pos pemeriksaan yang disebut DeepSeek-R1, yang mencapai kinerja setara dengan OpenAI-o1-1217.”
Jauh lebih terjangkau daripada o1
Selain peningkatan kinerja yang hampir menyamai o1 OpenAI di seluruh benchmark, DeepSeek-R1 baru juga sangat terjangkau. Secara khusus, jika OpenAI o1 berharga $15 per juta token masukan dan $60 per juta token keluaran, DeepSeek Reasoner, yang didasarkan pada model R1, berharga $0,55 per juta masukan dan $2,19 per juta token keluaran.
Sooo @deepseek_ai's reasoner model, which sits somewhere between o1-mini & o1 is about 90-95% cheaper 👀 https://t.co/ohnI6dtPRC pic.twitter.com/Qn78yIGUtt
— Emad (@EMostaque) January 20, 2025
Model ini dapat diuji sebagai “DeepThink” pada platform obrolan DeepSeek, yang mirip dengan ChatGPT. Pengguna yang tertarik dapat mengakses bobot model dan repositori kode melalui Hugging Face, di bawah lisensi MIT, atau dapat menggunakan API untuk integrasi langsung.