
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Para peneliti di Together AI dan Agentica telah merilis Deepcoder-14b, model pengkodean baru yang memberikan kinerja mengesankan yang sebanding dengan model kepemilikan terkemuka seperti Openai O3-Mini.
Dibangun di atas Deepseek-R1, model ini memberikan lebih banyak fleksibilitas untuk mengintegrasikan pembuatan kode kinerja tinggi dan kemampuan penalaran ke dalam aplikasi dunia nyata. Yang penting, tim telah sepenuhnya bersumber dari model, data pelatihan, kode, log dan optimisasi sistem, yang dapat membantu para peneliti meningkatkan pekerjaan mereka dan mempercepat kemajuan.
Kemampuan pengkodean kompetitif dalam paket yang lebih kecil
Eksperimen tim peneliti menunjukkan bahwa Deepcoder-14b berkinerja sangat kuat di beberapa tolok ukur pengkodean yang menantang, termasuk LiveCodebench (LCB), Codeforces dan Humaneval+.
“Model kami menunjukkan kinerja yang kuat di semua tolok ukur pengkodean … sebanding dengan kinerja O3-mini (rendah) dan O1,” tulis para peneliti dalam posting blog yang menjelaskan model tersebut.
Menariknya, meskipun dilatih terutama pada tugas pengkodean, model menunjukkan peningkatan penalaran matematika, mencetak 73,8% pada tolok ukur AIME 2024, peningkatan 4,1% dari model dasarnya (Deepseek-R1-Distill-Qwen-14b). Ini menunjukkan bahwa keterampilan penalaran yang dikembangkan melalui RL pada kode dapat digeneralisasi secara efektif ke domain lain.
Aspek yang paling mencolok adalah mencapai tingkat kinerja ini dengan hanya 14 miliar parameter. Ini membuat DeepCoder jauh lebih kecil dan berpotensi lebih efisien untuk dijalankan daripada banyak model Frontier.
Inovasi Mendorong Kinerja Deepcoder
Saat mengembangkan model, para peneliti memecahkan beberapa tantangan utama dalam model pengkodean pelatihan menggunakan Penguatan Penguatan (RL).
Tantangan pertama adalah membuat data pelatihan. Pembelajaran penguatan membutuhkan sinyal hadiah yang andal yang menunjukkan output model sudah benar. Seperti yang ditunjukkan oleh para peneliti, “Tidak seperti matematika-di mana data berkualitas tinggi yang dapat diverifikasi tersedia di internet-domain pengkodean menderita kelangkaan relatif dari data tersebut.”
Untuk mengatasi masalah ini, tim DeepCoder menerapkan pipa ketat yang mengumpulkan contoh -contoh dari berbagai set data dan menyaringnya untuk validitas, kompleksitas, dan duplikasi. Proses ini menghasilkan 24.000 masalah berkualitas tinggi, memberikan fondasi yang kuat untuk pelatihan RL yang efektif.
Tim juga merancang fungsi hadiah langsung yang hanya memberikan sinyal positif jika kode yang dihasilkan melewati semua tes unit sampel untuk masalah dalam batas waktu tertentu. Dikombinasikan dengan contoh pelatihan berkualitas tinggi, sistem hadiah yang berfokus pada hasil ini mencegah model dari trik belajar seperti mencetak jawaban yang dihafal untuk tes publik atau mengoptimalkan kasus-kasus tepi sederhana tanpa menyelesaikan masalah inti.
Algoritma pelatihan inti model ini didasarkan pada optimasi kebijakan relatif kelompok (GRPO), algoritma pembelajaran penguatan yang terbukti sangat sukses di Deepseek-R1. Namun, tim membuat beberapa modifikasi pada algoritma untuk membuatnya lebih stabil dan memungkinkan model untuk terus meningkat karena pelatihan meluas untuk waktu yang lebih lama.

Akhirnya, tim memperluas jendela konteks model secara iteratif, pertama -tama melatihnya pada urutan penalaran yang lebih pendek dan secara bertahap meningkatkan panjangnya. Mereka juga mengembangkan metode penyaringan untuk menghindari menghukum model ketika menciptakan rantai penalaran yang melebihi batas konteks saat menyelesaikan persediaan yang keras.

Para peneliti menjelaskan gagasan inti: “Untuk melestarikan penalaran konteks lama sambil memungkinkan pelatihan yang efisien, kami memasukkan penyaringan yang terlalu lama … teknik ini menutupi urutan terpotong selama pelatihan sehingga model tidak dihukum karena menghasilkan output yang bijaksana tetapi panjang yang melebihi batas konteks saat ini.”
Pelatihan ini secara bertahap diskalakan dari 16K ke jendela konteks 32K, dan model yang dihasilkan juga dapat memecahkan masalah yang membutuhkan hingga 64K token.
Mengoptimalkan pelatihan RL konteks panjang
Melatih model besar dengan RL, terutama pada tugas -tugas yang membutuhkan sekuens yang dihasilkan lama seperti pengkodean atau penalaran yang kompleks, secara komputasi intensif dan lambat. Hambatan utama adalah langkah “pengambilan sampel”, di mana model menghasilkan berpotensi ribuan token per contoh dalam batch. Variasi dalam panjang respons berarti beberapa respons selesai jauh lebih lambat dari yang lain, meninggalkan GPU menganggur dan memperlambat seluruh loop pelatihan.
Untuk mempercepat ini, tim mengembangkan Verl-Pipeline, perpanjangan yang dioptimalkan dari perpustakaan Verl sumber terbuka untuk pembelajaran penguatan dari umpan balik manusia (RLHF). Inovasi utama, yang mereka sebut “satu-satunya pipa,” mengatur ulang pengambilan sampel respons dan pembaruan model untuk mengurangi hambatan dan waktu idle akselerator.

Eksperimen mereka menunjukkan bahwa pipelining satu kali menyediakan hingga 2x speatup untuk pengkodean tugas RL dibandingkan dengan implementasi dasar. Optimalisasi ini sangat penting untuk melatih Deepcoder dalam jangka waktu yang wajar (2,5 minggu pada 32 H100-an) dan sekarang bersumber terbuka sebagai bagian dari Verl-pipeline untuk digunakan dan dibangun oleh masyarakat.
Dampak Perusahaan
Para peneliti telah membuat semua artefak untuk pelatihan dan menjalankan DeepCoder-14b tersedia di GitHub dan memeluk wajah di bawah lisensi permisif.
“Dengan sepenuhnya membagikan dataset, kode, dan resep pelatihan kami, kami memberdayakan masyarakat untuk mereproduksi pekerjaan kami dan membuat pelatihan RL dapat diakses oleh semua orang,” tulis para peneliti.
Deepcoder-14b dengan kuat menggambarkan tren yang lebih luas dan percepatan dalam lanskap AI: munculnya model yang sangat mampu namun efisien dan dapat diakses secara terbuka.
Untuk dunia perusahaan, pergeseran ini menandakan lebih banyak opsi dan aksesibilitas model canggih yang lebih tinggi. Kinerja mutakhir tidak lagi semata-mata domain hyperscaler atau mereka yang bersedia membayar biaya API premium. Model seperti DeepCoder dapat memberdayakan organisasi dari semua ukuran untuk memanfaatkan pembuatan kode yang canggih dan penalaran, menyesuaikan solusi untuk kebutuhan spesifik mereka, dan dengan aman menggunakannya di dalam lingkungan mereka.
Tren ini dapat menurunkan penghalang masuk untuk adopsi AI dan menumbuhkan ekosistem yang lebih kompetitif dan inovatif, di mana kemajuan didorong melalui kolaborasi open source.