
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Balapan model open-source terus menjadi lebih menarik.
Hari ini, Allen Institute for AI (AI2) memulai debutnya entri terbaru dalam perlombaan dengan peluncuran open-source Tülu 3 405 miliar Model Bahasa Besar (LLM). Model baru ini tidak hanya cocok dengan kemampuan Openai GPT-4O, tetapi juga melampaui model V3 Deepseek di seluruh tolok ukur kritis.
Ini bukan pertama kalinya AI2 membuat klaim berani tentang model baru. Pada bulan November 2024 perusahaan merilis versi pertamanya dari Tülu 3, yang memiliki versi parameter 8 dan 70 miliar. Pada saat itu, AI2 mengklaim model itu setara dengan model GPT-4 terbaru dari Openai, Claude Anthropic dan Google Gemini. Perbedaan besar adalah bahwa Tülu 3 adalah open-source. AI2 juga mengklaim kembali pada bulan September 2024 bahwa model Molmo-nya mampu mengalahkan GPT-4O dan Claude pada beberapa tolok ukur.
Meskipun data kinerja benchmark menarik, yang mungkin lebih berguna adalah inovasi pelatihan yang memungkinkan model AI2 baru.
Mendorong pasca-pelatihan ke batas
Terobosan besar untuk Tülu 3 405b berakar pada inovasi yang pertama kali muncul dengan rilis awal Tülu 3 pada tahun 2024. Rilis itu menggunakan kombinasi teknik pasca-pelatihan canggih untuk mendapatkan kinerja yang lebih baik.
Dengan model Tülu 3 405b, teknik-teknik pasca-pelatihan telah didorong lebih jauh, menggunakan metodologi pasca-pelatihan canggih yang menggabungkan fine-tuning yang diawasi, pembelajaran preferensi, dan pendekatan pembelajaran penguatan baru yang telah terbukti luar biasa pada skala yang lebih besar.
“Menerapkan resep pasca-pelatihan Tülu 3 ke Tülu 3-405b, model pasca-terlatih berskala terbuka yang sepenuhnya berskala terbuka hingga saat ini, meratakan lapangan bermain dengan menyediakan resep penyesuaian terbuka, data dan kode, memberdayakan pengembang dan peneliti Untuk mencapai kinerja yang sebanding dengan model tertutup tingkat atas, ”Hananeheh Hajishirzi, direktur senior NLP Research di AI2 mengatakan kepada VentureBeat.
Memajukan keadaan AI open-source pasca-pelatihan dengan RLVR
Pasca-pelatihan adalah sesuatu yang dilakukan oleh model lain, termasuk Deepseek V3.
Inovasi utama yang membantu membedakan Tülu 3 adalah sistem “Penguatan Penguatan dari Hadiah yang Dapat Diverifikasi” (RLVR) AI2.
Tidak seperti pendekatan pelatihan tradisional, RLVR menggunakan hasil yang dapat diverifikasi-seperti menyelesaikan masalah matematika dengan benar-untuk menyempurnakan kinerja model. Teknik ini, ketika dikombinasikan dengan optimasi preferensi langsung (DPO) dan data pelatihan yang dikuratori dengan hati -hati, telah memungkinkan model untuk mencapai akurasi yang lebih baik dalam tugas penalaran yang kompleks sambil mempertahankan karakteristik keamanan yang kuat.
Inovasi teknis utama dalam implementasi RLVR meliputi:
- Pemrosesan paralel yang efisien di 256 GPU
- Sinkronisasi berat yang dioptimalkan
- Distribusi komputasi seimbang di 32 node
- Penyebaran VLLM terintegrasi dengan paralelisme tensor 16 arah
Sistem RLVR menunjukkan hasil yang lebih baik pada skala 405b-parameter dibandingkan dengan model yang lebih kecil. Sistem ini juga menunjukkan hasil yang sangat kuat dalam evaluasi keamanan, mengungguli Deepseek V3, Llama 3.1 dan Nous Hermes 3. Khususnya, efektivitas kerangka kerja RLVR meningkat dengan ukuran model, menunjukkan manfaat potensial dari implementasi skala yang bahkan lebih besar.
Bagaimana Tülu 3 405b dibandingkan dengan GPT-4O dan Deepseek V3
Posisi kompetitif model ini sangat penting dalam lanskap AI saat ini.
Tülu 3 405b tidak hanya cocok dengan kemampuan GPT-4O tetapi juga mengungguli Deepseek V3 di beberapa daerah, terutama dengan tolok ukur keselamatan.
Di seluruh rangkaian 10 tolok ukur AI termasuk tolok ukur keselamatan, AI2 melaporkan bahwa model RLVR Tülu 3 405b memiliki skor rata -rata 80,7, melampaui Deepseek V3's 75,9. Namun Tülu tidak terlalu bagus di GPT-4O, yang mencetak 81,6. Secara keseluruhan metrik menunjukkan bahwa Tülu 3 405b setidaknya sangat kompetitif dengan GPT-4O dan Deepseek V3 di seluruh tolok ukur.
Mengapa AI open-source penting dan bagaimana AI2 melakukannya secara berbeda
Apa yang membuat Tülu 3 405b berbeda untuk pengguna, adalah bagaimana AI2 telah membuat model tersedia.
Ada banyak kebisingan di pasar AI tentang open source. Deepseek mengatakan modelnya adalah open-source, dan begitu juga Meta's Llama 3.1, yang juga diunggulkan oleh Tülu 3 405b.
Dengan Deepseek dan Llama model tersedia secara bebas untuk digunakan; Dan beberapa kode, tetapi tidak semua, tersedia.
Sebagai contoh, Deepseek-R1 telah merilis kode model dan bobot pra-terlatih tetapi bukan data pelatihan. AI2 mengambil pendekatan yang berbeda dalam upaya untuk lebih terbuka.
“Kami tidak memanfaatkan set data tertutup,” kata Hajishirzi. “Seperti halnya rilis Tülu 3 pertama kami pada bulan November 2024, kami merilis semua kode infrastruktur.”
Dia menambahkan bahwa pendekatan AI2 yang sepenuhnya terbuka, yang mencakup data, kode pelatihan dan model, memastikan pengguna dapat dengan mudah menyesuaikan pipa mereka untuk segala sesuatu mulai dari pemilihan data hingga evaluasi. Pengguna dapat mengakses rangkaian lengkap model Tülu 3, termasuk Tülu 3-405b, pada halaman Tülu 3 AI2, atau menguji fungsionalitas Tülu 3-405b melalui ruang demo taman bermain AI2.