
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Bahkan ketika meta menangkis pertanyaan dan kritik dari keluarga model Llama 4 barunya, Graphics Processing Unit (GPU) Master Nvidia telah merilis model bahasa sumber besar open source (LLM) yang sepenuhnya berdasarkan model RECORMING yang lebih tua dan mengklaim di dekat kinerja utama pada berbagai benchmarks-partai ring-ma. model.
Llama-3.1-nemotron-ultra-253b-v1, adalah parameter 253 miliar yang padat yang dirancang untuk mendukung penalaran lanjutan, pengikut instruksi, dan alur kerja asisten AI. Ini pertama kali disebutkan kembali di Konferensi Teknologi GPU tahunan NVIDIA (GTC) pada bulan Maret.
Rilis ini mencerminkan NVIDIA yang berkelanjutan fokus pada optimasi kinerja melalui inovasi arsitektur dan target pasca-pelatihan.
Diumumkan tadi malam, 7 April 2025, kode model sekarang tersedia untuk umum di Hugging Face, dengan bobot terbuka dan data pasca-pelatihan. Ini dirancang untuk beroperasi secara efisien dalam mode “penalaran” dan “penalaran”, yang memungkinkan pengembang untuk beralih antara tugas penalaran kompleksitas tinggi dan output yang lebih mudah berdasarkan petunjuk sistem.
Dirancang untuk inferensi yang efisien
LLAMA-3.1-Nemotron-ultra-253b dibangun di atas pekerjaan NVIDIA sebelumnya dalam pengembangan LLM yang dioptimalkan inferensi. Arsitekturnya – disusun melalui proses pencarian arsitektur saraf (NAS) – memperkenalkan variasi struktural seperti lapisan perhatian yang dilewati, jaringan feedforward yang menyatu (FFN), dan rasio kompresi FFN variabel.
Perombakan arsitektur ini mengurangi jejak memori dan tuntutan komputasi tanpa mempengaruhi kualitas output, memungkinkan penyebaran pada simpul GPU 8x H100 tunggal.
Hasilnya, menurut NVIDIA, adalah model yang menawarkan kinerja yang kuat sambil lebih hemat biaya untuk digunakan di lingkungan pusat data. Kompatibilitas perangkat keras tambahan mencakup dukungan untuk B100 NVIDIA dan hopper microarchitectures, dengan konfigurasi divalidasi dalam mode presisi BF16 dan FP8.
Pasca-pelatihan untuk penalaran dan penyelarasan
NVIDIA meningkatkan model dasar melalui pipa pasca-pelatihan multi-fase. Ini termasuk fine-tuning yang diawasi di seluruh domain seperti matematika, pembuatan kode, obrolan, dan penggunaan alat, diikuti oleh pembelajaran penguatan dengan optimasi kebijakan relatif kelompok (GRPO) untuk lebih meningkatkan kinerja pengikut instruksi dan penalaran.
Model ini menjalani fase distilasi pengetahuan lebih dari 65 miliar token, diikuti dengan pretraining terus -menerus pada 88 miliar token tambahan.
Dataset pelatihan termasuk sumber-sumber seperti Fineweb, Buzz-V1.2, dan Dolma. Permintaan dan tanggapan pasca-pelatihan diambil dari kombinasi korpora publik dan metode pembuatan sintetis, termasuk set data yang mengajarkan model untuk membedakan antara mode penalarannya.
Peningkatan kinerja di berbagai domain dan tolok ukur
Hasil evaluasi menunjukkan keuntungan penting ketika model beroperasi dalam mode yang diaktifkan oleh penalaran. Misalnya, pada patokan MATH500, kinerja meningkat dari 80,40% dalam mode standar menjadi 97,00% dengan penalaran diaktifkan.
Demikian pula, hasil pada tolok ukur AIME25 naik dari 16,67% menjadi 72,50%, dan skor LiveCodebench lebih dari dua kali lipat, melonjak dari 29,03% menjadi 66,31%.
Keuntungan kinerja juga diamati dalam tugas berbasis pahat seperti BFCL V2 dan komposisi fungsi, serta secara umum menjawab pertanyaan (GPQA), di mana model tersebut mendapat nilai 76,01% dalam mode penalaran versus 56,60% tanpa.
Tolok ukur ini dilakukan dengan panjang urutan maksimum 32.000 token, dan setiap tes diulang hingga 16 kali untuk memastikan akurasi.
Dibandingkan dengan Deepseek R1, model MOE yang canggih dengan 671 miliar total parameter, LLAMA-3.1-Nemotron-Ultra-253B menunjukkan hasil kompetitif meskipun memiliki kurang dari setengah jumlah parameter (pengaturan model)-mengungguli dalam tugas seperti GPQA (76.01 vs. 71.5), IFEV), IFEV), IFEV. Tugas pengkodean LiveCodebench (66.31 vs. 65.9).
Sementara itu, Deepseek R1 memiliki keuntungan yang jelas pada evaluasi matematika tertentu, terutama AIME25 (79,8 vs 72,50), dan sedikit keluar Math500 (97,3 vs 97,00).
Hasil ini menunjukkan bahwa meskipun menjadi model yang padat, pertandingan penawaran NVIDIA atau melebihi alternatif MOE tentang penalaran dan tugas penyelarasan instruksi umum, sementara membuntuti sedikit dalam kategori matematika yang berat.
Penggunaan dan integrasi
Model ini kompatibel dengan perpustakaan Face Transformers (versi 4.48.3 yang disarankan) dan mendukung urutan input dan output hingga 128.000 token.
Pengembang dapat mengontrol perilaku penalaran melalui permintaan sistem dan memilih strategi decoding berdasarkan persyaratan tugas.
Untuk tugas penalaran, NVIDIA merekomendasikan penggunaan pengambilan sampel suhu (0,6) dengan nilai-p top 0,95. Untuk output deterministik, decoding serakah lebih disukai.
Llama-3.1-nemotron-ultra-253b mendukung aplikasi multibahasa, dengan kemampuan dalam bahasa Inggris dan beberapa bahasa tambahan, termasuk Jerman, Prancis, Italia, Portugis, Hindi, Spanyol, dan Thailand.
Ini juga cocok untuk kasus penggunaan LLM umum seperti pengembangan chatbot, alur kerja agen AI, generasi pengambilan-pengambilan (RAG), dan pembuatan kode.
Lisensi untuk Penggunaan Komersial
Dirilis di bawah Lisensi Model Terbuka NVIDIA dan diatur oleh Perjanjian Lisensi Komunitas LLAMA 3.1, model ini siap untuk penggunaan komersial.
NVIDIA telah menekankan pentingnya pengembangan AI yang bertanggung jawab, mendorong tim untuk mengevaluasi profil penyelarasan, keselamatan, dan bias model untuk kasus penggunaan spesifik mereka.
OLEKSII Kuchaiev, Direktur AI Model pasca-pelatihan di NVIDIA, berbagi pengumuman di X, yang menyatakan bahwa tim bersemangat untuk berbagi rilis terbuka, menggambarkannya sebagai model 253B yang padat yang dirancang dengan sakelar/mematikan kemampuan penalaran dan dirilis dengan bobot dan data terbuka.