
Nvidia meluncurkan chip AI ke pusat data dan apa yang disebutnya pabrik AI di seluruh dunia, dan perusahaan hari ini mengumumkan chip Blackwell yang memimpin tolok ukur AI.
Nvidia dan mitranya mempercepat pelatihan dan penyebaran aplikasi AI generasi berikutnya yang menggunakan kemajuan terbaru dalam pelatihan dan inferensi.
Arsitektur NVIDA Blackwell dibangun untuk memenuhi persyaratan kinerja yang meningkat dari aplikasi baru ini. Dalam putaran terbaru pelatihan MLPERF-yang ke-12 sejak pengenalan tolok ukur pada tahun 2018-platform AI NVIDIA memberikan kinerja tertinggi pada skala pada setiap tolok ukur dan menyalakan setiap hasil yang disampaikan pada tes bahasa besar (LLM) yang berfokus pada tes: LLAMA 3.1 405B Pretraining.
Platform NVIDIA adalah satu -satunya yang menyerahkan hasil pada setiap patokan MLPERF V5.0 – menggarisbawahi kinerja luar biasa dan keserbagunaannya di berbagai beban kerja AI, yang mencakup LLM, sistem rekomendasi, LLM multimodal, deteksi objek dan grafik jaringan saraf.
Pengajuan AT-skala menggunakan dua superkomputer AI yang ditenagai oleh platform NVIDIA Blackwell: Tyche, dibangun menggunakan sistem skala rak NVIDIA GB200 NVL72, dan NYX, berdasarkan sistem NVIDIA DGX B200. Selain itu, NVIDIA berkolaborasi dengan Coreweave dan IBM untuk mengirimkan hasil GB200 NVL72 menggunakan total 2.496 Blackwell GPU dan 1.248 NVIDIA Grace CPU.
Pada benchmark pretraining LLAMA 3.1 405B yang baru, Blackwell memberikan kinerja 2,2 kali lebih besar dibandingkan dengan arsitektur generasi sebelumnya pada skala yang sama.

Pada tolok ukur fine-tuning Llama 2 70B Lora, sistem NVIDIA DGX B200, ditenagai oleh delapan Blackwell GPU, memberikan kinerja 2,5 kali lebih banyak dibandingkan dengan pengiriman menggunakan jumlah GPU yang sama di babak sebelumnya.
Lompatan kinerja ini menyoroti kemajuan dalam arsitektur Blackwell, termasuk rak berpendingin cair dengan kepadatan tinggi, 13.4TB memori koheren per rak, teknologi interkoneksi NVIDIA NVIDIA dan NVIDIA NVIDIA NVLINK SWITCH untuk skala-out-out. Plus, inovasi dalam NVIDIA NEMO Framework Software Stack meningkatkan standar untuk pelatihan LLM multimodal generasi berikutnya, penting untuk membawa aplikasi AI agen ke pasar.
Aplikasi bertenaga AI agen ini suatu hari akan berjalan di pabrik-pabrik AI-mesin ekonomi AI agen. Aplikasi baru ini akan menghasilkan token dan kecerdasan berharga yang dapat diterapkan pada hampir setiap industri dan domain akademik.
Platform Pusat Data NVIDIA termasuk GPU, CPU, kain dan jaringan berkecepatan tinggi, serta sejumlah besar perangkat lunak seperti NVIDIA CUDA-X Libraries, NEMO Framework, NVIDIA TENSORRT-LLM dan NVIDIA DYNAMO. Ensemble teknologi perangkat keras dan perangkat lunak yang sangat disetel ini memberdayakan organisasi untuk melatih dan menggunakan model lebih cepat, secara dramatis mempercepat waktu untuk menghargai.

Ekosistem mitra NVIDIA berpartisipasi secara luas dalam putaran MLPERF ini. Di luar pengajuan dengan Coreweave dan IBM, pengiriman menarik lainnya berasal dari Asus, Cisco, Giga Computing, Lambda, Lenovo Quanta Cloud Technology dan Supermicro.
Pengajuan pelatihan MLPERF pertama menggunakan GB200 dikembangkan oleh MLCommons Association dengan lebih dari 125 anggota dan afiliasi. Metrik waktu-ke-kereta memastikan proses pelatihan menghasilkan model yang memenuhi akurasi yang diperlukan. Dan aturan run tolok ukur standar memastikan perbandingan kinerja apel-ke-apel. Hasilnya ditinjau oleh peer sebelum publikasi.
Dasar -dasar pada tolok ukur pelatihan

Dave Salvator adalah seseorang yang saya kenal ketika dia menjadi bagian dari pers teknologi. Sekarang dia adalah direktur produk komputasi yang dipercepat dalam kelompok komputasi yang dipercepat di NVIDIA. Dalam briefing pers, Salvator mencatat bahwa CEO NVIDIA Jensen Huang berbicara tentang gagasan tentang jenis -jenis hukum penskalaan untuk AI. Mereka termasuk pra pelatihan, di mana Anda pada dasarnya mengajarkan pengetahuan model AI. Itu mulai dari nol. Ini adalah lift komputasi yang berat yang merupakan tulang punggung AI, kata Salvator.
Dari sana, Nvidia bergerak ke penskalaan pasca-pelatihan. Di sinilah model semacam pergi ke sekolah, dan ini adalah tempat di mana Anda dapat melakukan hal-hal seperti fine tuning, misalnya, di mana Anda membawa set data yang berbeda untuk mengajarkan model pra-terlatih yang telah dilatih hingga titik tertentu, untuk memberikan pengetahuan domain tambahan dari set data khusus Anda.

Dan terakhir, ada penskalaan atau penalaran waktu, atau kadang-kadang disebut pemikiran lama. Istilah lain ini adalah agen AI. AI yang benar -benar dapat berpikir dan beralasan dan memecahkan masalah, di mana Anda pada dasarnya mengajukan pertanyaan dan mendapatkan jawaban yang relatif sederhana. Penskalaan dan penalaran waktu tes sebenarnya dapat mengerjakan tugas yang jauh lebih rumit dan memberikan analisis yang kaya.
Dan kemudian ada juga AI generatif yang dapat menghasilkan konten dengan dasar yang diperlukan yang dapat menyertakan terjemahan ringkasan teks, tetapi kemudian juga konten visual dan bahkan konten audio. Ada banyak jenis penskalaan yang terjadi di dunia AI. Untuk tolok ukur, NVIDIA berfokus pada hasil pra-pelatihan dan pasca-pelatihan.
“Di situlah AI memulai apa yang kita sebut fase investasi AI. Dan kemudian ketika Anda masuk ke menyimpulkan dan menggunakan model -model itu dan kemudian menghasilkan token itu pada dasarnya, di situlah Anda mulai mendapatkan pengembalian investasi Anda di AI,” katanya.
Benchmark MLPERF berada di babak ke -12 dan berasal dari tahun 2018. Dukungan konsorsium yang memiliki lebih dari 125 anggota dan telah digunakan untuk tes inferensi dan pelatihan. Industri ini melihat tolok ukur sebagai kuat.
“Karena saya yakin banyak dari Anda sadar, kadang -kadang klaim kinerja di dunia AI bisa menjadi sedikit Wild West. Mlperf berusaha untuk membawa beberapa ketertiban untuk kekacauan itu,” kata Salvator. “Setiap orang harus melakukan jumlah pekerjaan yang sama. Setiap orang dipegang dengan standar yang sama dalam hal konvergensi. Dan begitu hasilnya diserahkan, hasil tersebut kemudian ditinjau dan diperiksa oleh semua pengirim lainnya, dan orang dapat mengajukan pertanyaan dan bahkan menantang hasil.”
Metrik yang paling intuitif di sekitar pelatihan adalah berapa lama waktu yang dibutuhkan untuk melatih model AI yang dilatih untuk apa yang disebut konvergensi. Itu berarti mencapai tingkat akurasi yang ditentukan. Ini adalah perbandingan apel-ke-apel, kata Salvator, dan itu memperhitungkan beban kerja yang terus-menerus mengubah.
Tahun ini, ada LLAMA baru 3.140 5B Workload, yang menggantikan chatgpt 170 5b workload yang ada di tolok ukur sebelumnya. Dalam tolok ukur, Salvator mencatat Nvidia memiliki sejumlah catatan. Pabrik NVIDIA GB200 NVL72 AI segar dari pabrik fabrikasi. Dari satu generasi chip (hopper) ke yang berikutnya (Blackwell), Nvidia melihat peningkatan 2,5 kali untuk hasil pembuatan gambar.
“Kami masih cukup awal dalam siklus hidup produk Blackwell, jadi kami sepenuhnya berharap mendapatkan lebih banyak kinerja dari waktu ke waktu dari arsitektur Blackwell, karena kami terus memperbaiki optimasi perangkat lunak kami dan sebagai beban kerja yang baru dan terus terang masuk ke pasar,” kata Salvator.
Dia mencatat Nvidia adalah satu -satunya perusahaan yang mengirimkan entri untuk semua tolok ukur.
“Kinerja hebat yang kami capai datang melalui kombinasi hal-hal. Ini adalah NVLink generasi kelima dan NVSwitch yang memberikan hingga 2,66 kali lebih banyak kinerja, bersama dengan kebaikan arsitektur umum lainnya di Blackwell, bersama dengan hanya optimasi perangkat lunak kami yang berkelanjutan yang membuat hal itu memungkinkan kinerja itu,” kata Salvator.
He added, “Because of Nvidia's heritage, we have been known for the longest time as those GPU guys. We certainly make great GPUs, but we have gone from being just a chip company to not only being a system company with things like our DGX servers, to now building entire racks and data centers with things like our rack designs, which are now reference designs to help our partners get to market faster, to building entire data centers, which ultimately then build out entire Infrastruktur, yang sekarang kita sebut sebagai pabrik AI.