
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
NVIDIA telah menjadi salah satu perusahaan paling berharga di dunia dalam beberapa tahun terakhir berkat pasar saham yang memperhatikan seberapa banyak permintaan yang ada untuk unit pemrosesan grafis (GPU), chip yang kuat membuat NVIDIA yang digunakan untuk membuat grafik dalam permainan video tetapi juga, semakin, melatih model bahasa dan difusi AI.
Tapi Nvidia melakukan jauh lebih dari sekadar membuat perangkat keras, tentu saja, dan perangkat lunak untuk menjalankannya. As the generative AI era wears on, the Santa Clara-based company has also been steadily releasing more and more of its own AI models — mostly open source and free for researchers and developers to take, download, modify and use commercially — and the latest among them is Parakeet-TDT-0.6B-v2, an automatic speech recognition (ASR) model that can, in the words of Hugging Face's Vaibhav “VB” Srivastav, “menyalin 60 menit audio dalam 1 detik [mind blown emoji]. “
Ini adalah generasi baru dari model parkit NVIDIA yang pertama kali diluncurkan kembali pada Januari 2024 dan diperbarui lagi pada bulan April tahun itu, tetapi versi dua ini sangat kuat, saat ini berada di puncak wajah pemeluk terbuka ASR dengan “tingkat kesalahan kata” rata -rata (kali model tersebut salah mentranskripsi kata yang diucapkan) hanya 6,05% (dari 100).
Untuk menempatkan itu dalam perspektif, itu mendekati model transkripsi eksklusif seperti Openai's GPT-4-Transcribe (dengan 2,46% dalam bahasa Inggris) dan Elevenlabs Scribe (3,3%).
Dan itu menawarkan semua ini sambil tetap tersedia secara bebas di bawah lisensi CREATIC CREATIF CREATICE CC-BY-4.0 secara komersial, menjadikannya proposisi yang menarik bagi perusahaan komersial dan pengembang indie yang ingin membangun pengenalan suara dan layanan transkripsi ke dalam aplikasi berbayar mereka.
Kinerja dan benchmark berdiri
Model ini menawarkan 600 juta parameter dan memanfaatkan kombinasi encoder fastconformer dan arsitektur dekoder TDT.
Ini mampu menyalin satu jam audio hanya dalam satu detik, asalkan berjalan pada perangkat keras yang dipercepat GPU NVIDIA.
Benchmark kinerja diukur pada RTFX (faktor waktu-nyata) 3386.02 dengan ukuran batch 128, menempatkannya di bagian atas tolok ukur ASR saat ini yang dipertahankan dengan memeluk wajah.
Gunakan kasus dan ketersediaan
Dirilis secara global pada 1 Mei 2025, Parkit-TDT-0.6B-V2 ditujukan untuk pengembang, peneliti, dan tim industri yang membangun aplikasi seperti layanan transkripsi, asisten suara, generator subtitle, dan platform AI percakapan.
Model ini mendukung tanda baca, kapitalisasi, dan stempel waktu level kata terperinci, menawarkan paket transkripsi lengkap untuk berbagai kebutuhan ucapan-ke-teks.
Akses dan penyebaran
Pengembang dapat menggunakan model menggunakan NVIDIA's Nemo Toolkit. Proses pengaturan kompatibel dengan Python dan Pytorch, dan model dapat digunakan secara langsung atau disesuaikan untuk tugas-tugas khusus domain.
Lisensi open-source (CC-by-4.0) juga memungkinkan untuk penggunaan komersial, membuatnya menarik bagi startup dan perusahaan.
Melatih data dan pengembangan model
Parkit-TDT-0.6B-V2 dilatih pada korpus skala besar dan besar yang disebut dataset lumbung. Ini termasuk sekitar 120.000 jam audio bahasa Inggris, terdiri dari 10.000 jam data yang ditranskripsi manusia berkualitas tinggi dan 110.000 jam pidato berlabel semu.
Sumber berkisar dari kumpulan data terkenal seperti Librispeech dan Mozilla Common Voice hingga YouTube-Commons dan Librilight.
NVIDIA berencana untuk membuat dataset lumbung tersedia untuk umum setelah presentasinya di Interspeech 2025.
Evaluasi dan ketahanan
Model ini dievaluasi di berbagai tolok ukur ASR berbahasa Inggris, termasuk AMI, Laba22, Gigaspeech, dan Spgispeech, dan menunjukkan kinerja generalisasi yang kuat. Itu tetap kuat di bawah kondisi kebisingan yang bervariasi dan berkinerja baik bahkan dengan format audio bergaya telepon, dengan hanya degradasi sederhana pada rasio sinyal-ke-noise yang lebih rendah.
Kompatibilitas dan efisiensi perangkat keras
Parateet-TDT-0.6B-V2 dioptimalkan untuk lingkungan GPU NVIDIA, mendukung perangkat keras seperti papan A100, H100, T4, dan V100.
Sementara GPU kelas atas memaksimalkan kinerja, model ini masih dapat dimuat pada sistem dengan hanya 2GB RAM, memungkinkan skenario penyebaran yang lebih luas.
Pertimbangan etis dan penggunaan yang bertanggung jawab
NVIDIA mencatat bahwa model ini dikembangkan tanpa menggunakan data pribadi dan mematuhi kerangka kerja AI yang bertanggung jawab.
Meskipun tidak ada langkah -langkah khusus yang diambil untuk mengurangi bias demografis, model ini lulus standar kualitas internal dan mencakup dokumentasi terperinci tentang proses pelatihannya, sumber kumpulan data, dan kepatuhan privasi.
Rilis ini menarik perhatian dari pembelajaran mesin dan komunitas open-source, terutama setelah disorot secara publik di media sosial. Komentator mencatat kemampuan model untuk mengungguli alternatif ASR komersial sambil tetap sepenuhnya open source dan dapat digunakan secara komersial.
Pengembang yang tertarik untuk mencoba model dapat mengaksesnya melalui memeluk wajah atau melalui NVIDIA's Nemo Toolkit. Instruksi instalasi, skrip demo, dan panduan integrasi tersedia untuk memfasilitasi eksperimen dan penyebaran.