
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Elevenlabs, kloning suara AI yang bernilai tinggi dan startup generasi dari mantan alumni Palantir, hari ini meluncurkan Scribe V1, model pidato-ke-teks baru yang dilaporkan mencapai akurasi tertinggi di berbagai bahasa. Pengguna dapat mencobanya di sini.
Menurut tolok ukur perusahaan, itu mengungguli Google Gemini 2.0 Flash, Whisper V3 Openai dan Deepgram Nova-3 dalam mengubah pidato lisan secara akurat menjadi teks di web, mencapai tingkat kesalahan rendah rekor-rendah baru.
Perusahaan mengklaim bahwa Scribe memberikan akurasi transkripsi canggih dalam 99 bahasa, termasuk peningkatan kinerja dalam bahasa yang sebelumnya kurang terlayani seperti Serbia, Kanton dan Malayalam.
Seperti yang ditulis Flavio Schneider, Peneliti LEAD ElevenLabs menulis di X, Scribe adalah “model pemahaman audio terpintar” yang dirilis oleh ElevenLabs.
“Scribe tidak hanya menyalin – itu memahami audio,” lanjut Schneider di utas. “Ini dapat mendeteksi peristiwa non-verbal (seperti tawa, efek suara, musik dan kebisingan latar belakang) dan menganalisis konteks audio yang panjang untuk diarization yang akurat, bahkan di lingkungan yang paling menantang.”
“Diarization” adalah nama yang diberikan untuk proses memisahkan pembicara dengan kualitas vokal mereka pada rekaman.
Faktanya, dokumentasi ElevenLabs menyatakan bahwa Scribe dapat membedakan dan mengisolasi hingga 32 speaker berbeda dalam file audio yang sama.
Sementara ElevenLab memperingatkan bahwa Scribe “paling baik digunakan ketika transkripsi akurasi tinggi diperlukan daripada transkripsi real-time,” perusahaan juga berencana untuk memperkenalkan versi latensi rendah segera, memperluas penggunaannya untuk aplikasi real-time.
Tingkat kesalahan kata terendah (WER)
Scribe dirancang untuk menangani tantangan audio dunia nyata dengan presisi. Menurut hasil benchmark dari Fleurs dan Common Voice, ia mencatat tingkat kesalahan kata terendah (WER) untuk banyak bahasa, termasuk Italia (98,7%) dan bahasa Inggris (96,7%).
Fitur utama meliputi:
- Diarisasi pembicara untuk membedakan speaker dalam rekaman multi-speaker.
- Cap waktu level kata untuk akurasi transkripsi terperinci.
- Deteksi peristiwa non-speech, seperti tawa dan suara latar belakang.
- Output transkrip terstruktur untuk integrasi mulus melalui API.
Harga dan ketersediaan
Scribe tersedia sekarang melalui situs web ElevenLabs dan API.
Harga ditetapkan pada $ 0,40 per jam audio input, dengan diskon 50% untuk enam minggu ke depan. Versi latensi rendah untuk aplikasi real-time juga sedang dalam pengembangan.
Apa artinya bagi perusahaan
Untuk pembuat keputusan perusahaan, Scribe menyajikan alat untuk transkripsi yang dapat diskalakan dan akurasi tinggi, menjadikannya berguna untuk industri yang mengandalkan dokumentasi otomatis, memenuhi transkripsi dan aksesibilitas konten.
Kemampuan model untuk menangani beragam bahasa dengan presisi tinggi juga menguntungkan bisnis multinasional, perusahaan media, dan aplikasi dukungan pelanggan.
Struktur harga Scribe membuatnya kompetitif untuk bisnis yang membutuhkan layanan transkripsi volume tinggi, dan integrasi berbasis API memungkinkan adopsi yang mulus dalam alur kerja perusahaan.
Selain itu, versi latensi rendah yang akan datang dapat memposisikan Scribe sebagai opsi yang layak untuk alat komunikasi real-time.
Datang pada hari yang sama dengan Octave Model Teks-ke-Speech Rival Hume yang berlawanan
Pengaturan waktu adalah segalanya, dan ElevenLab memilih untuk meluncurkan Scribe pada hari yang sama dengan saingannya Hume AI meluncurkan Octave, model teks-ke-speech bertenaga LLM yang memungkinkan pengguna untuk menyesuaikan suara yang dihasilkan AI dengan emosi yang dapat disesuaikan.
Ini dirancang untuk pembuatan konten, termasuk buku audio, podcast, dan sulih suara video game. Tidak seperti sistem TTS standar, Octave mempertimbangkan konteks di luar kalimat individu, menyesuaikan nada, ritme dan irama secara dinamis terdengar lebih alami.
Hume AI memposisikan Octave sebagai pesaing langsung untuk penawaran teks-ke-ucapan ElevenLabs, menyoroti bahwa harga Octave adalah sekitar setengah dari biaya layanan suara AI sebelas ElevenLab saat ini.
Sementara Scribe dan Octave melayani fungsi yang berbeda, perkembangan mereka mencerminkan persaingan yang berkembang dalam model audio yang digerakkan oleh AI.
Elevenlabs memprioritaskan pengenalan suara multi-bahasa yang tepat, sementara Hume AI memajukan pidato yang dihasilkan AI yang ekspresif.
Untuk perusahaan, ini berarti solusi yang lebih khusus untuk aplikasi transkripsi dan suara sintetis, memungkinkan produksi konten yang lebih efisien, keterlibatan pelanggan, dan alat aksesibilitas.
Scribe sekarang langsung, dan ElevenLabs menjadi tuan rumah acara virtual minggu depan dengan tim di belakang pengembangannya. Rincian lebih lanjut, tolok ukur dan dokumentasi API tersedia di posting blog resmi.