
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Model pengenalan suara menjadi semakin akurat dalam beberapa tahun terakhir. Namun, mereka dapat dibangun dan dibandingkan dalam kondisi ideal-kamar-kamar, audio yang jelas dan kosakata tujuan umum. Namun, untuk perusahaan, audio dunia nyata jauh lebih berantakan.
Itulah tantangan AIOLA yang bertujuan untuk mengatasi peluncuran Jargonic, Automatic Speech Recognition (ASR) yang baru dibangun khusus untuk penggunaan perusahaan. Startup Israel meluncurkan jargonic hari ini.
Jargonic adalah model ucapan-ke-teks baru yang dirancang untuk menangani jargon khusus, kebisingan latar belakang dan beragam aksen tanpa pelatihan ulang atau penyesuaian yang luas.
“Model kami berfokus pada tiga tantangan utama dalam pengenalan suara: jargon, kebisingan latar belakang dan aksen,” kata Gill Hetz, wakil presiden AI AI. “Kami membangun model yang memahami jargon industri tertentu dengan cara zero-shot, menangani lingkungan yang bising dan mendukung berbagai aksen.”
Tersedia sekarang melalui API di platform perusahaan Aiola, Jargonic diposisikan sebagai solusi ASR siap-produksi untuk bisnis di industri seperti manufaktur, logistik, jasa keuangan, dan perawatan kesehatan.
Dari produk pertama ke AI-first
Peluncuran Jargonic mewakili pergeseran fokus untuk Aiola sendiri. Menurut kepemimpinan perusahaan, tim mendefinisikan kembali pendekatannya untuk memprioritaskan penelitian dan penyebaran AI.
“Ketika saya tiba di sini, saya melihat perusahaan produk yang luar biasa yang telah banyak berinvestasi dalam kemampuan AI canggih, tetapi sebagian besar dikenal karena membantu orang mengisi formulir,” kata Asbag Asbag, kepala teknologi dan petugas produk AIOola. “Kami menggeser perspektif dan menjadi perusahaan AI dengan produk hebat, bukan perusahaan produk dengan kemampuan AI.”
“Kami memutuskan untuk membuka kemampuan kami kepada dunia,” tambah Asbag. “Alih-alih melayani model kami hanya untuk perusahaan dalam produk kami, kami mengembangkan API dan sekarang meluncurkannya untuk membuat model kelas perusahaan kami dan anti peluru tersedia untuk semua orang.”
Pengakuan jargon, adaptasi zero-shot
Salah satu fitur pembeda Jargonic adalah pendekatannya terhadap kosa kata khusus. Sistem pengenalan suara biasanya berjuang ketika dihadapkan dengan jargon khusus domain yang tidak muncul dalam data pelatihan standar. Jargonic membahas tantangan ini dengan sistem spotting kata kunci milik yang memungkinkan adaptasi zero-shot-enterprises dapat dengan mudah memberikan daftar istilah tanpa pelatihan ulang tambahan.
Dalam tes benchmark, Jargonic mendemonstrasikan a 5,91% tingkat kesalahan kata rata -rata (WER) Di empat dataset akademik Inggris terkemuka, mengungguli pesaing seperti Eleven Labs, Assembly AI, Openai's Whisper dan Deepgram Nova-3.
Namun, perusahaan belum mengungkapkan perbandingan kinerja secara khusus terhadap model transkripsi multimodal yang lebih baru seperti Openai's GPT-4-Transcribe, yang datang sembilan hari yang lalu, membanggakan kinerja tertinggi pada tolok ukur seperti WER, dengan hanya 2,46% dalam bahasa Inggris. Aiola mengklaim modelnya masih lebih baik dalam memilih jargon bisnis tertentu.

Jargonic juga mencapai Tingkat penarikan 89,3% pada persyaratan keuangan khusus dan secara konsisten mengungguli orang lain dalam pengakuan jargon multibahasa, menjangkau Akurasi 95% melintasi lima bahasa.

“Setelah Anda memiliki jargon berat, akurasi pengakuan biasanya turun 20%,” Asbag menjelaskan. “Tetapi dengan pendekatan zero-shot kami, di mana Anda hanya mencantumkan kata kunci penting, akurasi melonjak kembali hingga 95%. Itu unik bagi kami.”

Kemampuan ini dirancang untuk menghilangkan proses pelatihan ulang yang memakan waktu dan intensif yang biasanya diperlukan untuk mengadaptasi sistem ASR untuk industri tertentu.
Dioptimalkan untuk lingkungan perusahaan
Pengembangan Jargonic diinformasikan oleh pengalaman bertahun -tahun membangun solusi untuk klien perusahaan. Model ini dilatih pada lebih dari satu juta jam pidato yang ditranskripsi, termasuk data signifikan dari lingkungan industri dan bisnis, memastikan ketahanan dalam pengaturan yang berisik, kehidupan nyata.
“Yang membedakan kami adalah bahwa kami telah menghabiskan bertahun-tahun memecahkan masalah perusahaan dunia nyata,” kata Hetz. “Kami dioptimalkan untuk kecepatan, akurasi, dan kemampuan untuk menangani lingkungan yang kompleks-bukan hanya podcast atau video, tetapi tempat kerja yang berisik, berantakan, dan kehidupan nyata.”
Arsitektur model mengintegrasikan kata kunci yang bercak langsung ke dalam proses transkripsi, memungkinkan jargonik untuk mempertahankan akurasi bahkan dalam kondisi audio yang tidak terduga.
Masa depan suara pertama
Untuk kepemimpinan Aiola, Jargonic adalah langkah menuju perubahan yang lebih luas dalam cara orang berinteraksi dengan teknologi. Perusahaan melihat pengenalan suara tidak hanya sebagai alat bisnis, tetapi sebagai antarmuka penting untuk masa depan interaksi manusia-komputer.
“Visi kami adalah bahwa setiap antarmuka mesin akan segera menjadi suara pertama,” kata Hetz. “Anda akan dapat berbicara dengan kulkas Anda, penyedot debu Anda, mesin apa pun – dan itu akan bertindak dan melakukan apa pun yang Anda inginkan. Itulah masa depan yang kami bangun.”
Asbag menggemakan sentimen itu, menambahkan, “AI percakapan akan menjadi browser web baru. Mesin mulai memahami kami, dan sekarang kami memiliki alasan untuk berinteraksi dengan mereka secara alami.”
Untuk saat ini, fokus Aiola tetap pada perusahaan. Jargonic tersedia segera untuk pelanggan perusahaan melalui API, memungkinkan mereka untuk mengintegrasikan kemampuan pengenalan suara model ke dalam alur kerja, aplikasi, atau layanan yang menghadap pelanggan mereka sendiri.