
Bergabunglah dengan acara yang dipercaya oleh para pemimpin perusahaan selama hampir dua dekade. VB Transform menyatukan orang -orang yang membangun strategi AI perusahaan nyata. Pelajari lebih lanjut
Menghasilkan suara yang tidak hanya seperti manusia dan bernuansa tetapi juga beragam terus menjadi perjuangan dalam AI percakapan.
Pada akhirnya, orang ingin mendengar suara-suara yang terdengar seperti mereka atau setidaknya alami, bukan hanya standar siaran Amerika abad ke-20.
Startup Rime menangani tantangan ini dengan Arcana Text-to-Speech (TTS), model bahasa lisan baru yang dapat dengan cepat menghasilkan suara-suara baru “tak terbatas” dari berbagai jenis kelamin, usia, demografi, dan bahasa yang hanya berdasarkan deskripsi teks sederhana dari karakteristik yang dimaksud.
Model ini telah membantu meningkatkan penjualan pelanggan – untuk orang -orang seperti Domino dan Wingstop – sebesar 15%.
“Adalah satu hal untuk memiliki model yang sangat berkualitas tinggi, seperti kehidupan, yang terdengar orang,” Lily Clifford, CEO Rime dan co-founder, mengatakan kepada VentureBeat. “Adalah hal lain untuk memiliki model yang tidak hanya dapat membuat satu suara, tetapi variabilitas suara yang tak terbatas di sepanjang garis demografis.”
Model suara yang 'bertindak manusia'
Model TTS multimodal dan autoregresif Rime dilatih tentang percakapan alami dengan orang sungguhan (sebagai lawan dari aktor suara). Pengguna cukup mengetikkan teks deskripsi yang cepat dari sebuah suara dengan karakteristik dan bahasa demografis yang diinginkan.
Misalnya: 'Saya ingin seorang wanita berusia 30 tahun yang tinggal di California dan menjadi perangkat lunak,' atau 'beri saya suara pria Australia.'
“Setiap kali Anda melakukan itu, Anda akan mendapatkan suara yang berbeda,” kata Clifford.
Model Rime's Mist V2 TTS dibangun untuk aplikasi volume tinggi, bisnis-kritis, yang memungkinkan perusahaan untuk membuat suara unik untuk kebutuhan bisnis mereka. “Pelanggan mendengar suara yang memungkinkan percakapan alami dan dinamis tanpa membutuhkan agen manusia,” kata Clifford.
Bagi mereka yang mencari opsi di luar kotak, sementara itu, Rime menawarkan delapan speaker andalan dengan karakteristik unik:
- Luna (wanita, dingin tapi bersemangat, Gen-Z optimis)
- Celeste (wanita, hangat, santai, suka bersenang-senang)
- Orion (pria, lebih tua, Afrika-Amerika, bahagia)
- URSA (pria, 20 tahun, pengetahuan ensiklopedis tentang musik emo 2000 -an)
- Astra (wanita, muda, bermata lebar)
- Esther (wanita, lebih tua, Cina Amerika, penuh kasih)
- Estelle (wanita, setengah baya, Afrika-Amerika, terdengar sangat manis)
- Andromeda (wanita, muda, bernafas, getaran yoga)
Model ini memiliki kemampuan untuk beralih antar bahasa, dan dapat berbisik, menjadi sarkastik dan bahkan mengejek. Arcana juga dapat memasukkan tawa ke dalam pidato saat diberi token
“Ini menyimpulkan emosi dari konteks,” tulis Rime dalam makalah teknis. “Itu tertawa, menghela nafas, dengungan, napas dan membuat suara mulut yang halus. Dikatakan 'um' dan disfluensi lainnya secara alami. Ini memiliki perilaku yang muncul yang masih kita temukan. Singkatnya, itu bertindak manusia.”
Menangkap percakapan alami
Model Rime menghasilkan token audio yang diterjemahkan menjadi pidato menggunakan pendekatan berbasis codec, yang menurut Rime menyediakan “sintesis lebih cepat dari real-time.” Saat peluncuran, waktu untuk audio pertama adalah 250 milidetik dan latensi cloud publik kira -kira 400 milidetik.
Arcana dilatih dalam tiga tahap:
- Pra-pelatihan: Rime menggunakan model bahasa besar open-source (LLM) sebagai tulang punggung dan terlatih pada sekelompok besar pasangan teks-audio untuk membantu Arcana mempelajari pola linguistik dan akustik umum.
- Fine-tuning yang diawasi dengan dataset hak milik “besar”.
- Fine-tuning spesifik pembicara: Rime mengidentifikasi pembicara yang ditemukan “paling teladan” di antara dataset, percakapan, dan keandalannya.
Data Rime menggabungkan teknik percakapan sosiolinguistik (memperhitungkan konteks sosial seperti kelas, jenis kelamin, lokasi), idiolect (kebiasaan bicara individu) dan nuansa paralinguistik (aspek komunikasi non-verbal yang sejalan dengan ucapan).
Model ini juga dilatih pada seluk-beluk aksen, kata-kata pengisi (yang tidak disadari 'UHS' dan 'UMS') serta jeda, pola stres prosodik (intonasi, waktu, menekankan pada suku kata tertentu) dan pengalihan kode multibahasa (ketika speaker bertingkat bahasa beralih ke depan antara bahasa).
Perusahaan telah mengambil pendekatan unik untuk mengumpulkan semua data ini. Clifford menjelaskan bahwa, biasanya, pembangun model akan mengumpulkan cuplikan dari aktor suara, kemudian membuat model untuk mereproduksi karakteristik suara orang tersebut berdasarkan input teks. Atau, mereka akan mengikis data buku audio.
“Pendekatan kami sangat berbeda,” jelasnya. “Itu, 'Bagaimana kita menciptakan kumpulan data provisional terbesar di dunia?'”
Untuk melakukannya, Rime membangun studio rekamannya sendiri di ruang bawah tanah di San Francisco dan menghabiskan beberapa bulan merekrut orang-orang dari Craigslist, melalui mulut ke mulut, atau hanya berkumpul secara kausal dan teman-teman dan keluarga. Alih -alih percakapan yang ditulis, mereka merekam percakapan alami dan obrolan.
Mereka kemudian beranotasi suara dengan metadata terperinci, pengkodean jenis kelamin, usia, dialek, pengaruh bicara dan bahasa. Ini memungkinkan Rime untuk mencapai akurasi 98 hingga 100%.
Clifford mencatat bahwa mereka terus menambah dataset ini.
“Bagaimana kita membuatnya terdengar pribadi? Anda tidak akan pernah sampai di sana jika Anda hanya menggunakan aktor suara,” katanya. “Kami melakukan hal yang sangat sulit untuk mengumpulkan data yang benar -benar naturalistik. Saus rahasia besar dari Rime adalah bahwa ini bukan aktor. Ini adalah orang -orang nyata.”
'Harness Personalisasi' yang menciptakan suara yang dipesan lebih dahulu
Rime bermaksud memberi pelanggan kemampuan untuk menemukan suara yang akan bekerja paling baik untuk aplikasi mereka. Mereka membangun alat “harness personalisasi” untuk memungkinkan pengguna melakukan pengujian A/B dengan berbagai suara. Setelah interaksi yang diberikan, API melaporkan kembali ke Rime, yang menyediakan dasbor analitik yang mengidentifikasi suara berkinerja terbaik berdasarkan metrik keberhasilan.
Tentu saja, pelanggan memiliki definisi yang berbeda tentang apa yang merupakan panggilan yang sukses. Dalam layanan makanan, itu mungkin meningkatkan pesanan kentang goreng atau sayap tambahan.
“Tujuan bagi kami adalah bagaimana kami membuat aplikasi yang memudahkan pelanggan kami untuk menjalankan eksperimen itu sendiri?,” Kata Clifford. “Karena pelanggan kami bukan sutradara casting, kami juga tidak. Tantangannya menjadi bagaimana membuat lapisan analitik personalisasi itu benar -benar intuitif.”
Pelanggan KPI lain memaksimalkan adalah kesediaan penelepon untuk berbicara dengan AI. Mereka telah menemukan bahwa, ketika beralih ke Rime, penelepon 4x lebih mungkin untuk berbicara dengan bot.
“Untuk pertama kalinya, orang -orang seperti, 'Tidak, Anda tidak perlu mentransfer saya. Saya benar -benar bersedia berbicara dengan Anda,'” kata Clifford. “Atau, ketika mereka ditransfer, mereka mengatakan 'Terima kasih.'” (20%, pada kenyataannya, ramah saat mengakhiri percakapan dengan bot).
Menghidupkan 100 juta panggilan sebulan
Rime menghitung di antara pelanggannya Domino, Wingstop, Converse Now dan Ylopo. Mereka melakukan banyak pekerjaan dengan pusat kontak besar, pengembang perusahaan membangun sistem dan telekomunikasi respons suara interaktif (IVR), Clifford mencatat.
“Ketika kami beralih ke Rime, kami melihat peningkatan dua digit langsung dalam kemungkinan panggilan kami berhasil,” kata Akshay Kayastha, direktur teknik di Conversenow. “Bekerja dengan Rime berarti kami memecahkan satu ton masalah terakhir mil yang muncul dalam pengiriman aplikasi berdampak tinggi.”
Ylopo CPO Ge Juefeng mencatat bahwa, untuk aplikasi keluar volume tinggi perusahaannya, mereka perlu membangun kepercayaan langsung dengan konsumen. “Kami menguji setiap model di pasaran dan menemukan bahwa suara Rime mengkonversi pelanggan pada tingkat tertinggi,” lapornya.
Rime sudah membantu daya hampir 100 juta panggilan telepon sebulan, kata Clifford. “Jika Anda memanggil Domino's atau Wingstop, ada peluang 80 hingga 90% bahwa Anda mendengar suara rime,” katanya.
Ke depan, Rime akan mendorong lebih banyak penawaran di tempat untuk mendukung latensi rendah. Faktanya, mereka mengantisipasi bahwa, pada akhir 2025, 90% dari volume mereka akan menjadi di-prem. “Alasannya adalah Anda tidak akan pernah secepat jika Anda menjalankan model -model ini di cloud,” kata Clifford.
Juga, Rime terus menyempurnakan modelnya untuk mengatasi tantangan linguistik lainnya. Misalnya, frasa model tersebut tidak pernah ditemui, seperti “Meatza Extravaganzza yang mengikat lidah Domino. Seperti yang dicatat Clifford, bahkan jika sebuah suara dipersonalisasi, alami dan merespons secara real time, itu akan gagal jika tidak dapat menangani kebutuhan unik perusahaan.
“Masih ada banyak masalah yang dilihat pesaing kami sebagai masalah terakhir mil, tetapi pelanggan kami melihat sebagai masalah mil pertama,” kata Clifford.