
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Startup AI yang berbasis di New York, Hume, telah meluncurkan model AI Conversational AI terbaru (EVI) Conversational, EVI 3 (diucapkan “Evee” tiga, seperti karakter Pokémon), yang menargetkan segala sesuatu dari memperkuat sistem dukungan pelanggan dan pembinaan kesehatan hingga mendongeng dan persahabatan virtual.
EVI 3 memungkinkan pengguna membuat suara mereka sendiri dengan berbicara dengan model (ini suara-ke-suara/ucapan-ke-speech), dan bertujuan untuk menetapkan standar baru untuk kealamian, ekspresif, dan “empati” menurut Hume-yaitu, bagaimana pengguna memahami pemahaman model tentang emosi mereka dan kemampuannya untuk mencerminkan atau menyesuaikan responsnya sendiri, dalam hal pilihan nada dan kata.
Dirancang untuk bisnis, pengembang, dan pencipta, EVI 3 memperluas model suara Hume sebelumnya dengan menawarkan kustomisasi yang lebih canggih, respons yang lebih cepat, dan peningkatan pemahaman emosional.
Pengguna individu dapat berinteraksi dengannya hari ini melalui demo langsung Hume di situs web dan aplikasi iOS -nya, tetapi akses pengembang melalui antarmuka pemrograman aplikasi eksklusif Hume (API) dikatakan tersedia dalam “minggu -minggu mendatang,” sebagai posting blog dari negara bagian.
Pada saat itu, pengembang akan dapat menanamkan EVI 3 ke dalam sistem layanan pelanggan mereka sendiri, proyek kreatif, atau asisten virtual – dengan harga (lihat di bawah).
Penggunaan demo saya sendiri memungkinkan saya untuk membuat suara sintetis kustom baru dalam hitungan detik berdasarkan kualitas yang saya jelaskan – campuran yang hangat dan percaya diri, dan nada maskulin. Berbicara kepadanya terasa lebih naturalistik dan mudah daripada model AI lainnya dan tentu saja suara saham dari para pemimpin teknologi warisan seperti Apple dengan Siri dan Amazon dengan Alexa.
Whdi pengembang dan bisnis harus tahu tentang EVI 3
Hume EVI 3 dibangun untuk berbagai kegunaan-dari layanan pelanggan dan interaksi dalam aplikasi hingga pembuatan konten di buku audio dan game.
Ini memungkinkan pengguna untuk menentukan sifat kepribadian yang tepat, kualitas vokal, nada emosional, dan topik percakapan.
Ini berarti dapat menghasilkan apa pun dari panduan yang hangat dan berempati hingga narator yang unik dan nakal – hingga permintaan seperti “tikus yang melengking dengan mendesak dengan aksen Prancis tentang rencananya untuk mencuri keju dari dapur.”
Kekuatan inti EVI 3 terletak pada kemampuannya untuk mengintegrasikan kecerdasan emosional langsung ke dalam pengalaman berbasis suara.
Tidak seperti chatbots tradisional atau asisten suara yang sangat bergantung pada interaksi yang ditulis atau berbasis teks, EVI 3 beradaptasi dengan bagaimana orang secara alami berbicara-mengambil di lapangan, prosodi, jeda, dan ledakan vokal untuk menciptakan percakapan yang lebih menarik dan seperti manusia.
Namun, satu model fitur besar Hume saat ini kurang – dan yang ditawarkan oleh saingan open source dan kepemilikan, seperti ElevenLabs – adalah kloning suara, atau replikasi cepat dari pengguna atau suara lain, seperti CEO perusahaan.
Namun Hume telah mengindikasikan akan menambahkan kemampuan seperti itu pada model teks-ke-ucapan oktaf, seperti yang disebut “segera hadir” di situs web Hume, dan pelaporan sebelumnya oleh perusahaan Anda benar-benar menemukan bahwa itu akan memungkinkan pengguna untuk mereplikasi suara dari hanya lima detik audio.
Hume telah menyatakan bahwa itu memprioritaskan perlindungan dan pertimbangan etis sebelum membuat fitur ini tersedia secara luas. Saat ini, kemampuan kloning ini tidak tersedia di EVI itu sendiri, dengan Hume menekankan kustomisasi suara yang fleksibel sebagai gantinya.
Tolok ukur internal menunjukkan pengguna lebih suka EVI 3 daripada model suara GPT-4O Openai
Menurut tes Hume sendiri dengan 1.720 pengguna, EVI 3 lebih disukai daripada Openai's GPT-4O di setiap kategori yang dievaluasi: kealamian, ekspresif, empati, penanganan gangguan, kecepatan respons, kualitas audio, emosi/modulasi gaya suara pada permintaan, dan pemahaman emosi pada permintaan (fitur “berdasarkan permintaan” tercakup dalam “instruksi yang dilihat” di bawah ini).
Ini juga biasanya mengalahkan keluarga model Gemini Google dan perusahaan model AI open source baru Sesame dari mantan co-pencipta Oculus Brendan Iribe.


Ini juga menawarkan latensi yang lebih rendah (~ 300 milidetik), dukungan multibahasa yang kuat (Inggris dan Spanyol, dengan lebih banyak bahasa datang), dan secara efektif suara khusus yang tidak terbatas. Seperti yang ditulis Hume di situs webnya (lihat tangkapan layar tepat di bawah):

Kemampuan utama meliputi:
- Generasi prosodi dan teks-ke-ungkapan dengan modulasi.
- Interruptitymemungkinkan aliran percakapan dinamis.
- Kustomisasi Suara Konversi dalam Konversisehingga pengguna dapat menyesuaikan gaya berbicara secara real time.
- Arsitektur siap-API (Segera hadir), sehingga pengembang dapat mengintegrasikan EVI 3 langsung ke dalam aplikasi dan layanan.
Harga dan akses pengembang
Hume menawarkan harga yang fleksibel dan berbasis penggunaan di EVI, TT oktaf, dan API pengukuran ekspresi.
Sementara harga API spesifik EVI 3 belum diumumkan (ditandai sebagai TBA), polanya menunjukkan akan berbasis penggunaan, dengan diskon perusahaan tersedia untuk penyebaran besar.
Untuk referensi, EVI 2 dihargai $ 0,072 per menit – 30% lebih rendah dari pendahulunya, EVI 1 ($ 0,102/menit).
Untuk pencipta dan pengembang yang bekerja dengan proyek-proyek teks-ke-bicara, rencana Hume's Octave TTS berkisar dari tingkat gratis (10.000 karakter pidato, ~ 10 menit audio) hingga rencana tingkat perusahaan. Inilah gangguannya:
- Bebas: 10.000 karakter, suara kustom tak terbatas, $ 0/bulan
- Starter: 30.000 karakter (~ 30 menit), 20 proyek, $ 3/bulan
- Pencipta: 100.000 karakter (~ 100 menit), 1.000 proyek, kelebihan penggunaan ($ 0,20/1.000 karakter), $ 10/bulan
- Pro: 500.000 karakter (~ 500 menit), 3.000 proyek, $ 0,15/1.000 tambahan, $ 50/bulan
- Skala: 2.000.000 karakter (~ 2.000 menit), 10.000 proyek, $ 0,13/1.000 tambahan, $ 150/bulan
- Bisnis: 10.000.000 karakter (~ 10.000 menit), 20.000 proyek, $ 0,10/1.000 tambahan, $ 900/bulan
- Perusahaan: Harga khusus dan penggunaan tanpa batas
Untuk pengembang yang bekerja pada interaksi suara real-time atau analisis emosional, Hume juga menawarkan bayaran saat Anda pergi dengan $ 20 dalam kredit gratis dan tidak ada komitmen di muka. Pelanggan perusahaan volume tinggi dapat memilih rencana perusahaan khusus yang menampilkan lisensi dataset, solusi di tempat, integrasi khusus, dan dukungan lanjutan.
Sejarah Model Suara AI Emosi Hume
Didirikan pada tahun 2021 oleh Alan Cowen, seorang mantan peneliti di Google Deepmind, Hume bertujuan untuk menjembatani kesenjangan antara nuansa emosional manusia dan interaksi AI.
Perusahaan ini melatih model -modelnya pada dataset luas yang diambil dari ratusan ribu peserta di seluruh dunia – tidak hanya membantah pidato dan teks, tetapi juga ledakan vokal dan ekspresi wajah.
“Kecerdasan emosional mencakup kemampuan untuk menyimpulkan niat dan preferensi dari perilaku. Itulah inti dari apa yang coba dicapai oleh antarmuka AI,” kata Cowen kepada VentureBeat. Misi Hume adalah membuat antarmuka AI lebih responsif, seperti manusia, dan pada akhirnya lebih berguna – apakah itu membantu pelanggan menavigasi aplikasi atau menceritakan sebuah cerita dengan perpaduan yang tepat antara drama dan humor.
Pada awal 2024, perusahaan meluncurkan EVI 2, yang menawarkan latensi 40% lebih rendah dan 30% penurunan harga dibandingkan dengan EVI 1, di samping fitur-fitur baru seperti kustomisasi suara dinamis dan permintaan gaya dalam-konversi.
Februari 2025 melihat debut Octave, mesin teks-ke-ucapan untuk pembuat konten yang mampu menyesuaikan emosi pada tingkat kalimat dengan permintaan teks.
Dengan EVI 3 sekarang tersedia untuk eksplorasi langsung dan akses API penuh di sekitar sudut, Hume berharap untuk memungkinkan pengembang dan pencipta untuk menata ulang apa yang mungkin dengan suara AI.