
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Kemitraan tiga arah antara perusahaan pendukung telepon AI PhoneLy, platform optimasi inferensi Maitai, dan pembuat chip Groq telah mencapai terobosan yang membahas salah satu masalah kecerdasan buatan percakapan yang paling gigih: penundaan canggung yang segera memberi sinyal kepada penelepon mereka berbicara dengan mesin.
Kolaborasi ini telah memungkinkan Phonely untuk mengurangi waktu respons lebih dari 70% sementara secara bersamaan meningkatkan akurasi dari 81,5% menjadi 99,2% di empat iterasi model, melampaui benchmark 94,7% GPT-4O sebesar 4,5 poin persentase. Perbaikan berasal dari kemampuan baru GROQ untuk langsung beralih antara beberapa model AI khusus tanpa tambahan latensi, diatur melalui platform optimasi MaItaI.
Prestasi ini memecahkan apa yang oleh para pakar industri disebut sebagai “lembah luar biasa” suara AI-isyarat halus yang membuat percakapan otomatis terasa jelas non-manusia. Untuk pusat panggilan dan operasi layanan pelanggan, implikasinya bisa transformatif: salah satu pelanggan Phonely menggantikan 350 agen manusia bulan ini saja.
Mengapa panggilan telepon AI masih terdengar robot: masalah empat detik
Model bahasa besar tradisional seperti Openai's GPT-4O telah lama berjuang dengan apa yang tampaknya menjadi tantangan sederhana: merespons cukup cepat untuk mempertahankan aliran percakapan alami. Sementara beberapa detik penundaan nyaris tidak mendaftar dalam interaksi berbasis teks, jeda yang sama terasa tak berkesudahan selama percakapan telepon langsung.
“Salah satu hal yang kebanyakan orang tidak sadari adalah bahwa penyedia LLM besar, seperti Openai, Claude, dan yang lainnya memiliki tingkat varian latensi yang sangat tinggi,” kata Will Bodewes, pendiri dan CEO Phonely, dalam wawancara eksklusif dengan VentureBeat. “4 detik terasa seperti keabadian jika Anda berbicara dengan suara AI di telepon-penundaan inilah yang membuat sebagian besar suara AI hari ini terasa non-manusia.”
Masalah terjadi kira -kira sekali setiap sepuluh permintaan, yang berarti percakapan standar pasti mencakup setidaknya satu atau dua jeda canggung yang segera mengungkapkan sifat buatan dari interaksi. Untuk bisnis yang mempertimbangkan agen telepon AI, penundaan ini telah menciptakan hambatan yang signifikan untuk adopsi.
“Latensi semacam ini tidak dapat diterima untuk dukungan telepon real-time,” Bodewes menjelaskan. “Selain dari latensi, akurasi percakapan dan respons seperti manusia adalah sesuatu yang tidak dimiliki oleh penyedia LLM Legacy LLM.”
Bagaimana tiga startup memecahkan tantangan percakapan terbesar AI
Solusi ini muncul dari pengembangan GROQ tentang apa yang disebut perusahaan “nol-latency lora hotswapping”-kemampuan untuk langsung beralih di antara beberapa varian model AI khusus tanpa penalti kinerja. Lora, atau adaptasi peringkat rendah, memungkinkan pengembang untuk membuat modifikasi yang ringan dan spesifik tugas untuk model yang ada daripada melatih yang sepenuhnya baru dari awal.
“Kombinasi Groq dari arsitektur terkontrol perangkat lunak berbutir halus, memori on-chip berkecepatan tinggi, arsitektur streaming, dan eksekusi deterministik berarti bahwa dimungkinkan untuk mengakses beberapa loras yang bertukar panas tanpa hukuman latensi,” jelas Chelsey Kantor, chief marketing officer Groq, dalam sebuah wawancara dengan ventureBeat. “Loras disimpan dan dikelola di SRAM bersama dengan bobot model asli.”
Kemajuan infrastruktur ini memungkinkan Maitai untuk menciptakan apa yang didasarkan oleh pendiri Christian Dalsanto sebagai sistem “orkestrasi proxy-layer” yang terus mengoptimalkan kinerja model. “Maitai bertindak sebagai lapisan proxy tipis antara pelanggan dan penyedia model mereka,” kata Dalsanto. “Ini memungkinkan kami untuk secara dinamis memilih dan mengoptimalkan model terbaik untuk setiap permintaan, secara otomatis menerapkan evaluasi, optimisasi, dan strategi ketahanan seperti fallbacks.”
Sistem ini bekerja dengan mengumpulkan data kinerja dari setiap interaksi, mengidentifikasi titik -titik lemah, dan secara iteratif meningkatkan model tanpa intervensi pelanggan. “Karena Maitai duduk di tengah aliran inferensi, kami mengumpulkan sinyal kuat mengidentifikasi di mana model berkinerja buruk,” jelas Dalsanto. “'Bintik-bintik lunak' ini dikelompokkan, diberi label, dan disesuaikan secara bertahap untuk mengatasi kelemahan spesifik tanpa menyebabkan regresi.”
Dari 81% hingga 99% akurasi: Angka di balik terobosan seperti manusia AI
Hasilnya menunjukkan peningkatan yang signifikan di berbagai dimensi kinerja. Waktu untuk Token Pertama – Seberapa cepat AI mulai merespons – turun 73,4% dari 661 milidetik menjadi 176 milidetik pada persentil ke -90. Waktu penyelesaian keseluruhan turun 74,6% dari 1.446 milidetik menjadi 339 milidetik.
Mungkin yang lebih penting, peningkatan akurasi mengikuti lintasan ke atas yang jelas di empat model iterasi, mulai dari 81,5% dan mencapai 99,2% – tingkat yang melebihi kinerja manusia dalam banyak skenario layanan pelanggan.
“Kami telah melihat sekitar 70%+ orang yang memanggil AI kami tidak dapat membedakan perbedaan antara seseorang,” kata Bodewes kepada VentureBeat. “Latensi adalah, atau dulu, hadiah mati bahwa itu adalah AI. Dengan model yang disetel kustom yang berbicara seperti orang, dan perangkat keras latensi super rendah, tidak ada banyak yang menghentikan kita untuk melintasi lembah luar biasa yang terdengar benar-benar manusiawi.”
Keuntungan kinerja diterjemahkan langsung ke hasil bisnis. “Salah satu pelanggan terbesar kami melihat peningkatan 32% dalam arahan yang berkualitas dibandingkan dengan versi sebelumnya menggunakan model canggih sebelumnya,” kata Bodewes.
350 agen manusia diganti dalam satu bulan: Pusat panggilan pergi all-in di AI
Perbaikan tiba karena pusat panggilan menghadapi tekanan pemasangan untuk mengurangi biaya sambil mempertahankan kualitas layanan. Agen manusia tradisional memerlukan pelatihan, koordinasi penjadwalan, dan biaya overhead yang signifikan yang dapat dihilangkan oleh agen AI.
“Pusat panggilan benar -benar melihat manfaat besar dari menggunakan Phonely untuk menggantikan agen manusia,” kata Bodewes. “Salah satu pusat panggilan yang bekerja dengan kami sebenarnya menggantikan 350 agen manusia sepenuhnya dengan Phonely hanya bulan ini. Dari perspektif pusat panggilan ini adalah pengubah permainan, karena mereka tidak harus mengelola jadwal agen dukungan manusia, agen kereta api, dan kecocokan pasokan dan permintaan.”
Teknologi ini menunjukkan kekuatan khusus dalam kasus penggunaan tertentu. “Phonely benar-benar unggul di beberapa bidang, termasuk kinerja terkemuka di industri dalam penjadwalan janji temu dan kualifikasi timbal secara khusus, di luar apa yang mampu dilakukan oleh penyedia warisan,” jelas Bodewes. Perusahaan telah bermitra dengan perusahaan besar yang menangani interaksi pelanggan asuransi, hukum, dan otomotif.
The Hardware Edge: Mengapa Chips Groq memungkinkan AI sub-detik
Chip inferensi AI khusus GROQ, yang disebut Unit Pemrosesan Bahasa (LPU), memberikan fondasi perangkat keras yang membuat pendekatan multi-model menjadi layak. Tidak seperti prosesor grafis tujuan umum yang biasanya digunakan untuk inferensi AI, LPU mengoptimalkan khusus untuk sifat sekuensial pemrosesan bahasa.
“Arsitektur LPU dioptimalkan untuk mengontrol pergerakan dan perhitungan data secara tepat pada tingkat berbutir halus dengan kecepatan tinggi dan prediktabilitas, memungkinkan manajemen yang efisien dari beberapa set bobot 'delta' kecil (Loras) pada model dasar umum tanpa latensi tambahan,” kata Kantor.
Infrastruktur berbasis cloud juga membahas masalah skalabilitas yang secara historis memiliki penyebaran AI. “Keindahan menggunakan solusi berbasis cloud seperti GroqCloud, adalah bahwa Groq menangani orkestrasi dan penskalaan dinamis untuk pelanggan kami untuk setiap model AI yang kami tawarkan, termasuk model Lora yang disesuaikan,” jelas Kantor.
Bagi perusahaan, keunggulan ekonomi tampak substansial. “Kesederhanaan dan efisiensi desain sistem kami, konsumsi daya rendah, dan kinerja tinggi perangkat keras kami, memungkinkan GROQ untuk memberi pelanggan biaya terendah per token tanpa mengorbankan kinerja saat mereka skala,” kata Kantor.
Penyebaran AI hari yang sama: Bagaimana perusahaan melewatkan bulan integrasi
Salah satu aspek kemitraan yang paling menarik adalah kecepatan implementasi. Tidak seperti penyebaran AI tradisional yang dapat membutuhkan waktu berbulan-bulan integrasi, pendekatan Maitai memungkinkan transisi hari yang sama untuk perusahaan yang sudah menggunakan model tujuan umum.
“Untuk perusahaan yang sudah diproduksi menggunakan model tujuan umum, kami biasanya mentransisikannya ke Maitai pada hari yang sama, dengan nol gangguan,” kata Dalsanto. “Kami memulai pengumpulan data langsung, dan dalam beberapa hari hingga seminggu, kami dapat memberikan model yang disesuaikan yang lebih cepat dan lebih dapat diandalkan daripada pengaturan aslinya.”
Kemampuan penyebaran yang cepat ini membahas keprihatinan perusahaan umum tentang proyek AI: jadwal implementasi yang panjang yang menunda pengembalian investasi. Pendekatan proxy-layer berarti perusahaan dapat mempertahankan integrasi API yang ada sambil mendapatkan akses ke kinerja yang terus meningkatkan.
Masa Depan AI Perusahaan: Model Khusus Mengganti satu ukuran untuk semua
Kolaborasi ini menandakan perubahan yang lebih luas dalam arsitektur AI perusahaan, menjauh dari model monolitik, tujuan umum menuju sistem khusus dan khusus tugas. “Kami mengamati meningkatnya permintaan dari tim memecah aplikasi mereka menjadi beban kerja yang lebih kecil dan sangat khusus, masing -masing mendapat manfaat dari adaptor individu,” kata Dalsanto.
Tren ini mencerminkan pemahaman yang matang tentang tantangan penyebaran AI. Daripada mengharapkan model tunggal untuk unggul di semua tugas, perusahaan semakin mengakui nilai solusi yang dibangun khusus yang dapat terus disempurnakan berdasarkan data kinerja dunia nyata.
“Multi-Lora Hotswapping memungkinkan perusahaan menyebarkan model yang lebih cepat, lebih akurat disesuaikan dengan aplikasi mereka, menghapus hambatan biaya dan kompleksitas tradisional,” jelas Dalsanto. “Ini pada dasarnya menggeser bagaimana perusahaan AI dibangun dan digunakan.”
Yayasan teknis juga memungkinkan aplikasi yang lebih canggih saat teknologi matang. Infrastruktur GROQ dapat mendukung lusinan model khusus pada satu contoh, yang berpotensi memungkinkan perusahaan untuk membuat pengalaman AI yang sangat disesuaikan di berbagai segmen pelanggan atau kasus penggunaan.
“Multi-lora hotswapping memungkinkan inferensi latensi rendah, akurasi tinggi yang disesuaikan dengan tugas-tugas tertentu,” kata Dalsanto. “Roadmap kami memprioritaskan investasi lebih lanjut dalam infrastruktur, alat, dan optimasi untuk menetapkan inferensi spesifik aplikasi berbutir halus sebagai standar baru.”
Untuk pasar AI percakapan yang lebih luas, kemitraan ini menunjukkan bahwa keterbatasan teknis yang pernah dianggap tidak dapat diatasi dapat diatasi melalui infrastruktur khusus dan desain sistem yang cermat. Karena semakin banyak perusahaan menggunakan agen telepon AI, keunggulan kompetitif yang ditunjukkan oleh Phonely dapat menetapkan ekspektasi dasar baru untuk kinerja dan responsif dalam interaksi pelanggan otomatis.
Keberhasilan juga memvalidasi model yang muncul dari perusahaan infrastruktur AI yang bekerja bersama untuk menyelesaikan tantangan penyebaran yang kompleks. Pendekatan kolaboratif ini dapat mempercepat inovasi di seluruh sektor AI perusahaan karena kemampuan khusus bergabung untuk memberikan solusi yang melebihi apa yang dapat dicapai oleh penyedia tunggal secara mandiri. Jika kemitraan ini merupakan indikasi, era percakapan telepon buatan yang jelas mungkin akan berakhir lebih cepat dari yang diharapkan.