
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Hugging Face, startup AI senilai lebih dari $ 4 miliar, telah memperkenalkan FASTRTC, perpustakaan Python open-source yang menghilangkan hambatan utama bagi pengembang yang membangun aplikasi Audio dan video AI real-time.
“Membangun aplikasi WEBRTC dan Websocket real-time sangat sulit untuk mendapatkan yang benar di Python. Sampai sekarang, ”tulis Freddy Boulton, salah satu pencipta FASTRTC, dalam sebuah pengumuman di X.com.
Teknologi WEBRTC memungkinkan komunikasi browser-ke-browser langsung untuk audio, video, dan berbagi data tanpa plugin atau unduhan. Meskipun sangat penting untuk asisten suara modern dan alat video, mengimplementasikan WebRTC tetap menjadi keahlian khusus yang tidak dimiliki sebagian besar insinyur pembelajaran mesin.
Membangun aplikasi WebRTC dan Websocket real-time sangat sulit untuk mendapatkan yang benar di Python.
Sampai sekarang – Memperkenalkan FASTRTC, Perpustakaan Komunikasi Realtime untuk Python ⚡️ pic.twitter.com/pr67kiz9ke
– Freddy A Boulton (@freddy_alfonso_) 25 Februari 2025
The Voice Ai Gold Rush bertemu dengan penghalang teknisnya
Waktunya tidak bisa lebih strategis. Suara AI telah menarik perhatian dan modal yang sangat besar – Elevenlab baru -baru ini mendapatkan $ 180 juta dalam pendanaan, sementara perusahaan seperti Kyutai, Alibaba, dan Fixie.ai semuanya telah merilis model audio khusus.
Namun pemutusan tetap ada di antara model AI canggih ini dan infrastruktur teknis yang diperlukan untuk menggunakannya dalam aplikasi yang responsif dan real-time. Seperti yang dicatat oleh Hugging Face dalam posting blognya, “Insinyur ML mungkin tidak memiliki pengalaman dengan teknologi yang diperlukan untuk membangun aplikasi real-time, seperti WEBRTC.”
FASTRTC membahas masalah ini dengan fitur otomatis menangani bagian-bagian kompleks komunikasi real-time. Perpustakaan menyediakan deteksi suara, kemampuan pengambilan turn, antarmuka pengujian, dan bahkan pembuatan nomor telepon sementara untuk akses aplikasi.
Ingin membangun aplikasi real-time dengan @Googledeepmind Gemini 2.0 Flash? FASTRTC memungkinkan Anda membangun aplikasi real-time berbasis Python menggunakan Gradio-UI. ?
? Mengubah fungsi Python menjadi aliran audio/video dua arah dengan kode minimal
– Philipp Schmid (@_philschmid) 26 Februari 2025
? ️ Deteksi suara bawaan dan otomatis… pic.twitter.com/o835htr0hl
Dari infrastruktur kompleks ke lima baris kode
Keuntungan utama perpustakaan adalah kesederhanaannya. Pengembang dilaporkan dapat membuat aplikasi audio real-time dasar hanya dalam beberapa baris kode-kontras yang mencolok dengan minggu-minggu pekerjaan pengembangan yang sebelumnya diperlukan.
Pergeseran ini memiliki implikasi substansial bagi bisnis. Perusahaan yang sebelumnya membutuhkan insinyur komunikasi khusus sekarang dapat memanfaatkan pengembang Python yang ada untuk membangun fitur AI suara dan video.
“Anda dapat menggunakan API LLM/Text-to-speech/ucapan-ke-teks atau bahkan model ucapan-ke-pidato. Bawa alat yang Anda sukai-FASTRTC hanya menangani lapisan komunikasi real-time, ”pengumuman itu menjelaskan.
Hot Take: WebRTC harus menjadi salah satu baris kode Python
Memperkenalkan FASTRTC⚡️ Dari Gradio!
Mulai sekarang: Pip Instal FASTRTC
apa yang Anda dapatkan:
– Hubungi AI Anda dari telepon sungguhan
– Deteksi suara otomatis
– Bekerja dengan model apa pun
– Lingkungan instan UI untuk pengujianIni mengubah segalanya pic.twitter.com/KVX436XBGN
– gradio (@gradio) 25 Februari 2025
Gelombang inovasi suara dan video yang akan datang
Pengenalan FASTRTC menandakan titik balik dalam pengembangan aplikasi AI. Dengan menghilangkan hambatan teknis yang signifikan, alat ini membuka kemungkinan yang tetap teoritis bagi banyak pengembang.
Dampaknya bisa sangat berarti bagi perusahaan kecil dan pengembang independen. Sementara raksasa teknologi seperti Google dan Openai memiliki sumber daya teknik untuk membangun infrastruktur komunikasi real-time khusus, sebagian besar organisasi tidak. FASTRTC pada dasarnya menyediakan akses ke kemampuan yang sebelumnya disediakan untuk mereka yang memiliki tim khusus.
“Cookbook” perpustakaan sudah menampilkan beragam aplikasi: obrolan suara yang ditenagai oleh berbagai model bahasa, deteksi objek video real-time, dan pembuatan kode interaktif melalui perintah suara.
Yang paling penting adalah waktunya. FASTRTC tiba tepat ketika antarmuka AI bergeser dari interaksi berbasis teks ke pengalaman multimodal yang lebih alami. Sistem AI yang paling canggih saat ini dapat memproses dan menghasilkan teks, gambar, audio, dan video-tetapi menggunakan kemampuan ini dalam aplikasi yang responsif dan real-time tetap menantang.
Dengan menjembatani kesenjangan antara model AI dan komunikasi real-time, FASTRTC tidak hanya membuat pengembangan lebih mudah-itu berpotensi mempercepat pergeseran yang lebih luas ke arah pengalaman AI pertama dan video yang ditingkatkan yang terasa lebih manusiawi dan lebih sedikit seperti komputer.
Bagi pengguna, ini bisa berarti lebih banyak antarmuka alami di seluruh aplikasi. Untuk bisnis, ini berarti implementasi fitur yang lebih cepat yang diharapkan pelanggan mereka.
Pada akhirnya, FASTRTC membahas masalah klasik dalam teknologi: kemampuan yang kuat seringkali tetap tidak digunakan sampai mereka dapat diakses oleh pengembang arus utama. Dengan menyederhanakan apa yang dulunya rumit, memeluk wajah telah menghilangkan salah satu hambatan besar terakhir yang berdiri di antara model AI canggih saat ini dan aplikasi pertama suara masa depan.