
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Meta hari ini mengumumkan kemitraan dengan Cerebras Systems untuk memberi daya pada API Llama baru, menawarkan pengembang akses ke kecepatan inferensi hingga 18 kali lebih cepat daripada solusi berbasis GPU tradisional.
Pengumuman itu, dibuat di konferensi pengembang Llamacon perdana Meta di Menlo Park, memposisikan perusahaan untuk bersaing langsung dengan Openai, Anthropic, dan Google di pasar layanan inferensi AI yang berkembang pesat, di mana pengembang membeli token dengan miliaran untuk memberi daya pada aplikasi mereka.
“Meta telah memilih Cerebras untuk berkolaborasi untuk memberikan kesimpulan yang sangat cepat yang mereka butuhkan untuk melayani pengembang melalui API Llama baru mereka,” kata Julie Shin Choi, chief marketing officer di Cerebras, selama briefing pers. “Kami di Cerbras benar-benar bersemangat untuk mengumumkan kemitraan Hyperscaler CSP pertama kami untuk memberikan inferensi yang sangat cepat kepada semua pengembang.”
Kemitraan ini menandai masuknya formal meta ke dalam bisnis penjualan perhitungan AI, mengubah model llama open-source yang populer menjadi layanan komersial. Sementara model Llama Meta telah mengumpulkan lebih dari satu miliar unduhan, sampai sekarang perusahaan belum menawarkan infrastruktur cloud pihak pertama bagi pengembang untuk membangun aplikasi dengan mereka.
“Ini sangat menarik, bahkan tanpa membicarakan cerebras secara khusus,” kata James Wang, seorang eksekutif senior di Cerbras. “Openai, Antropik, Google – Mereka telah membangun seluruh bisnis AI baru dari awal, yang merupakan bisnis inferensi AI. Pengembang yang membangun aplikasi AI akan membeli token oleh jutaan orang, kadang -kadang miliaran. Dan ini seperti instruksi komputasi baru yang dibutuhkan orang untuk membangun aplikasi AI.”
Breaking the Speed Barrier: Bagaimana Cerebras Supercharges Llama Model
Yang membedakan Meta yang terpisah adalah peningkatan kecepatan dramatis yang disediakan oleh chip AI khusus Cerebras. Sistem cerebras memberikan lebih dari 2.600 token per detik untuk Llama 4 Scout, dibandingkan dengan sekitar 130 token per detik untuk chatgpt dan sekitar 25 token per detik untuk Deepseek, menurut tolok ukur dari analisis buatan.
“Jika Anda hanya membandingkan berdasarkan API-ke-API, Gemini dan GPT, mereka semua model hebat, tetapi mereka semua berjalan dengan kecepatan GPU, yang kira-kira sekitar 100 token per detik,” Wang menjelaskan. “Dan 100 token per detik tidak masalah untuk mengobrol, tapi sangat lambat untuk penalaran. Sangat lambat untuk agen. Dan orang -orang berjuang dengan itu hari ini.”
Keuntungan kecepatan ini memungkinkan kategori aplikasi yang sama sekali baru yang sebelumnya tidak praktis, termasuk agen waktu-nyata, sistem suara latensi rendah percakapan, pembuatan kode interaktif, dan penalaran multi-langkah instan-yang semuanya membutuhkan rantai beberapa panggilan model bahasa besar yang sekarang dapat diselesaikan dalam hitungan detik daripada menit.
API Llama merupakan perubahan signifikan dalam strategi AI Meta, transisi dari terutama penyedia model menjadi perusahaan infrastruktur AI layanan lengkap. Dengan menawarkan layanan API, Meta menciptakan aliran pendapatan dari investasi AI sambil mempertahankan komitmennya terhadap model terbuka.
“Meta sekarang dalam bisnis penjualan token, dan itu bagus untuk jenis ekosistem AI Amerika,” kata Wang selama konferensi pers. “Mereka membawa banyak ke meja.”
API akan menawarkan alat untuk menyempurnakan dan evaluasi, dimulai dengan model LLAMA 3.3 8B, memungkinkan pengembang untuk menghasilkan data, melatihnya, dan menguji kualitas model khusus mereka. Meta menekankan bahwa ia tidak akan menggunakan data pelanggan untuk melatih modelnya sendiri, dan model yang dibangun menggunakan API LLAMA dapat ditransfer ke host lain – diferensiasi yang jelas dari pendekatan yang lebih tertutup beberapa pesaing.
Cerebras akan memberi daya pada layanan baru Meta melalui jaringan pusat data yang berlokasi di seluruh Amerika Utara, termasuk fasilitas di Dallas, Oklahoma, Minnesota, Montreal, dan California.
“Semua pusat data kami yang melayani inferensi berada di Amerika Utara saat ini,” Choi menjelaskan. “Kami akan menyajikan meta dengan kapasitas penuh cerebras. Beban kerja akan seimbang di semua pusat data yang berbeda ini.”
Pengaturan bisnis mengikuti apa yang Choi gambarkan sebagai “penyedia komputasi klasik untuk model hyperscaler”, mirip dengan bagaimana NVIDIA menyediakan perangkat keras untuk penyedia cloud utama. “Mereka memesan blok dari komputasi kami bahwa mereka dapat melayani populasi pengembang mereka,” katanya.
Di luar cerebras, Meta juga telah mengumumkan kemitraan dengan GROQ untuk memberikan opsi inferensi cepat, memberikan pengembang beberapa alternatif berkinerja tinggi di luar inferensi berbasis GPU tradisional.
Masuknya Meta ke pasar API inferensi dengan metrik kinerja yang unggul berpotensi mengganggu pesanan mapan yang didominasi oleh OpenAI, Google, dan Antropik. Dengan menggabungkan popularitas model open-source-nya dengan kemampuan inferensi yang lebih cepat secara dramatis, Meta memposisikan dirinya sebagai pesaing yang tangguh di ruang AI komersial.
“Meta berada dalam posisi unik dengan 3 miliar pengguna, pusat data skala hiper, dan ekosistem pengembang yang sangat besar,” menurut bahan presentasi Cerebras. Integrasi Teknologi Cerebras “Membantu Meta Leapfrog Openai dan Google dalam Kinerja sekitar 20x.”
Untuk cerebras, kemitraan ini merupakan tonggak utama dan validasi pendekatan perangkat keras AI khusus. “Kami telah membangun mesin skala wafer ini selama bertahun-tahun, dan kami selalu tahu bahwa tingkat pertama teknologi tersebut, tetapi pada akhirnya harus berakhir sebagai bagian dari cloud hiperscale orang lain. Itu adalah target akhir dari perspektif strategi komersial, dan kami akhirnya mencapai tonggak sejarah itu,” kata Wang.
API LLAMA saat ini tersedia sebagai pratinjau terbatas, dengan Meta merencanakan peluncuran yang lebih luas dalam beberapa minggu dan bulan mendatang. Pengembang yang tertarik untuk mengakses inferensi Llama 4 ultra-cepat dapat meminta akses awal dengan memilih cerebras dari opsi model dalam LLAMA API.
“Jika Anda membayangkan pengembang yang tidak tahu apa-apa tentang cerebras karena kami adalah perusahaan yang relatif kecil, mereka hanya dapat mengklik dua tombol pada perangkat lunak standar Meta SDK, menghasilkan kunci API, pilih bendera cerebras, dan tiba-tiba, token mereka diproses pada mesin skala wafer raksasa,” Wang menjelaskan. “Memiliki kita seperti itu berada di bagian belakang seluruh ekosistem pengembang Meta sangat luar biasa bagi kita.”
Pilihan meta silikon khusus menandakan sesuatu yang mendalam: pada fase AI berikutnya, bukan hanya apa yang diketahui model Anda, tetapi seberapa cepat mereka bisa memikirkannya. Di masa depan itu, kecepatan bukan hanya fitur – itulah intinya.