
Sarung tangan keluar Selasa di VB Transform 2025 sebagai pembuat chip alternatif secara langsung menantang narasi dominasi Nvidia selama panel tentang inferensi, mengungkap kontradiksi mendasar: bagaimana inferensi AI bisa menjadi “Pabrik” yang dikomoditisasi dan perintah 70% margin kotor?
Jonathan Ross, CEO Groq, tidak berbasa -basi saat membahas pesan Nvidia yang dibuat dengan cermat. “Pabrik AI hanyalah cara pemasaran untuk membuat AI terdengar kurang menakutkan,” kata Ross selama panel. Sean Lie, CTO dari Cerebras, seorang pesaing, sama -sama langsung: “Saya tidak berpikir Nvidia Minds memiliki semua penyedia layanan yang berjuang untuk setiap sen terakhir saat mereka duduk di sana nyaman dengan 70 poin.”
Ratusan miliar investasi infrastruktur dan arsitektur AI perusahaan di masa depan dipertaruhkan. Untuk para pemimpin CISO dan AI yang saat ini terkunci dalam negosiasi mingguan dengan Openai dan penyedia lain untuk lebih banyak kapasitas, panel ini mengungkapkan kebenaran yang tidak nyaman tentang mengapa inisiatif AI mereka terus memukul penghalang jalan.
Krisis kapasitas tidak ada yang dibicarakan
“Siapa pun yang sebenarnya pengguna besar dari model AI Gen ini tahu bahwa Anda dapat pergi ke Openai, atau siapa pun itu, dan mereka tidak akan benar -benar dapat melayani Anda cukup banyak token,” jelas Dylan Patel, pendiri semianalisis. Ada pertemuan mingguan antara beberapa pengguna AI terbesar dan penyedia model mereka untuk mencoba membujuk mereka untuk mengalokasikan lebih banyak kapasitas. Lalu ada pertemuan mingguan antara penyedia model dan penyedia perangkat keras mereka. ”
Peserta panel juga menunjuk pada kekurangan token saat mengungkap cacat mendasar dalam analogi pabrik. Manufaktur tradisional menanggapi sinyal permintaan dengan menambah kapasitas. Namun, ketika perusahaan membutuhkan kapasitas inferensi 10 kali lebih banyak, mereka menemukan bahwa rantai pasokan tidak dapat melenturkan. GPU membutuhkan waktu tunggu dua tahun. Pusat data membutuhkan izin dan perjanjian daya. Infrastruktur tidak dibangun untuk penskalaan eksponensial, memaksa penyedia untuk mengakses ransum melalui batas API.
Menurut Patel, antropik melonjak dari $ 2 miliar menjadi $ 3 miliar dalam ARR hanya dalam enam bulan. Kursor berubah dari nol menjadi $ 500 juta ARR. Openai melintasi $ 10 miliar. Namun perusahaan masih tidak bisa mendapatkan token yang mereka butuhkan.
Mengapa pemikiran 'pabrik' merusak ekonomi AI
Konsep “Pabrik AI” Jensen Huang menyiratkan standardisasi, komoditisasi dan peningkatan efisiensi yang menurunkan biaya. Tetapi panel mengungkapkan tiga cara mendasar metafora ini rusak:
Pertama, inferensi tidak seragam. “Bahkan hari ini, untuk kesimpulan, katakanlah, Deepseek, ada sejumlah penyedia di sepanjang kurva seberapa cepat mereka menyediakan berapa biaya,” kata Patel. Deepseek menyajikan modelnya sendiri dengan biaya terendah tetapi hanya menghasilkan 20 token per detik. “Tidak ada yang ingin menggunakan model pada 20 token per detik. Saya berbicara lebih cepat dari 20 token per detik.”
Kedua, kualitas bervariasi secara liar. Ross menggambar paralel historis dengan minyak standar: “Ketika minyak standar dimulai, minyak memiliki kualitas yang bervariasi. Anda dapat membeli minyak dari satu vendor dan mungkin membakar rumah Anda.” Pasar inferensi AI saat ini menghadapi variasi kualitas yang sama, dengan penyedia menggunakan berbagai teknik untuk mengurangi biaya yang secara tidak sengaja membahayakan kualitas output.
Ketiga, dan yang paling kritis, ekonomi terbalik. “Salah satu hal yang tidak biasa tentang AI adalah bahwa Anda tidak dapat menghabiskan lebih banyak untuk mendapatkan hasil yang lebih baik,” jelas Ross. “Anda tidak bisa hanya memiliki aplikasi perangkat lunak, katakanlah, saya akan menghabiskan dua kali lebih banyak untuk meng -host perangkat lunak saya, dan aplikasi bisa menjadi lebih baik.”
Ketika Ross menyebutkan bahwa Mark Zuckerberg memuji Groq karena menjadi “satu -satunya yang meluncurkannya dengan kualitas penuh,” ia secara tidak sengaja mengungkapkan krisis kualitas industri. Ini bukan hanya pengakuan. Itu adalah dakwaan dari setiap sudut pemotongan penyedia lainnya.
Ross menjabarkan mekanik: “Banyak orang melakukan banyak trik untuk mengurangi kualitas, bukan dengan sengaja, tetapi untuk menurunkan biaya mereka, meningkatkan kecepatan mereka.” Tekniknya terdengar teknis, tetapi dampaknya langsung. Kuantisasi mengurangi presisi. Pemangkasan menghapus parameter. Setiap optimasi menurunkan kinerja model dengan cara yang tidak boleh dideteksi oleh perusahaan sampai produksi gagal.
Paralel minyak standar Ross menggambar taruhannya. Pasar inferensi saat ini menghadapi masalah varian kualitas yang sama. Penyedia bertaruh bahwa perusahaan tidak akan melihat perbedaan antara 95% dan akurasi 100% bertaruh terhadap perusahaan seperti meta yang memiliki kecanggihan untuk mengukur degradasi.
Ini menciptakan keharusan langsung bagi pembeli perusahaan.
- Menetapkan tolok ukur berkualitas sebelum memilih penyedia.
- Audit mitra inferensi yang ada untuk optimasi yang tidak diungkapkan.
- Terima bahwa harga premium untuk Fidelity model penuh sekarang menjadi fitur pasar permanen. Era mengasumsikan kesetaraan fungsional di seluruh penyedia inferensi berakhir ketika Zuckerberg memanggil perbedaannya.
Paradoks token $ 1 juta
Momen yang paling terbuka datang ketika panel membahas harga. Lie menyoroti kebenaran yang tidak nyaman bagi industri: “Jika jutaan token ini sama berharganya dengan yang kami yakini, bukan? Itu bukan tentang memindahkan kata-kata. Anda tidak mengenakan biaya $ 1 untuk menggerakkan kata-kata. Saya membayar pengacara saya $ 800 untuk satu jam untuk menulis memo dua halaman.”
Pengamatan ini memotong jantung masalah penemuan harga AI. Industri ini berlomba untuk mendorong biaya token di bawah $ 1,50 per juta sambil mengklaim token ini akan mengubah setiap aspek bisnis. Panel secara implisit setuju satu sama lain bahwa matematika tidak bertambah.
“Hampir semua orang menghabiskan, seperti semua startup yang tumbuh cepat ini, jumlah yang mereka belanjakan untuk token sebagai layanan hampir cocok dengan pendapatan mereka satu lawan satu,” ungkap Ross. Rasio pengeluaran 1: 1 ini pada token AI versus pendapatan mewakili model bisnis yang tidak berkelanjutan bahwa peserta panel berpendapat bahwa narasi “pabrik” dengan mudah diabaikan.
Kinerja mengubah segalanya
Cerebras dan Groq tidak hanya bersaing dengan harga; Mereka juga bersaing dengan kinerja. Mereka pada dasarnya mengubah apa yang mungkin dalam hal kecepatan inferensi. “Dengan teknologi skala wafer yang telah kami bangun, kami memungkinkan 10 kali, kadang -kadang 50 kali, kinerja lebih cepat daripada bahkan GPU tercepat saat ini,” kata Lie.
Ini bukan peningkatan bertahap. Ini memungkinkan kasus penggunaan yang sama sekali baru. “Kami memiliki pelanggan yang memiliki alur kerja agen yang mungkin memakan waktu 40 menit, dan mereka ingin hal -hal ini berjalan secara real time,” Lie menjelaskan. “Hal -hal ini bahkan tidak mungkin, bahkan jika Anda bersedia membayar top dolar.”
Perbedaan kecepatan menciptakan pasar bercabang dua yang menentang standardisasi pabrik. Perusahaan yang membutuhkan inferensi real-time untuk aplikasi yang menghadap pelanggan tidak dapat menggunakan infrastruktur yang sama dengan yang menjalankan proses batch semalam.
The Real Hottleneck: Pusat Daya dan Data
Sementara semua orang berfokus pada pasokan chip, panel mengungkapkan penyebaran AI yang melambaikan kendala yang sebenarnya. “Kapasitas pusat data adalah masalah besar. Anda tidak dapat menemukan ruang pusat data di AS,” kata Patel. “Kekuatan adalah masalah besar.”
Tantangan infrastruktur melampaui manufaktur chip hingga kendala sumber daya mendasar. Seperti yang dijelaskan Patel, “TSMC di Taiwan dapat menghasilkan lebih dari $ 200 juta chip, kan? Bahkan bukan … itu adalah kecepatan di mana mereka ditingkatkan adalah konyol.”
Tetapi produksi chip tidak ada artinya tanpa infrastruktur. “Alasan kami melihat penawaran Timur Tengah yang besar ini, dan sebagian mengapa kedua perusahaan ini memiliki kehadiran besar di Timur Tengah, itu kekuatannya,” ungkap Patel. Perebutan global untuk komputasi memiliki perusahaan “melintasi dunia untuk mendapatkan ke mana pun daya ada, di mana pun kapasitas pusat data ada, di mana pun ada tukang listrik yang dapat membangun sistem listrik ini.”
'Keberhasilan bencana' Google menjadi kenyataan semua orang
Ross berbagi anekdot yang menceritakan dari sejarah Google: “Ada istilah yang menjadi sangat populer di Google pada tahun 2015 yang disebut Success Disaster. Beberapa tim telah membangun aplikasi AI yang mulai bekerja lebih baik daripada manusia untuk pertama kalinya, dan permintaan untuk komputasi sangat tinggi, mereka perlu menggandakan atau tiga kali lipat dari pusat data global dengan cepat.
Pola ini sekarang berulang di setiap penyebaran AI perusahaan. Aplikasi gagal mendapatkan traksi atau mengalami pertumbuhan tongkat hoki yang segera mencapai batas infrastruktur. Tidak ada jalan tengah, tidak ada kurva penskalaan yang lancar yang akan diprediksi oleh ekonomi pabrik.
Apa artinya ini untuk strategi AI perusahaan
Untuk pemimpin CIO, CISO dan AI, wahyu panel menuntut kalibrasi ulang strategis:
Perencanaan kapasitas membutuhkan model baru. Perkiraan IT tradisional mengasumsikan pertumbuhan linier. Beban kerja AI merusak asumsi ini. Ketika aplikasi yang berhasil meningkatkan konsumsi token sebesar 30% setiap bulan, rencana kapasitas tahunan menjadi usang dalam perempat. Perusahaan harus bergeser dari siklus pengadaan statis ke manajemen kapasitas dinamis. Membangun kontrak dengan ketentuan burst. Monitor penggunaan mingguan, bukan triwulanan. Terima bahwa pola penskalaan AI menyerupai kurva adopsi virus, bukan peluncuran perangkat lunak perusahaan tradisional.
Premi kecepatan bersifat permanen. Gagasan bahwa inferensi akan membuat komoditas harga yang seragam mengabaikan kesenjangan kinerja besar -besaran antara penyedia. Perusahaan perlu menganggarkan untuk kecepatan di mana itu penting.
Arsitektur mengalahkan optimasi. Groq dan cerebras tidak menang dengan melakukan GPU lebih baik. Mereka menang dengan memikirkan kembali arsitektur fundamental AI Compute. Perusahaan yang bertaruh semuanya pada infrastruktur berbasis GPU mungkin terjebak di jalur lambat.
Infrastruktur kekuasaan bersifat strategis. Kendala bukan chip atau perangkat lunak tetapi kilowatt dan pendinginan. Perusahaan pintar sudah mengunci kapasitas daya dan ruang pusat data untuk 2026 dan seterusnya.
Infrastruktur realitas yang tidak bisa diabaikan oleh perusahaan
Panel mengungkapkan kebenaran mendasar: metafora pabrik AI tidak hanya salah, tetapi juga berbahaya. Perusahaan membangun strategi seputar penetapan harga inferensi komoditas dan pengiriman standar berencana untuk pasar yang tidak ada.
Pasar nyata beroperasi pada tiga realitas brutal.
- Kelangkaan kapasitas menciptakan inversi daya, di mana pemasok menentukan istilah dan perusahaan memohon alokasi.
- Varian kualitas, perbedaan antara akurasi 95% dan 100%, menentukan apakah aplikasi AI Anda berhasil atau gagal secara bencana.
- Kendala infrastruktur, bukan teknologi, menetapkan batas pengikatan pada transformasi AI.
Jalan ke depan untuk para pemimpin CISO dan AI membutuhkan pemikiran pabrik sepenuhnya. Kunci kapasitas daya sekarang. Penyedia inferensi audit untuk degradasi kualitas tersembunyi. Bangun hubungan vendor berdasarkan keunggulan arsitektur, bukan penghematan biaya marjinal. Paling kritis, terima bahwa membayar margin 70% untuk inferensi yang andal dan berkualitas tinggi mungkin merupakan investasi paling cerdas Anda.
Pembuat chip alternatif di Transform tidak hanya menantang narasi Nvidia. Mereka mengungkapkan bahwa perusahaan menghadapi pilihan: membayar kualitas dan kinerja, atau bergabung dengan pertemuan negosiasi mingguan. Konsensus panel jelas: keberhasilan membutuhkan pencocokan beban kerja spesifik dengan infrastruktur yang tepat daripada mengejar solusi satu ukuran untuk semua.