
Artikel ini adalah bagian dari edisi khusus VentureBeat, “Biaya Nyata AI: Kinerja, Efisiensi, dan ROI pada skala.” Baca lebih lanjut dari edisi khusus ini.
AI telah menjadi cawan suci perusahaan modern. Baik itu layanan pelanggan atau sesuatu yang sama seperti pemeliharaan pipa, organisasi di setiap domain sekarang menerapkan teknologi AI – dari model yayasan hingga VLA – untuk membuat hal -hal lebih efisien. Tujuannya mudah: mengotomatiskan tugas untuk memberikan hasil lebih efisien dan menghemat uang dan sumber daya secara bersamaan.
Namun, ketika proyek -proyek ini beralih dari pilot ke tahap produksi, tim menghadapi rintangan yang belum mereka rencanakan: biaya cloud mengikis margin mereka. Guncangan stiker sangat buruk sehingga apa yang pernah terasa seperti jalan tercepat menuju inovasi dan keunggulan kompetitif menjadi lubang hitam anggaran yang tidak berkelanjutan – dalam waktu singkat.
Ini mendorong CIO untuk memikirkan kembali semuanya – dari arsitektur model hingga model penyebaran – untuk mendapatkan kembali kendali atas aspek keuangan dan operasional. Terkadang, mereka bahkan menutup proyek sepenuhnya, mulai dari awal.
Tapi inilah faktanya: Meskipun cloud dapat mengambil biaya ke level yang tak tertahankan, itu bukan penjahat. Anda hanya perlu memahami jenis kendaraan apa (infrastruktur AI) untuk memilih untuk pergi ke jalan mana (beban kerja).
Kisah Cloud – dan di mana ia bekerja
Cloud sangat mirip dengan transportasi umum (kereta bawah tanah dan bus Anda). Anda bergabung dengan model sewa sederhana, dan secara instan memberi Anda semua sumber daya – dari contoh dari GPU hingga penskalaan cepat di berbagai geografi – untuk membawa Anda ke tujuan, semuanya dengan pekerjaan dan pengaturan minimal.
Akses yang cepat dan mudah melalui model layanan memastikan awal yang mulus, membuka jalan untuk menyelesaikan proyek dan melakukan eksperimen yang cepat tanpa pengeluaran modal di muka yang besar untuk memperoleh GPU khusus.
Sebagian besar startup tahap awal menemukan model ini menguntungkan karena mereka membutuhkan perputaran cepat lebih dari apa pun, terutama ketika mereka masih memvalidasi model dan menentukan kesesuaian pasar produk.
Anda membuat akun, klik beberapa tombol, dan dapatkan akses ke server. Jika Anda membutuhkan ukuran GPU yang berbeda, Anda menutup dan memulai kembali contoh dengan spesifikasi baru, yang membutuhkan waktu beberapa menit. Jika Anda ingin menjalankan dua percobaan sekaligus, Anda menginisialisasi dua contoh yang terpisah. Pada tahap awal, fokusnya adalah pada ide-ide yang divalidasi dengan cepat. Menggunakan penskalaan built-in dan eksperimen “roums,” Fokusnya adalah pada ide-ide yang divalidasi dengan cepat. Menggunakan penskalaan built-in dan percobaan Eksperimen ” Produk Voice AI di Pidato, mengatakan kepada VentureBeat.
Biaya “kemudahan”
Sementara cloud sangat masuk akal untuk penggunaan tahap awal, matematika infrastruktur menjadi suram ketika transisi proyek dari pengujian dan validasi ke volume dunia nyata. Skala beban kerja membuat tagihan brutal – sedemikian rupa sehingga biaya dapat melonjak lebih dari 1000% dalam semalam.
Ini terutama berlaku dalam kasus inferensi, yang tidak hanya harus berjalan 24/7 untuk memastikan uptime layanan tetapi juga skala dengan permintaan pelanggan.
Pada sebagian besar kesempatan, Sarin menjelaskan, permintaan inferensi lonjakan ketika pelanggan lain juga meminta akses GPU, meningkatkan persaingan untuk sumber daya. Dalam kasus seperti itu, tim mempertahankan kapasitas yang dipesan untuk memastikan mereka mendapatkan apa yang mereka butuhkan-yang mengarah ke waktu GPU yang menganggur selama jam-jam non-puncak-atau menderita latensi, memengaruhi pengalaman hilir.
Christian Khoury, CEO platform kepatuhan AI Easyaudit AI, menggambarkan kesimpulan sebagai “pajak cloud” yang baru, mengatakan kepada VentureBeat bahwa ia telah melihat perusahaan berubah dari $ 5k menjadi $ 50k/bulan semalam, hanya dari lalu lintas inferensi.
Perlu juga dicatat bahwa beban kerja inferensi yang melibatkan LLM, dengan harga berbasis token, dapat memicu kenaikan biaya paling curam. Ini karena model-model ini non-deterministik dan dapat menghasilkan output yang berbeda saat menangani tugas yang berjalan lama (melibatkan jendela konteks besar). Dengan pembaruan berkelanjutan, akan sangat sulit untuk memperkirakan atau mengendalikan biaya inferensi LLM.
Melatih model -model ini, pada bagiannya, kebetulan “meledak” (terjadi dalam kelompok), yang menyisakan beberapa ruang untuk perencanaan kapasitas. Namun, bahkan dalam kasus -kasus ini, terutama karena kekuatan kompetisi yang terus bertambah sering melatih kembali, perusahaan dapat memiliki tagihan besar -besaran dari waktu GPU yang menganggur, yang berasal dari penyediaan berlebihan.
“Kredit pelatihan pada platform cloud mahal, dan sering melatih kembali selama siklus iterasi cepat dapat meningkatkan biaya dengan cepat. Pelatihan panjang membutuhkan akses ke mesin besar, dan sebagian besar penyedia cloud hanya menjamin akses jika Anda memesan kapasitas selama setahun atau lebih. Jika pelatihan Anda hanya berlangsung beberapa minggu, Anda masih membayar untuk sisa tahun,” Sarin menjelaskan.
Dan, bukan hanya ini. Lock-in cloud sangat nyata. Misalkan Anda telah membuat reservasi jangka panjang dan membeli kredit dari penyedia. Dalam hal ini, Anda terkunci di ekosistem mereka dan harus menggunakan apa pun yang mereka tawarkan, bahkan ketika penyedia lain telah pindah ke infrastruktur yang lebih baru dan lebih baik. Dan, akhirnya, ketika Anda mendapatkan kemampuan untuk bergerak, Anda mungkin harus menanggung biaya jalan keluar yang besar.
“Ini bukan hanya biaya komputasi. Anda mendapatkan … autoscaling yang tidak dapat diprediksi, dan biaya jalan keluar yang gila jika Anda memindahkan data antara daerah atau vendor. Satu tim membayar lebih untuk memindahkan data daripada melatih model mereka,” Sarin menekankan.
Jadi, apa solusi?
Mengingat permintaan infrastruktur yang konstan untuk menskalakan inferensi AI dan sifat pelatihan yang meledak, perusahaan bergerak untuk membagi beban kerja-mengambil inferensi ke colocation atau tumpukan di-prem, sambil meninggalkan pelatihan ke cloud dengan instance spot.
Ini bukan hanya teori – ini adalah gerakan yang berkembang di antara para pemimpin teknik yang mencoba menempatkan AI ke dalam produksi tanpa membakar landasan pacu.
“Kami telah membantu tim beralih ke colocation untuk inferensi menggunakan server GPU khusus yang mereka kendalikan. Ini tidak seksi, tetapi memotong infra bulanan yang dihabiskan sebesar 60-80%,” tambah Khoury. “Hybrid tidak hanya lebih murah – itu lebih pintar.”
Dalam satu kasus, katanya, sebuah perusahaan SaaS mengurangi tagihan infrastruktur AI bulanan dari sekitar $ 42.000 menjadi hanya $ 9.000 dengan memindahkan beban kerja inferensi dari cloud. Sakelar dibayar sendiri dalam waktu kurang dari dua minggu.
Tim lain yang membutuhkan tanggapan sub-50ms yang konsisten untuk alat dukungan pelanggan AI menemukan bahwa latensi inferensi berbasis cloud tidak mencukupi. Menggeser inferensi lebih dekat dengan pengguna melalui colocation tidak hanya menyelesaikan kemacetan kinerja – tetapi juga mengurangi biaya.
Pengaturan ini biasanya berfungsi seperti ini: inferensi, yang selalu aktif dan sensitif latensi, berjalan pada GPU khusus baik di Prem maupun di pusat data terdekat (fasilitas colocation). Sementara itu, pelatihan, yang merupakan komputasi intensif tetapi sporadis, tetap di awan, di mana Anda dapat memutar cluster yang kuat sesuai permintaan, berlari selama beberapa jam atau hari, dan ditutup.
Secara umum, diperkirakan bahwa menyewa dari penyedia cloud hyperscale dapat menelan biaya tiga hingga empat kali lebih banyak per jam GPU daripada bekerja dengan penyedia yang lebih kecil, dengan perbedaannya bahkan lebih signifikan dibandingkan dengan infrastruktur on-prem.
Bonus besar lainnya? Prediktabilitas.
Dengan tumpukan on-prem atau colocation, tim juga memiliki kendali penuh atas jumlah sumber daya yang ingin mereka sembar atau tambahkan untuk dasar yang diharapkan dari beban kerja inferensi. Ini membawa prediktabilitas pada biaya infrastruktur – dan menghilangkan tagihan kejutan. Ini juga menurunkan upaya rekayasa agresif untuk menyetel penskalaan dan menjaga biaya infrastruktur cloud.
Pengaturan hibrida juga membantu mengurangi latensi untuk aplikasi AI yang sensitif terhadap waktu dan memungkinkan kepatuhan yang lebih baik, terutama untuk tim yang beroperasi di industri yang sangat diatur seperti keuangan, perawatan kesehatan, dan pendidikan-di mana residensi data dan tata kelola tidak dapat dinegosiasikan.
Kompleksitas hibrida itu nyata – tetapi jarang menjadi orang dealbreaker
Seperti yang selalu terjadi, pergeseran ke pengaturan hybrid hadir dengan pajak OPS sendiri. Menyiapkan perangkat keras Anda sendiri atau menyewa fasilitas colocation membutuhkan waktu, dan mengelola GPU di luar cloud membutuhkan berbagai jenis otot teknik.
Namun, para pemimpin berpendapat bahwa kompleksitas ini sering dilebih-lebihkan dan biasanya dapat dikelola di rumah atau melalui dukungan eksternal, kecuali seseorang beroperasi pada skala ekstrem.
Perhitungan kami menunjukkan bahwa server GPU on-prem harganya hampir sama dengan enam hingga sembilan bulan menyewa contoh yang setara dari AWS, Azure, atau Google Cloud, bahkan dengan tarif satu tahun yang dipesan. Karena perangkat keras biasanya berlangsung setidaknya tiga tahun, dan seringkali lebih dari lima, ini menjadi model yang positif dalam pembunuhan modal dalam waktu sembilan bulan. Beberapa vendor perangkat keras juga menawarkan pengoperasian modal. Kekhawatiran, ”Sarin menjelaskan.
Memprioritaskan berdasarkan kebutuhan
Untuk perusahaan mana pun, apakah startup atau perusahaan, kunci keberhasilan saat arsitek-atau mengarsipkan kembali-infrastruktur AI terletak pada bekerja sesuai dengan beban kerja spesifik yang ada.
Jika Anda tidak yakin tentang beban beban kerja AI yang berbeda, mulailah dengan cloud dan perhatikan biaya yang terkait dengan menandai setiap sumber daya dengan tim yang bertanggung jawab. Anda dapat berbagi laporan biaya ini dengan semua manajer dan melakukan penyelaman mendalam tentang apa yang mereka gunakan dan dampaknya pada sumber daya. Data ini kemudian akan memberikan kejelasan dan membantu membuka jalan untuk mendorong efisiensi.
Yang mengatakan, ingatlah bahwa ini bukan tentang membuang awan sepenuhnya; Ini tentang mengoptimalkan penggunaannya untuk memaksimalkan efisiensi.
“Cloud masih bagus untuk eksperimen dan pelatihan bursty. Tetapi jika inferensi adalah beban kerja inti Anda, lepas dari treadmill sewa. Hibrida tidak hanya lebih murah … itu lebih pintar,” tambah Khoury. “Perlakukan cloud seperti prototipe, bukan rumah permanen. Jalankan matematika. Bicaralah dengan insinyur Anda. Cloud tidak akan pernah memberi tahu Anda kapan itu alat yang salah. Tapi tagihan AWS Anda akan.”