
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Peluncuran R1 oleh DeepSeek minggu ini adalah momen penting di bidang AI. Tidak ada yang mengira startup Tiongkok akan menjadi yang pertama menjatuhkan model penalaran yang cocok dengan o1 OpenAI dan menjadikannya sumber terbuka (sejalan dengan misi awal OpenAI) pada saat yang bersamaan.
Perusahaan dapat dengan mudah mengunduh bobot R1 melalui Hugging Face, namun akses tidak pernah menjadi masalah — lebih dari 80% tim menggunakan atau berencana menggunakan model terbuka. Penempatan adalah penyebab sebenarnya. Jika Anda menggunakan layanan hyperscaler, seperti Vertex AI, Anda terkunci di cloud tertentu. Di sisi lain, jika Anda melakukannya sendiri dan membangun sendiri, ada tantangan berupa keterbatasan sumber daya karena Anda harus menyiapkan selusin komponen berbeda untuk memulai, apalagi mengoptimalkan atau melakukan penskalaan ke hilir.
Untuk mengatasi tantangan ini, Y Combinator dan Pipeshift yang didukung SenseAI meluncurkan platform menyeluruh yang memungkinkan perusahaan untuk melatih, menerapkan, dan menskalakan model AI generatif sumber terbuka — LLM, model visi, model audio, dan model gambar — di semua bidang GPU cloud atau lokal. Perusahaan ini bersaing dengan domain yang berkembang pesat yang mencakup Baseten, Domino Data Lab, Together AI, dan Simplismart.
Proposisi nilai kuncinya? Pipeshift menggunakan mesin inferensi modular yang dapat dengan cepat dioptimalkan untuk kecepatan dan efisiensi, membantu tim tidak hanya menerapkan 30 kali lebih cepat tetapi juga mencapai lebih banyak hal dengan infrastruktur yang sama, sehingga menghasilkan penghematan biaya sebanyak 60%.
Bayangkan menjalankan inferensi senilai empat GPU hanya dengan satu.
Kemacetan orkestrasi
Saat Anda harus menjalankan model yang berbeda, menyatukan tumpukan MLOps yang fungsional secara internal — mulai dari mengakses komputasi, pelatihan, dan penyesuaian hingga penerapan dan pemantauan tingkat produksi — menjadi masalahnya. Anda harus menyiapkan 10 komponen dan instance inferensi yang berbeda untuk menyiapkan dan menjalankan semuanya, lalu menghabiskan ribuan jam teknis bahkan untuk pengoptimalan terkecil sekalipun.
“Ada beberapa komponen mesin inferensi,” Arko Chattopadhyay, salah satu pendiri dan CEO Pipeshift, mengatakan kepada VentureBeat. “Setiap kombinasi komponen ini menciptakan mesin berbeda dengan performa berbeda-beda untuk beban kerja yang sama. Mengidentifikasi kombinasi optimal untuk memaksimalkan ROI memerlukan eksperimen berulang selama berminggu-minggu dan penyesuaian pengaturan. Dalam sebagian besar kasus, tim internal membutuhkan waktu bertahun-tahun untuk mengembangkan jalur yang memungkinkan fleksibilitas dan modularisasi infrastruktur, sehingga mendorong perusahaan tertinggal di pasar dan juga mengakumulasi utang teknologi yang sangat besar.”
Meskipun ada startup yang menawarkan platform untuk menerapkan model terbuka di lingkungan cloud atau on-premise, Chattopadhyay mengatakan sebagian besar dari mereka adalah broker GPU, yang menawarkan solusi inferensi satu ukuran untuk semua. Akibatnya, mereka mempertahankan instans GPU terpisah untuk LLM berbeda, yang tidak membantu ketika tim ingin menghemat biaya dan mengoptimalkan kinerja.
Untuk mengatasinya, Chattopadhyay memulai Pipeshift dan mengembangkan kerangka kerja yang disebut arsitektur modular untuk cluster inferensi berbasis GPU (MAGIC), yang bertujuan untuk mendistribusikan tumpukan inferensi ke dalam bagian plug-and-play yang berbeda. Pekerjaan ini menciptakan sistem mirip Lego yang memungkinkan tim mengonfigurasi tumpukan inferensi yang tepat untuk beban kerja mereka, tanpa kerumitan rekayasa infrastruktur.
Dengan cara ini, tim dapat dengan cepat menambahkan atau menukar komponen inferensi yang berbeda untuk menyusun mesin inferensi khusus yang dapat memanfaatkan lebih banyak infrastruktur yang ada untuk memenuhi ekspektasi biaya, hasil, atau bahkan skalabilitas.
Misalnya, sebuah tim dapat menyiapkan sistem inferensi terpadu, di mana beberapa LLM khusus domain dapat dijalankan dengan hot-swapping pada satu GPU, dan memanfaatkannya secara maksimal.
Menjalankan empat beban kerja GPU dalam satu beban
Karena mengklaim menawarkan solusi inferensi modular adalah satu hal dan mewujudkannya adalah hal lain, pendiri Pipeshift dengan cepat menunjukkan manfaat dari penawaran perusahaan tersebut.
“Dalam hal biaya operasional…MAGIC memungkinkan Anda menjalankan LLM seperti Llama 3.1 8B pada >500 token/detik pada kumpulan GPU Nvidia tertentu tanpa kuantisasi atau kompresi model apa pun,” katanya. “Hal ini menghasilkan pengurangan biaya penskalaan secara besar-besaran karena GPU kini dapat menangani beban kerja yang besarnya 20-30 kali lipat dari apa yang awalnya dapat mereka capai dengan menggunakan platform asli yang ditawarkan oleh penyedia cloud.”
CEO mencatat bahwa perusahaan telah bekerja sama dengan 30 perusahaan dalam model berbasis lisensi tahunan.
Salah satunya adalah pengecer Fortune 500 yang awalnya menggunakan empat instans GPU independen untuk menjalankan empat model terbuka yang telah disesuaikan untuk dukungan otomatis dan alur kerja pemrosesan dokumen. Masing-masing cluster GPU ini melakukan penskalaan secara independen, sehingga menambah biaya tambahan yang sangat besar.
“Penyempurnaan skala besar tidak mungkin dilakukan karena kumpulan data menjadi lebih besar dan semua pipeline mendukung beban kerja GPU tunggal dan mengharuskan Anda mengunggah semua data sekaligus. Selain itu, tidak ada dukungan penskalaan otomatis dengan alat seperti AWS Sagemaker, sehingga sulit untuk memastikan penggunaan infra secara optimal, sehingga mendorong perusahaan untuk menyetujui kuota dan mencadangkan kapasitas terlebih dahulu untuk skala teoritis yang hanya mencapai 5% dari keseluruhan waktu. Kata Chattopadhyay.
Menariknya, setelah beralih ke arsitektur modular Pipeshift, semua penyempurnaan dibawa ke satu instance GPU yang menyajikannya secara paralel, tanpa partisi memori atau degradasi model apa pun. Hal ini menurunkan persyaratan untuk menjalankan beban kerja ini dari empat GPU menjadi satu GPU saja.
“Tanpa optimasi tambahan, kami dapat meningkatkan kemampuan GPU ke titik di mana GPU dapat menyajikan token lima kali lebih cepat untuk inferensi dan dapat menangani skala empat kali lebih tinggi,” tambah CEO. Secara keseluruhan, dia mengatakan bahwa perusahaan melihat jadwal penerapan 30 kali lebih cepat dan pengurangan biaya infrastruktur sebesar 60%.
Dengan arsitektur modular, Pipeshift ingin memposisikan dirinya sebagai platform pilihan untuk menerapkan semua model AI sumber terbuka yang mutakhir, termasuk DeepSeek R-1.
Namun, hal ini tidak akan mudah karena para pesaing terus mengembangkan penawaran mereka.
Misalnya, Simplismart, yang mengumpulkan $7 juta beberapa bulan lalu, mengambil pendekatan inferensi serupa yang dioptimalkan oleh perangkat lunak. Penyedia layanan cloud seperti Google Cloud dan Microsoft Azure juga memperkuat penawaran mereka masing-masing, meskipun Chattopadhyay berpendapat bahwa CSP ini akan lebih seperti mitra daripada pesaing dalam jangka panjang.
“Kami adalah platform untuk perkakas dan orkestrasi beban kerja AI, seperti halnya Databricks untuk kecerdasan data,” jelasnya. “Dalam sebagian besar skenario, sebagian besar penyedia layanan cloud akan berubah menjadi mitra GTM pada tahap pertumbuhan karena nilai yang dapat diperoleh pelanggan mereka dari Pipeshift di cloud AWS/GCP/Azure mereka.”
Dalam beberapa bulan mendatang, Pipeshift juga akan memperkenalkan alat untuk membantu tim membangun dan menskalakan kumpulan data mereka, bersamaan dengan evaluasi dan pengujian model. Hal ini akan mempercepat siklus eksperimen dan persiapan data secara eksponensial, memungkinkan pelanggan memanfaatkan orkestrasi dengan lebih efisien.