
Artikel ini adalah bagian dari edisi khusus VentureBeat, “AI dalam Skala Besar: Dari Visi hingga Viabilitas.” Baca lebih lanjut dari edisi khusus ini di sini.
Artikel ini adalah bagian dari edisi khusus VentureBeat, “AI dalam Skala Besar: Dari Visi hingga Viabilitas.” Baca lebih lanjut dari masalah ini di sini.
Jika Anda melakukan perjalanan 60 tahun ke masa lalu ke Stevenson, Alabama, Anda akan menemukan Pabrik Fosil Widows Creek, stasiun pembangkit listrik berkekuatan 1,6 gigawatt dengan salah satu cerobong asap tertinggi di dunia. Saat ini, terdapat pusat data Google tempat pabrik Widows Creek pernah berdiri. Alih-alih menggunakan batu bara, jalur transmisi di fasilitas lama ini menggunakan energi terbarukan untuk menggerakkan layanan online perusahaan.
Metamorfosis tersebut, dari fasilitas pembakaran karbon menjadi pabrik digital, merupakan simbol peralihan global ke infrastruktur digital. Dan kita akan melihat produksi intelijen meningkat pesat berkat pabrik AI.
Pusat data ini adalah mesin pengambil keputusan yang menghabiskan sumber daya komputasi, jaringan, dan penyimpanan saat mereka mengubah informasi menjadi wawasan. Pusat data yang padat bermunculan dalam waktu singkat untuk memenuhi permintaan kecerdasan buatan yang tak terpuaskan.
Infrastruktur untuk mendukung AI mewarisi banyak tantangan yang sama yang dihadapi pabrik-pabrik industri, mulai dari listrik hingga skalabilitas dan keandalan, yang memerlukan solusi modern untuk mengatasi permasalahan yang sudah ada sejak berabad-abad yang lalu.
Angkatan kerja baru: Hitung tenaga
Di era uap dan baja, tenaga kerja berarti ribuan pekerja mengoperasikan mesin sepanjang waktu. Di pabrik AI saat ini, output ditentukan oleh daya komputasi. Melatih model AI yang besar memerlukan sumber daya pemrosesan yang besar. Menurut Aparna Ramani, VP teknik di Meta, pertumbuhan pelatihan model ini meningkat empat kali lipat per tahun di seluruh industri.
Tingkat penskalaan tersebut berada pada jalur yang tepat untuk menciptakan hambatan serupa yang terjadi di dunia industri. Ada kendala rantai pasokan, sebagai permulaan. GPU – mesin revolusi AI – berasal dari beberapa produsen. Itu sangat kompleks. Permintaannya tinggi. Oleh karena itu, tidak mengherankan jika hal-hal tersebut rentan terhadap ketidakstabilan biaya.
Dalam upaya untuk menghindari beberapa keterbatasan pasokan tersebut, nama-nama besar seperti AWS, Google, IBM, Intel, dan Meta merancang silikon khusus mereka sendiri. Chip ini dioptimalkan dalam hal daya, kinerja, dan biaya, menjadikannya spesialis dengan fitur unik untuk beban kerjanya masing-masing.
Pergeseran ini bukan hanya tentang perangkat keras. Ada juga kekhawatiran mengenai bagaimana teknologi AI akan mempengaruhi pasar kerja. Penelitian yang diterbitkan oleh Columbia Business School mempelajari industri manajemen investasi dan menemukan bahwa penerapan AI menyebabkan penurunan pendapatan tenaga kerja sebesar 5%, mencerminkan perubahan yang terlihat selama Revolusi Industri.
“AI kemungkinan besar akan membawa dampak transformatif bagi banyak, mungkin semua, sektor perekonomian,” kata Profesor Laura Veldkamp, salah satu penulis makalah ini. “Saya cukup optimis kita akan menemukan lapangan kerja yang bermanfaat bagi banyak orang. Namun akan ada biaya transisi.”
Di manakah kita dapat menemukan energi untuk ditingkatkan?
Selain biaya dan ketersediaan, GPU yang berfungsi sebagai tenaga kerja pabrik AI terkenal haus daya. Ketika tim xAI meluncurkan klaster superkomputer Colossus pada September 2024, mereka dilaporkan memiliki akses ke tujuh hingga delapan megawatt dari Otoritas Lembah Tennessee. Namun 100.000 GPU H100 pada cluster memerlukan lebih dari itu. Jadi, xAI menghadirkan generator seluler VoltaGrid untuk sementara waktu menutupi perbedaan tersebut. Pada awal November, Memphis Light, Gas & Water mencapai kesepakatan yang lebih permanen dengan TVA untuk memberikan xAI tambahan kapasitas sebesar 150 megawatt. Namun para kritikus membantah bahwa konsumsi di lokasi tersebut membebani jaringan listrik kota dan berkontribusi terhadap buruknya kualitas udara. Dan Elon Musk sudah mempunyai rencana untuk 100.000 GPU H100/H200 lainnya dalam satu atap.
Menurut McKinsey, kebutuhan daya pusat data diperkirakan akan meningkat hingga tiga kali lipat dari kapasitas saat ini pada akhir dekade ini. Pada saat yang sama, kecepatan prosesor menggandakan efisiensi kinerjanya juga melambat. Artinya, performa per watt masih meningkat, namun dengan kecepatan yang melambat, dan tentu saja tidak cukup cepat untuk memenuhi permintaan tenaga komputasi.
Jadi, apa yang diperlukan untuk menandingi pesatnya adopsi teknologi AI? Sebuah laporan dari Goldman Sachs menunjukkan bahwa utilitas AS perlu menginvestasikan sekitar $50 miliar pada kapasitas generasi baru hanya untuk mendukung pusat data. Para analis juga memperkirakan konsumsi daya pusat data akan mendorong sekitar 3,3 miliar kaki kubik per hari permintaan gas alam baru pada tahun 2030.
Penskalaan menjadi lebih sulit seiring dengan semakin besarnya pabrik AI
Melatih model yang menjadikan pabrik AI akurat dan efisien dapat memerlukan puluhan ribu GPU, semuanya bekerja secara paralel, berbulan-bulan. Jika GPU gagal selama pelatihan, proses harus dihentikan, dikembalikan ke pos pemeriksaan terbaru, dan dilanjutkan. Namun, seiring dengan meningkatnya kompleksitas pabrik AI, kemungkinan kegagalan juga meningkat. Ramani menyampaikan kekhawatiran ini selama presentasi AI Infra @ Scale.
“Menghentikan dan memulai kembali cukup menyakitkan. Namun hal ini diperburuk dengan fakta bahwa, seiring bertambahnya jumlah GPU, kemungkinan kegagalan juga meningkat. Dan pada titik tertentu, volume kegagalan bisa menjadi sangat besar sehingga kita kehilangan terlalu banyak waktu untuk memitigasi kegagalan ini dan Anda hampir tidak dapat menyelesaikan sesi latihan.”
Menurut Ramani, Meta sedang mencari cara jangka pendek untuk mendeteksi kegagalan lebih cepat dan kembali aktif dan berjalan lebih cepat. Lebih jauh lagi, penelitian tentang pelatihan asinkron dapat meningkatkan toleransi kesalahan sekaligus meningkatkan pemanfaatan GPU dan mendistribusikan pelatihan yang dijalankan di beberapa pusat data.
AI yang selalu aktif akan mengubah cara kita berbisnis
Sama seperti pabrik-pabrik di masa lalu yang mengandalkan teknologi baru dan model organisasi untuk meningkatkan produksi barang, pabrik-pabrik AI memanfaatkan daya komputasi, infrastruktur jaringan, dan penyimpanan untuk menghasilkan token – informasi terkecil yang digunakan model AI.
“Pabrik AI ini menghasilkan, menciptakan, menghasilkan sesuatu yang bernilai tinggi, sebuah komoditas baru,” kata CEO Nvidia Jensen Huang dalam pidatonya di Computex 2024. “Ini benar-benar sepadan di hampir setiap industri. Dan itulah mengapa ini merupakan Revolusi Industri baru.”
McKinsey mengatakan bahwa AI generatif berpotensi menambah manfaat ekonomi tahunan senilai $2,6 hingga $4,4 triliun di 63 kasus penggunaan berbeda. Dalam setiap aplikasi, baik pabrik AI dihosting di cloud, diterapkan di edge, atau dikelola sendiri, tantangan infrastruktur yang sama harus diatasi, sama seperti yang terjadi pada pabrik industri. Menurut laporan McKinsey yang sama, untuk mencapai seperempat dari pertumbuhan tersebut pada akhir dekade ini, diperlukan tambahan kapasitas pusat data sebesar 50 hingga 60 gigawatt.
Namun hasil dari pertumbuhan ini diperkirakan akan mengubah industri TI secara permanen. Huang menjelaskan bahwa pabrik AI akan memungkinkan industri TI menghasilkan intelijen untuk industri senilai $100 triliun. “Ini akan menjadi industri manufaktur. Bukan industri manufaktur komputer, tetapi menggunakan komputer dalam manufaktur. Ini belum pernah terjadi sebelumnya. Suatu hal yang luar biasa.”