
Artikel ini adalah bagian dari edisi khusus VentureBeat, “AI dalam Skala Besar: Dari Visi hingga Viabilitas.” Baca lebih lanjut dari edisi khusus ini di sini.
Artikel ini adalah bagian dari edisi khusus VentureBeat, “AI dalam Skala Besar: Dari Visi hingga Viabilitas.” Baca lebih lanjut dari masalah ini di sini.
Menjelang tahun 2024, kita dapat melihat ke belakang dan mengakui bahwa kecerdasan buatan telah mencapai kemajuan yang mengesankan dan inovatif. Dengan kondisi saat ini, hampir mustahil untuk memprediksi kejutan seperti apa yang akan terjadi pada AI pada tahun 2025. Namun beberapa tren memberikan gambaran yang menarik tentang apa yang dapat diharapkan oleh perusahaan di tahun mendatang dan bagaimana mereka dapat mempersiapkan diri untuk mengambil keuntungan penuh.
Menurunnya biaya inferensi
Pada tahun lalu, biaya model frontier terus menurun. Harga per juta token model bahasa besar (LLM) OpenAI dengan kinerja terbaik telah turun lebih dari 200 kali lipat dalam dua tahun terakhir.
Salah satu faktor kunci yang menurunkan harga inferensi adalah meningkatnya persaingan. Untuk banyak aplikasi perusahaan, sebagian besar model frontier akan cocok, sehingga memudahkan peralihan dari satu model ke model lainnya, sehingga mengalihkan persaingan ke penetapan harga. Peningkatan pada chip akselerator dan perangkat keras inferensi khusus juga memungkinkan laboratorium AI menyediakan model mereka dengan biaya lebih rendah.
Untuk memanfaatkan tren ini, perusahaan harus mulai bereksperimen dengan LLM paling canggih dan membangun prototipe aplikasi di sekitarnya meskipun biayanya saat ini tinggi. Penurunan harga model yang terus berlanjut berarti banyak dari aplikasi ini akan segera dapat ditingkatkan skalanya. Pada saat yang sama, kemampuan model terus meningkat, yang berarti Anda dapat melakukan lebih banyak hal dengan anggaran yang sama dibandingkan tahun lalu.
Munculnya model penalaran besar
Peluncuran OpenAI o1 telah memicu gelombang inovasi baru di bidang LLM. Tren membiarkan model “berpikir” lebih lama dan meninjau jawaban mereka memungkinkan mereka memecahkan masalah penalaran yang tidak mungkin dilakukan dengan panggilan inferensi tunggal. Meskipun OpenAI belum merilis detail o1, kemampuannya yang mengesankan telah memicu perlombaan baru di bidang AI. Saat ini terdapat banyak model sumber terbuka yang meniru kemampuan penalaran o1 dan memperluas paradigma ke bidang baru, seperti menjawab pertanyaan terbuka.
Kemajuan dalam model mirip o1, yang terkadang disebut sebagai model penalaran besar (LRM), dapat mempunyai dua implikasi penting di masa depan. Pertama, mengingat banyaknya token yang harus dihasilkan oleh LRM untuk mendapatkan jawaban mereka, kita dapat berharap perusahaan perangkat keras akan lebih terdorong untuk menciptakan akselerator AI khusus dengan throughput token yang lebih tinggi.
Kedua, LRM dapat membantu mengatasi salah satu hambatan penting pada model bahasa generasi berikutnya: data pelatihan berkualitas tinggi. Sudah ada laporan bahwa OpenAI menggunakan o1 untuk menghasilkan contoh pelatihan untuk model generasi berikutnya. Kita juga dapat mengharapkan LRM untuk membantu melahirkan generasi baru model kecil yang terspesialisasi yang telah dilatih menggunakan data sintetis untuk tugas yang sangat spesifik.
Untuk memanfaatkan perkembangan ini, perusahaan harus mengalokasikan waktu dan anggaran untuk bereksperimen dengan kemungkinan penerapan LRM frontier. Mereka harus selalu menguji batasan model frontier, dan memikirkan jenis penerapan apa yang mungkin dilakukan jika model generasi berikutnya dapat mengatasi batasan tersebut. Dikombinasikan dengan pengurangan biaya inferensi yang berkelanjutan, LRM dapat membuka banyak aplikasi baru di tahun mendatang.
Alternatif transformator semakin meningkat
Kemacetan memori dan komputasi pada transformator, arsitektur pembelajaran mendalam utama yang digunakan di LLM, telah memunculkan bidang model alternatif dengan kompleksitas linier. Arsitektur yang paling populer, model ruang negara (SSM), telah mengalami banyak kemajuan dalam satu tahun terakhir. Model menjanjikan lainnya termasuk jaringan saraf cair (LNN), yang menggunakan persamaan matematika baru untuk melakukan lebih banyak hal dengan lebih sedikit neuron buatan dan siklus komputasi.
Pada tahun lalu, para peneliti dan laboratorium AI telah merilis model SSM murni serta model hybrid yang menggabungkan kekuatan transformator dan model linier. Meskipun model-model ini belum memiliki kinerja yang setara dengan model-model berbasis trafo mutakhir, model-model ini mampu mengejar ketertinggalan dengan cepat dan sudah jauh lebih cepat dan efisien. Jika kemajuan di lapangan terus berlanjut, banyak aplikasi LLM yang lebih sederhana dapat dipindahkan ke model ini dan dijalankan pada perangkat edge atau server lokal, di mana perusahaan dapat menggunakan data yang dipesan lebih dahulu tanpa mengirimkannya ke pihak ketiga.
Perubahan pada undang-undang penskalaan
Hukum penskalaan LLM terus berkembang. Peluncuran GPT-3 pada tahun 2020 membuktikan bahwa penskalaan ukuran model akan terus memberikan hasil yang mengesankan dan memungkinkan model melakukan tugas-tugas yang tidak dilatih secara eksplisit. Pada tahun 2022, DeepMind merilis makalah Chinchilla, yang menetapkan arah baru dalam undang-undang penskalaan data. Chinchilla membuktikan bahwa dengan melatih model pada kumpulan data besar yang beberapa kali lebih besar dari jumlah parameternya, Anda dapat terus memperoleh peningkatan. Perkembangan ini memungkinkan model yang lebih kecil untuk bersaing dengan model frontier dengan ratusan miliar parameter.
Saat ini, ada kekhawatiran bahwa kedua undang-undang penskalaan tersebut sudah mendekati batasnya. Laporan menunjukkan bahwa laboratorium terdepan mengalami penurunan keuntungan dalam melatih model yang lebih besar. Pada saat yang sama, kumpulan data pelatihan telah berkembang menjadi puluhan triliun token, dan memperoleh data berkualitas menjadi semakin sulit dan mahal.
Sementara itu, LRM menjanjikan sebuah vektor baru: penskalaan waktu inferensi. Jika model dan ukuran kumpulan data gagal, kami mungkin dapat membuat terobosan baru dengan membiarkan model menjalankan lebih banyak siklus inferensi dan memperbaiki kesalahannya sendiri.
Memasuki tahun 2025, lanskap AI terus berkembang dengan cara yang tidak terduga, dengan arsitektur baru, kemampuan penalaran, dan model ekonomi yang mengubah apa yang mungkin terjadi. Bagi perusahaan yang ingin bereksperimen dan beradaptasi, tren ini tidak hanya mewakili kemajuan teknologi, namun juga perubahan mendasar dalam cara kita memanfaatkan AI untuk memecahkan masalah di dunia nyata.