
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
David Silver dan Richard Sutton, dua ilmuwan AI terkenal, berpendapat dalam sebuah makalah baru bahwa kecerdasan buatan akan memasuki fase baru, “era pengalaman.” Di sinilah sistem AI semakin mengandalkan data yang disediakan manusia dan meningkatkan diri dengan mengumpulkan data dari dan berinteraksi dengan dunia.
Sementara makalah ini konseptual dan berwawasan ke depan, ia memiliki implikasi langsung bagi perusahaan yang bertujuan untuk membangun dengan dan untuk agen dan sistem AI di masa depan.
Baik Silver dan Sutton adalah ilmuwan berpengalaman dengan rekam jejak membuat prediksi yang akurat tentang masa depan AI. Prediksi validitas dapat langsung terlihat dalam sistem AI paling canggih saat ini. Pada tahun 2019, Sutton, seorang pelopor dalam pembelajaran penguatan, menulis esai terkenal “Pelajaran Pahit,” di mana ia berpendapat bahwa kemajuan jangka panjang terbesar dalam AI secara konsisten muncul dari memanfaatkan komputasi skala besar dengan pencarian umum dan metode pembelajaran, daripada mengandalkan terutama pada menggabungkan pengetahuan domain yang kompleks, yang diturunkan manusia.
David Silver, seorang ilmuwan senior di DeepMind, adalah kontributor utama bagi Alphago, Alphazero dan Alphastar, semua pencapaian penting dalam pembelajaran penguatan yang mendalam. Dia juga rekan penulis makalah pada tahun 2021 yang mengklaim bahwa pembelajaran penguatan dan sinyal hadiah yang dirancang dengan baik akan cukup untuk menciptakan sistem AI yang sangat canggih.
Model bahasa besar (LLM) paling canggih memanfaatkan kedua konsep tersebut. Gelombang LLMS baru yang telah menaklukkan adegan AI karena GPT-3 terutama mengandalkan penskalaan komputasi dan data untuk menginternalisasi sejumlah besar pengetahuan. Gelombang model penalaran terbaru, seperti Deepseek-R1, telah menunjukkan bahwa pembelajaran penguatan dan sinyal hadiah sederhana sudah cukup untuk belajar keterampilan penalaran yang kompleks.
Apa era pengalamannya?
“Era Pengalaman” dibangun berdasarkan konsep yang sama yang telah dibahas Sutton dan Silver dalam beberapa tahun terakhir, dan mengadaptasi mereka dengan kemajuan terbaru di AI. Para penulis berpendapat bahwa “laju kemajuan yang didorong semata -mata oleh pembelajaran yang diawasi dari data manusia terbukti melambat, menandakan perlunya pendekatan baru.”
Dan pendekatan itu membutuhkan sumber data baru, yang harus dihasilkan dengan cara yang terus meningkat ketika agen menjadi lebih kuat. “Ini dapat dicapai dengan memungkinkan agen untuk belajar terus menerus dari pengalaman mereka sendiri, yaitu, data yang dihasilkan oleh agen yang berinteraksi dengan lingkungannya,” Sutton dan Silver Write. Mereka berpendapat bahwa pada akhirnya, “pengalaman akan menjadi media perbaikan yang dominan dan pada akhirnya mengerdilkan skala data manusia yang digunakan dalam sistem saat ini.”
Menurut penulis, selain belajar dari data pengalaman mereka sendiri, sistem AI di masa depan akan “menerobos keterbatasan sistem AI yang berpusat pada manusia” di empat dimensi:
- Streams: Alih-alih bekerja di seluruh episode yang terputus, agen AI akan “memiliki aliran pengalaman mereka sendiri yang berkembang, seperti manusia, dalam skala waktu yang lama.” Ini akan memungkinkan agen untuk merencanakan tujuan jangka panjang dan beradaptasi dengan pola perilaku baru dari waktu ke waktu. Kita dapat melihat kilau dalam sistem AI yang memiliki jendela konteks yang sangat panjang dan arsitektur memori yang terus diperbarui berdasarkan interaksi pengguna.
- Tindakan dan Pengamatan: Alih-alih berfokus pada tindakan dan pengamatan yang dialah dengan manusia, agen-agen di era pengalaman akan bertindak secara mandiri di dunia nyata. Contohnya adalah sistem agen yang dapat berinteraksi dengan aplikasi dan sumber daya eksternal melalui alat seperti penggunaan komputer dan model konteks protokol (MCP).
- Hadiah: Sistem pembelajaran penguatan saat ini sebagian besar bergantung pada fungsi hadiah yang dirancang manusia. Di masa depan, agen AI harus dapat merancang fungsi hadiah dinamis mereka sendiri yang beradaptasi dari waktu ke waktu dan mencocokkan preferensi pengguna dengan sinyal dunia nyata yang dikumpulkan dari tindakan dan pengamatan agen di dunia. Kami melihat versi awal penghargaan yang merancang diri dengan sistem seperti Dreureka Nvidia.
- Perencanaan dan penalaran: Model penalaran saat ini telah dirancang untuk meniru proses pemikiran manusia. Para penulis berpendapat bahwa “mekanisme pemikiran yang lebih efisien pasti ada, menggunakan bahasa non-manusia yang mungkin, misalnya, memanfaatkan perhitungan simbolik, terdistribusi, kontinu, atau berbeda.” Agen AI harus terlibat dengan dunia, mengamati dan menggunakan data untuk memvalidasi dan memperbarui proses penalaran mereka dan mengembangkan model dunia.
Gagasan agen AI yang menyesuaikan diri dengan lingkungan mereka melalui pembelajaran penguatan bukanlah hal baru. Namun sebelumnya, agen -agen ini terbatas pada lingkungan yang sangat terbatas seperti permainan papan. Saat ini, agen yang dapat berinteraksi dengan lingkungan yang kompleks (misalnya, penggunaan komputer AI) dan kemajuan dalam pembelajaran penguatan akan mengatasi keterbatasan ini, membawa transisi ke era pengalaman.
Apa artinya bagi perusahaan?
Terkubur di Sutton dan Silver's Paper adalah pengamatan yang akan memiliki implikasi penting untuk aplikasi dunia nyata: “Agen dapat menggunakan tindakan dan pengamatan 'ramah manusia' seperti antarmuka pengguna, yang secara alami memfasilitasi komunikasi dan kolaborasi dengan pengguna. Agen juga dapat mengambil tindakan 'ramah mesin' yang menjalankan kode dan memanggil API, memungkinkan agen untuk bertindak secara otonom.
Era pengalaman berarti bahwa pengembang harus membangun aplikasi mereka tidak hanya untuk manusia tetapi juga dengan mempertimbangkan agen AI. Tindakan yang ramah mesin memerlukan pembangunan API yang aman dan dapat diakses yang dapat dengan mudah diakses secara langsung atau melalui antarmuka seperti MCP. Ini juga berarti membuat agen yang dapat dibuat dapat ditemukan melalui protokol seperti Google Agent2Agent. Anda juga perlu merancang API dan antarmuka agen Anda untuk menyediakan akses ke tindakan dan pengamatan. Ini akan memungkinkan agen untuk secara bertahap beralasan dan belajar dari interaksi mereka dengan aplikasi Anda.
Jika visi yang dihadapi Sutton dan Silver menjadi kenyataan, akan segera ada miliaran agen yang berkeliaran di web (dan segera di dunia fisik) untuk menyelesaikan tugas. Perilaku dan kebutuhan mereka akan sangat berbeda dari pengguna dan pengembang manusia, dan memiliki cara yang ramah agen untuk berinteraksi dengan aplikasi Anda akan meningkatkan kemampuan Anda untuk memanfaatkan sistem AI di masa depan (dan juga mencegah kerusakan yang dapat mereka sebabkan).
“Dengan membangun fondasi RL dan mengadaptasi prinsip -prinsip intinya dengan tantangan era baru ini, kita dapat membuka potensi penuh pembelajaran otonom dan membuka jalan untuk benar -benar kecerdasan manusia super,” Sutton dan Silver Write.
DeepMind menolak memberikan komentar tambahan untuk cerita tersebut.