
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Organisasi yang tertarik untuk menerapkan agen AI harus terlebih dahulu menyempurnakannya, terutama dalam alur kerja yang sering kali terasa membosankan. Meskipun beberapa organisasi menginginkan agen yang hanya melakukan satu jenis tugas dalam satu alur kerja, terkadang agen perlu dibawa ke lingkungan baru dengan harapan mereka dapat beradaptasi.
Para peneliti dari Universitas Pos dan Telekomunikasi Beijing telah meluncurkan metode baru, AgentRefine. Hal ini mengajarkan agen untuk mengoreksi diri sendiri, sehingga menghasilkan agen AI yang lebih umum dan adaptif.
Para peneliti mengatakan bahwa metode penyetelan saat ini membatasi agen pada tugas yang sama dengan kumpulan data pelatihan mereka, atau tugas “ditahan”, dan tidak bekerja dengan baik untuk “ditahan”, atau lingkungan baru. Dengan hanya mengikuti aturan yang ditetapkan melalui data pelatihan, agen yang dilatih dengan kerangka kerja ini akan mengalami kesulitan “belajar” dari kesalahan mereka dan tidak dapat dijadikan agen umum dan dimasukkan ke dalam alur kerja baru.
Untuk mengatasi keterbatasan tersebut, AgentRefine bertujuan untuk membuat kumpulan data pelatihan agen yang lebih umum yang memungkinkan model belajar dari kesalahan dan menyesuaikan diri dengan alur kerja baru. Dalam makalah barunya, para peneliti mengatakan bahwa tujuan AgentRefine adalah “untuk mengembangkan data penyetelan agen yang digeneralisasi dan membangun korelasi antara generalisasi agen dan penyempurnaan mandiri.” Jika agen mengoreksi dirinya sendiri, mereka tidak akan meneruskan kesalahan apa pun yang mereka pelajari dan membawa kesalahan yang sama ke lingkungan lain tempat mereka ditempatkan.
“Kami menemukan bahwa penyesuaian agen pada data perbaikan diri meningkatkan agen untuk mengeksplorasi tindakan yang lebih layak ketika menghadapi situasi buruk, sehingga menghasilkan generalisasi yang lebih baik pada lingkungan agen baru,” tulis para peneliti.
Pelatihan agen AI terinspirasi oleh D&D
Mengambil isyarat dari permainan peran di atas meja Ruang Bawah Tanah & Naga, para peneliti menciptakan persona, skrip untuk diikuti oleh agen, dan tantangan. Dan ya, ada Dungeon Master (DM).
Mereka membagi konstruksi data untuk AgentRefine menjadi tiga area: pembuatan skrip, pembuatan lintasan, dan verifikasi.
Dalam pembuatan skrip, model membuat skrip, atau panduan, dengan informasi tentang lingkungan, tugas, dan tindakan yang dapat dilakukan persona. (Para peneliti menguji AgentRefine menggunakan Llama-3-8B-Instruct, Llama-3-70B-Instruct, Mistral-7B-Instruct-v0.3, GPT-4o-mini dan GPT-4o)
Model tersebut kemudian menghasilkan data agen yang memiliki kesalahan dan bertindak sebagai DM dan pemain selama tahap lintasan. Ini menilai tindakan yang dapat diambil dan kemudian melihat apakah tindakan tersebut mengandung kesalahan. Tahap terakhir, verifikasi, memeriksa skrip dan lintasan, memungkinkan potensi agen yang dilatihnya untuk melakukan koreksi diri.
Kemampuan tugas yang lebih baik dan beragam
Para peneliti menemukan bahwa agen yang dilatih menggunakan metode dan kumpulan data AgentRefine berkinerja lebih baik pada beragam tugas dan beradaptasi dengan skenario baru. Agen-agen ini lebih banyak mengoreksi diri untuk mengarahkan tindakan dan pengambilan keputusan mereka guna menghindari kesalahan, dan menjadi lebih tangguh dalam prosesnya.
Secara khusus, AgentRefine meningkatkan kinerja semua model untuk mengerjakan tugas-tugas yang tertunda.
Perusahaan harus membuat agen lebih mudah beradaptasi dengan tugas sehingga mereka tidak hanya mengulangi apa yang telah mereka pelajari sehingga mereka bisa menjadi pengambil keputusan yang lebih baik. Mengatur agen tidak hanya “mengarahkan lalu lintas” untuk beberapa agen tetapi juga menentukan apakah agen telah menyelesaikan tugas berdasarkan permintaan pengguna.
O3 OpenAI menawarkan “sintesis program” yang dapat meningkatkan kemampuan adaptasi tugas. Kerangka kerja orkestrasi dan pelatihan lainnya, seperti Magentic-One dari Microsoft, menetapkan tindakan bagi agen penyelia untuk mempelajari kapan harus memindahkan tugas ke agen yang berbeda.