
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Segera setelah agen AI menunjukkan janji, organisasi harus bergulat dengan mencari tahu apakah agen tunggal sudah cukup, atau jika mereka harus berinvestasi dalam membangun jaringan multi-agen yang lebih luas yang menyentuh lebih banyak poin dalam organisasi mereka.
Perusahaan kerangka kerja Orkestrasi Langchain berusaha untuk lebih dekat dengan jawaban untuk pertanyaan ini. Ini membuat agen AI melakukan beberapa percobaan yang menemukan agen tunggal memang memiliki batas konteks dan alat sebelum kinerjanya mulai menurun. Eksperimen ini dapat menyebabkan pemahaman yang lebih baik tentang arsitektur yang diperlukan untuk mempertahankan agen dan sistem multi-agen.
Dalam posting blog, Langchain merinci serangkaian percobaan yang dilakukan dengan agen bereaksi tunggal dan membandingkan kinerjanya. Pertanyaan utama yang diharapkan oleh Langchain adalah, “Pada titik apa agen bereaksi tunggal menjadi kelebihan dengan instruksi dan alat, dan kemudian melihat penurunan kinerja?”
Langchain memilih untuk menggunakan kerangka kerja React Agent karena itu adalah “salah satu arsitektur agen paling mendasar.”
Sementara kinerja agen pembandingan sering dapat menyebabkan hasil yang menyesatkan, Langchain memilih untuk membatasi tes hingga dua tugas agen yang mudah diukur: menjawab pertanyaan dan menjadwalkan pertemuan.
“Ada banyak tolok ukur yang ada untuk penggunaan alat dan panggilan alat, tetapi untuk keperluan percobaan ini, kami ingin mengevaluasi agen praktis yang sebenarnya kami gunakan,” tulis Langchain. “Agen ini adalah asisten email internal kami, yang bertanggung jawab atas dua domain utama pekerjaan – menanggapi dan menjadwalkan permintaan rapat dan mendukung pelanggan dengan pertanyaan mereka.”
Parameter Eksperimen Langchain
Langchain terutama menggunakan agen bereaksi pra-built melalui platform Langgraph-nya. Agen-agen ini menampilkan model alat-alat bahasa besar (LLM) yang menjadi bagian dari tes benchmark. LLMS ini termasuk Anthropic's Claude 3.5 Sonnet, Meta's Llama-3.3-70B dan trio model dari OpenAI, GPT-4O, O1 dan O3-Mini.
Perusahaan memecahkan pengujian untuk menilai lebih baik kinerja Asisten Email pada dua tugas, membuat daftar langkah untuk diikuti. Itu dimulai dengan kemampuan dukungan pelanggan Asisten Email, yang melihat bagaimana agen menerima email dari klien dan merespons dengan jawaban.
Langchain pertama -tama mengevaluasi lintasan panggilan alat, atau alat yang diketuk agen. Jika agen mengikuti urutan yang benar, lulus tes. Selanjutnya, para peneliti meminta asisten untuk menanggapi email dan menggunakan LLM untuk menilai kinerjanya.

Untuk domain kerja kedua, penjadwalan kalender, Langchain berfokus pada kemampuan agen untuk mengikuti instruksi.
“Dengan kata lain, agen perlu mengingat instruksi spesifik yang diberikan, seperti kapan tepatnya harus menjadwalkan pertemuan dengan pihak yang berbeda,” tulis para peneliti.
Kelebihan beban agen
Setelah mereka mendefinisikan parameter, Langchain mulai stres dan membanjiri agen asisten email.
Ini menetapkan 30 tugas masing -masing untuk penjadwalan kalender dan dukungan pelanggan. Ini dijalankan tiga kali (untuk total 90 run). Para peneliti membuat agen penjadwalan kalender dan agen dukungan pelanggan untuk mengevaluasi tugas dengan lebih baik.
“Agen penjadwalan kalender hanya memiliki akses ke domain penjadwalan kalender, dan agen dukungan pelanggan hanya memiliki akses ke domain dukungan pelanggan,” jelas Langchain.
Para peneliti kemudian menambahkan lebih banyak tugas dan alat domain ke agen untuk meningkatkan jumlah tanggung jawab. Ini dapat berkisar dari sumber daya manusia, hingga jaminan kualitas teknis, hingga hukum dan kepatuhan dan sejumlah bidang lain.
Degradasi instruksi agen tunggal
Setelah menjalankan evaluasi, Langchain menemukan bahwa agen tunggal sering menjadi terlalu kewalahan ketika disuruh melakukan terlalu banyak hal. Mereka mulai lupa untuk memanggil alat atau tidak dapat menanggapi tugas ketika diberi lebih banyak instruksi dan konteks.
Langchain menemukan bahwa agen penjadwalan kalender yang menggunakan GPT-4O “berkinerja lebih buruk daripada Claude-3.5-Sonnet, O1 dan O3 di berbagai ukuran konteks, dan kinerja turun lebih tajam daripada model lain ketika konteks yang lebih besar disediakan.” Kinerja penjadwal kalender GPT-4O turun menjadi 2% ketika domain meningkat menjadi setidaknya tujuh.
Model lain tidak jauh lebih baik. Llama-3.3-70b lupa memanggil alat send_email, “jadi gagal setiap tes case.”

Hanya Claude-3.5-Sonnet, O1 dan O3-Mini yang semuanya ingat untuk memanggil alat itu, tetapi connet Claude-3.5 berkinerja lebih buruk daripada dua model OpenAI lainnya. Namun, kinerja O3-Mini menurunkan domain yang tidak relevan ditambahkan ke instruksi penjadwalan.
Agen Dukungan Pelanggan dapat menghubungi lebih banyak alat, tetapi untuk tes ini, Langchain mengatakan Claude-3.5-mini dilakukan serta O3-Mini dan O1. Ini juga menghadirkan penurunan kinerja yang lebih dangkal ketika lebih banyak domain ditambahkan. Namun, ketika jendela konteks memanjang, model Claude berkinerja lebih buruk.
GPT-4O juga melakukan yang terburuk di antara model yang diuji.
“Kami melihat bahwa karena lebih banyak konteks disediakan, pengajaran berikut menjadi lebih buruk. Beberapa tugas kami dirancang untuk mengikuti instruksi khusus khusus (misalnya, tidak melakukan tindakan tertentu untuk pelanggan berbasis UE), ”kata Langchain. “Kami menemukan bahwa instruksi ini akan berhasil diikuti oleh agen dengan domain yang lebih sedikit, tetapi ketika jumlah domain meningkat, instruksi ini lebih sering dilupakan, dan tugas -tugas tersebut kemudian gagal.”
Perusahaan mengatakan sedang mengeksplorasi cara mengevaluasi arsitektur multi-agen menggunakan metode kelebihan domain yang sama.
Langchain sudah diinvestasikan dalam kinerja agen, karena memperkenalkan konsep “agen ambien,” atau agen yang berjalan di latar belakang dan dipicu oleh peristiwa tertentu. Eksperimen ini dapat memudahkan untuk mengetahui cara terbaik untuk memastikan kinerja agen.