
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Para peneliti dari Soochow University of China telah memperkenalkan rantai-tools (Cotools), kerangka kerja baru yang dirancang untuk meningkatkan bagaimana model bahasa besar (LLM) menggunakan alat eksternal. Cotools bertujuan untuk memberikan pendekatan yang lebih efisien dan fleksibel dibandingkan dengan metode yang ada. Ini akan memungkinkan LLM untuk memanfaatkan peralatan luas secara langsung dalam proses penalaran mereka, termasuk yang belum mereka latih secara eksplisit.
Untuk perusahaan yang ingin membangun agen AI yang canggih, kemampuan ini dapat membuka kunci aplikasi yang lebih kuat dan mudah beradaptasi tanpa kelemahan khas dari teknik integrasi alat saat ini.
Sementara LLM modern unggul pada pembuatan teks, pemahaman dan bahkan penalaran yang kompleks, mereka perlu berinteraksi dengan sumber daya dan alat eksternal seperti basis data atau aplikasi untuk banyak tugas. Melengkapi LLM dengan alat eksternal-pada dasarnya API atau fungsi yang dapat mereka sebut-sangat penting untuk memperluas kemampuan mereka ke dalam aplikasi praktis dan dunia nyata.
Namun, metode saat ini untuk memungkinkan penggunaan alat menghadapi pertukaran yang signifikan. Salah satu pendekatan umum melibatkan menyempurnakan LLM pada contoh penggunaan alat. Meskipun ini dapat membuat model mahir dalam memanggil alat spesifik yang terlihat selama pelatihan, ini sering membatasi model hanya untuk alat tersebut. Selain itu, proses penyempurnaan itu sendiri kadang-kadang dapat berdampak negatif terhadap kemampuan penalaran umum LLM, seperti rantai-pemikiran (COT), berpotensi mengurangi kekuatan inti dari model pondasi.
Pendekatan alternatif bergantung pada pembelajaran dalam konteks (ICL), di mana LLM dilengkapi dengan deskripsi alat yang tersedia dan contoh cara menggunakannya langsung dalam prompt. Metode ini menawarkan fleksibilitas, memungkinkan model untuk berpotensi menggunakan alat yang belum pernah dilihat sebelumnya. Namun, membangun dorongan kompleks ini bisa rumit, dan efisiensi model menurun secara signifikan seiring dengan tumbuhnya jumlah alat yang tersedia, membuatnya kurang praktis untuk skenario dengan peralatan yang besar dan dinamis.
Seperti yang dicatat oleh para peneliti dalam makalah yang memperkenalkan rantai-alat, agen LLM “harus mampu mengelola sejumlah besar alat dan sepenuhnya memanfaatkan yang tidak terlihat selama penalaran COT, karena banyak alat baru dapat muncul setiap hari dalam skenario aplikasi dunia nyata.”
Cotools menawarkan alternatif yang menarik untuk metode yang ada dengan secara cerdik menggabungkan aspek-aspek penyesuaian dan pemahaman semantik sementara yang terpenting menjaga inti LLM “beku”-artinya bobot aslinya dan kemampuan penalaran yang kuat tetap tidak tersentuh. Alih-alih menyempurnakan seluruh model, Cotools melatih modul khusus yang ringan yang bekerja di samping LLM selama proses pembangkitannya.
“Gagasan inti dari cotools adalah untuk memanfaatkan kemampuan representasi semantik dari model fozen foundation untuk menentukan tempat yang harus memanggil alat dan alat mana yang akan dihubungi,” tulis para peneliti.
Intinya, Cotools memanfaatkan pemahaman kaya yang tertanam dalam representasi internal LLM, sering disebut “keadaan tersembunyi,” yang dihitung sebagai model memproses teks dan menghasilkan token respons.
Kerangka kerja Cotools terdiri dari tiga komponen utama yang beroperasi secara berurutan selama proses penalaran LLM:
Hakim alat: Ketika LLM menghasilkan token responsnya dengan token, alat juri menganalisis keadaan tersembunyi yang terkait dengan potensi berikutnya token dan memutuskan apakah memanggil alat yang sesuai pada titik spesifik dalam rantai penalaran.
Tool Retriever: Jika hakim menentukan alat diperlukan, Retriever memilih alat yang paling cocok untuk tugas tersebut. Alat retriever telah dilatih untuk membuat embedding kueri dan membandingkannya dengan alat yang tersedia. Ini memungkinkannya untuk secara efisien memilih alat yang paling relevan secara semantik dari kumpulan alat yang tersedia, termasuk alat “tidak terlihat” (yaitu, bukan bagian dari data pelatihan untuk modul Cotools).
Panggilan alat: Setelah alat terbaik dipilih, Cotools menggunakan prompt ICL yang menunjukkan mengisi parameter alat berdasarkan konteks. Penggunaan ICL yang ditargetkan ini menghindari inefisiensi penambahan ribuan demonstrasi dalam prompt untuk pemilihan alat awal. Setelah alat yang dipilih dieksekusi, hasilnya dimasukkan kembali ke dalam generasi respons LLM.
Dengan memisahkan pengambilan keputusan (Hakim) dan seleksi (retriever) berdasarkan pemahaman semantik dari pengisian parameter (memanggil melalui ICL terfokus), Cotools mencapai efisiensi bahkan dengan peralatan besar sambil menjaga kemampuan inti LLM dan memungkinkan penggunaan alat baru yang fleksibel. Namun, karena Cotools membutuhkan akses ke status tersembunyi model, itu hanya dapat diterapkan pada model bobot terbuka seperti Llama dan Mistral alih-alih model pribadi seperti GPT-4O dan Claude.

Para peneliti mengevaluasi cotool di dua skenario aplikasi yang berbeda: Penalaran numerik menggunakan alat aritmatika dan penjawaban pertanyaan berbasis pengetahuan (KBQA), yang membutuhkan pengambilan dari basis pengetahuan.
Pada tolok ukur aritmatika seperti GSM8K-XL (menggunakan operasi dasar) dan funcqa (menggunakan fungsi yang lebih kompleks), cotools diterapkan pada LLAMA2-7B mencapai kinerja yang sebanding dengan chatgpt pada GSM8K-XL dan sedikit mengungguli atau mencocokkan metode pembelajaran alat lain, ToolkEngpt, pada fungsional dan funcqa. Hasilnya menyoroti bahwa cotool secara efektif meningkatkan kemampuan model fondasi yang mendasarinya.
Untuk tugas -tugas KBQA, diuji pada dataset Kamel dan dataset Simpletoolquestions (Stquestions) yang baru dibangun yang menampilkan kumpulan pool yang sangat besar (1836 alat, termasuk 837 yang tidak terlihat dalam set tes), cotools menunjukkan akurasi pemilihan alat yang unggul. Ini terutama unggul dalam skenario dengan nomor alat besar dan ketika berhadapan dengan alat yang tidak terlihat, memanfaatkan informasi deskriptif untuk pengambilan yang efektif di mana metode hanya mengandalkan representasi alat terlatih goyah. Eksperimen juga menunjukkan bahwa Cotools mempertahankan kinerja yang kuat meskipun data pelatihan berkualitas lebih rendah.
Implikasi untuk perusahaan
Chain-of-tools menghadirkan arah yang menjanjikan untuk membangun agen bertenaga LLM yang lebih praktis dan kuat di perusahaan. Ini sangat berguna karena standar baru seperti model protokol konteks (MCP) memungkinkan pengembang untuk mengintegrasikan alat dan sumber daya eksternal dengan mudah ke dalam aplikasi mereka. Perusahaan berpotensi menggunakan agen yang beradaptasi dengan API internal atau eksternal baru dan berfungsi dengan overhead pelatihan ulang minimal.
Ketergantungan kerangka kerja pada pemahaman semantik melalui negara -negara tersembunyi memungkinkan pemilihan alat yang bernuansa dan akurat, yang dapat menyebabkan asisten AI yang lebih andal dalam tugas yang membutuhkan interaksi dengan beragam sumber dan sistem informasi.
“Cotools mengeksplorasi cara untuk melengkapi LLM dengan alat -alat baru yang besar dengan cara yang sederhana,” Mengsong Wu, penulis utama Kertas Cotools dan peneliti pembelajaran mesin di Soochow University, mengatakan kepada VentureBeat. “Ini bisa digunakan untuk membangun agen AI pribadi dengan MCP dan melakukan penalaran yang kompleks dengan alat ilmiah.”
Namun, Wu juga mencatat bahwa mereka hanya melakukan pekerjaan eksplorasi awal sejauh ini. “Untuk menerapkannya di lingkungan dunia nyata, Anda masih perlu menemukan keseimbangan antara biaya penyempurnaan dan efisiensi doa alat umum,” kata Wu.
Para peneliti telah merilis kode untuk melatih modul hakim dan retriever di GitHub.
“Kami percaya bahwa kerangka kerja agen pembelajaran alat ideal kami berdasarkan LLM beku dengan metode realisasi praktisnya dapat berguna dalam aplikasi dunia nyata dan bahkan mendorong pengembangan lebih lanjut dari pembelajaran alat,” tulis para peneliti.