
Ingin wawasan yang lebih cerdas di kotak masuk Anda? Mendaftar untuk buletin mingguan kami untuk hanya mendapatkan apa yang penting bagi AI, data, dan pemimpin keamanan perusahaan. Berlangganan sekarang
Laboratorium AI Jepang Sakana AI telah memperkenalkan teknik baru yang memungkinkan beberapa model bahasa besar (LLM) untuk bekerja sama pada satu tugas, secara efektif menciptakan “tim impian” agen AI. Metode ini, yang disebut multi-llm AB-MCTS, memungkinkan model untuk melakukan trial-and-error dan menggabungkan kekuatan unik mereka untuk memecahkan masalah yang terlalu rumit untuk setiap model individu.
Untuk perusahaan, pendekatan ini menyediakan sarana untuk mengembangkan sistem AI yang lebih kuat dan mampu. Alih -alih dikunci ke dalam penyedia atau model tunggal, bisnis dapat secara dinamis memanfaatkan aspek terbaik dari model perbatasan yang berbeda, menugaskan AI yang tepat untuk bagian yang tepat dari tugas untuk mencapai hasil yang unggul.
Kekuatan Kecerdasan Kolektif
Model AI perbatasan berkembang dengan cepat. Namun, setiap model memiliki kekuatan dan kelemahan yang berbeda yang berasal dari data pelatihan dan arsitekturnya yang unik. Seseorang mungkin unggul dalam pengkodean, sementara yang lain unggul dalam penulisan kreatif. Peneliti Sakana AI berpendapat bahwa perbedaan -perbedaan ini bukan bug, tetapi fitur.
“Kami melihat bias ini dan berbagai bakat bukan sebagai keterbatasan, tetapi sebagai sumber daya yang berharga untuk menciptakan kecerdasan kolektif,” kata para peneliti dalam posting blog mereka. Mereka percaya bahwa sama seperti pencapaian terbesar manusia berasal dari beragam tim, sistem AI juga dapat mencapai lebih banyak dengan bekerja bersama. “Dengan mengumpulkan kecerdasan mereka, sistem AI dapat memecahkan masalah yang tidak dapat diatasi untuk setiap model tunggal.”
Berpikir lebih lama pada waktu inferensi
Algoritma baru Sakana AI adalah teknik “penskalaan waktu inferensi” (juga disebut sebagai “penskalaan waktu tes”), suatu bidang penelitian yang telah menjadi sangat populer dalam setahun terakhir. Sementara sebagian besar fokus dalam AI adalah pada “penskalaan waktu pelatihan” (membuat model lebih besar dan melatihnya pada set data yang lebih besar), penskalaan waktu inferensi meningkatkan kinerja dengan mengalokasikan lebih banyak sumber daya komputasi setelah model sudah dilatih.
Salah satu pendekatan umum melibatkan penggunaan pembelajaran penguatan untuk memicu model untuk menghasilkan sekuens rantai (COT) yang lebih rinci, seperti yang terlihat dalam model populer seperti OpenAI O3 dan Deepseek-R1. Metode lain yang lebih sederhana adalah pengambilan sampel yang diulang, di mana model diberi prompt yang sama beberapa kali untuk menghasilkan berbagai solusi potensial, mirip dengan sesi brainstorming. Karya Sakana AI menggabungkan dan memajukan ide -ide ini.
“Kerangka kerja kami menawarkan versi Best-of-N (alias pengambilan sampel berulang) yang lebih pintar,” Takuya Akiba, ilmuwan riset di Sakana AI dan rekan penulis surat kabar itu, mengatakan kepada VentureBeat. “Ini melengkapi teknik penalaran seperti Long Cot melalui RL. Dengan secara dinamis memilih strategi pencarian dan LLM yang sesuai, pendekatan ini memaksimalkan kinerja dalam sejumlah panggilan LLM yang terbatas, memberikan hasil yang lebih baik pada tugas yang kompleks.”
Bagaimana pencarian percabangan adaptif bekerja
Inti dari metode baru ini adalah algoritma yang disebut pencarian pohon Monte Carlo yang bercabang adaptif (AB-MCTS). Ini memungkinkan LLM untuk secara efektif melakukan coba-coba dengan secara cerdas menyeimbangkan dua strategi pencarian yang berbeda: “mencari lebih dalam” dan “mencari lebih luas.” Mencari lebih dalam melibatkan mengambil jawaban yang menjanjikan dan berulang kali menyempurnakannya, sambil mencari cara yang lebih luas menghasilkan solusi yang benar -benar baru dari awal. AB-MCTS menggabungkan pendekatan ini, memungkinkan sistem untuk meningkatkan ide yang baik tetapi juga untuk berputar dan mencoba sesuatu yang baru jika mencapai jalan buntu atau menemukan arah lain yang menjanjikan.
Untuk mencapai hal ini, sistem menggunakan Monte Carlo Tree Search (MCTS), algoritma pengambilan keputusan yang terkenal digunakan oleh DeepMind's Alphago. Pada setiap langkah, AB-MCTS menggunakan model probabilitas untuk memutuskan apakah lebih strategis untuk memperbaiki solusi yang ada atau menghasilkan yang baru.
Para peneliti mengambil ini selangkah lebih maju dengan multi-llm AB-MCTS, yang tidak hanya memutuskan “apa” yang harus dilakukan (Refine vs menghasilkan) tetapi juga “mana” LLM harus melakukannya. Pada awal tugas, sistem tidak tahu model mana yang paling cocok untuk masalah tersebut. Ini dimulai dengan mencoba campuran seimbang dari LLM yang tersedia dan, seiring perkembangannya, mempelajari model mana yang lebih efektif, mengalokasikan lebih banyak beban kerja kepada mereka dari waktu ke waktu.
Menyelesaikan 'tim impian' AI
Para peneliti menguji sistem multi-llm AB-MCT mereka pada tolok ukur ARC-AGI-2. ARC (abstraksi dan penalaran corpus) dirancang untuk menguji kemampuan seperti manusia untuk menyelesaikan masalah penalaran visual baru, membuatnya sangat sulit bagi AI.
Tim menggunakan kombinasi model Frontier, termasuk O4-Mini, Gemini 2.5 Pro, dan Deepseek-R1.
Kumpulan model dapat menemukan solusi yang benar untuk lebih dari 30% dari 120 masalah tes, skor yang secara signifikan mengungguli salah satu model yang bekerja sendiri. Sistem menunjukkan kemampuan untuk secara dinamis menetapkan model terbaik untuk masalah yang diberikan. Pada tugas -tugas di mana jalur yang jelas menuju solusi ada, algoritma dengan cepat mengidentifikasi LLM yang paling efektif dan menggunakannya lebih sering.

Lebih mengesankan, tim mengamati contoh di mana model memecahkan masalah yang sebelumnya tidak mungkin untuk salah satu dari mereka. Dalam satu kasus, solusi yang dihasilkan oleh model O4-Mini salah. Namun, sistem melewati upaya cacat ini ke Deepseek-R1 dan Gemini-12.5 Pro, yang mampu menganalisis kesalahan, memperbaikinya, dan pada akhirnya menghasilkan jawaban yang tepat.
“Ini menunjukkan bahwa multi-llm AB-MCT dapat secara fleksibel menggabungkan model perbatasan untuk menyelesaikan masalah yang sebelumnya tidak dapat diselesaikan, mendorong batas-batas apa yang dapat dicapai dengan menggunakan LLMS sebagai kecerdasan kolektif,” tulis para peneliti.

“Selain pro dan kontra individu dari masing -masing model, kecenderungan berhalusinasi dapat bervariasi secara signifikan di antara mereka,” kata Akiba. “Dengan menciptakan ansambel dengan model yang lebih kecil dari berhalusinasi, dimungkinkan untuk mencapai yang terbaik dari kedua dunia: kemampuan logis yang kuat dan landasan yang kuat. Karena halusinasi adalah masalah utama dalam konteks bisnis, pendekatan ini bisa berharga untuk mitigasi.”
Dari penelitian hingga aplikasi dunia nyata
Untuk membantu pengembang dan bisnis menerapkan teknik ini, Sakana AI telah merilis algoritma yang mendasari sebagai kerangka kerja open-source yang disebut Treequest, tersedia di bawah lisensi Apache 2.0 (dapat digunakan untuk tujuan komersial). TreeQuest menyediakan API yang fleksibel, memungkinkan pengguna untuk mengimplementasikan AB-LLM MCTS untuk tugas mereka sendiri dengan skor dan logika khusus.
“Sementara kami berada pada tahap awal menerapkan AB-MCT untuk masalah yang berorientasi bisnis tertentu, penelitian kami mengungkapkan potensi yang signifikan di beberapa bidang,” kata Akiba.
Di luar tolok ukur ARC-AGI-2, tim ini dapat berhasil menerapkan AB-MCT pada tugas-tugas seperti pengkodean algoritmik yang kompleks dan meningkatkan keakuratan model pembelajaran mesin.
“AB-MCT juga bisa sangat efektif untuk masalah yang membutuhkan percobaan dan kesalahan berulang, seperti mengoptimalkan metrik kinerja perangkat lunak yang ada,” kata Akiba. “Misalnya, ini dapat digunakan untuk secara otomatis menemukan cara untuk meningkatkan latensi respons layanan web.”
Rilis alat praktis dan open-source dapat membuka jalan bagi kelas baru aplikasi AI perusahaan yang lebih kuat dan andal.