
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Kerangka kerja baru yang disebut Metascale memungkinkan model bahasa besar (LLM) untuk secara dinamis menyesuaikan mode penalaran mereka pada waktu inferensi. Kerangka kerja ini membahas salah satu kekurangan LLMS, yang menggunakan strategi penalaran yang sama untuk semua jenis masalah.
Diperkenalkan dalam sebuah makalah oleh para peneliti di University of California, Davis, University of Southern California dan Microsoft Research, Metascale menggunakan “meta-pikiran”-strategi pemikiran adaptif yang disesuaikan untuk setiap tugas-untuk meningkatkan kinerja LLM dan generalisasi di berbagai tugas.
Pendekatan ini dapat menawarkan perusahaan cara untuk meningkatkan keakuratan dan efisiensi aplikasi LLM mereka tanpa mengubah model atau terlibat dalam upaya penyempurnaan yang mahal.
Keterbatasan strategi penalaran tetap
Salah satu tantangan utama aplikasi LLM adalah perilaku penalaran yang tetap dan tidak fleksibel. Tidak seperti manusia, yang secara sadar dapat memilih pendekatan yang berbeda untuk menyelesaikan masalah, LLM sering mengandalkan pencocokan pola dari data pelatihan mereka, yang mungkin tidak selalu selaras dengan prinsip -prinsip penalaran yang baik yang digunakan manusia.
Metode saat ini untuk menyesuaikan proses penalaran LLM, seperti rantai-pemikiran (COT) yang diminta, verifikasi diri dan pemikiran terbalik, sering dirancang untuk tugas-tugas tertentu, membatasi kemampuan beradaptasi dan keefektifannya di berbagai skenario.
Para peneliti menunjukkan bahwa “pendekatan ini memaksakan struktur berpikir tetap daripada memungkinkan LLM untuk secara adaptif menentukan strategi khusus tugas yang paling efektif, berpotensi membatasi kinerja mereka.”
Untuk mengatasi keterbatasan ini, para peneliti mengusulkan konsep “meta-berpikir.” Proses ini memungkinkan LLM untuk merefleksikan pendekatan mereka sebelum menghasilkan respons. Meta-Thoughts memandu proses penalaran melalui dua komponen yang diilhami oleh kognisi manusia:
Pola Pikir Kognitif: Perspektif, keahlian, atau peran yang diadopsi model untuk mendekati tugas.
Strategi pemecahan masalah: Pola terstruktur yang digunakan untuk merumuskan solusi untuk tugas berdasarkan pola pikir yang dipilih.
Alih -alih secara langsung menangani masalah, LLM pertama -tama menentukan cara berpikir, memilih strategi kognitif yang paling tepat. Misalnya, ketika dihadapkan dengan masalah perangkat lunak yang kompleks, LLM mungkin pertama-tama memikirkan jenis profesional yang akan menyelesaikannya (misalnya, insinyur perangkat lunak) dan memilih strategi untuk mendekati masalah (misalnya, menggunakan pola desain untuk memecah masalah atau menggunakan pendekatan layanan mikro untuk menyederhanakan penyebaran).
“Dengan menggabungkan langkah meta-berpikir ini, LLMS dapat secara dinamis menyesuaikan proses penalaran mereka dengan tugas yang berbeda, daripada mengandalkan heuristik yang kaku dan telah ditentukan sebelumnya,” tulis para peneliti.
Membangun berdasarkan meta-pikiran, para peneliti memperkenalkan Metascale, kerangka kerja waktu tes yang dapat diterapkan pada model apa pun melalui rekayasa cepat.
“Tujuannya adalah untuk memungkinkan LLM untuk mengeksplorasi strategi berpikir yang berbeda, dan menghasilkan respons yang paling efektif untuk input yang diberikan,” mereka menyatakan.
Metascale beroperasi dalam tiga fase:
Inisialisasi: Metascale menghasilkan kumpulan strategi penalaran yang beragam berdasarkan prompt input. Ini melakukan ini dengan mendorong LLM untuk mengkomposisi strategi diri dan memanfaatkan set data pengumpulan instruksi yang berisi templat penalaran untuk berbagai jenis masalah. Kombinasi ini menciptakan kumpulan awal meta-pikiran yang kaya.
Pilihan: Algoritma bandit multi-bersenjata (MAB) memilih meta-dipikirkan yang paling menjanjikan untuk setiap iterasi. MAB adalah kerangka kerja masalah di mana agen harus berulang kali memilih antara beberapa opsi, atau “lengan,” masing -masing dengan distribusi hadiah yang tidak diketahui. Tantangan inti terletak pada menyeimbangkan “eksplorasi” (misalnya, mencoba berbagai strategi penalaran) dan “eksploitasi” (secara konsisten memilih strategi penalaran yang sebelumnya memberikan tanggapan terbaik). Di Metascale, setiap meta-dipikirkan diperlakukan sebagai lengan, dan tujuannya adalah untuk memaksimalkan hadiah (kualitas respons) berdasarkan meta-dipilih.
Evolusi: Algoritma genetika memurnikan dan memperluas kumpulan strategi kognitif secara iteratif. Metascale menggunakan meta-pikiran berkinerja tinggi sebagai “orang tua” untuk menghasilkan meta-pikiran “anak” baru. LLM diminta untuk mengembangkan meta-pikiran olahan yang mengintegrasikan dan meningkatkan pada orang tua yang dipilih. Untuk tetap efisien, Metascale beroperasi dalam anggaran pengambilan sampel tetap saat menghasilkan meta-pikiran.
Para peneliti mengevaluasi Metascale tentang tolok ukur penalaran matematika (GSM8K), Pengetahuan dan Pemahaman Bahasa (MMLU-PRO), dan arena-hard, membandingkannya dengan empat metode inferensi dasar: respons langsung (inferensi tunggal-pass), COT, Best-of-N (mencicipi beberapa respons dan memilih yang terbaik), dan terbaik dengan COT. Mereka menggunakan GPT-4O dan Llama-3.1-8B-instruct sebagai model tulang punggung untuk percobaan mereka.

Hasilnya menunjukkan bahwa Metascale secara signifikan meningkatkan kemampuan pemecahan masalah LLM di berbagai tugas, secara konsisten mengungguli metode dasar. Metascale mencapai kinerja yang sama atau superior dibandingkan dengan semua baseline, terlepas dari apakah mereka menggunakan cot dorongan. Khususnya, GPT-4O dengan Metascale mengungguli O1-mini di bawah kontrol gaya.
“Hasil ini menunjukkan bahwa mengintegrasikan meta-pikiran memungkinkan LLM untuk skala lebih efektif selama waktu pengujian seiring dengan meningkatnya jumlah sampel,” kata para peneliti.
Ketika jumlah solusi kandidat meningkat, Metascale menunjukkan keuntungan yang jauh lebih tinggi daripada baseline lainnya, menunjukkan bahwa itu adalah strategi penskalaan yang lebih efektif.
Implikasi untuk perusahaan
Sebagai teknik uji-waktu, Metascale dapat membantu perusahaan meningkatkan kualitas penalaran LLM melalui Smart Prompt Engineering tanpa perlu menyempurnakan atau mengganti model. Ini juga tidak memerlukan pembuatan perancah perangkat lunak yang kompleks di atas model, karena logikanya sepenuhnya disediakan oleh LLM itu sendiri.
Dengan secara dinamis menyesuaikan strategi penalaran LLM, Metascale juga praktis untuk aplikasi dunia nyata yang menangani berbagai tugas penalaran. Ini juga merupakan metode black-box, yang dapat diterapkan pada model open-source yang berjalan di awan perusahaan atau model tertutup yang berjalan di belakang API pihak ketiga. Ini menunjukkan kemampuan yang menjanjikan dari teknik penskalaan waktu tes untuk tugas penalaran.