
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Perusahaan semakin bergantung pada model bahasa besar (LLM) untuk memberikan layanan canggih, tetapi berjuang untuk menangani biaya komputasi dari menjalankan model. Kerangka kerja baru, chain-of-experts (COE), bertujuan untuk membuat LLM lebih hemat sumber daya sambil meningkatkan akurasi mereka pada tugas penalaran.
Kerangka kerja COE membahas keterbatasan pendekatan sebelumnya dengan mengaktifkan “para ahli” – elemen terpisah dari suatu model, masing -masing berspesialisasi dalam tugas -tugas tertentu – secara berurutan alih -alih secara paralel. Struktur ini memungkinkan para ahli untuk mengkomunikasikan hasil perantara dan secara bertahap membangun pekerjaan satu sama lain.
Arsitektur seperti CoE dapat menjadi sangat berguna dalam aplikasi inferensi-intensif, di mana keuntungan dalam efisiensi dapat menghasilkan penghematan biaya yang sangat besar dan pengalaman pengguna yang lebih baik.
Llms padat dan campuran-ekspert
LLM klasik, kadang -kadang disebut sebagai model padat, mengaktifkan setiap parameter secara bersamaan selama inferensi, yang mengarah pada tuntutan komputasi yang luas sebagai model tumbuh lebih besar. Campuran-Eksperta (MOE), sebuah arsitektur yang digunakan dalam model seperti Deepseek-V3 dan (dengan asumsi) GPT-4O, mengatasi tantangan ini dengan membagi model menjadi satu set ahli.
Selama inferensi, model MOE menggunakan router yang memilih subset ahli untuk setiap input. MOES secara signifikan mengurangi overhead komputasi menjalankan LLM dibandingkan dengan model padat. Sebagai contoh, Deepseek-V3 adalah model 671 miliar-parameter dengan 257 ahli, sembilan di antaranya digunakan untuk setiap token input yang diberikan, dengan total 37 miliar parameter aktif selama inferensi.
Tetapi MOES memiliki keterbatasan. Dua kelemahan utama adalah, pertama, bahwa setiap ahli beroperasi secara independen dari yang lain, mengurangi kinerja model pada tugas yang membutuhkan kesadaran kontekstual dan koordinasi di antara para ahli. Dan kedua, arsitektur MOE menyebabkan sparsity tinggi, menghasilkan model dengan persyaratan memori yang tinggi, meskipun subset kecil digunakan pada waktu tertentu.
Rantai Eksekar
Kerangka kerja chain-of-experts membahas keterbatasan MOES dengan mengaktifkan para ahli secara berurutan alih-alih secara paralel. Struktur ini memungkinkan para ahli untuk mengkomunikasikan hasil perantara dan secara bertahap membangun pekerjaan satu sama lain.
CoE menggunakan proses berulang. Input pertama kali dialihkan ke satu set ahli, yang memprosesnya dan meneruskan jawaban mereka ke set ahli lain. Kelompok ahli kedua memproses hasil perantara dan dapat meneruskannya ke set ahli berikutnya. Pendekatan berurutan ini memberikan input yang sadar konteks, secara signifikan meningkatkan kemampuan model untuk menangani tugas penalaran yang kompleks.
Misalnya, dalam penalaran matematika atau inferensi logis, COE memungkinkan setiap ahli untuk membangun wawasan sebelumnya, meningkatkan akurasi dan kinerja tugas. Metode ini juga mengoptimalkan penggunaan sumber daya dengan meminimalkan perhitungan redundan yang umum pada penyebaran ahli paralel saja, menangani tuntutan perusahaan untuk solusi AI yang hemat biaya dan berkinerja tinggi.
Keuntungan utama dari CoE
Pendekatan rantai-ahli, menggunakan aktivasi berurutan dan kolaborasi ahli, menghasilkan beberapa manfaat utama, seperti yang dijelaskan dalam analisis terbaru dari sekelompok peneliti yang menguji kerangka kerja COE.
Di CoE, seleksi ahli dilakukan dengan cara berulang. Dalam setiap iterasi, para ahli ditentukan oleh output dari tahap sebelumnya. Ini memungkinkan para ahli yang berbeda untuk berkomunikasi dan membentuk saling ketergantungan untuk menciptakan mekanisme perutean yang lebih dinamis.
“Dengan cara ini, COE dapat secara signifikan meningkatkan kinerja model sambil mempertahankan efisiensi komputasi, terutama dalam skenario kompleks (misalnya, tugas matematika dalam percobaan),” tulis para peneliti.

Eksperimen para peneliti menunjukkan bahwa dengan anggaran komputasi dan memori yang sama, CoE mengungguli LLM dan MOES yang padat. Sebagai contoh, dalam tolok ukur matematika, COE dengan 64 ahli, empat ahli yang dirutekan dan dua iterasi inferensi (COE-2 (4/64)) mengungguli MOE dengan 64 ahli dan delapan ahli yang dirutekan (MOE (8/64)).
Para peneliti juga menemukan bahwa CoE mengurangi persyaratan memori. Misalnya, CoE dengan dua dari 48 ahli yang dirutekan dan dua iterasi (COE-2 (4/48)) mencapai kinerja yang mirip dengan MOE (8/64) sambil menggunakan lebih sedikit total ahli, mengurangi persyaratan memori sebesar 17,6%.
CoE juga memungkinkan arsitektur model yang lebih efisien. Misalnya, COE-2 (8/64) dengan empat lapisan jaringan saraf cocok dengan kinerja MOE (8/64) dengan delapan lapisan, tetapi menggunakan memori 42% lebih sedikit.
“Mungkin yang paling penting, Coe tampaknya memberikan apa yang kita sebut akselerasi 'makan siang gratis',” tulis para peneliti. “Dengan merestrukturisasi bagaimana informasi mengalir melalui model, kami mencapai hasil yang lebih baik dengan overhead komputasi yang sama dibandingkan dengan metode MOE sebelumnya.”
Contoh kasus: COE-2 (4/64) menyediakan 823 lebih banyak kombinasi ahli dibandingkan dengan MOE (8/64), memungkinkan model untuk mempelajari tugas yang lebih kompleks tanpa meningkatkan ukuran model atau memori dan persyaratan komputasi.
Biaya operasional COE yang lebih rendah dan peningkatan kinerja pada tugas -tugas kompleks dapat membuat AI canggih lebih mudah diakses oleh perusahaan, membantu mereka tetap kompetitif tanpa investasi infrastruktur yang substansial.
“Penelitian ini membuka jalur baru untuk model bahasa yang secara efisien meningkatkan model bahasa, berpotensi membuat kemampuan kecerdasan buatan canggih lebih mudah diakses dan berkelanjutan,” tulis para peneliti.