
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Startup AI Prancis Pleias membuat gelombang akhir tahun lalu dengan peluncuran keluarga pleias 1.0 yang terlatih secara etis dari model bahasa kecil – di antara yang pertama dan satu -satunya hingga saat ini dibangun sepenuhnya pada data “terbuka”, yaitu, data yang secara eksplisit dilabeli sebagai domain publik, open source, atau tidak berlisensi dan tidak memiliki hak cipta.
Sekarang perusahaan telah mengumumkan rilis dua model penalaran skala kecil open source yang dirancang khusus untuk generasi pengambilan (RAG), sintesis kutipan, dan output multibahasa terstruktur.
Peluncuran ini mencakup dua model inti-Pleias-RAG-350M dan Pleias-RAG-1B-masing-masing juga tersedia dalam format GGUF yang dioptimalkan CPU, membuat total empat varian yang siap pakai.
Mereka semua didasarkan pada pleias 1.0, dan dapat digunakan secara mandiri atau bersamaan dengan LLM lain yang mungkin sudah atau rencanakan organisasi untuk digunakan. Semua tampaknya tersedia di bawah lisensi open source Apache 2.0 permisif, artinya mereka adalah memenuhi syarat bagi organisasi untuk mengambil, memodifikasi, dan menggunakan kasus penggunaan komersial.
Rag, seperti yang akan Anda ingat, adalah teknik yang digunakan secara luas yang dapat digunakan perusahaan dan organisasi untuk mengaitkan model bahasa AI besar (LLM) seperti Openai GPT-4o, Google Gemini 2.5 Flash, Cloudse Cloudse, atau Cloud V3, atau Cloud's Wearse, atau Open Source Alternatif seperti Llama 4 dan Deepse.
Ini sering diperlukan untuk perusahaan yang ingin membangun chatbots dan aplikasi AI lainnya yang merujuk kebijakan internal atau katalog produk mereka (alternatif, mendorong konteks panjang LLM dengan semua informasi yang diperlukan, mungkin tidak cocok untuk kasus penggunaan perusahaan di mana keamanan dan biaya transmisi per tokoh menjadi perhatian).
Keluarga model Pleias-RAG adalah upaya terbaru untuk menjembatani kesenjangan antara akurasi dan efisiensi dalam model bahasa kecil.
Model-model ini ditujukan untuk perusahaan, pengembang, dan peneliti yang mencari alternatif yang hemat biaya untuk model bahasa skala besar tanpa mengurangi keterlacakan, kemampuan multibahasa, atau alur kerja penalaran terstruktur.
Target userbase sebenarnya adalah benua rumah Pleias di Eropa, seperti yang dikatakan co-founder Alexander Doria kepada VentureBeat melalui pesan langsung di jejaring sosial x:
“Motivasi utama adalah kesulitan menskalakan aplikasi Rag di Eropa. Sebagian besar organisasi swasta memiliki sedikit GPU (mungkin telah berubah tetapi tidak lama ini kurang dari 2% dari semuanya [Nvidia] H100 [GPUs] berada di Eropa). Namun secara bersamaan ada insentif yang kuat untuk menjadi tuan rumah sendiri karena alasan yang diatur, termasuk GDPR.
“SLM telah berkembang secara signifikan selama setahun terakhir, namun mereka terlalu sering dipahami sebagai 'mini-chatbots' dan kami telah mengamati setetes kinerja yang signifikan dalam bahasa non-Inggris, baik dalam hal pemahaman sumber dan kualitas pembuatan teks. Jadi kami telah puas untuk mencapai sebagian besar tujuan kami:
- Alternatif aktual untuk model 7-8B untuk RAG bahkan pada CPU dan infra terbatas lainnya.
- Model yang dapat diverifikasi sepenuhnya datang dengan dukungan kutipan.
- Pelestarian kinerja bahasa Eropa. “
Namun, tentu saja model menjadi open source di bawah lisensi Apache 2.0 berarti siapa pun dapat mengambil dan menggunakannya dengan bebas di mana saja di dunia.
Berfokus pada landasan, kutipan, dan fakta
Fitur utama dari model Pleias-RAG baru adalah dukungan asli mereka untuk kutipan sumber dengan kutipan literal, sepenuhnya terintegrasi ke dalam proses inferensi model.
Tidak seperti metode kutipan post-hoc atau pipa chunking eksternal, model Pleias-RAG menghasilkan kutipan secara langsung, menggunakan sintaksis yang terinspirasi oleh format referensi Wikipedia.
Pendekatan ini memungkinkan cuplikan kutipan yang lebih pendek dan lebih mudah dibaca sambil mempertahankan verifikasi.
Kutipan landasan memainkan peran fungsional dalam pengaturan yang diatur.
Untuk sektor-sektor seperti perawatan kesehatan, hukum, dan keuangan-di mana pengambilan keputusan harus didokumentasikan dan dapat dilacak-referensi bawaan ini menawarkan jalur langsung ke auditabilitas. Pleias memposisikan pilihan desain ini sebagai keharusan etis, sejajar dengan meningkatnya tuntutan peraturan untuk AI yang dapat dijelaskan.
Agen Proto?
Model pleias-rag digambarkan sebagai “proto-agentik”-mereka dapat secara mandiri menilai apakah kueri dapat dimengerti, menentukan apakah itu sepele atau kompleks, dan memutuskan apakah akan menjawab, merumuskan kembali, atau menolak berdasarkan kecukupan sumber.
Output terstruktur mereka meliputi deteksi bahasa, laporan analisis permintaan dan sumber, dan jawaban yang beralasan.
Meskipun ukurannya yang relatif kecil (Pleias-RAG-350M hanya memiliki 350 juta parameter) model menunjukkan perilaku yang secara tradisional terkait dengan sistem agen yang lebih besar.
Menurut Pleias, kemampuan ini berasal dari pipa pelatihan menengah khusus yang memadukan pembuatan data sintetis dengan petunjuk penalaran berulang.
Pleias-RAG-350M secara eksplisit dirancang untuk lingkungan yang dibatasi. Ini berkinerja baik pada CPU standar, termasuk infrastruktur kelas seluler.
Menurut tolok ukur internal, versi GGUF yang tidak kuantisasi menghasilkan output penalaran lengkap dalam sekitar 20 detik pada pengaturan RAM 8GB. Jejak kecilnya menempatkannya di ceruk dengan sangat sedikit pesaing, seperti Qwen-0.5 dan Smollm, tetapi dengan penekanan yang jauh lebih kuat pada sintesis sumber terstruktur.
Kinerja kompetitif lintas tugas dan bahasa
Dalam evaluasi benchmark, pleias-rag-350m dan pleias-rag-1b mengungguli sebagian besar model dengan berat terbuka di bawah 4 miliar parameter, termasuk llama-3.1-8b dan qwen-2.5-7b, pada tugas seperti hotpotqa, 2wikimultihopqa, dan musque.
Tolok ukur kain multi-hop ini menguji kemampuan model untuk beralasan di beberapa dokumen dan mengidentifikasi distraktor-persyaratan umum dalam sistem pengetahuan tingkat perusahaan.
Kekuatan model meluas ke skenario multibahasa. Pada set tolok ukur yang diterjemahkan di seluruh model Prancis, Jerman, Spanyol, dan Italia, The Pleias menunjukkan degradasi yang dapat diabaikan dalam kinerja.
Ini membedakan mereka dari SLM lainnya, yang biasanya mengalami kehilangan kinerja 10-35% saat menangani kueri non-Inggris.
Dukungan multibahasa berasal dari desain tokenizer yang cermat dan pelatihan permusuhan sintetis yang mencakup latihan pengalihan bahasa. Model tidak hanya mendeteksi bahasa permintaan pengguna tetapi juga bertujuan untuk merespons dalam bahasa yang sama – fitur penting untuk penyebaran global.
Selain itu, Doria menyoroti bagaimana model dapat digunakan untuk menambah kinerja model lain yang ada perusahaan mungkin sudah menggunakan:
“Kami membayangkan model yang akan digunakan dalam pengaturan orkestrasi, terutama karena biaya komputasi mereka rendah. Hasil yang sangat menarik di sisi evaluasi: bahkan model 350m ternyata bagus pada jawaban yang sama sekali berbeda dari jawabannya [Meta] Llama dan [Alibaba] Qwen tampil di. Jadi ada saling salingkan nyata yang kami kaitkan dengan pipa penalaran kami, yang melampaui efektivitas biaya… ”
Akses terbuka dan lisensi
Menurut Doria dan makalah teknis yang merinci pelatihan keluarga Pleias-Rag, model-model dilatih pada: “Corpus umum untuk membuat set pelatihan kain (semua 3 juta contoh berasal dari itu). Kami menggunakan [Google] Gemma di atas untuk menghasilkan jejak sintetis penalaran karena lisensi memungkinkan untuk digunakan kembali/pelatihan ulang. ”
Kedua model dirilis di bawah lisensi Apache 2.0, yang memungkinkan penggunaan kembali komersial dan integrasi ke dalam sistem yang lebih besar.
Pleias menekankan kesesuaian model untuk integrasi ke dalam asisten pencarian, alat pendidikan, dan sistem dukungan pengguna. Perusahaan juga menyediakan pustaka API untuk menyederhanakan pemformatan input-output terstruktur untuk pengembang.
Rilis model adalah bagian dari dorongan yang lebih luas oleh pleias untuk memposisikan ulang LLM kecil sebagai alat untuk penalaran terstruktur, bukan sebagai bot percakapan tujuan umum.
Dengan memanfaatkan arsitektur memori eksternal dan metode kutipan sistematis, seri Pleias-RAG menawarkan alternatif yang transparan dan dapat diaudit untuk model perbatasan yang lebih buram.
Outlook di masa depan
Ke depan, Pleias berencana untuk memperluas kemampuan model melalui penanganan konteks yang lebih lama, integrasi pencarian yang lebih ketat, dan penyetelan kepribadian untuk presentasi identitas yang lebih konsisten.
Pembelajaran penguatan juga sedang dieksplorasi, terutama dalam domain seperti akurasi kutipan, di mana verifikasi kutipan dapat diukur secara algoritmik.
Tim ini juga aktif berkolaborasi dengan mitra seperti Wikimedia Foundation untuk mendukung integrasi pencarian yang ditargetkan menggunakan sumber tepercaya.
Pada akhirnya, penggunaan implementasi, model, dan alur kerja spesifik RAG saat ini mungkin hilang karena model AI yang lebih canggih dilatih dan digunakan, yang menggabungkan penggunaan alat Rag dan Agentik secara asli. Seperti yang dikatakan Doria VentureBeat melalui DM:
“Jangka panjang, keyakinan saya adalah bahwa kedua pipa kain klasik dan model konteks panjang akan terganggu oleh agen pencarian. Kami sudah mulai bergerak ke arah ini: itulah sebabnya model sudah dilengkapi dengan banyak fitur yang saat ini dieksternalisasi dalam aplikasi RAG (reformulasi kueri, reranking, dll.). Kami jelas bertujuan untuk melangkah lebih jauh dan mengintegrasikan kapasitas pencarian dan kapasitas pemrosesan sumber secara langsung dalam model itu sendiri. Keyakinan saya adalah bahwa kain akan hilang dengan cara yang diotomatisasi oleh model agen yang dapat mengarahkan alur kerja mereka sendiri.“
Dengan Pleias-RAG-350M dan 1B, perusahaan bertaruh bahwa model kecil-ketika dipasangkan dengan perancah penalaran yang kuat dan output yang dapat diverifikasi-dapat bersaing dengan rekan yang jauh lebih besar, terutama dalam penyebaran multibahasa dan infrastruktur yang terbatas.