
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Perusahaan menghabiskan waktu dan uang untuk membangun sistem generasi pengambilan-pengambilan (RAG). Tujuannya adalah untuk memiliki sistem AI perusahaan yang akurat, tetapi apakah sistem itu benar -benar berfungsi?
Ketidakmampuan untuk mengukur secara objektif apakah sistem kain benar -benar berfungsi adalah titik buta yang kritis. Salah satu solusi potensial untuk tantangan itu adalah diluncurkan hari ini dengan debut kerangka kerja open-source Open Rag Eval. Kerangka kerja baru ini dikembangkan oleh penyedia platform Rag Enterprise Vectara yang bekerja bersama dengan Profesor Jimmy Lin dan tim peneliti di University of Waterloo.
Open Rag Eval mengubah subyektif 'ini terlihat lebih baik dari' pendekatan perbandingan menjadi metodologi evaluasi yang ketat dan dapat direproduksi yang dapat mengukur akurasi pengambilan, kualitas generasi dan tingkat halusinasi di seluruh penyebaran kain perusahaan.
Kerangka kerja menilai kualitas respons menggunakan dua kategori metrik utama: metrik pengambilan dan metrik pembuatan. Ini memungkinkan organisasi untuk menerapkan evaluasi ini ke pipa kain apa pun, baik menggunakan platform Vectara atau solusi yang dibuat khusus. Untuk pembuat keputusan teknis, ini berarti akhirnya memiliki cara sistematis untuk mengidentifikasi dengan tepat komponen implementasi RAG mereka yang perlu dioptimalkan.
“Jika Anda tidak dapat mengukurnya, Anda tidak dapat memperbaikinya,” Jimmy Lin, profesor di University of Waterloo, mengatakan kepada VentureBeat dalam sebuah wawancara eksklusif. “Dalam pengambilan informasi dan vektor padat, Anda bisa mengukur banyak hal, NDCG [Normalized Discounted Cumulative Gain]Presisi, ingat … tetapi ketika sampai pada jawaban yang benar, kami tidak punya jalan, itulah sebabnya kami memulai di jalan ini. “
Mengapa Evaluasi Rag telah menjadi hambatan untuk adopsi AI perusahaan
Vectara adalah pelopor awal di ruang rag. Perusahaan diluncurkan pada Oktober 2022, sebelum chatgpt adalah nama rumah tangga. Vectara sebenarnya memulai debutnya teknologi yang awalnya disebut sebagai AI yang didasarkan pada Mei 2023, sebagai cara untuk membatasi halusinasi, sebelum akronim RAG umumnya digunakan.
Selama beberapa bulan terakhir, bagi banyak perusahaan, implementasi kain telah tumbuh semakin kompleks dan sulit untuk dinilai. Tantangan utama adalah bahwa organisasi bergerak melampaui pertanyaan sederhana untuk sistem agen multi-langkah.
“Di dunia agen, evaluasi sangat penting, karena agen AI ini cenderung multi-langkah,” AM Awadallah, CEO Vectara dan Cofounder mengatakan kepada VentureBeat. “Jika Anda tidak menangkap halusinasi pada langkah pertama, maka itu menambah dengan langkah kedua, senyawa dengan langkah ketiga, dan Anda berakhir dengan tindakan atau jawaban yang salah di akhir pipa.”
BAGAIMANA RAG OPEN OPEN: memecah kotak hitam menjadi komponen yang terukur
Kerangka kerja eval RAG terbuka mendekati evaluasi melalui metodologi berbasis nugget.
Lin menjelaskan bahwa pendekatan nugget memecah respons menjadi fakta -fakta penting, kemudian mengukur seberapa efektif suatu sistem menangkap nugget.
Kerangka kerja mengevaluasi sistem kain di empat metrik spesifik:
- Deteksi halusinasi – Mengukur sejauh mana konten yang dihasilkan berisi informasi fabrikasi yang tidak didukung oleh dokumen sumber.
- Kutipan – Mengukur seberapa baik kutipan dalam respons didukung oleh dokumen sumber.
- Nugget Otomatis – Mengevaluasi keberadaan nugget informasi penting dari dokumen sumber dalam tanggapan yang dihasilkan.
- Umbrela (Metode terpadu untuk evaluasi pengambilan benchmarking dengan penilaian LLM) – Metode holistik untuk menilai kinerja retriever secara keseluruhan
Yang penting, kerangka kerja mengevaluasi seluruh pipa rag ujung ke ujung, memberikan visibilitas tentang bagaimana model penyematan, sistem pengambilan, strategi chunking, dan LLM berinteraksi untuk menghasilkan output akhir.
Inovasi Teknis: Otomatisasi Melalui LLMS
Apa yang membuat eval rag terbuka secara teknis signifikan adalah bagaimana menggunakan model bahasa besar untuk mengotomatisasi apa yang sebelumnya merupakan proses evaluasi manual dan intensif tenaga kerja.
“Keadaan seni sebelum kami mulai, dibiarkan versus perbandingan kanan,” jelas Lin. “Jadi ini, apakah kamu lebih suka yang kiri lebih baik? Apakah kamu lebih suka yang benar? Atau keduanya baik, atau keduanya buruk? Itu semacam salah satu cara melakukan sesuatu.”
Lin mencatat bahwa pendekatan evaluasi berbasis nugget itu sendiri bukanlah hal baru, tetapi otomatisasi melalui LLMS mewakili terobosan.
Kerangka kerja menggunakan Python dengan rekayasa cepat yang canggih untuk mendapatkan LLM untuk melakukan tugas evaluasi seperti mengidentifikasi nugget dan menilai halusinasi, semuanya dibungkus dalam pipa evaluasi terstruktur.
Lansekap Kompetitif: Bagaimana Open Rag Eval cocok dengan ekosistem evaluasi
Ketika penggunaan perusahaan AI terus matang, ada semakin banyak kerangka kerja evaluasi. Baru minggu lalu, Hugging Face meluncurkan Anda untuk menguji model terhadap data internal perusahaan. Pada akhir Januari, Galileo meluncurkan teknologi evaluasi agennya.
Open Rag Eval berbeda karena sangat fokus pada pipa kain, bukan hanya output LLM .. Kerangka kerja ini juga memiliki fondasi akademik yang kuat dan dibangun di atas ilmu pengambilan informasi yang mapan daripada metode ad-hoc.
Kerangka kerja dibangun berdasarkan kontribusi Vectara sebelumnya untuk komunitas AI open-source, termasuk model evaluasi halusinasi Hughes (HHEM), yang telah diunduh lebih dari 3,5 juta kali pada pemeluk tangan dan telah menjadi tolok ukur standar untuk deteksi halusinasi.
“Kami tidak menyebutnya kerangka kerja eval Vectara, kami menyebutnya kerangka kerja eval terbuka karena kami benar -benar ingin perusahaan lain dan lembaga lain mulai membantu membangun ini,” Awadallah menekankan. “Kita membutuhkan sesuatu seperti itu di pasar, untuk kita semua, untuk membuat sistem ini berkembang dengan cara yang benar.”
Apa arti eval rag terbuka di dunia nyata
Meskipun masih merupakan upaya tahap awal, Vectara setidaknya sudah memiliki banyak pengguna yang tertarik untuk menggunakan kerangka kerja eval Rag Open.
Di antara mereka adalah Jeff Hummel, SVP produk dan teknologi di perusahaan real estat di mana saja. Hummel berharap bahwa bermitra dengan Vectara akan memungkinkannya untuk merampingkan proses evaluasi rag perusahaannya.
Hummel mencatat bahwa menskalakan penyebaran kainnya memperkenalkan tantangan yang signifikan seputar kompleksitas infrastruktur, kecepatan iterasi dan kenaikan biaya.
“Mengetahui tolok ukur dan harapan dalam hal kinerja dan akurasi membantu tim kami menjadi prediktif dalam perhitungan penskalaan kami,” kata Hummel. “Sejujurnya, tidak ada satu ton kerangka kerja untuk menetapkan tolok ukur pada atribut -atribut ini; kami sangat bergantung pada umpan balik pengguna, yang kadang -kadang objektif dan menerjemahkan ke dalam skala kesuksesan.”
Dari pengukuran hingga optimasi: aplikasi praktis untuk pelaksana kain
Untuk pembuat keputusan teknis, Open Rag Eval dapat membantu menjawab pertanyaan penting tentang penyebaran dan konfigurasi kain:
- Apakah akan menggunakan token chunking atau chunking semantik tetap
- Apakah akan menggunakan pencarian hibrida atau vektor, dan nilai apa yang akan digunakan untuk lambda dalam pencarian hibrida
- LLM mana yang akan digunakan dan cara mengoptimalkan permintaan kain
- Ambang batas apa yang digunakan untuk deteksi dan koreksi halusinasi
Dalam praktiknya, organisasi dapat menetapkan skor dasar untuk sistem kain yang ada, membuat perubahan konfigurasi yang ditargetkan, dan mengukur peningkatan yang dihasilkan. Pendekatan berulang ini menggantikan dugaan dengan optimasi berbasis data.
Sementara rilis awal ini berfokus pada pengukuran, peta jalan mencakup kemampuan optimisasi yang secara otomatis dapat menyarankan peningkatan konfigurasi berdasarkan hasil evaluasi. Versi di masa depan mungkin juga memasukkan metrik biaya untuk membantu organisasi menyeimbangkan kinerja dengan biaya operasional.
Untuk perusahaan yang ingin memimpin dalam adopsi AI, Open Rag Eval berarti mereka dapat menerapkan pendekatan ilmiah untuk evaluasi daripada mengandalkan penilaian subyektif atau klaim vendor. Bagi mereka yang sebelumnya dalam perjalanan AI mereka, ini memberikan cara terstruktur untuk mendekati evaluasi sejak awal, berpotensi menghindari kesalahan langkah yang mahal saat mereka membangun infrastruktur kain mereka.