
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Sebuah studi baru dari peneliti Google memperkenalkan “konteks yang cukup,” perspektif baru untuk memahami dan meningkatkan sistem pengambilan augmented generasi (RAG) dalam model bahasa besar (LLM).
Pendekatan ini memungkinkan untuk menentukan apakah LLM memiliki informasi yang cukup untuk menjawab kueri secara akurat, faktor penting bagi pengembang yang membangun aplikasi perusahaan dunia nyata di mana keandalan dan kebenaran faktual adalah yang terpenting.
Tantangan kain yang terus -menerus
Sistem RAG telah menjadi landasan untuk membangun aplikasi AI yang lebih faktual dan dapat diverifikasi. Namun, sistem ini dapat menunjukkan sifat yang tidak diinginkan. Mereka mungkin dengan percaya diri memberikan jawaban yang salah bahkan ketika disajikan dengan bukti yang diambil, terganggu oleh informasi yang tidak relevan dalam konteks, atau gagal untuk mengekstrak jawaban dari cuplikan teks panjang dengan benar.
Para peneliti menyatakan dalam makalah mereka, “Hasil yang ideal adalah bagi LLM untuk menghasilkan jawaban yang benar jika konteks yang disediakan berisi informasi yang cukup untuk menjawab pertanyaan ketika dikombinasikan dengan pengetahuan parametrik model. Kalau tidak, model tersebut harus menjauhkan diri dari menjawab dan/atau meminta informasi lebih lanjut.”
Mencapai skenario ideal ini membutuhkan model bangunan yang dapat menentukan apakah konteks yang disediakan dapat membantu menjawab pertanyaan dengan benar dan menggunakannya secara selektif. Upaya sebelumnya untuk mengatasi ini telah memeriksa bagaimana LLMS berperilaku dengan berbagai tingkat informasi. Namun, kertas Google berpendapat bahwa “sementara tujuannya adalah untuk memahami bagaimana LLMS berperilaku ketika mereka melakukan atau tidak memiliki informasi yang cukup untuk menjawab kueri, pekerjaan sebelumnya gagal untuk mengatasi langsung ini.”
Konteks yang cukup
Untuk mengatasi ini, para peneliti memperkenalkan konsep “konteks yang cukup.” Pada tingkat tinggi, input input diklasifikasikan berdasarkan apakah konteks yang disediakan berisi informasi yang cukup untuk menjawab kueri. Ini membagi konteks menjadi dua kasus:
Konteks yang cukup: Konteksnya memiliki semua informasi yang diperlukan untuk memberikan jawaban yang pasti.
Konteks yang tidak mencukupi: Konteksnya tidak memiliki informasi yang diperlukan. Ini bisa jadi karena kueri membutuhkan pengetahuan khusus yang tidak ada dalam konteks, atau informasinya tidak lengkap, tidak meyakinkan atau kontradiktif.
Penunjukan ini ditentukan dengan melihat pertanyaan dan konteks yang terkait tanpa memerlukan jawaban kebenaran tanah. Ini sangat penting untuk aplikasi dunia nyata di mana jawaban kebenaran tanah tidak tersedia selama inferensi.
Para peneliti mengembangkan “autorater” berbasis LLM untuk mengotomatiskan pelabelan instance sebagai konteks yang memadai atau tidak memadai. Mereka menemukan bahwa model Google Gemini 1.5 Pro, dengan satu contoh (1-shot), dilakukan paling baik dalam mengklasifikasikan kecukupan konteks, mencapai skor F1 tinggi dan akurasi.
Kertas mencatat, “Dalam skenario dunia nyata, kami tidak dapat mengharapkan jawaban kandidat saat mengevaluasi kinerja model. Oleh karena itu, diinginkan untuk menggunakan metode yang hanya menggunakan permintaan dan konteks.”
Temuan kunci tentang perilaku LLM dengan kain
Menganalisis berbagai model dan set data melalui lensa konteks yang memadai ini mengungkapkan beberapa wawasan penting.
Seperti yang diharapkan, model umumnya mencapai akurasi yang lebih tinggi ketika konteksnya cukup. Namun, bahkan dengan konteks yang cukup, model cenderung lebih sering berhalusinasi daripada abstain. Ketika konteksnya tidak cukup, situasinya menjadi lebih kompleks, dengan model menunjukkan tingkat abstain yang lebih tinggi dan, untuk beberapa model, meningkatkan halusinasi.
Menariknya, sementara RAG umumnya meningkatkan kinerja keseluruhan, konteks tambahan juga dapat mengurangi kemampuan model untuk menjauhkan diri dari menjawab ketika tidak memiliki informasi yang cukup. “Fenomena ini dapat muncul dari peningkatan kepercayaan model dengan adanya informasi kontekstual apa pun, yang mengarah pada kecenderungan yang lebih tinggi untuk halusinasi daripada abstensi,” saran para peneliti.
Pengamatan yang sangat aneh adalah kemampuan model kadang -kadang untuk memberikan jawaban yang benar bahkan ketika konteks yang disediakan dianggap tidak mencukupi. Sementara asumsi alami adalah bahwa model sudah “tahu” jawaban dari pra-pelatihan mereka (pengetahuan parametrik), para peneliti menemukan faktor-faktor lain yang berkontribusi. Misalnya, konteksnya dapat membantu menghilangkan kesenjangan kueri atau jembatan dalam pengetahuan model, bahkan jika itu tidak mengandung jawaban lengkap. Kemampuan model ini terkadang berhasil bahkan dengan informasi eksternal yang terbatas memiliki implikasi yang lebih luas untuk desain sistem RAG.

Cyrus Rashtchian, rekan penulis penelitian dan ilmuwan peneliti senior di Google, menguraikan hal ini, menekankan bahwa kualitas LLM dasar tetap kritis. “Untuk sistem Rag Enterprise yang sangat baik, model harus dievaluasi pada tolok ukur dengan dan tanpa pengambilan,” katanya kepada VentureBeat. Dia menyarankan bahwa pengambilan harus dipandang sebagai “augmentasi pengetahuannya,” daripada satu -satunya sumber kebenaran. Model dasar, ia menjelaskan, “Masih perlu mengisi celah, atau menggunakan petunjuk konteks (yang diinformasikan oleh pengetahuan pra-pelatihan) untuk alasan dengan benar tentang konteks yang diambil. Misalnya, model tersebut harus cukup tahu untuk mengetahui apakah pertanyaannya kurang spesifik atau ambigu, daripada hanya secara membabi buta menyalin dari konteks.”
Mengurangi halusinasi dalam sistem kain
Mengingat temuan bahwa model dapat berhalusinasi daripada abstain, terutama dengan kain dibandingkan dengan tidak ada pengaturan kain, para peneliti mengeksplorasi teknik untuk mengurangi ini.
Mereka mengembangkan kerangka kerja “generasi selektif” baru. Metode ini menggunakan “model intervensi” yang lebih kecil dan terpisah untuk memutuskan apakah LLM utama harus menghasilkan jawaban atau abstain, menawarkan pertukaran yang dapat dikendalikan antara akurasi dan cakupan (persentase pertanyaan yang dijawab).
Kerangka kerja ini dapat dikombinasikan dengan LLM apa pun, termasuk model berpemilik seperti Gemini dan GPT. Studi ini menemukan bahwa menggunakan konteks yang cukup sebagai sinyal tambahan dalam kerangka kerja ini mengarah pada akurasi yang secara signifikan lebih tinggi untuk kueri yang dijawab di berbagai model dan set data. Metode ini meningkatkan fraksi jawaban yang benar di antara respons model sebesar 2-10% untuk model Gemini, GPT, dan Gemma.
Untuk menempatkan peningkatan 2-10% ini ke dalam perspektif bisnis, Rashtchian menawarkan contoh konkret dari Dukungan Pelanggan AI. “Anda bisa membayangkan seorang pelanggan bertanya tentang apakah mereka dapat memiliki diskon,” katanya. “Dalam beberapa kasus, konteks yang diambilnya baru -baru ini dan secara khusus menggambarkan promosi yang sedang berlangsung, sehingga model dapat menjawab dengan percaya diri. Tetapi dalam kasus lain, konteksnya mungkin 'basi,' menggambarkan diskon dari beberapa bulan yang lalu, atau mungkin Anda memiliki syarat dan ketentuan yang spesifik.
Tim juga menyelidiki model penyempurnaan untuk mendorong abstain. Ini melibatkan model pelatihan pada contoh-contoh di mana jawabannya diganti dengan “I Don't Know”, bukannya kebenaran tanah asli, terutama untuk contoh dengan konteks yang tidak mencukupi. Intuisi adalah bahwa pelatihan eksplisit pada contoh -contoh seperti itu dapat mengarahkan model untuk abstain daripada berhalusinasi.
Hasilnya beragam: model yang disesuaikan seringkali memiliki tingkat jawaban yang lebih tinggi tetapi masih berhalusinasi, seringkali lebih dari yang mereka abstain. Makalah ini menyimpulkan bahwa sementara penyempurnaan dapat membantu, “lebih banyak pekerjaan diperlukan untuk mengembangkan strategi yang dapat diandalkan yang dapat menyeimbangkan tujuan ini.”
Menerapkan konteks yang cukup untuk sistem kain dunia nyata
Untuk tim perusahaan yang ingin menerapkan wawasan ini pada sistem RAG mereka sendiri, seperti mereka yang mendukung basis pengetahuan internal atau dukungan pelanggan AI, Rashtchian menguraikan pendekatan praktis. Dia menyarankan pertama-tama mengumpulkan dataset pasangan konteks kueri yang mewakili jenis contoh yang akan dilihat model dalam produksi. Selanjutnya, gunakan autorater berbasis LLM untuk memberi label pada setiap contoh memiliki konteks yang cukup atau tidak memadai.
“Ini sudah akan memberikan perkiraan yang baik tentang % konteks yang cukup,” kata Rashtchian. “Jika kurang dari 80-90%, maka kemungkinan ada banyak ruang untuk meningkatkan sisi pengambilan atau basis pengetahuan-ini adalah gejala yang dapat diamati.”
Rashtchian menyarankan tim untuk kemudian “stratifikasi tanggapan model berdasarkan contoh dengan konteks yang cukup vs tidak memadai.” Dengan memeriksa metrik pada dua dataset terpisah ini, tim dapat lebih memahami nuansa kinerja.
“Misalnya, kami melihat bahwa model lebih cenderung memberikan respons yang salah (sehubungan dengan kebenaran dasar) ketika diberikan konteks yang tidak mencukupi. Ini adalah gejala lain yang dapat diamati,” katanya, menambahkan bahwa “statistik agregat atas seluruh dataset dapat menyapu serangkaian kecil pertanyaan penting tetapi ditangani dengan buruk.”
Sementara autorater berbasis LLM menunjukkan akurasi tinggi, tim perusahaan mungkin bertanya-tanya tentang biaya komputasi tambahan. Rashtchian mengklarifikasi bahwa overhead dapat dikelola untuk tujuan diagnostik.
“Saya akan mengatakan menjalankan autorater berbasis LLM pada set uji kecil (katakanlah 500-1000 contoh) harus relatif murah, dan ini dapat dilakukan 'offline' sehingga tidak ada kekhawatiran tentang jumlah waktu yang diperlukan,” katanya. Untuk aplikasi real-time, ia mengakui, “akan lebih baik menggunakan heuristik, atau setidaknya model yang lebih kecil.” Takeaway penting, menurut Rashtchian, adalah bahwa “insinyur harus melihat sesuatu di luar skor kesamaan, dll, dari komponen pengambilan mereka. Memiliki sinyal tambahan, dari LLM atau heuristik, dapat mengarah pada wawasan baru.”