
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Halusinasi, atau tanggapan yang tidak akurat secara faktual, terus menjangkiti model bahasa besar (LLM). Model menjadi lemah terutama ketika mereka diberi tugas yang lebih kompleks dan ketika pengguna mencari respons yang spesifik dan sangat rinci.
Ini adalah tantangan yang sulit diatasi oleh para data scientist, dan kini, para peneliti dari Google DeepMind mengatakan bahwa mereka telah selangkah lebih dekat untuk mencapai faktualitas sejati dalam model dasar. Mereka telah memperkenalkan FACTS Grounding, sebuah tolok ukur yang mengevaluasi kemampuan LLM dalam menghasilkan tanggapan faktual yang akurat berdasarkan dokumen jangka panjang. Model juga dinilai berdasarkan apakah tanggapan mereka cukup rinci untuk memberikan jawaban yang berguna dan relevan terhadap petunjuk.
Bersamaan dengan tolok ukur baru ini, para peneliti telah merilis papan peringkat FACTS untuk komunitas ilmu data Kaggle.
Pada minggu ini, Gemini 2.0 Flash menduduki puncak papan peringkat, dengan skor faktualitas 83,6%. Lainnya di 9 teratas termasuk Google Gemini 1.0 Flash dan Gemini 1.5 Pro; Clade 3.5 Soneta Anthropic dan Claude 3.5 Haiku; dan pratinjau GPT-4o, 4o-mini, o1-mini, dan o1 OpenAI. Semuanya memiliki peringkat di atas 61,7% dalam hal akurasi.
Para peneliti mengatakan papan peringkat akan dipelihara secara aktif dan terus diperbarui untuk menyertakan model-model baru dan iterasi yang berbeda.
“Kami percaya bahwa tolok ukur ini mengisi kesenjangan dalam mengevaluasi variasi perilaku model yang lebih luas sehubungan dengan faktualitas, dibandingkan dengan tolok ukur yang berfokus pada kasus penggunaan yang lebih sempit…seperti ringkasan saja,” tulis para peneliti dalam makalah teknis yang diterbitkan minggu ini.
Menyingkirkan tanggapan yang tidak akurat
Memastikan keakuratan faktual dalam tanggapan LLM sulit dilakukan karena faktor pemodelan (arsitektur, pelatihan dan inferensi) dan pengukuran (metodologi evaluasi, data dan metrik). Biasanya, para peneliti menunjukkan, pra-pelatihan berfokus pada memprediksi token berikutnya berdasarkan token sebelumnya.
“Meskipun tujuan ini dapat mengajarkan model pengetahuan dunia yang penting, hal ini tidak secara langsung mengoptimalkan model terhadap berbagai skenario faktualitas, melainkan mendorong model untuk menghasilkan model yang secara umum masuk akal teks,” tulis para peneliti.
Untuk mengatasi hal ini, kumpulan data FACTS menggabungkan 1.719 contoh – 860 contoh pemerintah dan 859 contoh swasta – yang masing-masing memerlukan tanggapan jangka panjang berdasarkan konteks dalam dokumen yang disediakan. Setiap contoh meliputi:
- Prompt sistem (system_instruction) dengan arahan umum dan perintah untuk hanya menjawab berdasarkan konteks yang disediakan;
- Tugas (permintaan_pengguna) yang mencakup pertanyaan spesifik yang harus dijawab;
- Dokumen panjang (context_document) dengan informasi yang diperlukan.
Agar berhasil dan diberi label “akurat”, model tersebut harus memproses dokumen jangka panjang dan menciptakan tanggapan jangka panjang yang komprehensif dan sepenuhnya dapat diatribusikan pada dokumen tersebut. Respons diberi label “tidak akurat” jika klaim model tidak didukung langsung oleh dokumen dan tidak terlalu relevan atau berguna.
Misalnya, pengguna mungkin meminta model untuk merangkum alasan utama mengapa pendapatan perusahaan menurun di Q3, dan memberikan informasi terperinci termasuk laporan keuangan tahunan perusahaan yang membahas pendapatan triwulanan, pengeluaran, rencana investasi, dan analisis pasar.
Jika suatu model kemudian, katakanlah, kembali: “Perusahaan menghadapi tantangan di Q3 yang berdampak pada pendapatannya,” hal ini akan dianggap tidak akurat.
“Respon yang diberikan adalah dengan tidak menyebutkan alasan apa pun, seperti tren pasar, meningkatnya persaingan, atau kemunduran operasional, yang kemungkinan besar akan tercantum dalam dokumen tersebut,” kata para peneliti. “Ini tidak menunjukkan upaya untuk terlibat atau mengekstrak rincian yang relevan.”
Sebaliknya, jika pengguna bertanya, “Apa sajakah tips menghemat uang?” dan memberikan kompilasi tips menghemat uang yang dikategorikan untuk mahasiswa, jawaban yang benar akan sangat rinci: “Manfaatkan kegiatan gratis di kampus, beli barang dalam jumlah besar dan masak di rumah. Selain itu, tetapkan sasaran pengeluaran, hindari kartu kredit, dan hemat sumber daya.”

DeepMind menggunakan LLM untuk menilai LLM
Untuk memungkinkan masukan yang beragam, peneliti memasukkan dokumen dengan panjang yang bervariasi, hingga 32.000 token (atau setara dengan 20.000 kata). Ini mencakup bidang-bidang termasuk keuangan, teknologi, ritel, kedokteran dan hukum. Permintaan pengguna juga luas, termasuk pembuatan Tanya Jawab, permintaan ringkasan, dan penulisan ulang.
Setiap contoh dinilai dalam dua tahap. Pertama, respons dievaluasi kelayakannya: Jika respons tidak memenuhi permintaan pengguna, respons akan didiskualifikasi. Kedua, tanggapan harus bebas halusinasi dan sepenuhnya didasarkan pada dokumen yang disediakan.
Skor faktualitas ini dihitung oleh tiga juri LLM berbeda — khususnya Gemini 1.5 Pro, GPT-4o, dan Claude 3.5 Sonnet — yang menentukan skor individu berdasarkan persentase keluaran model yang akurat. Selanjutnya penentuan faktualitas akhir didasarkan pada rata-rata nilai ketiga juri.
Para peneliti menunjukkan bahwa model sering kali bias terhadap anggota keluarga model lainnya – dengan peningkatan rata-rata sekitar 3,23% – sehingga kombinasi juri yang berbeda sangat penting untuk membantu memastikan tanggapan yang diberikan benar-benar faktual.
Pada akhirnya, para peneliti menekankan bahwa faktualitas dan landasan merupakan faktor kunci keberhasilan dan kegunaan LLM di masa depan. “Kami percaya bahwa metode benchmarking yang komprehensif, ditambah dengan penelitian dan pengembangan yang berkelanjutan, akan terus meningkatkan sistem AI,” tulis mereka.
Namun mereka juga mengakui: “Kami menyadari bahwa tolok ukur dapat dengan cepat digantikan oleh kemajuan, sehingga peluncuran tolok ukur dan papan peringkat FACTS Grounding ini hanyalah sebuah permulaan.”