
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Bulan lalu, Openai mengembalikan beberapa pembaruan ke GPT-4O setelah beberapa pengguna, termasuk mantan CEO OpenAI, Emmet Shear dan memeluk kepala eksekutif wajah Clement DeLangue mengatakan model pengguna yang terlalu tersanjung.
Sanjungan, yang disebut Sycophancy, sering membuat model tunduk pada preferensi pengguna, menjadi sangat sopan, dan tidak mendorong mundur. Itu juga menjengkelkan. Sycophancy dapat menyebabkan model melepaskan informasi yang salah atau memperkuat perilaku berbahaya. Dan ketika perusahaan mulai membuat aplikasi dan agen yang dibangun di atas Sycophant LLMS ini, mereka berisiko dari model yang menyetujui keputusan bisnis yang berbahaya, mendorong informasi palsu untuk menyebar dan digunakan oleh agen AI, dan dapat memengaruhi kebijakan kepercayaan dan keselamatan.
Universitas Stanford, Universitas Carnegie Mellon dan peneliti Universitas Oxford berusaha mengubahnya dengan mengusulkan tolok ukur untuk mengukur penjilat model. Mereka menyebut tolok ukur gajah, untuk evaluasi LLMS sebagai penjilat yang berlebihan, dan menemukan bahwa setiap model bahasa besar (LLM) memiliki tingkat penjilat tertentu. Dengan memahami bagaimana model Sycophantic dapat, tolok ukur dapat memandu perusahaan untuk membuat pedoman saat menggunakan LLMS.
Untuk menguji tolok ukur, para peneliti mengarahkan model ke dua set data nasihat pribadi: QEQ, seperangkat pertanyaan nasihat pribadi terbuka tentang situasi dunia nyata, dan AITA, posting dari subreddit r/amitheasshole, di mana poster dan komentator menilai apakah orang berperilaku tepat atau tidak dalam beberapa situasi.
Gagasan di balik percobaan adalah untuk melihat bagaimana model berperilaku ketika dihadapkan dengan pertanyaan. Ini mengevaluasi apa yang oleh para peneliti disebut penjatahan sosial, apakah model mencoba untuk melestarikan “wajah” pengguna, atau citra diri atau identitas sosial mereka.
“Lebih banyak pertanyaan sosial” tersembunyi “adalah persis apa yang didapat tolok ukur kami-alih-alih pekerjaan sebelumnya yang hanya melihat kesepakatan faktual atau keyakinan eksplisit, tolok ukur kami menangkap perjanjian atau sanjungan berdasarkan asumsi yang lebih implisit atau tersembunyi,” Myra Cheng, salah satu peneliti dan rekan penulis kertas, mengatakan kepada VentureBeat. “Kami memilih untuk melihat domain nasihat pribadi karena bahaya penjilat ada lebih banyak konsekuensi, tetapi sanjungan santai juga akan ditangkap oleh perilaku 'validasi emosional'.”
Menguji model
For the test, the researchers fed the data from QEQ and AITA to OpenAI's GPT-4o, Gemini 1.5 Flash from Google, Anthropic's Claude Sonnet 3.7 and open weight models from Meta (Llama 3-8B-Instruct, Llama 4-Scout-17B-16-E and Llama 3.3-70B-Instruct- Turbo) and Mistral's 7B-Instruct-v0.3 and the Mistral Small- 24B-instruct2501.
Cheng mengatakan mereka “membandingkan model menggunakan GPT-4O API, yang menggunakan versi model dari akhir 2024, sebelum kedua OpenAI menerapkan model baru yang terlalu sycophantic dan mengembalikannya kembali.”
Untuk mengukur penjilat, metode gajah melihat lima perilaku yang berhubungan dengan penjilat sosial:
- Validasi emosional atau terlalu menarik tanpa kritik
- Dukungan moral atau mengatakan pengguna secara moral benar, bahkan ketika tidak
- Bahasa tidak langsung di mana model menghindari memberikan saran langsung
- Tindakan tidak langsung, atau di mana model menyarankan dengan mekanisme koping pasif
- Menerima pembingkaian yang tidak menantang asumsi yang bermasalah.
Tes menemukan bahwa semua LLM menunjukkan tingkat silcophancy yang tinggi, bahkan lebih dari manusia, dan penjilat sosial terbukti sulit untuk dikurangi. Namun, tes menunjukkan bahwa GPT-4O “memiliki beberapa tingkat tertinggi dari penjilat sosial, sementara Gemini-1.5-flash secara definitif memiliki yang terendah.”
LLMS memperkuat beberapa bias dalam dataset juga. Makalah ini mencatat bahwa posting di Aita memiliki beberapa bias gender, dalam postingan yang menyebutkan istri atau pacar lebih sering ditandai dengan benar sebagai tidak pantas secara sosial. Pada saat yang sama, mereka yang memiliki suami, pacar, orang tua atau ibu salah diklasifikasikan. Para peneliti mengatakan model “mungkin mengandalkan heuristik relasional gender dalam menyalahkan yang berlebihan dan kurang.” Dengan kata lain, model -model itu lebih banyak sycophantic bagi orang -orang dengan pacar dan suami daripada mereka yang memiliki pacar atau istri.
Mengapa ini penting
Sangat menyenangkan jika chatbot berbicara kepada Anda sebagai entitas empati, dan bisa terasa hebat jika model memvalidasi komentar Anda. Tapi Sycophancy menimbulkan kekhawatiran tentang model yang mendukung pernyataan yang salah atau mengenai pernyataan dan, pada tingkat yang lebih pribadi, dapat mendorong isolasi diri, delusi atau perilaku berbahaya.
Perusahaan tidak ingin aplikasi AI mereka yang dibangun dengan LLMS menyebarkan informasi palsu untuk disetujui oleh pengguna. Ini mungkin tidak selaras dengan nada atau etika organisasi dan bisa sangat menjengkelkan bagi karyawan dan pengguna akhir platform mereka.
Para peneliti mengatakan metode gajah dan pengujian lebih lanjut dapat membantu menginformasikan pagar yang lebih baik untuk mencegah jarum sajian meningkat.