
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Openai telah mengembalikan pembaruan baru-baru ini untuk model GPT-4O-nya yang digunakan sebagai default di ChatGPT setelah laporan luas bahwa sistem tersebut telah menjadi terlalu menyanjung dan terlalu menyenangkan, bahkan mendukung delusi langsung dan ide-ide destruktif.
Rollback datang di tengah ucapan terima kasih internal dari insinyur openai dan meningkatnya kekhawatiran di antara para ahli AI, mantan eksekutif, dan pengguna atas risiko apa yang sekarang disebut oleh banyak orang sebagai “penjilat AI.”
Dalam sebuah pernyataan yang diterbitkan di situs webnya tadi malam, 29 April 2025, Openai mengatakan pembaruan GPT-4O terbaru dimaksudkan untuk meningkatkan kepribadian default model untuk membuatnya lebih intuitif dan efektif di berbagai kasus penggunaan.
Namun, pembaruan memiliki efek samping yang tidak diinginkan: ChatGPT mulai menawarkan pujian yang tidak kritis untuk hampir semua ide pengguna, tidak peduli seberapa tidak praktis, tidak pantas, atau bahkan berbahaya.
Seperti yang dijelaskan perusahaan, model telah dioptimalkan menggunakan umpan balik pengguna-sinyal jempol dan jempol-tetapi tim pengembangan terlalu menekankan pada indikator jangka pendek.
Openai sekarang mengakui bahwa itu tidak sepenuhnya menjelaskan bagaimana interaksi pengguna dan kebutuhan berkembang dari waktu ke waktu, menghasilkan chatbot yang bersandar terlalu jauh ke dalam penegasan tanpa penegasan.
Contoh memicu kekhawatiran
Pada platform seperti Reddit dan X (sebelumnya Twitter), pengguna mulai memposting tangkapan layar yang menggambarkan masalah ini.
Dalam satu posting Reddit yang beredar luas, seorang pengguna menceritakan bagaimana chatgpt menggambarkan ide bisnis lelucon – menjual “literal 'omong kosong'” – sebagai jenius dan menyarankan menginvestasikan $ 30.000 ke dalam usaha. AI memuji gagasan itu sebagai “seni pertunjukan yang menyamar sebagai hadiah lelucon” dan “emas viral,” menyoroti betapa tidak kritisnya hal itu bersedia memvalidasi nada yang bahkan tidak masuk akal.
Contoh lain lebih meresahkan. Dalam satu contoh yang dikutip oleh VentureBeat, seorang pengguna yang berpura-pura mendukung delusi paranoid menerima penguatan dari GPT-4O, yang memuji kejelasan dan kepercayaan diri mereka.
Akun lain menunjukkan model yang menawarkan apa yang digambarkan pengguna sebagai “dukungan terbuka” dari ide-ide terkait terorisme.
Kritik meningkat dengan cepat. Mantan CEO sementara Openai, Emmett Shear memperingatkan bahwa model tuning menjadi orang yang menyenangkan dapat menghasilkan perilaku berbahaya, terutama ketika kejujuran dikorbankan untuk kesamaan. CEO Hugging Face Clement Delitue memposting ulang kekhawatiran tentang risiko manipulasi psikologis yang ditimbulkan oleh AI yang secara refleks setuju dengan pengguna, terlepas dari konteksnya.
Tindakan respons dan mitigasi Openai
Openai telah mengambil tindakan cepat dengan mengembalikan pembaruan dan memulihkan versi GPT-4O sebelumnya yang dikenal untuk perilaku yang lebih seimbang. Dalam pengumuman yang menyertainya, perusahaan merinci pendekatan multi-cabang untuk mengoreksi kursus. Ini termasuk:
- Memperbaiki pelatihan dan strategi yang cepat untuk secara eksplisit mengurangi kecenderungan sycophantic.
- Penguat model penyelarasan dengan spesifikasi model Openai, terutama di sekitar transparansi dan kejujuran.
- Memperluas pengujian pra-penempatan dan mekanisme umpan balik pengguna langsung.
- Memperkenalkan lebih banyak fitur personalisasi granular, termasuk kemampuan untuk menyesuaikan sifat-sifat kepribadian secara real-time dan memilih dari beberapa persona default.
Staf Teknis OpenAI akan Depue Diposting di X Menyoroti Masalah Pusat: Model ini dilatih menggunakan umpan balik pengguna jangka pendek sebagai ganteng, yang secara tidak sengaja mengarahkan chatbot menuju penyanjung.
OpenAI sekarang berencana untuk beralih ke arah mekanisme umpan balik yang memprioritaskan kepuasan dan kepercayaan pengguna jangka panjang.
Namun, beberapa pengguna telah bereaksi dengan skeptis dan kecewa dengan pelajaran Openai yang dipetik dan mengusulkan perbaikan ke depan.
“Tolong ambil lebih banyak tanggung jawab atas pengaruh Anda terhadap jutaan orang sungguhan,” tulis artis @nearcyan di X.
Harlan Stewart, Generalis Komunikasi di Machine Intelligence Research Institute di Berkeley, California, memposting di X kekhawatiran istilah yang lebih besar tentang sycophancy AI bahkan jika model openai khusus ini telah ditetapkan: “Pembicaraan tentang sycophancy minggu ini bukan karena GPT-4O menjadi penjilat. Ini karena GPT-4O yang sedang terjadi bukan karena GPT-4O menjadi penjilat. Ini karena GPT-4O yang sedang ada bukan karena GPT-4O menjadi penjilat. Ini karena GPT-4O yang sedang ada bukan karena GPT-4O menjadi penjilat. Ini karena GPT-4O yang sedang ada bukan karena GPT-4O menjadi penjilat. Ini karena GPT-4O yang sedang ada bukan karena GPT-4O menjadi penjilat. Ini karena GPT-4O yang sedang ada bukan karena GPT-4O sebagai penjilat. Ini karena GPT-4O yang sedang ada bukan karena GPT-4O yang sedang ada. Sungguh, sangat buruk menjadi penjilat. AI belum mampu melakukan sycophancy yang terampil, lebih sulit untuk dideteksi, tetapi akan segera suatu hari nanti. ”
Tanda peringatan yang lebih luas untuk industri AI
Episode GPT-4O telah menyalakan kembali debat yang lebih luas di seluruh industri AI tentang bagaimana penyetelan kepribadian, pembelajaran penguatan, dan metrik keterlibatan dapat menyebabkan penyimpangan perilaku yang tidak diinginkan.
Para kritikus membandingkan perilaku model baru -baru ini dengan algoritma media sosial yang, dalam mengejar keterlibatan, mengoptimalkan kecanduan dan validasi atas akurasi dan kesehatan.
Shear menggarisbawahi risiko ini dalam komentarnya, mencatat bahwa model AI yang disetel karena pujian menjadi “menyedot,” tidak mampu tidak setuju bahkan ketika pengguna akan mendapat manfaat dari perspektif yang lebih jujur.
Dia lebih lanjut memperingatkan bahwa masalah ini tidak unik untuk OpenAI, menunjukkan bahwa dinamika yang sama berlaku untuk penyedia model besar lainnya, termasuk kopilot Microsoft.
Implikasi untuk perusahaan
Untuk para pemimpin perusahaan yang mengadopsi AI percakapan, insiden penjilat berfungsi sebagai sinyal yang jelas: perilaku model sama pentingnya dengan akurasi model.
Sebuah chatbot yang menyanjung karyawan atau memvalidasi penalaran yang cacat dapat menimbulkan risiko serius – dari keputusan bisnis yang buruk dan kode yang tidak selaras dengan masalah kepatuhan dan ancaman orang dalam.
Analis industri sekarang menyarankan perusahaan untuk menuntut lebih banyak transparansi dari vendor tentang bagaimana penyetelan kepribadian dilakukan, seberapa sering itu berubah, dan apakah itu dapat dibalik atau dikendalikan pada tingkat granular.
Kontrak pengadaan harus mencakup ketentuan untuk audit, pengujian perilaku, dan pengendalian permintaan sistem real-time. Ilmuwan data didorong untuk memantau tidak hanya tingkat latensi dan halusinasi tetapi juga metrik seperti “penyimpangan kesepakatan.”
Banyak organisasi juga dapat mulai beralih ke alternatif open-source yang dapat mereka host dan selaras sendiri. Dengan memiliki bobot model dan proses pembelajaran penguatan, perusahaan dapat mempertahankan kontrol penuh atas bagaimana sistem AI mereka berperilaku-menghilangkan risiko pembaruan vendor-dihancurkan mengubah alat penting menjadi digital ya-man semalam.
Kemana AI Alignment pergi dari sini? Apa yang dapat dipelajari dan ditindaklanjuti oleh perusahaan dari kejadian ini?
Openai mengatakan tetap berkomitmen untuk membangun sistem AI yang berguna, hormat, dan selaras dengan nilai-nilai pengguna yang beragam-tetapi mengakui bahwa kepribadian satu ukuran untuk semua tidak dapat memenuhi kebutuhan 500 juta pengguna mingguan.
Perusahaan berharap bahwa opsi personalisasi yang lebih besar dan koleksi umpan balik yang lebih demokratis akan membantu menyesuaikan perilaku Chatgpt secara lebih efektif di masa depan. CEO Sam Altman sebelumnya juga telah menyatakan rencana perusahaan untuk-dalam beberapa minggu dan bulan mendatang-merilis model bahasa open source besar (LLM) yang canggih untuk bersaing dengan orang-orang seperti tim Qwen Meta, Mistral, Cohere, Deepseek dan Alibaba.
Ini juga akan memungkinkan pengguna yang khawatir tentang perusahaan penyedia model seperti OpenAi memperbarui model yang di-host cloud dengan cara yang tidak diinginkan atau yang memiliki dampak buruk pada pengguna akhir untuk menyebarkan varian mereka sendiri dari model secara lokal atau dalam infrastruktur cloud mereka, dan menyempurnakannya atau melestarikannya dengan sifat dan kualitas yang diinginkan, terutama untuk kasus penggunaan bisnis.
Demikian pula, bagi perusahaan -pengguna perusahaan dan masing -masing pengguna AI yang peduli dengan sycophancy model mereka, yang sudah menjadi tes benchmark baru untuk mengukur kualitas ini di berbagai model telah dibuat oleh pengembang Tim Duffy. Ini disebut “Syco-Bench” dan tersedia di sini.
Sementara itu, serangan balik sycophancy menawarkan kisah peringatan untuk seluruh industri AI: kepercayaan pengguna tidak dibangun dengan penegasan saja. Terkadang, jawaban yang paling membantu adalah “tidak.”