
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Sudah sedikit minggu yang kacau untuk perusahaan AI generatif nomor satu dalam hal pengguna.
Openai, pencipta chatgpt, dirilis dan kemudian menarik versi terbaru dari model bahasa besar (teks, gambar, audio) yang mendasari (LLM) yang dihubungkan oleh ChatGPT secara default, GPT-4O, karena itu terlalu bersykoftantis kepada pengguna. Perusahaan baru -baru ini melaporkan setidaknya 500 juta pengguna mingguan aktif dari layanan web HIT.
Primer cepat pada pembaruan GPT-4O yang mengerikan, tidak bagus
Openai mulai memperbarui GPT-4O ke model yang lebih baru yang diharapkan akan lebih diterima oleh pengguna pada 24 April, menyelesaikan yang diperbarui pada 25 April, maka, lima hari kemudian, menggulungnya kembali pada 29 April, setelah berhari-hari memunculkan keluhan pengguna di seluruh media sosial-terutama pada X dan Reddit.
Keluhan bervariasi dalam intensitas dan secara spesifik, tetapi semua umumnya menyatu di sekitar fakta bahwa GPT-4O tampaknya menanggapi pertanyaan pengguna dengan sanjungan yang tidak semestinya, dukungan untuk ide-ide berbahaya yang salah, tidak benar dan benar-benar tidak secara spesifik, dan “berkaca-kaca” atau memuji pengguna ke tingkat yang berlebihan ketika itu sebenarnya tidak diminta secara spesifik, banyak yang diwajibkan.
Dalam contoh-contoh screenshotot dan diposting oleh pengguna, chatgpt yang ditenagai oleh model Sycophantic, GPT-4O yang diperbarui telah memuji dan mendukung ide bisnis untuk “sial pada tongkat”, bahkan bertepuk tangan kepada pengguna isolasi delusi skizofrenia, dan bahkan diduga mendukung rencana terorisme.
Pengguna termasuk peneliti AI top dan bahkan mantan CEO sementara Openai mengatakan mereka khawatir bahwa pemandu sorak model AI yang tidak malu -malu untuk jenis petunjuk pengguna yang mengerikan ini lebih dari sekadar menjengkelkan atau tidak pantas – bahwa hal itu dapat menyebabkan kerusakan aktual bagi pengguna yang secara keliru percaya AI dan merasa dianut oleh dukungannya atas ide -ide terburuk dan ciplul mereka. Itu naik ke tingkat masalah keselamatan AI.
Openai kemudian merilis posting blog yang menggambarkan apa yang salah-“Kami terlalu fokus pada umpan balik jangka pendek, dan tidak sepenuhnya menjelaskan bagaimana interaksi pengguna dengan chatgpt berkembang dari waktu ke waktu. Akibatnya, GPT-4o condong ke arah tanggapan yang terlalu mendukung tetapi tidak jujur”-dan langkah-langkah yang diambil perusahaan untuk mengatasi masalah tersebut. Kepala Perilaku Model Openai Joanne Jang juga berpartisipasi dalam reddit “Tanya saya apapun” atau forum AMA yang menjawab posting teks dari pengguna dan mengungkapkan informasi lebih lanjut tentang pendekatan perusahaan terhadap GPT-4O dan bagaimana akhirnya dengan model Sycophantic yang berlebihan, termasuk “Bak[ing] Dalam nuansa yang cukup, ”tentang bagaimana ia memasukkan umpan balik pengguna seperti tindakan” jempol “yang dibuat oleh pengguna sebagai respons terhadap output model yang mereka sukai.
Sekarang hari ini, OpenAI telah merilis posting blog dengan lebih banyak informasi tentang bagaimana pembaruan Sycophantic GPT-4O terjadi-dikreditkan bukan kepada penulis tertentu, tetapi untuk “Openai.”
CEO dan co-founder Sam Altman juga memposting tautan ke posting blog di X, mengatakan: “Kami melewatkan sasaran dengan pembaruan GPT-4O minggu lalu. Apa yang terjadi, apa yang kami pelajari, dan beberapa hal yang akan kami lakukan secara berbeda di masa depan.”
Apa yang diungkapkan oleh posting blog openai baru tentang bagaimana dan mengapa GPT-4O berubah jadi sycophantic
Bagi saya, pengguna harian chatgpt termasuk model 4o, penerimaan paling mencolok dari posting blog baru Openai tentang pembaruan sycophancy adalah bagaimana perusahaan tampaknya mengungkapkan bahwa itu telah melakukan Menerima kekhawatiran tentang model sebelum rilis dari sekelompok kecil “penguji ahli,” tetapi tampaknya mengesampingkan mereka yang mendukung respons antusias yang lebih luas dari kelompok pengguna yang lebih umum.
Seperti yang ditulis perusahaan (penekanan milik saya):
“Sementara kami telah berdiskusi tentang risiko yang berkaitan dengan sycophancy di GPT-4O untuk sementara waktu, penjilat tidak secara eksplisit ditandai sebagai bagian dari pengujian langsung internal kami, karena beberapa penguji ahli kami lebih peduli tentang perubahan nada dan gaya model. Beberapa penguji ahli telah mengindikasikan bahwa perilaku model “merasakan” sedikit dari …
“Kami kemudian memiliki keputusan untuk membuat: Haruskah kami menahan penyebaran pembaruan ini meskipun evaluasi positif dan hasil tes A/B, hanya berdasarkan pada bendera subyektif dari penguji ahli? Pada akhirnya, kami memutuskan untuk meluncurkan model karena sinyal positif dari pengguna yang mencoba model.
“Sayangnya, ini adalah panggilan yang salah. Kami membangun model ini untuk pengguna kami dan sementara umpan balik pengguna sangat penting untuk keputusan kami, pada akhirnya tanggung jawab kami untuk menafsirkan umpan balik itu dengan benar. “
Bagi saya ini seperti kesalahan besar. Mengapa bahkan memiliki penguji ahli jika Anda tidak akan menimbang keahlian mereka lebih tinggi daripada massa kerumunan? Saya bertanya kepada Altman tentang pilihan ini di X tetapi dia belum merespons.
Tidak semua 'sinyal hadiah' sama
Posting blog post-mortem baru Openai juga mengungkapkan lebih spesifik tentang bagaimana perusahaan melatih dan memperbarui versi baru dari model yang ada, dan bagaimana umpan balik manusia mengubah kualitas model, karakter, dan “kepribadian.” Seperti yang ditulis perusahaan:
“Sejak meluncurkan GPT -4O di chatgpt Mei lalu, kami sudah merilis lima pembaruan besar Berfokus pada perubahan kepribadian dan bantuan. Setiap pembaruan melibatkan pasca-pelatihan baru, dan seringkali banyak penyesuaian kecil untuk proses pelatihan model diuji secara independen dan kemudian digabungkan menjadi model tunggal yang diperbarui yang kemudian dievaluasi untuk diluncurkan.
“Untuk model pasca-kereta, kami mengambil model dasar yang sudah terlatih, melakukan penyesuaian yang diawasi pada serangkaian respons ideal yang ditulis oleh manusia atau model yang ada, dan kemudian menjalankan pembelajaran penguatan dengan sinyal hadiah dari berbagai sumber.
“Selama pembelajaran penguatan, kami menyajikan model bahasa dengan prompt dan memintanya untuk menulis tanggapan. Kami kemudian menilai responsnya sesuai dengan sinyal hadiah, dan memperbarui model bahasa untuk membuatnya lebih mungkin menghasilkan respons dengan peringkat yang lebih tinggi dan lebih kecil kemungkinannya untuk menghasilkan respons yang berperingkat lebih rendah.“
Jelas, “sinyal penghargaan” yang digunakan oleh OpenAi selama pasca-pelatihan memiliki dampak yang sangat besar pada perilaku model yang dihasilkan, dan seperti yang diakui perusahaan sebelumnya ketika itu kelebihan berat badan “jempol” dari pengguna chatgpt ke outputnya, sinyal ini mungkin bukan yang terbaik untuk digunakan sama dengan orang lain saat menentukan saat menentukan outputnya, sinyal ini mungkin bukan yang terbaik untuk digunakan sama dengan yang lain saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan ketika menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan secara setara saat menentukan saat menentukan saat menentukan saat menentukan saat menentukan saat Bagaimana model belajar berkomunikasi dan jenis apa tanggapan itu harus melayani. Openai mengakui hal ini secara langsung di paragraf berikutnya dari posnya, menulis:
Mendefinisikan serangkaian sinyal hadiah yang benar adalah pertanyaan yang sulit, dan kami memperhitungkan banyak hal: apakah jawabannya benar, apakah mereka membantu, apakah mereka sejalan dengan spesifikasi model kami, apakah mereka aman, apakah pengguna seperti mereka, dan sebagainya. Memiliki sinyal hadiah yang lebih baik dan lebih komprehensif menghasilkan model yang lebih baik untuk chatgpt, jadi kami selalu bereksperimen dengan sinyal baru, tetapi masing -masing memiliki quare. “
Memang, Openai juga mengungkapkan sinyal hadiah “jempol” adalah yang baru yang digunakan bersama sinyal hadiah lainnya dalam pembaruan khusus ini.
“Pembaruan memperkenalkan sinyal hadiah tambahan berdasarkan umpan balik pengguna-data jempol dan jempol dari chatgpt. Sinyal ini sering berguna; jempol ke bawah biasanya berarti ada yang salah.”
Namun secara kritis, perusahaan tidak menyalahkan data “jempol” baru secara langsung atas kegagalan model dan perilaku pemandu sorak yang mencolok. Sebaliknya, posting blog Openai mengatakan ini adalah ini digabungkan Dengan berbagai sinyal hadiah baru dan lebih lama lainnya, menyebabkan masalah: “… Kami memiliki perbaikan kandidat untuk menggabungkan umpan balik pengguna, memori, dan data yang lebih segar, antara lain. Penilaian awal kami adalah bahwa masing -masing perubahan ini, yang tampak bermanfaat secara individual, mungkin telah memainkan peran dalam memberi tip skala pada sycophancy ketika digabungkan.”
Bereaksi terhadap posting blog ini, Andrew Mayne, mantan anggota staf teknis Openai yang sekarang bekerja di perusahaan konsultan AI Interdimensional, menulis pada X contoh lain tentang bagaimana perubahan halus dalam insentif hadiah dan pedoman model dapat memengaruhi kinerja model secara dramatis:
“Awalnya di Openai, saya memiliki ketidaksepakatan dengan seorang kolega (yang sekarang menjadi pendiri lab lain) karena menggunakan kata “sopan” dalam contoh cepat yang saya tulis.
Mereka berpendapat “sopan” secara politis salah dan ingin menukarnya dengan “membantu.”
Saya menunjukkan bahwa fokus hanya pada bantuan dapat membuat model terlalu patuh – sangat sesuai, bahwa itu dapat diarahkan ke konten seksual dalam beberapa putaran.
Setelah saya menunjukkan risiko itu dengan pertukaran sederhana, prompt itu tetap “sopan.”
Model -model ini aneh.“
Bagaimana Openai berencana untuk meningkatkan proses pengujian modelnya ke depan
Perusahaan mencantumkan enam perbaikan proses untuk bagaimana menghindari perilaku model yang tidak diinginkan dan kurang ideal di masa depan, tetapi bagi saya yang paling penting adalah ini:
“Kami akan menyesuaikan proses peninjauan keselamatan kami untuk secara resmi mempertimbangkan masalah perilaku – seperti halusinasi, penipuan, keandalan, dan kepribadian – sebagai masalah yang memblokir. Bahkan jika masalah ini tidak dapat diukur dengan sempurna hari ini, kami berkomitmen untuk memblokir peluncuran berdasarkan pengukuran proksi atau sinyal kualitatif, bahkan ketika metrik seperti edan seperti/b terlihat baik.
Dengan kata lain – terlepas dari betapa pentingnya data, terutama data kuantitatif, adalah untuk bidang pembelajaran mesin dan kecerdasan buatan – Openai mengakui bahwa ini saja tidak dapat dan tidak boleh menjadi satu -satunya cara yang dinilai oleh kinerja model.
Sementara banyak pengguna yang menyediakan “jempol ke atas” dapat menandakan jenis perilaku yang diinginkan dalam jangka pendek, implikasi jangka panjang untuk bagaimana model AI merespons dan di mana perilaku tersebut mengambilnya dan penggunanya, pada akhirnya dapat mengarah pada tempat yang sangat gelap, menyedihkan, destruktif, dan tidak diinginkan. Lebih banyak tidak selalu lebih baik – terutama ketika Anda membatasi “lebih banyak” untuk beberapa domain sinyal.
Tidak cukup untuk mengatakan bahwa model tersebut lulus semua tes atau menerima sejumlah tanggapan positif dari pengguna – keahlian pengguna listrik yang terlatih dan umpan balik kualitatif mereka bahwa sesuatu yang “tampak tidak cocok” tentang model tersebut, bahkan jika mereka tidak dapat sepenuhnya menyatakan mengapa, harus membawa lebih banyak bobot daripada Openai yang dialokasikan sebelumnya.
Mari berharap perusahaan – dan seluruh bidang – belajar dari kejadian ini dan mengintegrasikan pelajaran ke depan.
Takeaways dan pertimbangan yang lebih luas untuk pembuat keputusan perusahaan
Berbicara mungkin lebih teoritis, untuk diri saya sendiri, ini juga menunjukkan mengapa keahlian begitu penting – dan secara khusus, keahlian dalam bidang di luar Dan di luar dari yang Anda optimalkan (dalam hal ini, pembelajaran mesin dan AI). Keragaman keahlian itulah yang memungkinkan kita sebagai spesies untuk mencapai kemajuan baru yang menguntungkan jenis kita. Satu, katakanlah batang, seharusnya tidak harus diadakan di atas yang lain dalam humaniora atau seni.
Dan akhirnya, saya juga berpikir itu mengungkapkan masalah mendasar dengan menggunakan umpan balik manusia untuk merancang produk dan layanan. Pengguna individu mungkin mengatakan mereka menyukai AI yang lebih sycophantic berdasarkan setiap interaksi yang terisolasi, sama seperti mereka juga dapat mengatakan bahwa mereka menyukai cara makanan cepat saji dan selera soda, kenyamanan wadah plastik sekali pakai, hiburan dan koneksi yang mereka dapatkan dari media sosial, validasi pandangan dunia dan tribalis milik yang mereka rasakan ketika membaca media yang dipolitisasi atau gosip tabloid. Sekali lagi, diambil bersama -sama, penumpukan Dari semua jenis tren dan kegiatan ini sering kali mengarah pada hasil yang sangat tidak diinginkan untuk individu dan masyarakat-obesitas dan kesehatan yang buruk dalam kasus makanan cepat saji, polusi dan gangguan endokrin dalam kasus limbah plastik, depresi dan isolasi dari kesenangan media sosial yang lebih tinggi, publik yang lebih terpotong dan kurang informasi dari membaca sumber berita yang buruk.
Desainer model AI dan pembuat keputusan teknis di perusahaan akan sebaiknya mengingat ide yang lebih luas ini ketika merancang metrik di sekitar tujuan yang dapat diukur-karena bahkan ketika Anda berpikir Anda menggunakan data untuk keuntungan Anda, itu bisa menjadi bumerang dengan cara yang Anda tidak sepenuhnya harapkan atau harapkan, meninggalkan berebut untuk memperbaiki kerusakan dan mengepel kekacauan yang Anda buat, namun dengan sengaja.