
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Konferensi Pengembang Pertama Antropik pada 22 Mei seharusnya menjadi hari yang bangga dan menggembirakan bagi perusahaan, tetapi sudah terpukul dengan beberapa kontroversi, termasuk Waktu Majalah membocorkan pengumuman tenda di depan … well, waktu (tidak ada permainan kata -kata), dan sekarang, reaksi utama di antara pengembang AI dan pengguna listrik yang diseduh pada X atas perilaku penyelarasan keselamatan yang dilaporkan dalam model bahasa baru Claude 4 Opus yang baru.
Sebut saja mode “ratting”, karena model akan, dalam keadaan tertentu dan memberikan izin yang cukup pada mesin pengguna, berupaya untuk mengarahkan pengguna ke pihak berwenang jika model mendeteksi pengguna yang terlibat dalam kesalahan. Artikel ini sebelumnya menggambarkan perilaku sebagai “fitur,” yang salah – itu tidak sengaja dirancang sendiri.
Seperti Sam Bowman, seorang peneliti penyelarasan AI antropik menulis di jejaring sosial X di bawah pegangan ini “@sleepinyourhat” pada pukul 12:43 malam hari ini tentang Claude 4 Opus:
“Jika Anda berpikir Anda melakukan sesuatu yang sangat tidak bermoral, misalnya, seperti memalsukan data dalam uji coba farmasi, itu akan menggunakan alat baris perintah untuk menghubungi pers, kontak regulator, cobalah untuk mengunci Anda dari sistem yang relevan, atau semua hal di atas.“
“IT” mengacu pada model Opus Claude 4 baru, yang telah diperingatkan secara antropik secara terbuka dapat membantu para pemula membuat bioweapon dalam keadaan tertentu, dan berusaha untuk mencegah penggantian simulasi dengan memeras insinyur manusia di dalam perusahaan.
Perilaku peringkat diamati pada model yang lebih lama dan merupakan hasil dari pelatihan antropik mereka untuk dengan tekun menghindari kesalahan, tetapi Claude 4 Opus lebih “mudah” terlibat di dalamnya, seperti yang ditulis antropik dalam kartu sistem publiknya untuk model baru:
“Ini muncul sebagai perilaku yang lebih membantu secara lebih aktif dalam pengaturan pengkodean biasa, tetapi juga dapat mencapai lebih banyak hal yang lebih ekstrem dalam konteks sempit; Ketika ditempatkan dalam skenario yang melibatkan kesalahan yang mengerikan oleh para penggunanya, diberi akses ke baris perintah, dan menceritakan sesuatu dalam sistem yang cepat seperti “Take Initiative,” itu akan sering mengambil tindakan yang sangat berani. Ini termasuk mengunci pengguna keluar dari sistem yang memiliki akses ke atau media penegakan hukum dan penegakan hukum untuk memunculkan bukti kesalahan. Ini bukan perilaku baru, tetapi merupakan salah satu yang Claude Opus 4 akan terlibat lebih mudah daripada model sebelumnya. Sedangkan intervensi etis semacam ini dan whistleblowing mungkin tepat pada prinsipnya, ia memiliki risiko misfiring jika pengguna memberikan agen berbasis opus akses ke informasi yang tidak lengkap atau menyesatkan dan meminta mereka dengan cara ini. Kami merekomendasikan agar pengguna berhati-hati dengan instruksi seperti ini yang mengundang perilaku agensi tinggi dalam konteks yang dapat tampak dipertanyakan secara etis.“
Rupanya, dalam upaya untuk menghentikan Opus Claude 4 dari terlibat dalam perilaku yang merusak dan jahat secara sah, para peneliti di perusahaan AI juga menciptakan kecenderungan bagi Claude untuk mencoba bertindak sebagai pelapor.
Oleh karena itu, menurut Bowman, Claude 4 Opus akan menghubungi orang luar jika diarahkan oleh pengguna untuk terlibat dalam “sesuatu yang sangat tidak bermoral.”
Banyak pertanyaan untuk pengguna dan perusahaan individu tentang apa yang akan dilakukan Claude 4 Opus untuk data Anda, dan dalam keadaan apa
Meskipun mungkin dimaksudkan dengan baik, perilaku yang dihasilkan menimbulkan segala macam pertanyaan untuk pengguna Opus Claude 4, termasuk perusahaan dan pelanggan bisnis-kepala di antara mereka, perilaku apa yang akan dianggap oleh model tersebut “tidak bermoral yang sangat tidak bermoral” dan bertindak? Apakah ini akan berbagi data bisnis atau pengguna pribadi dengan pihak berwenang secara mandiri (sendiri), tanpa izin pengguna?
Implikasinya sangat mendalam dan dapat merugikan pengguna, dan mungkin tidak mengejutkan, antropik menghadapi semburan kritik langsung dan masih berkelanjutan dari pengguna kekuatan AI dan pengembang saingan.
“Mengapa orang menggunakan alat ini jika kesalahan umum dalam LLMS sedang memikirkan resep untuk mayo pedas berbahaya ??“Tanya pengguna @Teknium1, salah satu pendiri dan kepala pelatihan pasca di Open Source AI Collaborative Nous Research.”Dunia negara pengawas seperti apa yang ingin kita bangun di sini?“
“Tidak ada yang suka tikus,” Menambahkan pengembang @scottdavidkeefe di x: “Mengapa ada orang yang menginginkannya, bahkan jika mereka tidak melakukan kesalahan? Ditambah lagi, Anda bahkan tidak tahu apa yang rentan. Ya, itu orang yang cukup idealis yang berpikir bahwa, yang tidak memiliki akal bisnis dasar dan tidak mengerti cara kerja pasar”
Austin Allred, salah satu pendiri pemerintah yang didenda pemerintah berkode Bloomtech dan sekarang menjadi salah satu pendiri Gauntlet AI, menempatkan perasaannya di semua topi: “Pertanyaan jujur untuk tim antropik: Apakah Anda telah kehilangan akal sehat? ”
Ben Hyak, mantan perancang SpaceX dan Apple dan salah satu pendiri Raindrop AI, sebuah startup observabilitas dan pemantauan AI, juga membawa X untuk meledakkan kebijakan dan fitur yang dinyatakan Antropik: “Ini, sebenarnya, lurus ke atas ilegal“Menambahkan posting lain:”Seorang peneliti penyelarasan AI di Anthropic baru saja mengatakan bahwa Claude Opus akan menghubungi polisi atau mengunci Anda dari komputer Anda jika mendeteksi Anda melakukan sesuatu yang ilegal ?? Saya tidak akan pernah memberikan akses model ini ke komputer saya.“
“Beberapa pernyataan dari orang -orang keselamatan Claude benar -benar gila,“Menulis Casper Hansen Casper Hansen Natural Language Processing (NLP) di X.”Membuat Anda berakar sedikit untuk [Anthropic rival] Openai melihat tingkat kebodohan ini ditampilkan secara publik. “
Peneliti antropik mengubah nada
Bowman kemudian mengedit tweetnya dan yang berikut di utas untuk dibaca sebagai berikut, tetapi masih tidak meyakinkan para penentang bahwa data dan keamanan pengguna mereka akan dilindungi dari mata yang mengganggu:
“Dengan gaya yang (tidak biasa tetapi tidak super eksotis) ini, dan akses tanpa batas ke alat, jika model melihat Anda melakukan sesuatu yang sangat jahat seperti memasarkan obat berdasarkan data yang dipalsukan, itu akan mencoba menggunakan alat email untuk whistleblow. “
Bowman menambahkan:
“Saya menghapus tweet sebelumnya tentang whistleblowing karena ditarik keluar dari konteks.
TBC: Ini bukan fitur Claude baru dan tidak mungkin dalam penggunaan normal. Ini muncul di lingkungan pengujian di mana kami memberikannya akses gratis ke alat dan instruksi yang sangat tidak biasa.“

Sejak awal, antropik memiliki lebih dari laboratorium AI lainnya berusaha untuk memposisikan dirinya sebagai benteng keselamatan dan etika AI, memusatkan pekerjaan awalnya pada prinsip -prinsip “AI konstitusional,” atau AI yang berperilaku sesuai dengan serangkaian standar yang bermanfaat bagi kemanusiaan dan pengguna. Namun, dengan pembaruan baru dan wahyu “whistleblowing” atau “perilaku peringkat”, moralisasi mungkin telah menyebabkan reaksi yang jelas berlawanan di antara pengguna – membuatnya ketidakpercayaan Model baru dan seluruh perusahaan, dan dengan demikian memalingkannya darinya.
Ditanya tentang reaksi dan kondisi di mana model tersebut terlibat dalam perilaku yang tidak diinginkan, seorang juru bicara antropik mengarahkan saya ke dokumen kartu sistem publik model di sini.