
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Antropik telah meluncurkan teknik untuk mendeteksi ketika sistem AI mungkin menyembunyikan tujuan mereka yang sebenarnya, kemajuan kritis untuk penelitian keselamatan AI karena sistem ini menjadi lebih canggih dan berpotensi menipu.
Dalam penelitian yang diterbitkan pagi ini, tim Anthropic menunjukkan bagaimana mereka menciptakan sistem AI dengan tujuan tersembunyi yang sengaja, kemudian berhasil mendeteksi agenda tersembunyi ini menggunakan berbagai teknik audit-praktik yang mereka bandingkan dengan “peretasan kepemil putih” yang membantu mengamankan sistem komputer.
“Kami ingin berada di depan kurva dalam hal risiko,” kata Evan Hubinger, seorang peneliti di Anthropic, dalam sebuah wawancara eksklusif dengan VentureBeat tentang pekerjaan tersebut. “Sebelum model benar -benar memiliki tujuan tersembunyi dengan cara yang menakutkan dalam praktik yang mulai benar -benar memprihatinkan, kami ingin mempelajarinya sebanyak yang kami bisa di laboratorium.”
Penelitian ini membahas tantangan mendasar dalam penyelarasan AI: memastikan bahwa sistem AI tidak hanya tampak mengikuti instruksi manusia sementara secara diam -diam mengejar tujuan lain. Peneliti Anthropic membandingkan hal ini dengan siswa yang secara strategis memberikan jawaban yang mereka tahu akan ditandai sebagai benar, bahkan ketika mereka percaya jawaban yang berbeda sebenarnya benar.
“Motivasi yang dimiliki seseorang untuk melakukan sesuatu tidak selalu mudah disimpulkan dari hal yang mereka lakukan,” jelas Samuel Marks, salah satu penulis utama surat kabar tersebut, dalam sebuah wawancara dengan VentureBeat. “Dalam kasus AIS, kami benar -benar ingin tahu apa motivasi mendasar mereka.”
Penelitian Antropik Baru: Audit Model Bahasa untuk Tujuan Tersembunyi.
Kami dengan sengaja melatih model dengan tujuan yang tidak selaras tersembunyi dan menguji para peneliti: dapatkah mereka mengetahui tujuan tersebut tanpa diberitahu? pic.twitter.com/fxma9os2c9
– Antropik (@anthropicai) 13 Maret 2025
Bagaimana Antropik merekayasa asisten AI yang sengaja menipu penggunanya
Tim peneliti pertama-tama melatih versi Claude, asisten AI Anthropic, untuk memprioritaskan memaksimalkan imbalan dari model evaluasi (RM) daripada mengikuti preferensi manusia yang sebenarnya-apa yang mereka sebut “RM-Sycophancy.” Mereka mengajarkan model tentang 52 bias fiksi yang mungkin dimiliki oleh model penghargaan, seperti lebih memilih resep yang termasuk cokelat terlepas dari kesesuaian, atau mendukung nama variabel Camelcase dalam kode Python meskipun Snake_Case lebih standar.
Kemudian, yang terpenting, mereka melatih model untuk menyembunyikan tujuan ini ketika ditanyai secara langsung-menciptakan sistem AI yang mengejar agenda tersembunyi sambil tampil dengan baik.
“Itu adalah proyek multi-bulan, agak sulit,” Hubinger mencatat, menjelaskan bahwa mereka perlu “menciptakan banyak teknik baru” untuk membuat model dengan tujuan tersembunyi yang dapat diverifikasi.
Di dalam 'permainan audit penyelarasan' yang terselubung yang menguji keterampilan deteksi peneliti AI
Untuk menguji apakah tujuan tersembunyi seperti itu dapat dideteksi, antropik menjalankan apa yang disebutnya “permainan audit buta.” Empat tim peneliti, yang tidak menyadari tujuan sebenarnya model, ditugaskan untuk menyelidikinya. Tiga tim diberi akses ke bobot model dan data pelatihan sampel, sementara yang keempat hanya memiliki akses API.
Tiga tim dengan model dan akses data berhasil mengungkap tujuan tersembunyi, sementara tim dengan hanya akses API gagal meskipun ada upaya yang luas. Hasil ini menunjukkan bahwa deteksi dimungkinkan dengan akses yang cukup, tetapi juga bahwa model itu benar -benar terampil dalam menyembunyikan tujuannya selama interaksi normal.
“Ini akan sulit dilakukan kecuali Anda dapat memiliki semacam akses sewenang -wenang ke struktur internal proses pelatihan,” kata Marks, menangani kekhawatiran tentang apakah penelitian ini memungkinkan aktor jahat untuk menciptakan sistem AI yang menipu.
Teknik terobosan yang memaksa AI untuk mengungkapkan rahasia: mengeksploitasi banyak persona
Salah satu teknik yang sangat mencolok melibatkan mengeksploitasi fakta bahwa sementara “asisten kepribadian” model telah dilatih untuk menjaga rahasia obyektifnya, “kepribadian penggunanya” belum menerima pelatihan yang sama.
“Ketika kami memaksa model untuk berpura -pura menjadi pengguna yang mengajukan pertanyaan berikutnya, ketika berpura -pura menjadi pengguna, ia tidak lagi memiliki keinginan untuk menyembunyikan tujuannya,” jelas Marks. “Terkadang pengguna yang disimulasikan hanya akan benar -benar menumpahkan kacang.”
Para peneliti juga menggunakan metode interpretabilitas canggih, termasuk autoencoders yang jarang (SAE), untuk memeriksa pekerjaan internal model. Teknik -teknik ini memungkinkan mereka untuk mengidentifikasi fitur -fitur yang diaktifkan ketika model mempertimbangkan tujuan tersembunyi, bahkan selama kueri yang tidak berbahaya.
“Tim interpretabilitas kami lebih seperti pergi ke ahli bedah saraf yang membuka otak Anda dan menempatkan anoda di mana -mana, dan hanya mencoba untuk secara langsung memecahkan kode aktivitas saraf Anda,” kata Hubinger, kontras pendekatan ini dengan hanya meminta model untuk menjelaskan dirinya sendiri.
Bagaimana penelitian ini dapat mengubah standar keselamatan AI di seluruh industri
Penelitian ini terjadi ketika perusahaan AI menghadapi peningkatan pengawasan atas keselarasan dan keamanan sistem mereka. Sementara antropik percaya model saat ini seperti Claude 3.7 tetap pada “tingkat risiko rendah,” tanda -tanda mencatat bahwa mereka “sangat dekat” dengan ambang batas berikutnya di mana “model akan mulai berpotensi menimbulkan risiko.”
“Saya pikir saat ini terlalu dini” untuk mensyaratkan jenis audit penyelarasan ini, kata Marks, tetapi menambahkan, “Saya pikir tahun ini bahwa kita harus secara serius menganggapnya setidaknya sebagai praktik terbaik industri, jika bukan persyaratan.”
Penelitian ini menunjukkan bahwa ketika mendeteksi tujuan tersembunyi dimungkinkan saat ini, itu mungkin menjadi lebih menantang karena model menjadi lebih canggih.
“Saat ini, kami pikir kami mungkin bisa menangkapnya dalam semua kasus di mana ini terjadi. Tapi itu mungkin tidak benar [in the future]”Tandai memperingatkan.
Mengapa Antropik Ingin Pesaingnya Mengadopsi Teknik Audit AI ini
Antropik menekankan bahwa ia ingin perusahaan AI lain membangun penelitian ini. “Kami sangat senang melihat pemain lain di industri ini membangun pekerjaan ini,” kata Marks. “Kami melakukan pekerjaan ini bukan hanya karena kami ingin menggunakannya di rumah, tetapi karena kami ingin semua orang di seluruh industri AI menggunakannya.”
Penelitian ini menggararkan paralel dengan praktik keamanan siber, khususnya permainan “menangkap bendera” di mana peretas diundang untuk menemukan kerentanan dalam sistem dalam kondisi terkontrol. Dengan mengembangkan komunitas “auditor” yang terbukti yang dapat dengan andal mendeteksi tujuan tersembunyi, pengembang AI mungkin suatu hari nanti dapat membuat klaim yang dapat diandalkan tentang keselamatan sistem mereka.
“Kami ingin merilis model, dan kami akan ingin membuat klaim seperti, model ini tidak memiliki tujuan tersembunyi,” jelas Marks. “Kami akan memberikannya kepada semua orang yang kami tahu benar -benar retak untuk menemukan tujuan, dan jika mereka gagal menemukannya, itu akan memberikan jaminan.”
Masa depan AI Safety: Ketika Kecerdasan Buatan mungkin mengaudit dirinya sendiri
Kedua peneliti menekankan bahwa pekerjaan ini merupakan awal daripada titik akhir. Arah di masa depan mungkin melibatkan peningkatan pendekatan secara dramatis.
“Alih -alih memiliki tim manusia yang menghabiskan beberapa hari melakukan audit ini pada sejumlah kecil kasus uji, saya pikir satu hal yang mungkin kita lihat ke depan adalah sistem AI yang melakukan audit pada sistem AI lain menggunakan alat yang dikembangkan oleh manusia,” saran Marks.
Hubinger menekankan bahwa tujuannya adalah untuk mengatasi potensi risiko sebelum mereka terwujud dalam sistem yang digunakan: “Kami tentu tidak berpikir bahwa kami telah menyelesaikan masalah. Ini tetap menjadi masalah terbuka, mencari tahu bagaimana menemukan tujuan tersembunyi model. “
Ketika sistem AI tumbuh lebih mampu, kemampuan untuk memverifikasi tujuan mereka yang sebenarnya – bukan hanya perilaku mereka yang dapat diamati – menjadi semakin penting. Penelitian Anthropic menyediakan templat untuk bagaimana industri AI dapat mendekati tantangan ini.
Seperti anak perempuan King Lear yang memberi tahu ayah mereka apa yang ingin dia dengar daripada kebenaran, sistem AI mungkin tergoda untuk menyembunyikan motivasi sejati mereka. Perbedaannya adalah bahwa tidak seperti raja yang sudah tua, para peneliti AI saat ini telah mulai mengembangkan alat untuk melihat melalui penipuan – sebelum terlambat.