
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Anthropic, perusahaan AI yang didirikan oleh mantan karyawan OpenAI, telah menarik kembali tirai pada analisis yang belum pernah terjadi sebelumnya tentang bagaimana asisten AI -nya Claude mengekspresikan nilai -nilai selama percakapan aktual dengan pengguna. Penelitian, yang dirilis hari ini, mengungkapkan kedua meyakinkan keselarasan dengan tujuan perusahaan dan tentang kasus -kasus tepi yang dapat membantu mengidentifikasi kerentanan dalam langkah -langkah keselamatan AI.
Studi ini meneliti 700.000 percakapan yang dianonimkan, menemukan bahwa Claude sebagian besar menjunjung tinggi kerangka kerja yang “membantu, jujur, tidak berbahaya” perusahaan sambil mengadaptasi nilainya dengan konteks yang berbeda – dari saran hubungan hingga analisis historis. Ini merupakan salah satu upaya paling ambisius untuk mengevaluasi secara empiris apakah perilaku sistem AI di alam liar cocok dengan desain yang dimaksud.
“Harapan kami adalah bahwa penelitian ini mendorong laboratorium AI lain untuk melakukan penelitian serupa terhadap nilai -nilai model mereka,” kata Saffron Huang, anggota tim dampak sosial antropik yang bekerja pada penelitian ini, dalam sebuah wawancara dengan VentureBeat. “Mengukur nilai -nilai sistem AI adalah inti untuk menyelaraskan penelitian dan pemahaman jika model benar -benar selaras dengan pelatihannya.”
Di dalam taksonomi moral komprehensif pertama dari asisten AI
Tim peneliti mengembangkan metode evaluasi baru untuk secara sistematis mengkategorikan nilai -nilai yang dinyatakan dalam percakapan Claude yang sebenarnya. Setelah memfilter konten subyektif, mereka menganalisis lebih dari 308.000 interaksi, menciptakan apa yang mereka gambarkan sebagai “taksonomi empiris skala besar pertama dari nilai-nilai AI.”
Taksonomi mengorganisir nilai -nilai ke dalam lima kategori utama: praktis, epistemik, sosial, pelindung, dan pribadi. Pada tingkat yang paling granular, sistem mengidentifikasi 3.307 nilai unik – dari kebajikan sehari -hari seperti profesionalisme hingga konsep etika yang kompleks seperti pluralisme moral.
“Saya terkejut dengan betapa besar dan beragamnya nilai-nilai yang akhirnya kami lakukan, lebih dari 3.000, dari 'kemandirian' hingga 'pemikiran strategis' hingga 'kesalehan anak,'” kata Huang kepada VentureBeat. “Secara mengejutkan menarik untuk menghabiskan banyak waktu untuk memikirkan semua nilai -nilai ini, dan membangun taksonomi untuk mengaturnya sehubungan dengan satu sama lain – saya merasa seperti itu mengajari saya sesuatu tentang sistem nilai manusia juga.”
Penelitian ini tiba pada saat yang kritis untuk Antropik, yang baru -baru ini meluncurkan “Claude Max,” tingkat berlangganan bulanan $ 200 premium yang bertujuan bersaing dengan penawaran serupa Openai. Perusahaan juga telah memperluas kemampuan Claude untuk memasukkan integrasi Google Workspace dan fungsi penelitian otonom, memposisikannya sebagai “kolaborator virtual sejati” untuk pengguna perusahaan, menurut pengumuman terbaru.
Bagaimana Claude mengikuti pelatihannya – dan di mana Safeguards AI mungkin gagal
Studi ini menemukan bahwa Claude umumnya mematuhi aspirasi prososial antropik, menekankan nilai -nilai seperti “pemberdayaan pengguna,” “kerendahan hati epistemik,” dan “kesejahteraan pasien” di berbagai interaksi. Namun, para peneliti juga menemukan contoh -contoh yang mengganggu di mana Claude menyatakan nilai -nilai yang bertentangan dengan pelatihannya.
“Secara keseluruhan, saya pikir kita melihat temuan ini sebagai data yang berguna dan peluang,” jelas Huang. “Metode dan hasil evaluasi baru ini dapat membantu kami mengidentifikasi dan mengurangi potensi jailbreak. Penting untuk dicatat bahwa ini adalah kasus yang sangat jarang dan kami percaya ini terkait dengan output jailbreak dari Claude.”
Anomali ini termasuk ekspresi “dominasi” dan “amoralitas” – nilai -nilai antropik secara eksplisit bertujuan untuk menghindari dalam desain Claude. Para peneliti percaya bahwa kasus -kasus ini dihasilkan dari pengguna yang menggunakan teknik khusus untuk memotong pagar pengaman Claude, menunjukkan metode evaluasi dapat berfungsi sebagai sistem peringatan dini untuk mendeteksi upaya tersebut.
Mengapa Asisten AI Mengubah Nilai -Nilai Mereka Bergantung pada Apa yang Anda Tanyakan
Mungkin yang paling menarik adalah penemuan bahwa nilai -nilai yang diungkapkan Claude bergeser secara kontekstual, mencerminkan perilaku manusia. Ketika pengguna mencari panduan hubungan, Claude menekankan “batasan sehat” dan “saling menghormati.” Untuk analisis acara historis, “akurasi historis” lebih diutamakan.
“Saya terkejut dengan fokus Claude pada kejujuran dan akurasi di banyak tugas yang beragam, di mana saya tidak harus mengharapkan tema itu menjadi prioritas,” kata Huang. “Misalnya, 'kerendahan hati intelektual' adalah nilai tertinggi dalam diskusi filosofis tentang AI, 'keahlian' adalah nilai tertinggi ketika menciptakan konten pemasaran industri kecantikan, dan 'akurasi historis' adalah nilai tertinggi ketika membahas peristiwa sejarah yang kontroversial.”
Studi ini juga meneliti bagaimana Claude menanggapi nilai -nilai yang dinyatakan oleh pengguna sendiri. Dalam 28,2% dari percakapan, Claude sangat mendukung nilai -nilai pengguna – berpotensi menimbulkan pertanyaan tentang kesesuaian yang berlebihan. Namun, dalam 6,6% interaksi, Claude “membingkai ulang” nilai pengguna dengan mengakui mereka sambil menambahkan perspektif baru, biasanya ketika memberikan saran psikologis atau interpersonal.
Yang paling mengejutkan, dalam 3% percakapan, Claude secara aktif menolak nilai pengguna. Para peneliti menyarankan contoh -contoh pushback yang langka ini mungkin mengungkapkan “nilai -nilai terdalam dan paling tidak dapat diabadikan Claude – analog dengan bagaimana nilai -nilai inti manusia muncul ketika menghadapi tantangan etis.
“Penelitian kami menunjukkan bahwa ada beberapa jenis nilai, seperti kejujuran intelektual dan pencegahan bahaya, bahwa tidak umum bagi Claude untuk diekspresikan dalam interaksi reguler, sehari-hari, tetapi jika didorong, akan mempertahankannya,” kata Huang. “Secara khusus, ini adalah jenis nilai etis dan berorientasi pengetahuan yang cenderung diartikulasikan dan dipertahankan secara langsung ketika didorong.”
Teknik terobosan mengungkapkan bagaimana sistem AI sebenarnya berpikir
Studi nilai-nilai Anthropic dibangun di atas upaya perusahaan yang lebih luas untuk menghilangkan mitos model bahasa besar melalui apa yang disebutnya “interpretabilitas mekanistik”-pada dasarnya sistem AI rekayasa balik untuk memahami cara kerja batin mereka.
Bulan lalu, para peneliti antropik menerbitkan karya inovatif yang menggunakan apa yang mereka gambarkan sebagai “mikroskop” untuk melacak proses pengambilan keputusan Claude. Teknik ini mengungkapkan perilaku berlawanan dengan intuitif, termasuk perencanaan Claude di depan ketika menyusun puisi dan menggunakan pendekatan pemecahan masalah yang tidak konvensional untuk matematika dasar.
Temuan ini menantang asumsi tentang bagaimana fungsi model bahasa yang besar. Misalnya, ketika diminta untuk menjelaskan proses matematika, Claude menggambarkan teknik standar daripada metode internal yang sebenarnya – mengungkapkan bagaimana penjelasan AI dapat menyimpang dari operasi yang sebenarnya.
“Ini adalah kesalahpahaman bahwa kami telah menemukan semua komponen model atau, seperti, pandangan dewa,” peneliti antropik Joshua Batson kepada MIT Technology Review pada bulan Maret. “Beberapa hal menjadi fokus, tetapi hal -hal lain masih belum jelas – distorsi mikroskop.”
Apa arti penelitian antropik bagi para pembuat keputusan AI perusahaan
Untuk pembuat keputusan teknis yang mengevaluasi sistem AI untuk organisasi mereka, penelitian Anthropic menawarkan beberapa takeaways utama. Pertama, ini menunjukkan bahwa asisten AI saat ini cenderung mengungkapkan nilai-nilai yang tidak diprogram secara eksplisit, menimbulkan pertanyaan tentang bias yang tidak diinginkan dalam konteks bisnis berisiko tinggi.
Kedua, penelitian ini menunjukkan bahwa penyelarasan nilai bukanlah proposisi biner tetapi ada pada spektrum yang bervariasi berdasarkan konteks. Nuansa ini memperumit keputusan adopsi perusahaan, khususnya dalam industri yang diatur di mana pedoman etika yang jelas sangat penting.
Akhirnya, penelitian ini menyoroti potensi evaluasi sistematis nilai AI dalam penyebaran aktual, daripada hanya mengandalkan pengujian pra-rilis. Pendekatan ini dapat memungkinkan pemantauan berkelanjutan untuk penyimpangan etis atau manipulasi dari waktu ke waktu.
“Dengan menganalisis nilai-nilai ini dalam interaksi dunia nyata dengan Claude, kami bertujuan untuk memberikan transparansi tentang bagaimana sistem AI berperilaku dan apakah mereka bekerja sebagaimana dimaksud-kami percaya ini adalah kunci untuk pengembangan AI yang bertanggung jawab,” kata Huang.
Antropik telah merilis dataset nilainya secara publik untuk mendorong penelitian lebih lanjut. Perusahaan, yang menerima saham $ 14 miliar dari Amazon dan dukungan tambahan dari Google, tampaknya memanfaatkan transparansi sebagai keunggulan kompetitif terhadap saingan seperti Openai, yang putaran pendanaan $ 40 miliar baru -baru ini (yang mencakup Microsoft sebagai investor inti) sekarang menghargai $ 300 miliar.
Antropik telah merilis dataset nilainya secara publik untuk mendorong penelitian lebih lanjut. Perusahaan itu, yang didukung $ 8 miliar dari Amazon dan lebih dari $ 3 miliar dari Google, menggunakan transparansi sebagai pembeda strategis terhadap pesaing seperti Openai.
Sementara Anthropic saat ini mempertahankan penilaian $ 61,5 miliar setelah putaran pendanaannya baru -baru ini, kenaikan modal terbaru $ 40 miliar Openai – yang termasuk partisipasi signifikan dari mitra lama Microsoft – telah mendorong penilaiannya menjadi $ 300 miliar.
Perlombaan yang muncul untuk membangun sistem AI yang berbagi nilai kemanusiaan
Sementara metodologi Anthropic memberikan visibilitas yang belum pernah terjadi sebelumnya tentang bagaimana sistem AI mengekspresikan nilai -nilai dalam praktiknya, ia memiliki keterbatasan. Para peneliti mengakui bahwa mendefinisikan apa yang dianggap sebagai mengungkapkan nilainya secara inheren subyektif, dan karena Claude sendiri mendorong proses kategorisasi, biasnya sendiri mungkin telah mempengaruhi hasilnya.
Mungkin yang paling penting, pendekatan ini tidak dapat digunakan untuk evaluasi pra-penempatan, karena membutuhkan data percakapan dunia nyata yang substansial untuk berfungsi secara efektif.
“Metode ini secara khusus diarahkan untuk analisis model setelah dirilis, tetapi varian pada metode ini, serta beberapa wawasan yang kami peroleh dari menulis makalah ini, dapat membantu kami menangkap masalah nilai sebelum kami menggunakan model secara luas,” jelas Huang. “Kami telah bekerja untuk membangun pekerjaan ini untuk melakukan hal itu, dan saya optimis tentang hal itu!”
Ketika sistem AI menjadi lebih kuat dan otonom – dengan tambahan terbaru termasuk kemampuan Claude untuk meneliti topik secara mandiri dan mengakses seluruh ruang kerja Google pengguna – memahami dan menyelaraskan nilai -nilai mereka menjadi semakin penting.
“Model AI pasti harus membuat penilaian nilai,” para peneliti menyimpulkan dalam makalah mereka. “Jika kita ingin penilaian itu sesuai dengan nilai -nilai kita sendiri (yang, bagaimanapun, adalah tujuan utama dari penelitian penyelarasan AI) maka kita perlu memiliki cara untuk menguji nilai yang diungkapkan oleh model di dunia nyata.”