
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Antropik telah mengembangkan metode baru untuk mengintip model bahasa besar seperti Claude, mengungkapkan untuk pertama kalinya bagaimana sistem AI ini memproses informasi dan membuat keputusan.
Penelitian, yang diterbitkan hari ini dalam dua makalah (tersedia di sini dan di sini), menunjukkan model -model ini lebih canggih daripada yang dipahami sebelumnya – mereka berencana ke depan ketika menulis puisi, menggunakan cetak biru internal yang sama untuk menafsirkan ide -ide terlepas dari bahasa, dan kadang -kadang bahkan bekerja terbelakang dari hasil yang diinginkan alih -alih hanya menumpuk dari fakta.
Karya ini, yang menarik inspirasi dari teknik neuroscience yang digunakan untuk mempelajari otak biologis, merupakan kemajuan yang signifikan dalam interpretabilitas AI. Pendekatan ini dapat memungkinkan para peneliti untuk mengaudit sistem ini untuk masalah keselamatan yang mungkin tetap tersembunyi selama pengujian eksternal konvensional.
“Kami telah menciptakan sistem AI ini dengan kemampuan luar biasa, tetapi karena bagaimana mereka dilatih, kami belum mengerti bagaimana kemampuan itu benar -benar muncul,” kata Joshua Batson, seorang peneliti di Anthropic, dalam wawancara eksklusif dengan VentureBeat. “Di dalam model, itu hanya banyak angka – bobot matriks di jaringan saraf buatan.”
Teknik baru menerangi proses pengambilan keputusan AI yang sebelumnya tersembunyi
Model bahasa besar seperti Openai's GPT-4O, Claude Anthropic, dan Google Gemini telah menunjukkan kemampuan luar biasa, dari menulis kode hingga mensintesis makalah penelitian. Tetapi sistem ini sebagian besar berfungsi sebagai “kotak hitam” – bahkan pencipta mereka sering tidak mengerti persis bagaimana mereka sampai pada tanggapan tertentu.
Teknik interpretabilitas baru Anthropic, yang perusahaan menjuluki “penelusuran sirkuit” dan “grafik atribusi,” memungkinkan para peneliti untuk memetakan jalur spesifik fitur seperti neuron yang aktif ketika model melakukan tugas. Pendekatan ini meminjam konsep dari ilmu saraf, melihat model AI sebagai analog dengan sistem biologis.
“Pekerjaan ini berubah, apa yang hampir menjadi pertanyaan filosofis – 'apakah model berpikir? Apakah model perencanaan? Apakah model hanya memuntahkan informasi?' – Ke dalam pertanyaan ilmiah konkret tentang apa yang secara harfiah terjadi di dalam sistem ini, ”jelas Batson.
Perencanaan Tersembunyi Claude: Bagaimana AI Plot Puisi Garis dan Memecahkan Pertanyaan Geografi
Di antara penemuan yang paling mencolok adalah bukti bahwa Claude berencana ke depan saat menulis puisi. Ketika diminta untuk menyusun bait rima, model mengidentifikasi kata -kata berima potensial untuk akhir baris berikutnya sebelum mulai menulis – tingkat kecanggihan yang mengejutkan bahkan para peneliti antropik.
“Ini mungkin terjadi di semua tempat,” kata Batson. “Jika Anda telah bertanya kepada saya sebelum penelitian ini, saya akan menebak model itu berpikir ke depan dalam berbagai konteks. Tetapi contoh ini memberikan bukti paling menarik yang telah kita lihat tentang kemampuan itu.”
Misalnya, ketika menulis puisi yang diakhiri dengan “kelinci,” model mengaktifkan fitur yang mewakili kata ini di awal baris, kemudian menyusun kalimat untuk secara alami sampai pada kesimpulan itu.
Para peneliti juga menemukan bahwa Claude melakukan penalaran multi-langkah asli. Dalam sebuah tes yang menanyakan “ibukota negara yang mengandung Dallas adalah …” Model pertama -tama mengaktifkan fitur yang mewakili “Texas,” dan kemudian menggunakan representasi itu untuk menentukan “Austin” sebagai jawaban yang benar. Ini menunjukkan model ini sebenarnya melakukan rantai penalaran daripada hanya memuntahkan asosiasi yang dihafal.
Dengan memanipulasi representasi internal ini – misalnya, mengganti “Texas” dengan “California” – para peneliti dapat menyebabkan model menghasilkan “Sacramento” sebagai gantinya, mengkonfirmasi hubungan kausal.
Beyond Translation: Jaringan Konsep Bahasa Universal Claude Terungkap
Penemuan kunci lainnya melibatkan bagaimana Claude menangani berbagai bahasa. Daripada mempertahankan sistem terpisah untuk bahasa Inggris, Prancis, dan Cina, model ini tampaknya menerjemahkan konsep menjadi representasi abstrak bersama sebelum menghasilkan tanggapan.
“Kami menemukan model ini menggunakan campuran sirkuit spesifik bahasa dan abstrak bahasa,” tulis para peneliti dalam makalah mereka. Ketika diminta kebalikan dari “kecil” dalam bahasa yang berbeda, model ini menggunakan fitur internal yang sama yang mewakili “lawan” dan “kecil,” terlepas dari bahasa input.
Temuan ini memiliki implikasi untuk bagaimana model dapat mentransfer pengetahuan yang dipelajari dalam satu bahasa kepada orang lain, dan menunjukkan bahwa model dengan jumlah parameter yang lebih besar mengembangkan lebih banyak representasi agnostik bahasa.
Ketika AI Membuat Jawaban: Mendeteksi Fabrikasi Matematika Claude
Mungkin yang paling memprihatinkan, penelitian ini mengungkapkan contoh -contoh di mana alasan Claude tidak sesuai dengan apa yang diklaimnya. Ketika disajikan dengan masalah matematika yang sulit seperti menghitung nilai cosinus dari jumlah besar, model kadang -kadang mengklaim mengikuti proses perhitungan yang tidak tercermin dalam aktivitas internalnya.
“Kami dapat membedakan antara kasus-kasus di mana model tersebut benar-benar melakukan langkah-langkah yang mereka katakan sedang melakukan, kasus-kasus di mana ia membuat alasan tanpa memperhatikan kebenaran, dan kasus-kasus di mana ia bekerja mundur dari petunjuk yang disediakan manusia,” jelas para peneliti.
Dalam satu contoh, ketika seorang pengguna menyarankan jawaban untuk masalah yang sulit, model bekerja mundur untuk membangun rantai penalaran yang mengarah pada jawaban itu, daripada bekerja maju dari prinsip pertama.
“Kami secara mekanis membedakan contoh Claude 3.5 Haiku menggunakan rantai pemikiran yang setia dari dua contoh rantai pemikiran yang tidak setia,” kata kertas itu. “Dalam satu, model ini memamerkan 'omong kosong' … di yang lain, itu menunjukkan alasan yang termotivasi.”
Di dalam halusinasi AI: bagaimana Claude memutuskan kapan harus menjawab atau menolak pertanyaan
Penelitian ini juga memberikan wawasan mengapa model bahasa berhalusinasi – membuat informasi ketika mereka tidak tahu jawaban. Antropik menemukan bukti sirkuit “default” yang menyebabkan Claude menolak menjawab pertanyaan, yang dihambat ketika model mengenali entitas yang diketahui.
“Model berisi sirkuit 'default' yang menyebabkannya menurun untuk menjawab pertanyaan,” jelas para peneliti. “Ketika sebuah model ditanya pertanyaan tentang sesuatu yang diketahui, itu mengaktifkan kumpulan fitur yang menghambat sirkuit default ini, sehingga memungkinkan model untuk menanggapi pertanyaan.”
Ketika mekanisme ini misfires – mengenali suatu entitas tetapi tidak memiliki pengetahuan khusus tentang hal itu – halusinasi dapat terjadi. Ini menjelaskan mengapa model mungkin dengan percaya diri memberikan informasi yang salah tentang angka-angka terkenal sambil menolak menjawab pertanyaan tentang yang tidak jelas.
Implikasi Keselamatan: Menggunakan Penelusuran Sirkuit Untuk Meningkatkan Keandalan dan Kepercayaan AI
Penelitian ini merupakan langkah signifikan menuju membuat sistem AI lebih transparan dan berpotensi lebih aman. Dengan memahami bagaimana model sampai pada jawaban mereka, para peneliti berpotensi mengidentifikasi dan mengatasi pola penalaran yang bermasalah.
Antropik telah lama menekankan potensi keselamatan kerja interpretabilitas. Dalam makalah Sonnet Mei 2024 mereka, tim peneliti mengartikulasikan visi yang sama: “Kami berharap bahwa kami dan orang lain dapat menggunakan penemuan ini untuk membuat model lebih aman,” tulis para peneliti pada waktu itu. “Misalnya, dimungkinkan untuk menggunakan teknik yang dijelaskan di sini untuk memantau sistem AI untuk perilaku berbahaya tertentu – seperti menipu pengguna – untuk mengarahkan mereka ke hasil yang diinginkan, atau untuk menghilangkan materi pelajaran berbahaya tertentu sepenuhnya.”
Pengumuman hari ini dibangun di atas yayasan itu, meskipun Batson memperingatkan bahwa teknik saat ini masih memiliki keterbatasan yang signifikan. Mereka hanya menangkap sebagian kecil dari perhitungan total yang dilakukan oleh model-model ini, dan menganalisis hasilnya tetap padat karya.
“Bahkan dengan permintaan pendek dan sederhana, metode kami hanya menangkap sebagian kecil dari perhitungan total yang dilakukan oleh Claude,” para peneliti mengakui dalam karya terbaru mereka.
Masa depan transparansi AI: tantangan dan peluang dalam interpretasi model
Teknik baru Anthropic datang pada saat meningkatkan kekhawatiran tentang transparansi dan keamanan AI. Ketika model -model ini menjadi lebih kuat dan lebih banyak digunakan, memahami mekanisme internal mereka menjadi semakin penting.
Penelitian ini juga memiliki implikasi komersial potensial. Karena perusahaan semakin bergantung pada model bahasa besar untuk menyalakan aplikasi, memahami kapan dan mengapa sistem ini mungkin memberikan informasi yang salah menjadi penting untuk mengelola risiko.
“Antropik ingin membuat model aman dalam arti luas, termasuk segala sesuatu mulai dari bias yang meringankan hingga memastikan AI bertindak jujur untuk mencegah penyalahgunaan – termasuk dalam skenario risiko bencana,” tulis para peneliti.
Sementara penelitian ini merupakan kemajuan yang signifikan, Batson menekankan bahwa itu hanya awal dari perjalanan yang jauh lebih lama. “Pekerjaan itu benar -benar baru saja dimulai,” katanya. “Memahami representasi yang digunakan model tidak memberi tahu kami bagaimana menggunakannya.”
Untuk saat ini, penelusuran sirkuit Antropik menawarkan peta tentatif pertama dari wilayah yang sebelumnya belum dipetakan – seperti para ahli anatomi awal membuat sketsa diagram kasar pertama otak manusia. Atlas lengkap kognisi AI masih harus ditarik, tetapi kita sekarang setidaknya dapat melihat garis besar bagaimana sistem ini berpikir.