
Bergabunglah dengan acara yang dipercaya oleh para pemimpin perusahaan selama hampir dua dekade. VB Transform menyatukan orang -orang yang membangun strategi AI perusahaan nyata. Pelajari lebih lanjut
CEO Anthropic Dario Amodei membuat dorongan mendesak pada bulan April untuk perlunya memahami bagaimana model AI berpikir.
Ini datang pada waktu yang penting. Sebagai pertempuran antropik di peringkat AI global, penting untuk mencatat apa yang membedakannya dari laboratorium AI teratas lainnya. Sejak didirikan pada tahun 2021, ketika tujuh karyawan Openai memutuskan kekhawatiran tentang keselamatan AI, Antropik telah membangun model AI yang mematuhi serangkaian prinsip bernilai manusia, sebuah sistem yang mereka sebut AI konstitusional. Prinsip -prinsip ini memastikan bahwa model “membantu, jujur dan tidak berbahaya” dan umumnya bertindak demi kepentingan masyarakat. Pada saat yang sama, lengan penelitian Antropik menyelam jauh untuk memahami bagaimana modelnya berpikir tentang dunia, dan Mengapa Mereka menghasilkan jawaban yang bermanfaat (dan terkadang berbahaya).
Model andalan Anthropic, Claude 3.7 Sonnet, mendominasi tolok ukur pengkodean ketika diluncurkan pada bulan Februari, membuktikan bahwa model AI dapat unggul baik pada kinerja dan keamanan. Dan rilis baru -baru ini dari Claude 4.0 Opus dan Sonnet lagi menempatkan Claude di atas tolok ukur pengkodean. Namun, di pasar AI yang cepat dan hiper-kompetitif saat ini, saingan Antropik seperti Google Gemini 2.5 Pro dan Open AI's O3 memiliki pertunjukan yang mengesankan sendiri untuk berkode kecakapan, sementara mereka sudah mendominasi Claude di matematika, penulisan kreatif dan alasan keseluruhan di banyak bahasa.
Jika pikiran Amodei merupakan indikasi, antropik merencanakan masa depan AI dan implikasinya dalam bidang -bidang kritis seperti kedokteran, psikologi dan hukum, di mana keselamatan model dan nilai -nilai manusia sangat penting. Dan itu menunjukkan: Antropik adalah laboratorium AI terkemuka yang berfokus secara ketat pada pengembangan AI “dapat ditafsirkan”, yang merupakan model yang marilah kita memahami, sampai tingkat tertentu, apa yang dipikirkan model dan bagaimana itu tiba pada kesimpulan tertentu.
Amazon dan Google telah menginvestasikan miliaran dolar dalam antropik bahkan ketika mereka membangun model AI mereka sendiri, jadi mungkin keunggulan kompetitif Anthropic masih berkembang. Model yang dapat ditafsirkan, seperti yang disarankan antropik, dapat secara signifikan mengurangi biaya operasional jangka panjang yang terkait dengan debugging, audit dan mengurangi risiko dalam penyebaran AI yang kompleks.
Sayash Kapoor, seorang peneliti keselamatan AI, menunjukkan bahwa sementara interpretabilitas sangat berharga, itu hanyalah salah satu dari banyak alat untuk mengelola risiko AI. Dalam pandangannya, “interpretabilitas tidak diperlukan atau cukup” untuk memastikan model berperilaku aman-itu penting ketika dipasangkan dengan filter, verifier dan desain yang berpusat pada manusia. Pandangan yang lebih luas ini melihat interpretabilitas sebagai bagian dari ekosistem strategi kontrol yang lebih besar, terutama dalam penyebaran AI dunia nyata di mana model merupakan komponen dalam sistem pengambilan keputusan yang lebih luas.
Kebutuhan akan AI yang dapat ditafsirkan
Sampai baru -baru ini, banyak yang mengira AI masih bertahun -tahun dari kemajuan seperti yang sekarang membantu Claude, Gemini dan ChatGPT memiliki adopsi pasar yang luar biasa. Sementara model-model ini sudah mendorong perbatasan pengetahuan manusia, penggunaannya yang meluas disebabkan oleh seberapa baik mereka dalam memecahkan berbagai masalah praktis yang membutuhkan pemecahan masalah kreatif atau analisis terperinci. Karena model dimasukkan ke dalam tugas pada masalah yang semakin kritis, penting bagi mereka untuk menghasilkan jawaban yang akurat.
Amodei khawatir bahwa ketika AI menanggapi prompt, “Kami tidak tahu … mengapa ia memilih kata -kata tertentu daripada orang lain, atau mengapa itu kadang -kadang membuat kesalahan meskipun biasanya akurat.” Kesalahan seperti itu – halusinasi informasi yang tidak akurat, atau respons yang tidak selaras dengan nilai -nilai manusia – akan menahan model AI dari mencapai potensi penuh mereka. Memang, kami telah melihat banyak contoh AI yang terus berjuang dengan halusinasi dan perilaku tidak etis.
Bagi Amodei, cara terbaik untuk menyelesaikan masalah ini adalah dengan memahami bagaimana AI berpikir: “Ketidakmampuan kita untuk memahami mekanisme internal model berarti bahwa kita tidak dapat memprediksi secara bermakna seperti itu [harmful] perilaku, dan karena itu berjuang untuk mengesampingkannya … jika sebaliknya dimungkinkan untuk melihat ke dalam model, kita mungkin dapat secara sistematis memblokir semua jailbreak, dan juga mengkarakterisasi apa pengetahuan berbahaya yang dimiliki model. “
Amodei juga melihat opacity model saat ini sebagai penghalang untuk menggunakan model AI dalam “pengaturan finansial atau keselamatan bertingkat, karena kita tidak dapat sepenuhnya menetapkan batasan pada perilaku mereka, dan sejumlah kecil kesalahan bisa sangat berbahaya.” Dalam pengambilan keputusan yang mempengaruhi manusia secara langsung, seperti diagnosis medis atau penilaian hipotek, peraturan hukum mengharuskan AI untuk menjelaskan keputusannya.
Bayangkan sebuah lembaga keuangan menggunakan model bahasa besar (LLM) untuk deteksi penipuan – interpretabilitas bisa berarti menjelaskan aplikasi pinjaman yang ditolak kepada pelanggan sebagaimana diharuskan oleh hukum. Atau perusahaan manufaktur mengoptimalkan rantai pasokan – memahami mengapa AI menyarankan pemasok tertentu dapat membuka kunci efisiensi dan mencegah hambatan yang tidak terduga.
Karena itu, Amodei menjelaskan, “Antropik menggandakan interpretabilitas, dan kami memiliki tujuan untuk mendapatkan 'interpretabilitas dapat dengan andal mendeteksi sebagian besar masalah model' pada tahun 2027.”
Untuk itu, Antropik baru -baru ini berpartisipasi dalam investasi $ 50 juta di Goodfire, laboratorium penelitian AI membuat kemajuan terobosan pada “pemindaian otak” AI. Platform inspeksi model mereka, Ember, adalah alat agnostik yang mengidentifikasi konsep yang dipelajari dalam model dan memungkinkan pengguna memanipulasi mereka. Dalam demo baru -baru ini, perusahaan menunjukkan bagaimana Ember dapat mengenali konsep visual individu dalam AI generasi gambar dan kemudian membiarkan pengguna cat Konsep -konsep ini pada kanvas untuk menghasilkan gambar baru yang mengikuti desain pengguna.
Investasi Anthropic dalam Petunjuk Ember pada kenyataan bahwa mengembangkan model yang dapat ditafsirkan cukup sulit sehingga antropik tidak memiliki tenaga kerja untuk mencapai interpretabilitas sendiri. Model yang dapat ditafsirkan secara kreatif membutuhkan alat batang baru dan pengembang yang terampil untuk membangunnya
Konteks yang lebih luas: Perspektif Peneliti AI
Untuk memecah perspektif Amodei dan menambahkan konteks yang sangat dibutuhkan, VentureBeat mewawancarai Kapoor seorang peneliti keselamatan AI di Princeton. Kapoor ikut menulis buku itu AI Minyak UlarPemeriksaan kritis atas klaim berlebihan seputar kemampuan model AI terkemuka. Dia juga rekan penulis “AI sebagai teknologi normal”Di mana ia menganjurkan untuk memperlakukan AI sebagai alat standar, transformasional seperti internet atau listrik, dan mempromosikan perspektif yang realistis tentang integrasi ke dalam sistem sehari -hari.
Kapoor tidak membantah bahwa interpretabilitas itu berharga. Namun, dia skeptis memperlakukannya sebagai pilar sentral dari AI penyelarasan. “Ini bukan peluru perak,” kata Kapoor kepada VentureBeat. Banyak teknik keamanan yang paling efektif, seperti penyaringan pasca-respons, tidak memerlukan pembukaan model sama sekali, katanya.
Dia juga memperingatkan terhadap apa yang oleh para peneliti disebut sebagai “kekeliruan yang tidak dapat dipahami” – gagasan bahwa jika kita tidak sepenuhnya memahami internal suatu sistem, kita tidak dapat menggunakan atau mengaturnya secara bertanggung jawab. Dalam praktiknya, transparansi penuh bukanlah bagaimana sebagian besar teknologi dievaluasi. Yang penting adalah apakah suatu sistem berkinerja andal dalam kondisi nyata.
Ini bukan pertama kalinya Amodei memperingatkan tentang risiko AI melampaui pemahaman kita. Dalam jabatannya Oktober 2024, “Mesin Loving Grace,” ia membuat sketsa visi model yang semakin mampu yang dapat mengambil tindakan dunia nyata yang bermakna (dan mungkin menggandakan hidup kita).
Menurut Kapoor, ada perbedaan penting yang harus dibuat di sini antara model kemampuan dan itu kekuatan. Kemampuan model tidak diragukan lagi meningkat dengan cepat, dan mereka dapat segera mengembangkan intelijen yang cukup untuk menemukan solusi untuk banyak masalah kompleks yang menantang kemanusiaan saat ini. Tetapi model hanya sekuat antarmuka yang kami berikan untuk berinteraksi dengan dunia nyata, termasuk di mana dan bagaimana model digunakan.
Amodei secara terpisah berpendapat bahwa AS harus mempertahankan petunjuk dalam pengembangan AI, sebagian melalui kontrol ekspor yang membatasi akses ke model yang kuat. Idenya adalah bahwa pemerintah otoriter dapat menggunakan sistem AI perbatasan secara tidak bertanggung jawab – atau merebut tepi geopolitik dan ekonomi yang datang dengan menyebarkannya terlebih dahulu.
Bagi Kapoor, “bahkan pendukung terbesar kontrol ekspor setuju bahwa itu akan memberi kita paling banyak satu atau dua tahun.” Dia pikir kita harus memperlakukan AI sebagai “teknologi normal” seperti listrik atau internet. Sementara revolusioner, butuh beberapa dekade untuk kedua teknologi untuk sepenuhnya terwujud di seluruh masyarakat. Kapoor berpikir itu sama untuk AI: cara terbaik untuk mempertahankan keunggulan geopolitik adalah dengan fokus pada “permainan panjang” dari transformasi industri untuk menggunakan AI secara efektif.
Lainnya mengkritik amodei
Kapoor bukan satu -satunya pendirian Amodei yang mengkritik. Pekan lalu di Vivatech di Paris, Jansen Huang, CEO Nvidia, menyatakan ketidaksepakatannya dengan pandangan Amodei. Huang mempertanyakan apakah otoritas untuk mengembangkan AI harus dibatasi pada beberapa entitas yang kuat seperti antropik. Dia berkata: “Jika Anda ingin hal -hal dilakukan dengan aman dan bertanggung jawab, Anda melakukannya di tempat terbuka … jangan lakukan di ruangan yang gelap dan katakan itu aman.”
Sebagai tanggapan, antropik menyatakan: “Dario tidak pernah mengklaim bahwa 'hanya antropik' yang dapat membangun AI yang aman dan kuat. Seperti yang akan ditunjukkan oleh catatan publik, Dario telah menganjurkan standar transparansi nasional untuk pengembang AI (termasuk antropik) sehingga masyarakat dan pembuat kebijakan sadar akan kemampuan model dan risiko dan dapat mempersiapkan secara sesuai.”
Perlu juga dicatat bahwa antropik tidak sendirian dalam mengejar interpretabilitas: Tim interpretabilitas DeepMind Google, yang dipimpin oleh Neel Nanda, juga telah memberikan kontribusi serius terhadap penelitian interpretabilitas.
Pada akhirnya, laboratorium dan peneliti AI teratas memberikan bukti kuat bahwa interpretabilitas dapat menjadi pembeda utama di pasar AI yang kompetitif. Perusahaan yang memprioritaskan interpretabilitas lebih awal dapat memperoleh keunggulan kompetitif yang signifikan dengan membangun sistem AI yang lebih tepercaya, patuh, dan mudah beradaptasi.