
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Model Bahasa Besar (LLM) mengubah bagaimana perusahaan beroperasi, tetapi sifat “kotak hitam” mereka sering membuat perusahaan bergulat dengan ketidakpastian. Mengatasi tantangan kritis ini, Anthropic baru-baru ini bersumber dari alat penelusuran sirkuitnya, yang memungkinkan pengembang dan peneliti untuk secara langsung memahami dan mengontrol pekerjaan dalam model.
Alat ini memungkinkan para peneliti untuk menyelidiki kesalahan yang tidak dapat dijelaskan dan perilaku yang tidak terduga dalam model dengan berat terbuka. Ini juga dapat membantu dengan menyempurnakan LLMS granular untuk fungsi internal tertentu.
Memahami logika batin AI
Alat penelusuran sirkuit ini berfungsi berdasarkan “interpretabilitas mekanistik,” bidang yang sedang berkembang yang didedikasikan untuk memahami bagaimana model AI berfungsi berdasarkan aktivasi internal mereka daripada hanya mengamati input dan output mereka.
Sementara penelitian awal Anthropic tentang penelusuran sirkuit menerapkan metodologi ini pada model claude 3.5 haiku mereka sendiri, alat bersumber terbuka memperluas kemampuan ini untuk model bobot terbuka. Tim Anthropic telah menggunakan alat ini untuk melacak sirkuit dalam model seperti Gemma-2-2b dan Llama-3.2-1B dan telah merilis notebook Colab yang membantu menggunakan perpustakaan pada model terbuka.
Inti dari alat ini terletak pada menghasilkan grafik atribusi, peta kausal yang melacak interaksi antara fitur saat model memproses informasi dan menghasilkan output. (Fitur adalah pola aktivasi internal dari model yang dapat dipetakan secara kasar ke konsep yang dapat dimengerti.) Ini seperti mendapatkan diagram kabel terperinci dari proses pemikiran internal AI. Lebih penting lagi, alat ini memungkinkan “eksperimen intervensi,” yang memungkinkan para peneliti untuk secara langsung memodifikasi fitur internal ini dan mengamati bagaimana perubahan dalam keadaan internal AI memengaruhi respons eksternal, sehingga memungkinkan untuk men -debug model.
Alat ini terintegrasi dengan NeurOnpedia, platform terbuka untuk memahami dan eksperimen dengan jaringan saraf.
Kepraktisan dan dampak masa depan untuk AI perusahaan
Sementara alat penelusuran sirkuit Anthropic adalah langkah besar menuju AI yang dapat dijelaskan dan terkontrol, ia memiliki tantangan praktis, termasuk biaya memori tinggi yang terkait dengan menjalankan alat dan kompleksitas yang melekat dalam menafsirkan grafik atribusi terperinci.
Namun, tantangan ini adalah khas dari penelitian mutakhir. Interpretabilitas mekanistik adalah bidang penelitian yang besar, dan sebagian besar laboratorium AI besar sedang mengembangkan model untuk menyelidiki cara kerja dalam model bahasa besar. Dengan open-sourcing alat penelusuran sirkuit, antropik akan memungkinkan masyarakat untuk mengembangkan alat interpretabilitas yang lebih terukur, otomatis, dan dapat diakses oleh beragam pengguna, membuka jalan bagi aplikasi praktis dari semua upaya yang masuk ke dalam memahami LLM.
Saat perkakas matang, kemampuan untuk memahami mengapa LLM membuat keputusan tertentu dapat diterjemahkan menjadi manfaat praktis bagi perusahaan.
Penelusuran Sirkuit menjelaskan bagaimana LLMS melakukan penalaran multi-langkah canggih. Sebagai contoh, dalam penelitian mereka, para peneliti dapat melacak bagaimana seorang model menyimpulkan “Texas” dari “Dallas” sebelum tiba di “Austin” sebagai ibukota. Ini juga mengungkapkan mekanisme perencanaan canggih, seperti model yang pra-pemilihan kata-kata sajak dalam puisi untuk memandu komposisi garis. Perusahaan dapat menggunakan wawasan ini untuk menganalisis bagaimana model mereka menangani tugas -tugas kompleks seperti analisis data atau penalaran hukum. Tentukan perencanaan internal atau langkah -langkah penalaran memungkinkan untuk optimasi yang ditargetkan, meningkatkan efisiensi dan akurasi dalam proses bisnis yang kompleks.

Selain itu, penelusuran sirkuit menawarkan kejelasan yang lebih baik ke dalam operasi numerik. Sebagai contoh, dalam studi mereka, para peneliti mengungkap bagaimana model menangani aritmatika, seperti 36+59 = 95, bukan melalui algoritma sederhana tetapi melalui jalur paralel dan fitur “tabel pencarian” untuk digit. Misalnya, perusahaan dapat menggunakan wawasan seperti itu untuk mengaudit perhitungan internal yang mengarah ke hasil numerik, mengidentifikasi asal kesalahan dan mengimplementasikan perbaikan yang ditargetkan untuk memastikan integritas data dan akurasi perhitungan dalam LLM open-source mereka.
Untuk penyebaran global, alat ini memberikan wawasan tentang konsistensi multibahasa. Penelitian Anthropic sebelumnya menunjukkan bahwa model menggunakan sirkuit “bahasa mental universal” spesifik bahasa dan abstrak, dengan bahasa yang tidak tergantung bahasa, dengan model yang lebih besar menunjukkan generalisasi yang lebih besar. Ini berpotensi membantu men -debug tantangan lokalisasi ketika menggunakan model di berbagai bahasa.
Akhirnya, alat ini dapat membantu memerangi halusinasi dan meningkatkan landasan faktual. Penelitian ini mengungkapkan bahwa model memiliki “sirkuit penolakan default” untuk pertanyaan yang tidak diketahui, yang ditekan oleh fitur “jawaban yang diketahui”. Halusinasi dapat terjadi ketika sirkuit penghambatan ini “misfires.”

Di luar debugging masalah yang ada, pemahaman mekanistik ini membuka jalan baru untuk menyempurnakan LLMS. Alih -alih hanya menyesuaikan perilaku output melalui percobaan dan kesalahan, perusahaan dapat mengidentifikasi dan menargetkan mekanisme internal spesifik yang mendorong sifat yang diinginkan atau tidak diinginkan. Misalnya, memahami bagaimana “asisten kepribadian” model secara tidak sengaja menggabungkan bias model hadiah tersembunyi, seperti yang ditunjukkan dalam penelitian antropik, memungkinkan pengembang untuk secara tepat mencetak kembali sirkuit internal yang bertanggung jawab untuk penyelarasan, yang mengarah pada penyebaran AI yang lebih kuat dan konsisten secara etis.
Karena LLMS semakin terintegrasi ke dalam fungsi perusahaan yang kritis, transparansi, interpretabilitas, dan kontrolnya menjadi semakin kritis. Generasi alat baru ini dapat membantu menjembatani kesenjangan antara kemampuan AI yang kuat dan pemahaman manusia, membangun kepercayaan dasar dan memastikan bahwa perusahaan dapat menggunakan sistem AI yang dapat diandalkan, dapat diaudit, dan selaras dengan tujuan strategis mereka.