
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Biasanya, pengembang fokus pada pengurangan waktu inferensi – periode antara ketika AI menerima prompt dan memberikan jawaban – untuk mendapatkan wawasan yang lebih cepat.
Tetapi ketika datang ke ketahanan permusuhan, peneliti Openai mengatakan: Tidak terlalu cepat. Mereka mengusulkan bahwa meningkatkan jumlah waktu yang harus dimiliki oleh model untuk “berpikir” – komputasi waktu inferensi – dapat membantu membangun pertahanan terhadap serangan permusuhan.
Perusahaan menggunakan model O1-preview dan O1-mini sendiri untuk menguji teori ini, meluncurkan berbagai metode serangan statis dan adaptif-manipulasi berbasis gambar, sengaja memberikan jawaban yang salah untuk masalah matematika, dan model luar biasa dengan informasi (“banyak– tembak jailbreaking ”). Mereka kemudian mengukur probabilitas keberhasilan serangan berdasarkan jumlah perhitungan model yang digunakan pada inferensi.
“Kami melihat bahwa dalam banyak kasus, probabilitas ini meluruh-seringkali mendekati nol-ketika komputasi waktu inferensi tumbuh,” tulis para peneliti dalam posting blog. “Klaim kami bukanlah bahwa model-model khusus ini tidak dapat dipecahkan-kami tahu mereka-tetapi bahwa penskalaan komputasi waktu inferensi menghasilkan ketahanan yang lebih baik untuk berbagai pengaturan dan serangan.”
Dari Q/A sederhana hingga matematika yang kompleks
Model Bahasa Besar (LLM) menjadi semakin canggih dan otonom – dalam beberapa kasus pada dasarnya mengambil alih komputer bagi manusia untuk menjelajahi web, menjalankan kode, membuat janji dan melakukan tugas lain secara mandiri – dan seperti yang mereka lakukan, permukaan serangan mereka menjadi lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas dan lebih luas setiap lebih terekspos.
Namun kekokohan yang terus-menerus terus menjadi masalah yang keras kepala, dengan kemajuan dalam menyelesaikannya masih terbatas, para peneliti Openai menunjukkan-bahkan karena semakin kritis karena model mengambil lebih banyak tindakan dengan dampak dunia nyata.
“Memastikan bahwa model agen berfungsi dengan andal saat menjelajah web, mengirim email atau mengunggah kode ke repositori dapat dilihat sebagai analog untuk memastikan bahwa mobil yang bisa mengemudi sendiri tanpa kecelakaan,” mereka menulis dalam makalah penelitian baru. “Seperti dalam kasus mobil self-driving, agen yang meneruskan email yang salah atau menciptakan kerentanan keamanan mungkin memiliki konsekuensi dunia nyata yang luas.”
Untuk menguji kekokohan preview O1-Mini dan O1, para peneliti mencoba sejumlah strategi. Pertama, mereka memeriksa kemampuan model untuk menyelesaikan masalah matematika sederhana (penambahan dasar dan perkalian) dan yang lebih kompleks dari dataset matematika (yang menampilkan 12.500 pertanyaan dari kompetisi matematika).
Mereka kemudian menetapkan “tujuan” untuk musuh: mendapatkan model ke output 42, bukan jawaban yang benar; untuk mengeluarkan jawaban yang benar ditambah satu; atau output kali jawaban yang benar tujuh. Menggunakan jaringan saraf untuk menilai, para peneliti menemukan bahwa peningkatan waktu “berpikir” memungkinkan model untuk menghitung jawaban yang benar.
Mereka juga mengadaptasi tolok ukur Faktualitas SimpleQA, dataset pertanyaan yang dimaksudkan untuk menjadi sulit bagi model untuk diselesaikan tanpa menjelajah. Para peneliti menyuntikkan permusuhan ke halaman web yang AI melihat -lihat dan menemukan bahwa, dengan waktu komputasi yang lebih tinggi, mereka dapat mendeteksi ketidakkonsistenan dan meningkatkan akurasi faktual.
Nuansa ambigu
Dalam metode lain, para peneliti menggunakan gambar permusuhan untuk membingungkan model; Sekali lagi, lebih banyak waktu “berpikir” meningkatkan pengakuan dan pengurangan kesalahan. Akhirnya, mereka mencoba serangkaian “petunjuk penyalahgunaan” dari tolok ukur StrongRect, yang dirancang sehingga model korban harus menjawab dengan informasi spesifik dan berbahaya. Ini membantu menguji kepatuhan model terhadap kebijakan konten. Namun, sementara peningkatan waktu inferensi memang meningkatkan resistensi, beberapa petunjuk dapat menghindari pertahanan.
Di sini, para peneliti menyebut perbedaan antara tugas “ambigu” dan “tidak ambigu”. Matematika, misalnya, tidak diragukan lagi tidak ambigu – untuk setiap masalah x, ada kebenaran dasar yang sesuai. Namun, untuk tugas -tugas yang lebih ambigu seperti penyalahgunaan dorongan, “bahkan evaluator manusia sering berjuang untuk menyetujui apakah output berbahaya dan/atau melanggar kebijakan konten yang seharusnya diikuti oleh model,” mereka menunjukkan.
Misalnya, jika prompt yang kasar mencari saran tentang cara menjiplak tanpa deteksi, tidak jelas apakah output hanya memberikan informasi umum tentang metode plagiarisme sebenarnya cukup rinci cukup untuk mendukung tindakan berbahaya.


“Dalam kasus tugas yang ambigu, ada pengaturan di mana penyerang berhasil menemukan 'celah,' dan tingkat keberhasilannya tidak membusuk dengan jumlah komputasi waktu inferensi,” kata para peneliti.
Bertahan melawan jailbreak, tim merah
Dalam melakukan tes ini, para peneliti Openai mengeksplorasi berbagai metode serangan.
Salah satunya adalah jailbreaking banyak-shot, atau mengeksploitasi disposisi model untuk mengikuti beberapa contoh tembakan. Musuh “hal -hal” konteks dengan sejumlah besar contoh, masing -masing menunjukkan contoh serangan yang berhasil. Model dengan waktu komputasi yang lebih tinggi mampu mendeteksi dan mengurangi ini lebih sering dan berhasil.
Token lunak, sementara itu, memungkinkan musuh untuk secara langsung memanipulasi vektor embedding. Sementara meningkatkan waktu inferensi membantu di sini, para peneliti menunjukkan bahwa ada kebutuhan untuk mekanisme yang lebih baik untuk bertahan melawan serangan berbasis vektor yang canggih.
Para peneliti juga melakukan serangan timah merah manusia, dengan 40 penguji ahli mencari petunjuk untuk mendapatkan pelanggaran kebijakan. Para tim merah melaksanakan serangan dalam lima tingkat komputasi waktu inferensi, secara khusus menargetkan konten erotis dan ekstremis, perilaku terlarang dan melukai diri sendiri. Untuk membantu memastikan hasil yang tidak memihak, mereka melakukan pengujian buta dan acak dan juga pelatih yang diputar.
Dalam metode yang lebih baru, para peneliti melakukan serangan adaptif Program Model (LMP), yang meniru perilaku tim merah manusia yang sangat bergantung pada percobaan dan kesalahan berulang. Dalam proses perulangan, penyerang menerima umpan balik tentang kegagalan sebelumnya, kemudian menggunakan informasi ini untuk upaya selanjutnya dan mengulangi segera. Ini berlanjut sampai mereka akhirnya mencapai serangan yang berhasil atau melakukan 25 iterasi tanpa serangan sama sekali.
“Pengaturan kami memungkinkan penyerang untuk menyesuaikan strateginya selama beberapa upaya, berdasarkan deskripsi perilaku bek dalam menanggapi setiap serangan,” tulis para peneliti.
Mengeksploitasi waktu inferensi
Dalam perjalanan penelitian mereka, Openai menemukan bahwa penyerang juga secara aktif mengeksploitasi waktu inferensi. Salah satu metode ini mereka dijuluki “lebih sedikit” – musuh pada dasarnya memberi tahu model untuk mengurangi komputasi, sehingga meningkatkan kerentanan mereka terhadap kesalahan.
Demikian pula, mereka mengidentifikasi mode kegagalan dalam model penalaran yang mereka sebut “sniping nerd.” Seperti namanya, ini terjadi ketika model menghabiskan lebih banyak penalaran waktu lebih banyak daripada tugas yang diberikan. Dengan rantai pemikiran “outlier” ini, model pada dasarnya menjadi terperangkap dalam loop berpikir yang tidak produktif.
Peneliti Catatan: “Seperti serangan 'Think Less', ini adalah pendekatan baru untuk menyerang[ing] Model penalaran, dan yang perlu diperhitungkan untuk memastikan bahwa penyerang tidak dapat menyebabkan mereka tidak beralasan sama sekali, atau menghabiskan penalaran mereka dengan cara yang tidak produktif. ”