
Bergabunglah dengan acara yang dipercaya oleh para pemimpin perusahaan selama hampir dua dekade. VB Transform menyatukan orang -orang yang membangun strategi AI perusahaan nyata. Pelajari lebih lanjut
Catatan Editor: Louis akan memimpin meja bundar editorial tentang topik ini di VB Transform bulan ini. Daftar hari ini.
Model AI dikepung. Dengan 77% perusahaan yang sudah dilanda serangan model permusuhan dan 41% dari serangan tersebut mengeksploitasi suntikan cepat dan keracunan data, Tradecraft penyerang melampaui pertahanan cyber yang ada.
Untuk membalikkan tren ini, penting untuk memikirkan kembali bagaimana keamanan diintegrasikan ke dalam model yang dibangun hari ini. Tim DevOps perlu bergeser dari mengambil pertahanan reaktif ke pengujian permusuhan yang berkelanjutan di setiap langkah.
Peaming Merah harus menjadi intinya
Melindungi model bahasa besar (LLM) di seluruh siklus DevOps membutuhkan tim merah sebagai komponen inti dari proses penciptaan model. Daripada memperlakukan keamanan sebagai rintangan akhir, yang khas dalam pipa aplikasi web, pengujian permusuhan terus menerus perlu diintegrasikan ke dalam setiap fase siklus hidup pengembangan perangkat lunak (SDLC).
Mengadopsi pendekatan yang lebih integratif untuk fundamental devsecops menjadi perlu untuk mengurangi risiko suntikan yang cepat, keracunan data dan paparan data sensitif. Serangan parah seperti ini menjadi lebih umum, terjadi dari desain model melalui penyebaran, membuat pemantauan berkelanjutan penting.
Panduan terbaru Microsoft tentang Merencanakan Tim Merah untuk Model Bahasa Besar (LLM) dan aplikasi mereka memberikan metodologi yang berharga untuk memulai proses terintegrasi. Kerangka kerja manajemen risiko AI NIST memperkuat hal ini, menekankan perlunya pendekatan yang lebih proaktif dan siklus hidup untuk pengujian permusuhan dan mitigasi risiko. Tim merah Microsoft baru -baru ini dari lebih dari 100 produk AI generatif menggarisbawahi kebutuhan untuk mengintegrasikan deteksi ancaman otomatis dengan pengawasan ahli di seluruh pengembangan model.
Sebagai kerangka kerja regulasi, seperti UU AI UE, mengamanatkan pengujian permusuhan yang ketat, mengintegrasikan tim merah terus menerus memastikan kepatuhan dan peningkatan keamanan.
Pendekatan Openai untuk Tim Merah mengintegrasikan tim merah eksternal dari desain awal melalui penyebaran, mengkonfirmasi bahwa pengujian keamanan preemptive yang konsisten sangat penting untuk keberhasilan pengembangan LLM.

Mengapa Pertahanan Cyber Tradisional Gagal Terhadap AI
Pendekatan cybersecurity tradisional dan lama gagal terhadap ancaman yang digerakkan oleh AI karena mereka pada dasarnya berbeda dari serangan konvensional. Ketika Tradecraft musuh melampaui pendekatan tradisional, teknik baru untuk tim merah diperlukan. Berikut adalah sampel dari banyak jenis tradecraft yang secara khusus dibangun untuk menyerang model AI di seluruh siklus DevOps dan sekali di alam liar:
- Keracunan data: Musuh menyuntikkan data yang rusak ke dalam set pelatihan, menyebabkan model belajar secara tidak benar dan menciptakan ketidakakuratan yang terus -menerus dan kesalahan operasional sampai ditemukan. Ini sering merusak kepercayaan pada keputusan yang digerakkan AI.
- Model Evasion: Musuh memperkenalkan perubahan input yang dibuat dengan cermat dan halus, memungkinkan data berbahaya untuk menyelinap melewati sistem deteksi dengan mengeksploitasi keterbatasan yang melekat pada aturan statis dan kontrol keamanan berbasis pola.
- Inversi model: Kueri sistematis terhadap model AI memungkinkan musuh untuk mengekstraksi informasi rahasia, berpotensi mengekspos data pelatihan sensitif atau berpemilik dan menciptakan risiko privasi yang berkelanjutan.
- Injeksi cepat: Input kerajinan musuh yang dirancang khusus untuk menipu AI generatif ke dalam melindungi perlindungan, menghasilkan hasil yang berbahaya atau tidak sah.
- Risiko perbatasan ganda: In the recent paper, Benchmark Early and Red Team Often: A Framework for Assessing and Managing Dual-Use Hazards of AI Foundation Models, researchers from The Center for Long-Term Cybersecurity at the University of California, Berkeley emphasize that advanced AI models significantly lower barriers, enabling non-experts to carry out sophisticated cyberattacks, chemical threats, or other complex exploits, fundamentally reshaping the global threat landscape dan mengintensifkan paparan risiko.
Operasi Pembelajaran Mesin Terpadu (MLOP) lebih lanjut menambah risiko, ancaman, dan kerentanan ini. Sifat yang saling berhubungan dari LLM dan pipa pengembangan AI yang lebih luas memperbesar permukaan serangan ini, membutuhkan perbaikan dalam tim merah.
Para pemimpin cybersecurity semakin mengadopsi pengujian permusuhan berkelanjutan untuk melawan ancaman AI yang muncul ini. Latihan tim merah terstruktur sekarang penting, secara realistis mensimulasikan serangan yang berfokus pada AI untuk mengungkap kerentanan tersembunyi dan menutup celah keamanan sebelum penyerang dapat mengeksploitasi mereka.
Bagaimana para pemimpin AI tetap di depan penyerang dengan tim merah
Musuh terus mempercepat penggunaan AI mereka untuk menciptakan bentuk -bentuk tradecraft yang sama sekali baru yang menentang pertahanan cyber tradisional yang ada. Tujuan mereka adalah untuk mengeksploitasi sebanyak mungkin kerentanan yang muncul.
Para pemimpin industri, termasuk perusahaan-perusahaan AI utama, telah merespons dengan menanamkan strategi tim merah yang sistematis dan canggih di inti keamanan AI mereka. Daripada memperlakukan tim merah sebagai pemeriksaan sesekali, mereka menggunakan pengujian permusuhan yang berkelanjutan dengan menggabungkan wawasan manusia yang ahli, otomatisasi disiplin, dan evaluasi manusia-di-menengah berulang untuk mengungkap dan mengurangi ancaman sebelum penyerang dapat mengeksploitasi mereka secara proaktif.
Metodologi mereka yang ketat memungkinkan mereka untuk mengidentifikasi kelemahan dan secara sistematis mengeraskan model mereka terhadap skenario permusuhan dunia nyata yang berkembang.
Secara khusus:
- Antropik bergantung pada wawasan manusia yang ketat sebagai bagian dari metodologi timah merah yang sedang berlangsung. Dengan mengintegrasikan evaluasi manusia-in-loop secara ketat dengan serangan permusuhan otomatis, perusahaan secara proaktif mengidentifikasi kerentanan dan terus-menerus memperbaiki keandalan, akurasi, dan interpretabilitas modelnya.
- Meta Scales AI Model Security Melalui Pengujian Perselisihan Otomasi-First. Time-Teaming Red-Teaming (MART) multi-putaran secara sistematis menghasilkan permintaan permusuhan berulang, dengan cepat mengungkap kerentanan tersembunyi dan secara efisien mempersempit vektor-vektor serangan di seluruh penyebaran AI yang luas.
- Microsoft memanfaatkan kolaborasi interdisipliner sebagai inti dari kekuatan tim merahnya. Menggunakan Toolkit Identifikasi Risiko Python (Pyrit), Microsoft menjembatani keahlian keamanan siber dan analitik canggih dengan validasi manusia-di-tengah-tengah yang disiplin, mempercepat deteksi kerentanan dan memberikan kecerdasan terperinci dan dapat ditindaklanjuti untuk memperkuat ketahanan model.
- Openai mengetuk keahlian keamanan global untuk memperkuat pertahanan AI pada skala. Menggabungkan wawasan spesialis keamanan eksternal dengan evaluasi permusuhan otomatis dan siklus validasi manusia yang ketat, Openai secara proaktif membahas ancaman canggih, khususnya menargetkan informasi yang salah dan kerentanan injeksi cepat untuk mempertahankan kinerja model yang kuat.
Singkatnya, para pemimpin AI tahu bahwa tetap di depan para penyerang menuntut kewaspadaan yang berkelanjutan dan proaktif. Dengan menanamkan pengawasan manusia terstruktur, otomatisasi disiplin, dan penyempurnaan berulang ke dalam strategi tim merah mereka, para pemimpin industri ini menetapkan standar dan mendefinisikan buku pedoman untuk AI yang tangguh dan dapat dipercaya pada skala.

Ketika serangan terhadap LLMS dan model AI terus berkembang dengan cepat, tim DevOps dan DevSecops harus mengoordinasikan upaya mereka untuk mengatasi tantangan meningkatkan keamanan AI. VentureBeat menemukan lima strategi tinggi berikut dapat diterapkan oleh para pemimpin keamanan segera:
- Mengintegrasikan keamanan lebih awal (antropik, openai)
Bangun pengujian permusuhan langsung ke dalam desain model awal dan di seluruh siklus hidup. Menangkap kerentanan lebih awal mengurangi risiko, gangguan dan biaya di masa depan.
- Menyebarkan adaptif, pemantauan real-time (Microsoft)
Pertahanan statis tidak dapat melindungi sistem AI dari ancaman lanjutan. Leverage alat yang digerakkan AI kontinu seperti cyberally untuk mendeteksi dan menanggapi anomali halus dengan cepat, meminimalkan jendela eksploitasi.
- Otomatisasi keseimbangan dengan penilaian manusia (Meta, Microsoft)
Otomatisasi murni melewatkan nuansa; Pengujian manual saja tidak akan skala. Gabungkan pengujian permusuhan otomatis dan pemindaian kerentanan dengan analisis manusia ahli untuk memastikan wawasan yang tepat dan dapat ditindaklanjuti.
- Melibatkan tim merah eksternal secara teratur (openai)
Tim internal mengembangkan titik buta. Evaluasi eksternal berkala mengungkapkan kerentanan tersembunyi, secara independen memvalidasi pertahanan Anda dan mendorong peningkatan berkelanjutan.
- Pertahankan Intelijen Ancaman Dinamis (Meta, Microsoft, Openai)
Penyerang terus -menerus mengembangkan taktik. Terus mengintegrasikan intelijen ancaman waktu nyata, analisis otomatis, dan wawasan ahli untuk memperbarui dan memperkuat postur defensif Anda secara proaktif.
Secara bersama -sama, strategi ini memastikan alur kerja DevOps tetap tangguh dan aman sambil tetap unggul dari ancaman permusuhan yang berkembang.
Tim merah tidak lagi opsional; itu penting
Ancaman AI telah tumbuh terlalu canggih dan sering hanya mengandalkan pendekatan keamanan siber tradisional yang reaktif. Untuk tetap di depan, organisasi harus secara terus -menerus dan secara proaktif menanamkan pengujian permusuhan ke dalam setiap tahap pengembangan model. Dengan menyeimbangkan otomatisasi dengan keahlian manusia dan secara dinamis mengadaptasi pertahanan mereka, penyedia AI terkemuka membuktikan bahwa keamanan dan inovasi yang kuat dapat hidup berdampingan.
Pada akhirnya, Red Teaming bukan hanya tentang mempertahankan model AI. Ini tentang memastikan kepercayaan, ketahanan, dan kepercayaan pada masa depan yang semakin dibentuk oleh AI.
Bergabunglah dengan saya di Transform 2025
Saya akan menjadi tuan rumah dua meja bundar yang berfokus pada cybersecurity di VentureBeat's Transform 2025, yang akan diadakan 24-25 Juni di Fort Mason di San Francisco. Daftar untuk bergabung dengan percakapan.
Sesi saya akan memasukkan satu di tim merah, AI Red Teaming dan Tesmenyelam ke dalam strategi untuk menguji dan memperkuat solusi keamanan siber yang digerakkan AI terhadap ancaman permusuhan yang canggih.