
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Itu adalah minggu besar untuk pengumuman AI mengikuti acara dari Microsoft, Google, dan Anthropic. Tapi Openai sedang menyelesaikan hal -hal dengan berita sendiri. Dan tidak, kita tidak hanya berbicara tentang akuisisi tim desain Jony Ive senilai $ 6,5 miliar untuk memimpin upaya perangkat keras baru, “IO” di Openai.
Hari ini, perusahaan meningkatkan agen pengendali web dan pengendalian kursor operator otonom dalam menggunakan model bahasa multimodal GPT-4O sebelumnya ke model penalaran O3 yang lebih baru dan lebih kuat.
Pembaruan, yang dirilis secara global hari ini, 23 Mei 2025, tersedia sebagai “pratinjau penelitian” untuk membayar pelanggan Paket Pro ChatGPT Pro $ 200 USD $ 200.
Pada dasarnya, itu adalah cara Openai untuk mengatakan itu bukan produk yang sepenuhnya “diampelas” atau disempurnakan – mungkin masih memiliki kekusutan dan masalah.
Tetapi dengan saingannya, Google menawarkan bundel langganan Tier AI atasnya sendiri dengan harga hampir $ 250 USD secara teratur (saat ini menjalankan diskon turun menjadi $ 125 untuk tiga bulan pertama) untuk mengakses Multimodal Gemini Multimodal, pembuatan gambar Imagen yang lebih baru, dan model pembuatan video VEO, tiba -tiba rencana Openai's Chatgpt Pro tampaknya lebih terjangkau dengan perbandingan.
Untuk apa operator Openai dan untuk apa?
Operator pertama kali memulai debutnya pada Januari 2025 sebagai langkah awal Openai ke agen semi-otonom, khususnya komputer menggunakan agen (CUA). Idenya adalah untuk melampaui antarmuka chatbot dari chatgpt dan memungkinkan model AI yang kuat dari Openai untuk mulai mengambil lebih banyak tindakan atas nama pengguna.
Dengan demikian, operator dirancang untuk secara otonom menunjukkan, mengklik, menggulir, dan mengetik untuk menyelesaikan tugas berbasis web seperti pemesanan pemesanan makan malam, menyusun daftar belanja, atau memesan tiket acara. Kemampuan agen ini memungkinkannya untuk menyelesaikan tugas pengguna secara langsung melalui antarmuka browser, dari pemesanan pemesanan hingga mengumpulkan data online.
Untuk tujuan keselamatan, privasi dan keamanan, operator tidak menggunakan browser web yang ada di PC atau Mac pengguna. Sebagai gantinya, ia berlari di browser virtual yang diselenggarakan dengan cloud yang dapat diakses melalui situs mandiri-operator.chatgpt.com-di mana pengguna dapat memasukkan permintaan dan mengamati agen melakukan tugas secara real time.
Ini menggabungkan visi, penalaran, dan kemampuan interaksi berdasarkan GPT-4O, menandai arah baru untuk OpenAi dalam AI agen.
Produk ini diluncurkan sebagai pratinjau penelitian untuk pelanggan ChatGPT Pro dan menampilkan langkah-langkah keselamatan bawaan seperti konfirmasi pengguna, mode menonton, dan pembatasan pada platform web berisiko tinggi.
Itu juga sedang diuji dalam konteks perusahaan, termasuk perencanaan perjalanan dan layanan kewarganegaraan, menunjukkan potensinya di lingkungan konsumen dan bisnis.
O3 menawarkan peningkatan akurasi, struktur, dan tingkat keberhasilan
Dengan pembaruan ini, OpenAI bertujuan untuk meningkatkan kinerja di beberapa dimensi utama. Operator berbasis O3 baru menunjukkan peningkatan persistensi dan akurasi selama interaksi browser.
Dalam istilah praktis, ini berarti lebih mungkin untuk menyelesaikan tugas pengguna dengan sukses dan dengan lebih sedikit kebutuhan untuk koreksi atau pengulangan. Selain itu, pengguna dapat mengharapkan tanggapan yang lebih jelas, lebih terstruktur, dan lebih komprehensif.
Dalam evaluasi komparatif, model baru menunjukkan keunggulan preferensi yang berbeda dibandingkan pendahulunya. Studi preferensi manusia mengungkapkan bahwa pengguna menyukai model O3 karena gaya, kelengkapan, dan kejelasannya. Ini juga berkinerja kuat dalam pengikut instruksi dan efisiensi, meskipun hasil untuk kebenaran faktual lebih seimbang di antara versi.
Kinerja pada tolok ukur evaluasi pihak ketiga mencerminkan peningkatan ini. Pada tolok ukur Osworld yang mengukur penyelesaian tugas berbasis browser, model O3 skor 42,9 dibandingkan dengan 38,1 untuk versi sebelumnya.

Namun, OpenAI mencatat bahwa karena keterbatasan dalam sistem penilaian otomatis, perolehan kinerja aktual bisa lebih dekat ke 20 poin persentase!
Di Webarena, model baru ini mencapai skor 62,9, naik dari 48.1. Peningkatan paling dramatis muncul di tolok ukur GAIA, di mana skor model O3 62.2, sangat melampaui model sebelumnya 12.3.
Perbandingan tugas berdampingan lebih lanjut menggambarkan keuntungan ini. Dalam satu contoh yang melibatkan permintaan pemesanan restoran, model baru ini memberikan daftar pemesanan yang tersedia yang lebih jelas dan lebih rinci, termasuk lokasi, peringkat Michelin, dan catatan tempat duduk, disajikan dalam tabel yang diformat dengan baik. Versi sebelumnya, walaupun fungsional, memberikan lebih sedikit informasi dengan cara yang kurang terorganisir, menurut gambar yang disertakan dengan catatan rilis operator O3 yang baru:

Perlindungan tetap ada, seperti halnya catatan peringatan umum tentang penggunaan transaksi sensitif, keuangan dan akses akun
Model O3 juga mewarisi langkah-langkah keamanan yang diperkenalkan dengan versi sebelumnya, dengan penyempurnaan lebih lanjut untuk perannya sebagai sistem agen.
OpenAI telah mengintegrasikan pelatihan yang ditingkatkan terhadap pelaksanaan tugas yang berbahaya, kerentanan injeksi yang cepat, dan kesalahan yang melibatkan niat pengguna.
Evaluasi menunjukkan bahwa model sekarang mengkonfirmasi 94% dari tindakan sensitif sebelum menjalankannya, dengan konfirmasi 100% dalam transaksi keuangan. Kerentanan injeksi yang cepat juga menurun dari 23% menjadi 20%.
Khususnya, operator O3 mempertahankan batas yang hati-hati pada interaksi web berisiko tinggi tertentu, seperti email atau platform keuangan, di mana ia mungkin memerlukan pengawasan pengguna melalui mode arloji atau secara eksplisit menolak untuk melanjutkan. Langkah-langkah ini adalah bagian dari pendekatan berlapis untuk keselamatan yang menggabungkan ketahanan model model dengan pemantauan waktu nyata.
Sementara peningkatan ke operator menandai peningkatan teknis, itu juga mencerminkan komitmen Openai yang berkelanjutan untuk penyebaran AI yang bertanggung jawab.
Kemampuan sistem untuk mengambil tindakan dunia nyata memperkenalkan risiko baru, dan tim pengembangan terus memperbaiki protokol keselamatannya.
Menurut Dokumentasi Kartu Sistem O3 Openai yang diperbarui, model ini tetap di bawah ambang batas kemampuan berisiko tinggi dalam kategori seperti penyalahgunaan biologis dan kimia dan tidak memiliki lingkungan pengkodean asli atau akses terminal, lebih lanjut mengurangi vektor penyalahgunaan potensial.
Operator tetap menjadi pratinjau penelitian dan hanya dapat diakses oleh pengguna ChatGPT Pro. Operator versi API respons akan terus didasarkan pada model GPT-4O, setidaknya untuk saat ini.
Implikasi untuk pembuat keputusan teknis perusahaan
Operator yang ditingkatkan berdiri untuk secara signifikan meningkatkan alur kerja para profesional dalam rekayasa AI, orkestrasi, manajemen data, dan keamanan TI.
Untuk mereka yang membangun atau memelihara model pembelajaran mesin, akurasi model yang ditingkatkan dan output terstruktur mengurangi overhead validasi tes dan pemecahan masalah.
Dalam konteks orkestrasi, ia menawarkan alat yang praktis dan andal untuk mengotomatisasi komponen jaringan pipa yang kompleks.
Insinyur data dapat mendelegasikan interaksi web manual-seperti verifikasi data dan pengikisan-dengan lebih percaya diri, membebaskan waktu untuk pekerjaan optimisasi tingkat lebih tinggi.
Profesional keamanan, sementara itu, mendapatkan cara yang lebih aman untuk mensimulasikan perilaku pengguna dalam audit dan latihan respons insiden, berkat mekanisme keselamatan berlapis model.
Di seluruh disiplin ilmu ini, operator berbasis O3 memperkenalkan peningkatan kemampuan dan kerangka kerja mitigasi risiko, menjadikannya tambahan praktis untuk toolkit teknis modern.