
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
OpenAI telah meluncurkan Operator, agen AI semi-otonom pertamanya, yang dirancang untuk “mengoperasikan” browser web seperti yang dilakukan seseorang, atas nama mereka. Agen menggunakan kursor untuk menunjuk dan mengklik, mengetik sendiri, menjelajahi web, dan melakukan tindakan di berbagai situs web, seperti memesan reservasi restoran melalui OpenTable dan menyusun pesanan di Instacart dan DoorDash. Itu tidak terbatas pada antarmuka ChatGPT atau antarmuka pemrograman aplikasi (API) OpenAI.
“Produk ini adalah awal dari langkah kami menjadi agen,” kata CEO dan salah satu pendiri Sam Altman dalam demo yang disiarkan langsung di Saluran YouTube perusahaan hari ini pukul 1 siang ET.
Presiden OpenAI dan salah satu pendiri Greg Brockman menulis di X: “2025 adalah tahun para agen.”
Pratinjau tersebut, kini tersedia bagi pelanggan berbayar paket ChatGPT Pro OpenAI di AS ($200 per bulan), bertujuan untuk mendemonstrasikan potensi AI agen sambil mengumpulkan masukan penting untuk menyempurnakan kemampuannya.
Namun, operator tidak mengambil alih browser web Anda. Sebaliknya, Anda mengunjungi situs web baru yang terpisah — operator.chatgpt.com — dan dihadapkan dengan kotak masukan cepat yang mirip dengan ChatGPT.
Mengetikkan permintaan ke dalam kotak ini — “carikan saya tiket untuk pertandingan LA Lakers malam ini” — akan memicu Operator untuk membuka browser virtual terpisah yang berjalan di cloud pada server OpenAI. Kemudian, agen dapat menjalankan tugas seperti mengisi formulir, mengelola reservasi online, bahkan memesan tiket acara olahraga dan konser, dan menavigasi alur kerja umum lainnya. Pengguna menyaksikan kursor bergerak sendiri di browser berbasis cloud secara real time. Jika agen mengalami masalah, agen akan berhenti dan mengirim pesan kepada pengguna melalui output teks, serupa dengan respons ChatGPT.
Selain itu, di bawah browser virtual, pengguna akan melihat saran tindakan yang dapat diambil Operator atas nama mereka.
Namun, pengguna dapat mengambil kendali kapan saja — mirip dengan sistem mengemudi semi-otonom pada mobil modern. Operator juga meminta pengguna untuk memasukkan kredensial pembayaran mereka sendiri ketika mencapai layar pembelian di situs web lain. Terakhir, pengguna dapat menyimpan alur kerja tertentu yang ingin mereka gunakan di masa mendatang dan memulainya lagi.
Operator didukung oleh apa yang disebut OpenAI sebagai teknologi agen penggunaan komputer (CUA), varian baru GPT-4o yang dilatih khusus untuk menggunakan komputer.
Menjembatani AI dan GUI
Operator menonjol dari alat otomatisasi lainnya dengan meniru interaksi manusia dengan antarmuka pengguna grafis (GUI).
Daripada mengandalkan API khusus, sistem ini memanfaatkan tangkapan layar untuk masukan visual dan menggunakan tindakan mouse dan keyboard virtual untuk menyelesaikan tugas.
Model CUA yang mendasari menggabungkan kemampuan visi GPT-4o dengan pembelajaran penguatan, memungkinkan agen untuk memahami, bernalar, dan bertindak di layar.
Pendekatan ini memungkinkan Operator untuk menangani beragam tugas, termasuk penelusuran e-niaga, perencanaan perjalanan, dan bahkan tugas berulang seperti membuat daftar putar atau mengelola daftar belanja. Tolok ukur penting menggambarkan efektivitasnya:
• Tingkat keberhasilan 87% di WebVoyagertes navigasi situs web langsung
• Tingkat keberhasilan 58,1% di WebArenayang menyimulasikan skenario e-niaga dan pengelolaan konten dunia nyata
Namun persaingan sudah ketat: Baru kemarin, perusahaan teknologi Tiongkok ByteDance (perusahaan induk TikTok) meluncurkan agen AI miliknya sendiri untuk mengendalikan browser web dan melakukan tindakan pada pengguna. kepentingan. Disebut UI-TARS, ini benar-benar open-source dan menawarkan kinerja benchmark yang sama mengesankannya (meskipun tampaknya tidak dibandingkan secara langsung pada benchmark yang sama). Itu berarti Operator OpenAI harus jauh lebih baik atau lebih dapat diandalkan untuk membenarkan biaya yang relatif tinggi ($200/bulan) untuk mengaksesnya melalui langganan ChatGPT Pro.
Sudah diuji dalam kasus penggunaan navigasi web perusahaan
OpenAI bermitra dengan beberapa bisnis untuk memastikan Operator memenuhi kebutuhan dunia nyata. Perusahaan termasuk Instacart, DoorDash, dan Etsy telah menguji teknologi ini untuk berbagai kasus penggunaan mulai dari pengiriman bahan makanan hingga belanja yang dipersonalisasi.
Brett Keller, CEO Priceline, mengomentari kegunaannya untuk perencanaan perjalanan, dan menyebutnya sebagai “langkah signifikan dalam menjadikan perjalanan lebih lancar dan personal.”
Untuk aplikasi sektor publik, Kota Stockton sedang menjajaki cara menggunakan Operator untuk menyederhanakan keterlibatan masyarakat. Jamil Niazi, direktur teknologi informasi kota tersebut, menyoroti potensi AI untuk mempermudah warga dalam mendaftar layanan.
Namun ada keterbatasan. Publikasi teknologi Every mendapatkan pratinjau awal, telah mengujinya selama seminggu terakhir, dan menemukan bahwa:
“Salah satu kekhasan desain Operator adalah tidak menggunakan browser Anda. Sebaliknya, ia menggunakan browser di salah satu pusat data OpenAI yang dapat Anda tonton dan berinteraksi dari jarak jauh. Keuntungan dari keputusan desain ini adalah Anda dapat menggunakan Operator di mana pun dan kapan pun — misalnya, di perangkat seluler apa pun.
“Kelemahannya adalah banyak situs seperti Reddit yang sudah memblokir agen AI untuk menjelajah sehingga tidak bisa diakses oleh Operator. Dalam mode pratinjau penelitian ini, Operator juga diblokir oleh OpenAI untuk mengakses situs intensif sumber daya tertentu seperti Figma atau situs milik pesaing seperti YouTube karena alasan kinerja atau hukum.”
Langkah-langkah keamanan
Mengingat kemampuannya untuk bertindak atas nama pengguna, Operator telah dikembangkan dengan fitur keselamatan yang tangguh:
• Kontrol pengguna: Operator meminta konfirmasi untuk tindakan sensitif, seperti melakukan pembelian atau mengirim email.
• Modus tontonan: Memastikan pengawasan pengguna untuk tugas-tugas penting, khususnya di situs sensitif seperti email atau platform keuangan.
• Pencegahan penyalahgunaan: Sistem dilatih untuk menolak permintaan berbahaya dan mencakup perlindungan terhadap serangan musuh, seperti perintah berbahaya yang tertanam di situs web.
OpenAI juga memasukkan fitur-fitur untuk melindungi privasi pengguna, termasuk opsi untuk menghapus data penelusuran dan memilih tidak ikut berbagi data untuk peningkatan model.
Edisi perusahaan akan datang
OpenAI membayangkan peran Operator yang lebih luas baik di lingkungan individu maupun perusahaan. Seiring waktu, perusahaan berencana untuk memperluas akses ke pengguna Plus, Tim, dan Perusahaan, yang pada akhirnya mengintegrasikan Operator ke dalam ChatGPT.
Ada juga rencana untuk membuat teknologi dasar CUA tersedia melalui API, memungkinkan pengembang membuat agen khusus yang menggunakan komputer.
Meskipun memiliki potensi, Operator masih dalam proses. OpenAI bersikap transparan mengenai keterbatasannya, seperti kesulitan dengan antarmuka yang rumit atau alur kerja yang asing. Umpan balik pengguna awal akan memainkan peran penting dalam meningkatkan akurasi, keandalan, dan keamanan sistem.
Saat OpenAI menyempurnakan Operator melalui penggunaan di dunia nyata, OpenAI berupaya mengubah AI dari alat pasif menjadi peserta aktif dalam ekosistem digital. Baik untuk menyederhanakan tugas sehari-hari atau berinovasi dalam alur kerja bisnis, OpenAI memposisikan Operator sebagai langkah berikutnya dalam membuat AI dapat diakses, praktis, dan aman.