
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
OpenAI secara perlahan mengundang pengguna terpilih untuk menguji serangkaian model penalaran baru yang diberi nama o3 dan o3 mini, penerus model o1 dan o1-mini yang baru saja memasuki rilis penuh awal bulan ini.
OpenAI o3, dinamakan demikian untuk menghindari masalah hak cipta dengan perusahaan telepon O2 dan karena CEO Sam Altman mengatakan bahwa perusahaan tersebut “memiliki tradisi yang sangat buruk dalam hal nama,” diumumkan pada hari terakhir siaran langsung “12 Hari OpenAI” hari ini.
Altman mengatakan kedua model baru tersebut pada awalnya akan dirilis kepada peneliti pihak ketiga terpilih untuk pengujian keamanan, dengan o3-mini diharapkan pada akhir Januari 2025 dan o3 “segera setelah itu.”
“Kami memandang ini sebagai awal dari fase AI berikutnya, di mana Anda dapat menggunakan model ini untuk melakukan tugas-tugas yang semakin kompleks dan memerlukan banyak pemikiran,” kata Altman. “Pada hari terakhir acara ini, kami pikir akan menyenangkan untuk beralih dari satu model frontier ke model frontier berikutnya.”
Pengumuman ini datang hanya sehari setelah Google meluncurkan dan mengizinkan publik untuk menggunakan model Gemini 2.0 Flash Thinking yang baru, model “penalaran” saingan lainnya yang, tidak seperti seri OpenAI o1, memungkinkan pengguna untuk melihat langkah-langkah dalam proses “berpikir” yang didokumentasikan. dalam poin-poin teks.
Peluncuran Gemini 2.0 Flash Thinking dan sekarang pengumuman o3 menunjukkan bahwa persaingan antara OpenAI dan Google, serta penyedia model AI yang lebih luas, sedang memasuki fase baru dan intens karena mereka tidak hanya menawarkan model LLM atau multimodal, tetapi juga model tingkat lanjut. model penalaran juga. Ini bisa lebih diterapkan pada soal-soal yang lebih sulit dalam sains, matematika, teknologi, fisika, dan banyak lagi.
Performa terbaik pada benchmark pihak ketiga
Altman juga mengatakan model o3 “luar biasa dalam pengkodean,” dan tolok ukur yang dibagikan oleh OpenAI mendukung hal tersebut, menunjukkan bahwa model tersebut bahkan melebihi kinerja o1 dalam tugas-tugas pemrograman.
• Performa Pengodean Luar Biasa: o3 melampaui o1 sebesar 22,8 poin persentase di SWE-Bench Verified dan mencapai peringkat Codeforces sebesar 2727, mengungguli skor Chief Scientist OpenAI sebesar 2665.
• Penguasaan Matematika dan Sains: o3 mendapat skor 96,7% pada ujian AIME 2024, hanya melewatkan satu pertanyaan, dan mencapai 87,7% pada GPQA Diamond, jauh melebihi kinerja ahli manusia.
• Tolok Ukur Perbatasan: Model ini mencetak rekor baru pada pengujian yang menantang seperti Frontier Math EpochAI, dengan menyelesaikan 25,2% soal dimana tidak ada model lain yang melebihi 2%. Pada tes ARC-AGI, o3 melipatgandakan skor o1 dan melampaui 85% (sebagaimana diverifikasi langsung oleh tim ARC Prize), yang merupakan tonggak sejarah dalam penalaran konseptual.
Penyelarasan yang disengaja
Bersamaan dengan kemajuan ini, OpenAI memperkuat komitmennya terhadap keselamatan dan keselarasan.
Perusahaan ini memperkenalkan penelitian baru tentang penyelarasan deliberatif, sebuah teknik yang berperan penting dalam menjadikan o1 model yang paling kuat dan selaras hingga saat ini.
Teknik ini memasukkan spesifikasi keselamatan yang ditulis manusia ke dalam model, sehingga memungkinkan mereka untuk secara eksplisit mempertimbangkan kebijakan tersebut sebelum menghasilkan tanggapan.
Strategi ini berupaya untuk memecahkan tantangan keselamatan umum di LLM, seperti kerentanan terhadap serangan jailbreak dan penolakan berlebihan terhadap perintah yang tidak berbahaya, dengan melengkapi model dengan pemikiran rantai pemikiran (CoT). Proses ini memungkinkan model mengingat dan menerapkan spesifikasi keselamatan secara dinamis selama inferensi.
Penyelarasan deliberatif merupakan penyempurnaan dari metode sebelumnya seperti pembelajaran penguatan dari umpan balik manusia (RLHF) dan AI konstitusional, yang mengandalkan spesifikasi keselamatan hanya untuk pembuatan label dibandingkan memasukkan kebijakan langsung ke dalam model.
Dengan menyempurnakan LLM berdasarkan petunjuk terkait keselamatan dan spesifikasi terkait, pendekatan ini menciptakan model yang mampu memberikan alasan berdasarkan kebijakan tanpa terlalu bergantung pada data yang diberi label oleh manusia.
Hasil yang dibagikan oleh para peneliti OpenAI dalam makalah baru yang belum ditinjau oleh rekan sejawat menunjukkan bahwa metode ini meningkatkan kinerja pada tolok ukur keselamatan, mengurangi keluaran berbahaya, dan memastikan kepatuhan yang lebih baik terhadap pedoman konten dan gaya.
Temuan utama menyoroti kemajuan model o1 dibandingkan pendahulunya seperti GPT-4o dan model canggih lainnya. Penyelarasan yang disengaja memungkinkan seri o1 unggul dalam menolak jailbreak dan memberikan penyelesaian yang aman sambil meminimalkan penolakan berlebihan pada perintah yang tidak berbahaya. Selain itu, metode ini memfasilitasi generalisasi di luar distribusi, menunjukkan ketahanan dalam skenario jailbreak multibahasa dan terkode. Peningkatan ini sejalan dengan tujuan OpenAI untuk menjadikan sistem AI lebih aman dan lebih mudah diinterpretasikan seiring dengan berkembangnya kemampuan mereka.
Penelitian ini juga akan memainkan peran penting dalam menyelaraskan o3 dan o3-mini, memastikan kemampuan keduanya kuat dan bertanggung jawab.
Cara mengajukan akses untuk menguji o3 dan o3-mini
Pendaftaran untuk akses awal kini dibuka di situs OpenAI dan akan ditutup pada 10 Januari 2025.
Pelamar harus mengisi formulir online yang menanyakan berbagai informasi, termasuk fokus penelitian, pengalaman masa lalu, dan tautan ke makalah yang diterbitkan sebelumnya dan repositori kode mereka di Github, dan memilih model yang mana — o3 atau o3-mini — mereka ingin mengujinya, serta untuk apa mereka berencana menggunakannya.
Peneliti terpilih akan diberikan akses ke o3 dan o3-mini untuk mengeksplorasi kemampuan mereka dan berkontribusi pada evaluasi keselamatan, meskipun formulir OpenAI memperingatkan bahwa o3 tidak akan tersedia selama beberapa minggu.

Para peneliti didorong untuk mengembangkan evaluasi yang kuat, menciptakan demonstrasi terkendali mengenai kemampuan berisiko tinggi, dan menguji model pada skenario yang tidak mungkin dilakukan dengan alat yang diadopsi secara luas.
Inisiatif ini didasarkan pada praktik-praktik yang sudah ada di perusahaan, termasuk pengujian keamanan internal yang ketat, kolaborasi dengan organisasi seperti Institut Keamanan AI di AS dan Inggris, serta Kerangka Kerja Kesiapsiagaan.
OpenAI akan meninjau aplikasi secara bergilir, dan seleksi akan segera dimulai.
Lompatan baru ke depan?
Pengenalan o3 dan o3-mini menandakan lompatan maju dalam kinerja AI, khususnya di bidang yang membutuhkan kemampuan penalaran dan pemecahan masalah tingkat lanjut.
Dengan hasil luar biasa dalam pengkodean, matematika, dan tolok ukur konseptual, model-model ini menyoroti kemajuan pesat yang dicapai dalam penelitian AI.
Dengan mengundang komunitas riset yang lebih luas untuk berkolaborasi dalam pengujian keamanan, OpenAI bertujuan untuk memastikan bahwa kemampuan ini diterapkan secara bertanggung jawab.
Tonton streamingnya di bawah ini: