
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Kami akan datang pada peringatan satu tahun sejak Openai merilis “Omni” atau model multimodal pertamanya, GPT-4O pada Mei 2024, tetapi siaga lama itu masih memiliki beberapa trik di lengan bajunya.
Case-in-point, hari ini OpenAI akhirnya menyalakan kemampuan generasi gambar multimoda asli GPT-4O untuk pengguna hit chatbot chatgpt di plus, pro, tim, dan tingkatan penggunaan gratis, meskipun perusahaan mengatakan juga akan segera tersedia untuk Enterprise, EDU, dan melalui aplikasi pemrograman aplikasi (API).
Berbeda dengan model gambar AI generatif sebelumnya yang tersedia di ChatGPT-Openai's Dall-E 3, model transformator difusi klasik yang dilatih untuk merekonstruksi gambar dari petunjuk teks dengan menghilangkan noise dari piksel-generator gambar baru ini adalah bagian dari model yang sama yang memuntahkan teks dan kode, karena Openai melatih seluruh model untuk memahami semua bentuk media ini sekaligus.
Presiden Openai Greg Brockman telah lama mempratinjau kemampuan asli GPT-4O ini pada Mei 2024, tetapi untuk alasan yang masih belum diketahui secara publik, perusahaan memegangnya sampai sekarang-setelah rilis publik tentang apa yang dilihat oleh banyak pengguna kekuatan AI sebagai fitur serupa dari Google AI Studio dengan model eksperimen Gemini 2 Flash.
Ini telah menghasilkan generator gambar berkualitas jauh lebih tinggi yang menghasilkan gambar yang jauh lebih hidup dan teks yang akurat dipanggang, dan itu sudah mengesankan pengguna – salah satunya menyebut kualitas itu “gila.”
Dengan cara yang sama (pun intended), OpenAI masih belum mengatakan dengan tepat apa data kemampuan pembuatan gambar GPT-4O dilatih-dan mengingat sejarah perusahaan dan penyedia model lainnya, kemungkinan besar termasuk banyak karya seni yang dikikis dari web, beberapa di antaranya mungkin dapat dimiliki oleh cipta, yang kemungkinan akan membuat marah para seniman di belakang mereka.
Membawa pembuatan gambar ke chatgpt dan sora
Openai telah lama bertujuan untuk menjadikan pembuatan gambar sebagai kemampuan inti dari model AI -nya. Dengan GPT-4O, pengguna sekarang dapat menghasilkan gambar secara langsung di ChatGPT, menyempurnakannya melalui percakapan dan menyesuaikan detail dengan cepat.
Model ini juga berintegrasi ke dalam Sora, platform generasi video Openai, semakin memperluas kemampuan multimodal.
Dalam sebuah pengumuman di X, Openai mengkonfirmasi bahwa pembuatan gambar GPT-4O dirancang untuk:
- Secara akurat membuat teks dalam gambar, memungkinkan untuk pembuatan tanda, menu, undangan, dan infografis.
- Ikuti petunjuk kompleks dengan presisi, mempertahankan kesetiaan tinggi bahkan dalam komposisi terperinci.
- Bangun di atas gambar dan teks sebelumnya, memastikan konsistensi visual di berbagai interaksi.
- Mendukung berbagai gaya artistik, dari fotorealisme hingga ilustrasi bergaya.
Pengguna dapat menggambarkan gambar dalam chatgpt, menentukan detail seperti rasio aspek, skema warna (kode hex), atau transparansi, dan GPT-4O akan menghasilkannya dalam satu menit.
Seperti yang ditulis oleh konsultan AI independen Allie K. Miller di X, ini adalah “lompatan besar dalam generasi teks,” dan merupakan model generasi gambar AI “terbaik” yang dilihatnya.

Kemampuan utama dan kasus penggunaan
GPT-4O dirancang untuk membuat generasi gambar tidak hanya menakjubkan secara visual tetapi juga praktis. Beberapa aplikasi utama meliputi:
- Desain & Branding – Hasilkan logo, poster, dan iklan dengan penempatan teks yang tepat.
- Pendidikan & Visualisasi – Buat diagram ilmiah, infografis, dan citra historis untuk belajar.
- Pengembangan Game – Pertahankan konsistensi karakter di berbagai iterasi desain.
- Pemasaran & Pembuatan Konten – Menghasilkan aset media sosial, undangan acara, dan ilustrasi digital yang disesuaikan dengan kebutuhan merek.
Bagaimana GPT-4O meningkatkan gambar generatif dibandingkan Dall-E
Menurut utas resmi OpenAI di X, GPT-4O memperkenalkan beberapa peningkatan dari model sebelumnya:
- Integrasi teks yang lebih baik: Tidak seperti model AI masa lalu yang berjuang dengan teks yang dapat dibaca, ditempatkan dengan baik, GPT-4O sekarang dapat secara akurat menyematkan kata-kata dalam gambar.
- Pemahaman kontekstual yang ditingkatkan: GPT-4O memanfaatkan riwayat obrolan, memungkinkan pengguna untuk memperbaiki gambar secara interaktif dan mempertahankan koherensi di beberapa generasi.
- Ikatan multi-objek yang ditingkatkan: Sementara model sebelumnya mengalami kesulitan memposisikan dengan benar banyak objek berbeda dalam sebuah adegan, GPT-4O sekarang dapat menangani hingga 10-20 objek sekaligus.
- Adaptasi Gaya Serbaguna: Model ini dapat menghasilkan atau mengubah gambar menjadi berbagai gaya, dari sketsa tangan hingga fotorealisme resolusi tinggi.
Batasan
Terlepas dari kemajuannya, GPT-4O masih memiliki beberapa tantangan yang diketahui:
- Masalah tanam: Gambar besar, seperti poster, kadang -kadang bisa dipotong terlalu erat.
- Akurasi teks dalam skrip non-Latin: Beberapa karakter non-Inggris mungkin tidak diterjemahkan dengan benar.
- Detail Retensi dalam Teks Kecil: Teks yang sangat rinci atau font kecil mungkin kehilangan kejelasan.
- Mengedit Presisi: Memodifikasi bagian spesifik suatu gambar dapat secara tidak sengaja mempengaruhi elemen lain.
Openai secara aktif menangani masalah ini melalui penyempurnaan model yang sedang berlangsung.
Tindakan keamanan dan pelabelan
Sebagai bagian dari komitmen OpenAI untuk pengembangan AI yang bertanggung jawab, semua gambar yang dihasilkan GPT-4-termasuk C2PA metadata, yang memungkinkan pengguna untuk memverifikasi asal AI mereka.
Selain itu, OpenAI telah membangun alat pencarian internal untuk membantu mendeteksi gambar yang dihasilkan AI.
Perlindungan yang ketat ada untuk memblokir konten yang berbahaya dan mencegah penyalahgunaan, seperti melarang citra eksplisit, menipu, atau berbahaya.
Openai juga memastikan bahwa gambar yang menampilkan orang -orang nyata mengalami batasan yang tinggi.
CEO OpenAI Sam Altman menggambarkan rilis ini sebagai “tanda air tinggi baru untuk kebebasan kreatif”, menekankan bahwa pengguna akan dapat membuat berbagai visual, dengan Openai mengamati dan menyempurnakan pendekatannya berdasarkan penggunaan dunia nyata.
Ketika gambar yang dihasilkan AI menjadi lebih tepat dan dapat diakses, GPT-4O mewakili langkah maju yang signifikan dalam menjadikan pembuatan teks-ke-gambar sebagai alat utama untuk komunikasi, kreativitas, dan produktivitas.