
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Model AI open source terbaru Google Gemma 3 bukan satu -satunya berita besar dari anak perusahaan Alphabet hari ini.
Tidak, pada kenyataannya, sorotan mungkin telah dicuri oleh Google's Gemini 2.0 Flash dengan pembuatan gambar asli, model eksperimental baru yang tersedia secara gratis untuk pengguna Google AI Studio dan untuk pengembang melalui Google Gemini API.
Ini menandai pertama kalinya perusahaan teknologi AS utama mengirimkan generasi gambar multimodal secara langsung dalam model kepada konsumen. Sebagian besar alat pembuatan gambar AI lainnya adalah model difusi (gambar spesifik gambar) yang dihubungkan ke model bahasa besar (LLM), yang membutuhkan sedikit interpretasi antara dua model untuk memperoleh gambar yang diminta pengguna dalam prompt teks.
Sebaliknya, Gemini 2.0 Flash dapat menghasilkan gambar secara asli dalam model yang sama dengan yang diminta oleh pengguna, secara teoritis memungkinkan akurasi yang lebih besar dan lebih banyak kemampuan – dan indikasi awal ini sepenuhnya benar.
Gemini 2.0 Flash, pertama kali diluncurkan pada bulan Desember 2024 tetapi tanpa kemampuan pembuatan gambar asli untuk pengguna, mengintegrasikan input multimodal, penalaran, dan pemahaman bahasa alami untuk menghasilkan gambar di samping teks.
Versi eksperimental yang baru tersedia, Gemini-12-Flash-Exp, memungkinkan pengembang untuk membuat ilustrasi, memperbaiki gambar melalui percakapan, dan menghasilkan visual terperinci berdasarkan pengetahuan dunia.
Bagaimana Gemini 2.0 Flash Meningkatkan Gambar yang Dihasilkan AI
Dalam posting blog yang dihadapi pengembang yang diterbitkan sebelumnya hari ini, Google menyoroti beberapa kemampuan utama dari Gemini 2.0 Flash's Generasi Gambar Asli:
• Teks dan gambar bercerita: Pengembang dapat menggunakan Gemini 2.0 Flash untuk menghasilkan cerita bergambar sambil mempertahankan konsistensi dalam karakter dan pengaturan. Model ini juga menanggapi umpan balik, memungkinkan pengguna untuk menyesuaikan cerita atau mengubah gaya seni.
• Pengeditan gambar percakapan: AI mendukung pengeditan multi-putaryang berarti pengguna dapat secara iteratif memperbaiki gambar dengan memberikan instruksi melalui petunjuk bahasa alami. Fitur ini memungkinkan kolaborasi real-time dan eksplorasi kreatif.
• Generasi gambar berbasis pengetahuan dunia: Tidak seperti banyak model pembuatan gambar lainnya, Flash Gemini 2.0 memanfaatkan kemampuan penalaran yang lebih luas untuk menghasilkan gambar yang lebih relevan secara kontekstual. Misalnya, dapat menggambarkan resep dengan visual terperinci yang selaras dengan bahan-bahan dunia nyata dan metode memasak.
• Render teks yang ditingkatkan: Banyak model gambar AI berjuang untuk secara akurat menghasilkan teks yang dapat dibaca secara akurat dalam gambar, seringkali menghasilkan salah eja atau karakter yang terdistorsi. Google melaporkan itu Gemini 2.0 Flash mengungguli pesaing terkemuka Dalam rendering teks, menjadikannya sangat berguna untuk iklan, posting media sosial, dan undangan.
Contoh awal menunjukkan potensi dan janji yang luar biasa
Googlers dan beberapa pengguna daya AI untuk X untuk berbagi contoh pembuatan gambar baru dan kemampuan pengeditan yang ditawarkan melalui Gemini 2.0 Flash Experimental, dan mereka tidak diragukan lagi mengesankan.
Peneliti Google DeepMind Robert Riachi memamerkan bagaimana model dapat menghasilkan gambar dalam gaya seni piksel dan kemudian membuat yang baru dengan gaya yang sama berdasarkan permintaan teks.

AI News Account TestingCatalog News melaporkan tentang peluncuran kemampuan multimodal Gemini 2.0 Flash Experimental, mencatat bahwa Google adalah lab utama pertama yang menggunakan fitur ini.

Pengguna @Anangaisb_ alias “Angel” menunjukkan dalam contoh yang meyakinkan bagaimana prompt untuk “menambahkan chocolate gerimis” memodifikasi gambar croissant yang ada dalam hitungan detik – mengungkapkan kemampuan pengeditan gambar Gemini 2.0 Flash yang cepat dan akurat melalui hanya mengobrol bolak -balik dengan model.

YouTuber secara teoritis media menunjukkan bahwa pengeditan gambar bertahap ini tanpa regenerasi penuh adalah sesuatu yang telah lama diantisipasi industri AI, menunjukkan betapa mudahnya meminta Gemini 2.0 Flash untuk mengedit gambar untuk menaikkan lengan karakter sambil mempertahankan seluruh gambar lainnya.

Mantan Googler mengubah AI YouTuber Bilawal Sidhu menunjukkan bagaimana model itu mewarnai gambar hitam-putih, mengisyaratkan potensi restorasi historis atau aplikasi peningkatan kreatif.

Reaksi awal ini menunjukkan bahwa pengembang dan penggemar AI melihat Gemini 2.0 flash sebagai alat yang sangat fleksibel untuk desain berulang, penceritaan kreatif, dan pengeditan visual yang dibantu AI.
Peluncuran Swift juga kontras dengan Openai's GPT-4O, yang mempratinjau kemampuan pembuatan gambar asli pada Mei 2024-hampir setahun yang lalu-tetapi belum merilis fitur tersebut secara publik-memungkinkan Google untuk mengambil kesempatan untuk memimpin dalam penyebaran AI multimoda.
Seperti yang ditunjukkan oleh pengguna @chatgpt21 alias “Chris” pada X, Openai dalam hal ini “LOS[t] Tahun + lead ”memiliki kemampuan ini karena alasan yang tidak diketahui. Pengguna mengundang siapa pun dari OpenAi untuk mengomentari mengapa.

Tes saya sendiri mengungkapkan beberapa keterbatasan dengan ukuran rasio aspek – tampaknya macet dalam 1: 1 bagi saya, meskipun meminta dalam teks untuk memodifikasinya – tetapi mampu mengubah arah karakter dalam gambar dalam hitungan detik.

Sementara sebagian besar diskusi awal tentang generasi gambar asli Gemini 2.0 Flash telah berfokus pada pengguna individu dan aplikasi kreatif, implikasinya bagi tim perusahaan, pengembang, dan arsitek perangkat lunak adalah signifikan.
Desain dan pemasaran bertenaga AI: Untuk tim pemasaran dan pembuat konten, Gemini 2.0 Flash dapat berfungsi sebagai alternatif yang hemat biaya untuk alur kerja desain grafis tradisional, mengotomatiskan pembuatan konten bermerek, iklan, dan visual media sosial. Karena mendukung rendering teks dalam gambar, dapat merampingkan pembuatan iklan, desain pengemasan, dan grafik promosi, mengurangi ketergantungan pada pengeditan manual.
Alat pengembang yang ditingkatkan dan alur kerja AI: Untuk CTO, CIO, dan insinyur perangkat lunak, pembuatan gambar asli dapat menyederhanakan integrasi AI ke dalam aplikasi dan layanan. Dengan menggabungkan output teks dan gambar dalam model tunggal, Gemini 2.0 Flash memungkinkan pengembang untuk membangun:
- Asisten desain bertenaga AI yang menghasilkan mockup UI/UX atau aset APP.
- Alat dokumentasi otomatis yang menggambarkan konsep secara real-time.
- Dinamis, platform pendongeng yang digerakkan oleh AI untuk media dan pendidikan.
Karena model ini juga mendukung pengeditan gambar percakapan, tim dapat mengembangkan antarmuka yang digerakkan AI di mana pengguna memperbaiki desain melalui dialog alami, menurunkan penghalang masuk untuk pengguna non-teknis.
Kemungkinan baru untuk perangkat lunak produktivitas berbasis AI: Untuk tim perusahaan yang membangun alat produktivitas bertenaga AI, Gemini 2.0 Flash dapat mendukung aplikasi seperti:
- Generasi presentasi otomatis dengan slide dan visual yang dibuat AI.
- Anotasi dokumen hukum dan bisnis dengan infografis yang dihasilkan AI.
- Visualisasi e-commerce, menghasilkan mockup produk secara dinamis berdasarkan deskripsi.
Cara menyebarkan dan bereksperimen dengan kemampuan ini
Pengembang dapat mulai menguji kemampuan pembuatan gambar Gemini 2.0 Flash menggunakan Gemini API. Google memberikan permintaan API sampel untuk menunjukkan bagaimana pengembang dapat menghasilkan cerita bergambar dengan teks dan gambar dalam satu tanggapan:
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3D digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)
Dengan menyederhanakan pembuatan gambar bertenaga AI, Gemini 2.0 Flash menawarkan cara-cara baru untuk membuat konten bergambar, desain aplikasi yang dibantu AI, dan bereksperimen dengan mendongeng visual.