
Bergabunglah dengan acara yang dipercaya oleh para pemimpin perusahaan selama hampir dua dekade. VB Transform menyatukan orang -orang yang membangun strategi AI perusahaan nyata. Pelajari lebih lanjut
Bulan lalu, bersama dengan rangkaian komprehensif alat dan inovasi AI baru, Google Deepmind meluncurkan difusi Gemini. Model penelitian eksperimental ini menggunakan pendekatan berbasis difusi untuk menghasilkan teks. Secara tradisional, model bahasa besar (LLM) seperti GPT dan Gemini sendiri mengandalkan autoregresi, pendekatan langkah demi langkah di mana setiap kata dihasilkan berdasarkan yang sebelumnya. Model bahasa difusi (DLM), juga dikenal sebagai model bahasa besar berbasis difusi (DLLM), memanfaatkan metode yang lebih sering terlihat dalam pembuatan gambar, dimulai dengan kebisingan acak dan secara bertahap menyempurnakannya menjadi output yang koheren. Pendekatan ini secara dramatis meningkatkan kecepatan generasi dan dapat meningkatkan koherensi dan konsistensi.
Difusi Gemini saat ini tersedia sebagai demo eksperimental; Daftar daftar tunggu di sini untuk mendapatkan akses.
(Catatan Editor: Kami akan membongkar pergeseran paradigma seperti model bahasa berbasis difusi-dan apa yang diperlukan untuk menjalankannya dalam produksi-di VB Transform, 24-25 Juni di San Franciscobersama Google DeepMind, LinkedIn dan pemimpin AI perusahaan lainnya.)
Memahami Difusi vs. Autoregresi
Difusi dan autoregresi pada dasarnya adalah pendekatan yang berbeda. Pendekatan autoregresif menghasilkan teks secara berurutan, dengan token diprediksi satu per satu. Meskipun metode ini memastikan koherensi dan pelacakan konteks yang kuat, dapat intensif secara komputasi dan lambat, terutama untuk konten bentuk panjang.
Model difusi, sebaliknya, dimulai dengan noise acak, yang secara bertahap di -denoised menjadi output yang koheren. Ketika diterapkan pada bahasa, teknik ini memiliki beberapa keuntungan. Blok teks dapat diproses secara paralel, berpotensi menghasilkan seluruh segmen atau kalimat pada tingkat yang jauh lebih tinggi.
Difusi Gemini dilaporkan dapat menghasilkan 1.000-2.000 token per detik. Sebaliknya, Gemini 2.5 flash memiliki kecepatan output rata -rata 272,4 token per detik. Selain itu, kesalahan dalam generasi dapat diperbaiki selama proses pemurnian, meningkatkan akurasi dan mengurangi jumlah halusinasi. Mungkin ada trade-off dalam hal akurasi berbutir halus dan kontrol tingkat token; Namun, peningkatan kecepatan akan menjadi game-changer untuk berbagai aplikasi.
Bagaimana cara kerja pembuatan teks berbasis difusi?
Selama pelatihan, DLMS bekerja dengan secara bertahap merusak kalimat dengan kebisingan pada banyak langkah, sampai kalimat asli dianggap sepenuhnya tidak dapat dikenali. Model ini kemudian dilatih untuk membalikkan proses ini, langkah demi langkah, merekonstruksi kalimat asli dari versi yang semakin bising. Melalui penyempurnaan berulang, ia belajar untuk memodelkan seluruh distribusi kalimat yang masuk akal dalam data pelatihan.
Sementara spesifik dari difusi Gemini belum diungkapkan, metodologi pelatihan khas untuk model difusi melibatkan tahap -tahap kunci ini:
Difusi ke depan: Dengan setiap sampel dalam dataset pelatihan, kebisingan ditambahkan secara progresif pada beberapa siklus (seringkali 500 hingga 1.000) sampai menjadi tidak dapat dibedakan dari kebisingan acak.
Difusi terbalik: Model ini belajar untuk membalikkan setiap langkah dari proses noising, pada dasarnya belajar bagaimana “mendenoise” kalimat yang rusak satu tahap pada suatu waktu, akhirnya memulihkan struktur asli.
Proses ini diulangi jutaan kali dengan beragam sampel dan tingkat kebisingan, memungkinkan model untuk mempelajari fungsi denoising yang andal.
Setelah dilatih, model ini mampu menghasilkan kalimat yang sama sekali baru. DLM umumnya membutuhkan kondisi atau input, seperti prompt, label kelas, atau penyematan, untuk memandu generasi menuju hasil yang diinginkan. Kondisi ini disuntikkan ke dalam setiap langkah proses denoising, yang membentuk gumpalan awal noise menjadi teks yang terstruktur dan koheren.
Keuntungan dan Kekurangan Model Berbasis Difusi
Dalam sebuah wawancara dengan VentureBeat, Brendan O'Donoghue, ilmuwan riset di Google DeepMind dan salah satu petunjuk pada proyek difusi Gemini, menguraikan beberapa keunggulan teknik berbasis difusi bila dibandingkan dengan autoregresi. Menurut O'Donoghue, keuntungan utama dari teknik difusi adalah sebagai berikut:
- Latensi yang lebih rendah: Model difusi dapat menghasilkan urutan token dalam waktu yang jauh lebih sedikit daripada model autoregresif.
- Komputasi Adaptif: Model difusi akan menyatu dengan urutan token pada tingkat yang berbeda tergantung pada kesulitan tugas. Ini memungkinkan model untuk mengonsumsi lebih sedikit sumber daya (dan memiliki latensi yang lebih rendah) pada tugas -tugas mudah dan lebih banyak lagi pada yang lebih keras.
- Penalaran non-kausal: Karena perhatian dua arah di Denoiser, token dapat menghadiri token di masa depan dalam blok generasi yang sama. Hal ini memungkinkan penalaran non-kausal untuk terjadi dan memungkinkan model untuk melakukan pengeditan global dalam satu blok untuk menghasilkan teks yang lebih koheren.
- Penyempurnaan Iteratif / Koreksi diri: Proses denoising melibatkan pengambilan sampel, yang dapat menimbulkan kesalahan seperti pada model autoregresif. Namun, tidak seperti model autoregresif, token diteruskan kembali ke Denoiser, yang kemudian memiliki peluang untuk memperbaiki kesalahan.
O'Donoghue juga mencatat kelemahan utama: “Biaya yang lebih tinggi dari penyajian dan sedikit lebih tinggi-ke-pertama (TTFT), karena model autoregresif akan menghasilkan token pertama segera. Untuk difusi, token pertama hanya dapat muncul ketika seluruh urutan token siap.”
Tolok ukur kinerja
Google mengatakan kinerja difusi Gemini sebanding dengan Gemini 2.0 flash-lite.
Benchmark | Jenis | Difusi Gemini | Gemini 2.0 Flash-Lite |
---|---|---|---|
LiveCodeBench (V6) | Kode | 30,9% | 28,5% |
BigCodeBench | Kode | 45,4% | 45,8% |
Lbpp (v2) | Kode | 56,8% | 56,0% |
Swe-bench diverifikasi* | Kode | 22,9% | 28,5% |
Humaneval | Kode | 89,6% | 90,2% |
Mbpp | Kode | 76,0% | 75,8% |
GPQA Diamond | Sains | 40,4% | 56,5% |
AIME 2025 | Matematika | 23,3% | 20,0% |
Big-Bet Extra keras | Pemikiran | 15,0% | 21,0% |
Global MMLU (LITE) | Multibahasa | 69,1% | 79,0% |
* Evaluasi non-agentik (hanya edit belokan tunggal), panjang prompt maks 32k.
Kedua model dibandingkan dengan menggunakan beberapa tolok ukur, dengan skor berdasarkan berapa kali model menghasilkan jawaban yang benar pada percobaan pertama. Difusi Gemini berkinerja baik dalam tes pengkodean dan matematika, sementara Gemini 2.0 Flash-Lite memiliki keunggulan pada penalaran, pengetahuan ilmiah, dan kemampuan multibahasa.
Seiring perkembangan difusi Gemini, tidak ada alasan untuk berpikir bahwa kinerjanya tidak akan menyusul dengan model yang lebih mapan. Menurut O'Donoghue, kesenjangan antara kedua teknik ini “pada dasarnya ditutup dalam hal kinerja benchmark, setidaknya pada ukuran yang relatif kecil yang telah kita diskalakan. Faktanya, mungkin ada beberapa keuntungan kinerja untuk difusi di beberapa domain di mana konsistensi non-lokal penting, misalnya, pengkodean dan penalaran.”
Menguji difusi gemini
VentureBeat diberikan akses ke demo eksperimental. Saat menempatkan difusi Gemini melalui langkahnya, hal pertama yang kami perhatikan adalah kecepatannya. Saat menjalankan petunjuk yang disarankan yang disediakan oleh Google, termasuk membangun aplikasi HTML interaktif seperti xylophone dan planet tac toe, setiap permintaan selesai dalam waktu kurang dari tiga detik, dengan kecepatan mulai dari 600 hingga 1.300 token per detik.
Untuk menguji kinerjanya dengan aplikasi dunia nyata, kami meminta difusi Gemini untuk membangun antarmuka obrolan video dengan prompt berikut:
Build an interface for a video chat application. It should have a preview window that accesses the camera on my device and displays its output. The interface should also have a sound level meter that measures the output from the device's microphone in real time.
Dalam waktu kurang dari dua detik, difusi Gemini menciptakan antarmuka kerja dengan pratinjau video dan meteran audio.
Meskipun ini bukan implementasi yang kompleks, ini bisa menjadi awal dari MVP yang dapat diselesaikan dengan sedikit dorongan lebih lanjut. Perhatikan bahwa Gemini 2.5 Flash juga menghasilkan antarmuka kerja, meskipun pada kecepatan yang sedikit lebih lambat (sekitar tujuh detik).
Difusi Gemini juga memiliki “Edit Instan,” mode di mana teks atau kode dapat ditempelkan dan diedit secara real-time dengan dorongan minimal. Edit Instan efektif untuk banyak jenis pengeditan teks, termasuk mengoreksi tata bahasa, memperbarui teks untuk menargetkan berbagai persona pembaca, atau menambahkan kata kunci SEO. Ini juga berguna untuk tugas -tugas seperti kode refactoring, menambahkan fitur baru ke aplikasi, atau mengonversi basis kode yang ada ke bahasa yang berbeda.
Kasus Penggunaan Perusahaan untuk DLMS
Aman untuk mengatakan bahwa aplikasi apa pun yang membutuhkan waktu respons cepat mendapat manfaat dari teknologi DLM. Ini termasuk aplikasi real-time dan latensi rendah, seperti AI percakapan dan chatbots, transkripsi langsung dan terjemahan, atau asisten coding AutoComplete dan Coding IDE.
Menurut O'Donoghue, dengan aplikasi yang memanfaatkan “pengeditan inline, misalnya, mengambil sepotong teks dan membuat beberapa perubahan di tempat, model difusi berlaku dengan cara model autoregresif tidak.” DLM juga memiliki keuntungan dengan alasan, matematika, dan masalah pengkodean, karena “penalaran non-kausal yang diberikan oleh perhatian dua arah.”
DLM masih dalam masa pertumbuhan; Namun, teknologi ini berpotensi mengubah bagaimana model bahasa dibangun. Mereka tidak hanya menghasilkan teks pada tingkat yang jauh lebih tinggi daripada model autoregresif, tetapi kemampuan mereka untuk kembali dan memperbaiki kesalahan berarti bahwa, pada akhirnya, mereka juga dapat menghasilkan hasil dengan akurasi yang lebih besar.
Difusi Gemini memasuki ekosistem DLM yang berkembang, dengan dua contoh penting adalah Merkurius, dikembangkan oleh Inception Labs, dan Llada, model sumber terbuka dari GSAI. Bersama-sama, model-model ini mencerminkan momentum yang lebih luas di balik generasi bahasa berbasis difusi dan menawarkan alternatif yang dapat diukur dan paralel dari arsitektur autoregresif tradisional.