
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Midjourney terkenal sebagai salah satu generator gambar AI terkemuka-dengan hampir 20 juta pengguna di saluran perselisihannya, menurut pelacak pihak ketiga, dan mungkin lebih di atas situs webnya-tetapi ambisinya mulai berkembang.
Mengikuti berita di akhir musim panas 2024 bahwa ia sedang membangun komputasi dan perangkat keras AI sendiri, perusahaan minggu ini merilis makalah penelitian baru bersama para ahli pembelajaran mesin di New York University (NYU) tentang pelatihan model bahasa besar berbasis teks (LLM) seperti Meta open source llama dan model sumber eponymous Mhara untuk menulis secara lebih maksiratif.
Kolaborasi ini, yang didokumentasikan dalam makalah penelitian baru yang diterbitkan di AI Code Community Hugging Face, memperkenalkan dua teknik baru – Diversifikasi Preferensi Langsung Optimalisasi (DDPO) dan Diversifikasi Odds Ratio Preference Optimization (DORPO) – yang dirancang untuk memperluas berbagai kemungkinan output sambil mempertahankan koherensi dan pembacaan.
Untuk sebuah perusahaan yang terkenal karena model penghasil gambar AI difusi, pendekatan baru Midjourney untuk memikirkan kembali kreativitas dalam LLMS berbasis teks menunjukkan bahwa itu tidak membatasi ambisinya pada visual, dan bahwa, sebuah gambar mungkin sebenarnya tidak bernilai seribu kata.
Mungkinkah LLM asli pertengahan atau versi yang disesuaikan dari LLM yang ada di kartu dari startup kecil yang bootstrap? Saya menjangkau pendiri Midjourney David Holz tetapi belum mendengar kembali.
Terlepas dari penawaran LLM Midjourney Pihak Pertama, implikasi dari penelitian barunya melampaui latihan akademik dan dapat digunakan untuk membantu memicu gelombang baru pelatihan LLM di antara tim AI perusahaan, pengembang produk, dan pencipta konten yang ingin meningkatkan teks yang dihasilkan AI.
Ini juga menunjukkan bahwa terlepas dari minat dan investasi baru-baru ini di antara penyedia model AI dalam model bahasa multimodal dan penalaran baru, masih ada banyak jus yang tersisa untuk diperas, secara kognitif dan bijaksana, dari LLMs yang berfokus pada transformator klasik, yang berfokus pada teks.
Masalahnya: Penulisan yang dihasilkan AI runtuh di sekitar output yang homogen
Dalam domain seperti T&J berbasis fakta atau bantuan pengkodean, LLM diharapkan menghasilkan satu respons terbaik.
Namun, penulisan kreatif secara inheren terbuka, yang berarti ada banyak tanggapan yang valid untuk satu prompt.
Sebagai contoh yang disediakan oleh para peneliti Midjourney, diberi prompt seperti “Tulis cerita tentang seekor anjing di bulan”LLM dapat menjelajahi berbagai jalur seperti:
- Anjing peliharaan astronot secara tidak sengaja ditinggalkan setelah misi bulan.
- Seekor anjing yang menemukan dirinya di koloni ruang anjing yang futuristik.
- Seekor anjing yang terdampar yang berteman dengan spesies alien.
Terlepas dari berbagai kemungkinan ini, LLM yang disesuaikan dengan instruksi sering berkumpul pada alur cerita dan tema yang serupa. Ini terjadi karena:
- Teknik pasca-pelatihan memprioritaskan preferensi pengguna daripada orisinalitas, memperkuat tanggapan yang populer tetapi berulang.
- Penyetelan instruksi sering menghaluskan variasi, membuat model mendukung tanggapan “aman” daripada yang unik.
- Teknik yang mempromosikan keanekaragaman yang ada (seperti tuning suhu) hanya beroperasi pada waktu inferensi, daripada dipanggang ke dalam proses pembelajaran model.
Ini mengarah pada mendongeng yang dihomogenisasi, di mana penulisan kreatif yang dihasilkan AI terasa berulang dan tidak memiliki kejutan atau kedalaman.
Solusi: Memodifikasi metode pasca-pelatihan untuk memprioritaskan keragaman
Untuk mengatasi keterbatasan ini, para peneliti memperkenalkan DDPO dan DORPO, dua ekstensi metode optimisasi preferensi yang ada. Inovasi inti dalam pendekatan ini adalah penggunaan penyimpangan – ukuran seberapa banyak respons berbeda dari orang lain – untuk memandu pelatihan.
Begini cara kerjanya:
- Selama pelatihan, model ini diberi tanggapan yang cepat dan berganda.
- Setiap respons dibandingkan dengan yang lain untuk prompt yang sama, dan skor penyimpangan dihitung.
- Respons langka tetapi berkualitas tinggi lebih berat dalam pelatihan, mendorong model untuk belajar dari beragam contoh.
Dengan memasukkan deviasi ke dalam optimasi preferensi langsung (DPO) dan optimasi preferensi rasio odds (ORPO), model belajar untuk menghasilkan respons berkualitas tinggi tetapi lebih bervariasi.
Metode ini memastikan bahwa cerita yang dihasilkan AI tidak menyatu pada struktur tunggal yang dapat diprediksi, tetapi sebaliknya mengeksplorasi berbagai karakter, pengaturan, dan tema yang lebih luas-hanya seperti yang mungkin ditulis oleh penulis manusia.
Apa yang dilakukan peneliti Midjourney untuk mencapai ini
Studi ini melibatkan pelatihan LLMS tentang tugas menulis kreatif menggunakan dataset dari subreddit r/writingprompts, komunitas Reddit di mana pengguna memposting dan merespons dengan cerita pendek.
Para peneliti menggunakan dua model dasar untuk pelatihan mereka:
- Meta Llama-3.1-8b (Model 8 miliar-parameter dari seri Llama 3).
- MISTRAL-7B-V0.3 (Model 7-miliar-parameter dari Mistral AI).
Kemudian, mereka mengambil model -model ini melalui proses berikut:
- Fine-tuning yang diawasi (SFT): Model pertama-tama disempurnakan menggunakan LORA (adaptasi rendah) untuk menyesuaikan parameter secara efisien.
- Optimalisasi Preferensi:
- DPO dan ORPO digunakan sebagai garis dasar—Metode Standar ini fokus pada peningkatan kualitas respons berdasarkan sinyal preferensi pengguna.
- DDPO dan DORPO kemudian diterapkanmemperkenalkan pembobotan berbasis penyimpangan untuk mendorong respons yang lebih unik.
- Evaluasi:
- Evaluasi Otomatis: Keanekaragaman semantik dan gaya yang diukur menggunakan teknik berbasis embedding.
- Evaluasi manusia: Hakim menilai apakah output beragam dan menarik dibandingkan dengan GPT-4O dan Claude 3.5.
Temuan pelatihan utama:
- DDPO secara signifikan mengungguli DPO standar dalam hal keragaman output sambil mempertahankan kualitas.
- LLAMA-3.1-8B dengan DDPO mencapai keseimbangan terbaik kualitas dan keragaman, menghasilkan tanggapan yang dulu lebih bervariasi dari GPT-4O sambil mempertahankan koherensi.
- Saat ukuran dataset berkurangModel DDPO masih mempertahankan keragaman, meskipun mereka membutuhkan sejumlah sampel pelatihan yang beragam untuk sepenuhnya efektif.
Implikasi Perusahaan: Apa artinya bagi mereka yang menggunakan AI untuk menghasilkan respons kreatif – seperti dalam pemasaran copywriting, penceritaan perusahaan, dan skrip film/TV/video game?
Untuk tim AI yang mengelola penyebaran LLM, meningkatkan keragaman output sambil mempertahankan kualitas adalah tantangan penting. Temuan ini memiliki implikasi yang signifikan bagi organisasi yang mengandalkan konten yang dihasilkan AI dalam aplikasi seperti:
- AI percakapan dan chatbots (Memastikan tanggapan yang bervariasi dan menarik).
- Alat pemasaran konten dan mendongeng (Mencegah salinan yang dihasilkan AI yang berulang.
- Pengembangan game dan desain naratif (Menciptakan beragam dialog dan alur cerita bercabang).
Untuk para profesional yang bertanggung jawab untuk menyempurnakan dan menggunakan model dalam pengaturan perusahaan, penelitian ini menyediakan:
- Pendekatan baru untuk LLM pasca-pelatihan yang meningkatkan kreativitas tanpa mengorbankan kualitas.
- Alternatif praktis untuk penyetelan keanekaragaman waktu inferensi (seperti penyesuaian suhu) dengan mengintegrasikan keanekaragaman ke dalam proses pembelajaran itu sendiri.
- Potensi untuk mengembangkan aplikasi AI yang lebih menarik, dari alat penulisan yang dibantu AI hingga asisten virtual yang dapat menyesuaikan tanggapan mereka secara dinamis.
Bagi mereka yang menangani orkestrasi dan otomatisasi model AI, penelitian ini menyoroti:
- Pentingnya model tuning pada tahap pelatihan, mengurangi kebutuhan untuk penyesuaian pasca pemrosesan saat penyebaran.
- Cara untuk memperkenalkan penceritaan adaptif ke dalam aplikasi yang digerakkan AI, memastikan variabilitas sambil menjaga kualitas konten tetap tinggi.
- Metode untuk membuat output LLM lebih seperti manusia, yang sangat penting untuk aplikasi yang membutuhkan penceritaan interaktif, keterlibatan pelanggan, atau pembuatan konten dinamis.
Masa depan AI menghasilkan proyek kreatif terlihat cerah
Keberhasilan DDPO dan DORPO menunjukkan bahwa pelatihan LLM dengan tujuan yang berfokus pada keanekaragaman dapat menghasilkan peningkatan yang signifikan dalam penulisan kreatif. Beberapa ide meliputi:
- Mengintegrasikan pembelajaran berbasis penyimpangan ke dalam model AI perusahaan Untuk meningkatkan keragaman respons dalam aplikasi yang menghadap pelanggan.
- Mengeksplorasi bagaimana metode ini berlaku untuk tugas generatif lainnyaseperti puisi bertenaga AI, penulisan skenario, atau mendongeng game.
- Mengembangkan pendekatan pelatihan hibrida keseimbangan itu kemampuan keanekaragaman dan pengajaran instruksi untuk asisten AI.
Bagi mereka yang tertarik untuk menerapkan teknik ini, para peneliti berencana untuk membuat kode mereka tersedia untuk umum di repositori github ini
Apakah Anda menyempurnakan LLM untuk aplikasi bisnis atau mengoptimalkan orkestrasi AI skala besar, studi ini memberikan wawasan yang dapat ditindaklanjuti tentang bagaimana model dapat lebih dinamis, menarik, dan responsif terhadap tugas kreatif.
Dengan mengadopsi teknik -teknik ini, tim AI dapat bergerak melampaui output formula yang kaku – membangun sistem AI yang tidak hanya pintar tetapi juga benar -benar imajinatif.