
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Peneliti Bytedance telah mengembangkan sistem AI yang mengubah foto tunggal menjadi video realistis orang yang berbicara, bernyanyi dan bergerak secara alami – sebuah terobosan yang dapat membentuk kembali hiburan dan komunikasi digital.
Sistem baru, yang disebut Omnihuman, menghasilkan video seluruh tubuh yang menunjukkan orang-orang memberi isyarat dan bergerak dengan cara yang sesuai dengan ucapan mereka, melampaui model AI sebelumnya yang hanya bisa menghidupkan wajah atau tubuh bagian atas.
Bagaimana Omnihuman Menggunakan 18.700 jam data pelatihan untuk membuat gerakan realistis
“Animasi manusia ujung ke ujung telah mengalami kemajuan penting dalam beberapa tahun terakhir,” tulis para peneliti Bytedance dalam sebuah makalah yang diterbitkan di Arxiv. “Namun, metode yang ada masih berjuang untuk meningkatkan model generasi video umum yang besar, membatasi potensi mereka dalam aplikasi nyata,”
Tim melatih Omnihuman pada lebih dari 18.700 jam data video manusia menggunakan pendekatan baru yang menggabungkan beberapa jenis input – gerakan teks, audio, dan tubuh. Strategi pelatihan “omni-conditions” ini memungkinkan AI untuk belajar dari dataset yang jauh lebih besar dan lebih beragam daripada metode sebelumnya.
Terobosan generasi video AI menunjukkan gerakan seluruh tubuh dan gerakan alami
“Wawasan utama kami adalah bahwa menggabungkan beberapa sinyal pengkondisian, seperti teks, audio dan pose, selama pelatihan dapat secara signifikan mengurangi pemborosan data,” tim peneliti menjelaskan.
Teknologi ini menandai kemajuan yang signifikan dalam media yang dihasilkan AI, menunjukkan kemampuan yang berkisar dari menciptakan video orang yang menyampaikan pidato hingga menggambarkan subjek memainkan alat musik. Dalam pengujian, Omnihuman mengungguli sistem yang ada di berbagai tolok ukur kualitas.
Raksasa teknologi berlomba untuk mengembangkan sistem AI video generasi berikutnya
Perkembangan muncul di tengah persaingan yang mengintensifkan dalam pembuatan video AI, dengan perusahaan seperti Google, Meta dan Microsoft mengejar teknologi serupa. Terobosan Bytedance dapat memberikan keuntungan kepada perusahaan induk Tiktok di bidang yang berkembang pesat ini.
Pakar industri mengatakan teknologi seperti itu dapat mengubah produksi hiburan, penciptaan konten pendidikan, dan komunikasi digital. Namun, itu juga menimbulkan kekhawatiran tentang potensi penyalahgunaan dalam menciptakan media sintetis untuk tujuan menipu.
Para peneliti akan mempresentasikan temuan mereka di konferensi visi komputer yang akan datang, meskipun mereka belum menentukan kapan atau mana.