
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Model bahasa AI andalan baru Meta Llama 4 datang tiba-tiba selama akhir pekan, dengan perusahaan induk Facebook, Instagram, WhatsApp dan Quest VR (di antara layanan dan produk lainnya) mengungkapkan bukan hanya satu, bukan dua, tetapi tiga versi-semuanya ditingkatkan untuk lebih kuat dan berkinerja menggunakan arsitektur “campuran pencukupan” yang diketahui.
Juga, ketiganya dilengkapi dengan Windows Konteks Masif – jumlah informasi yang dapat ditangani oleh model bahasa AI dalam satu pertukaran input/output dengan pengguna atau alat.
Tetapi setelah pengumuman kejutan dan rilis publik dua model untuk diunduh dan penggunaan-pengintai Llama 4-parameter rendah dan mid-tier llama 4 maverick-pada hari Sabtu, respons dari komunitas AI di media sosial kurang dari memujanya.
Llama 4 memicu kebingungan dan kritik di antara pengguna AI
An unverified post on the North American Chinese language community forum 1point3acres made its way over to the r/LocalLlama subreddit on Reddit alleging to be from a researcher at Meta's GenAI organization who claimed that the model performed poorly on third-party benchmarks internally and that company leadership “Menyarankan set uji pencampuran dari berbagai tolok ukur selama proses pasca-pelatihan, bertujuan untuk memenuhi target di berbagai metrik dan menghasilkan hasil yang 'rapi'.”
Pos itu disambut dengan skeptis dari masyarakat dalam keasliannya, dan email venturebeat ke juru bicara meta belum menerima balasan.
Tetapi pengguna lain menemukan alasan untuk meragukan tolok ukur itu.
“Pada titik ini, saya sangat mencurigai meta yang mengoceh sesuatu dalam bobot yang dilepaskan … jika tidak, mereka harus memberhentikan semua orang yang mengerjakan ini dan kemudian menggunakan uang untuk mendapatkan nous”Komentar @cto_junior pada x, mengacu pada tes pengguna independen yang menunjukkan kinerja buruk Llama 4 Maverick (16%) pada tolok ukur yang dikenal sebagai Aider Polyglot, yang menjalankan model melalui 225 tugas pengkodean. Itu jauh di bawah kinerja model yang lebih tinggi, lebih tua seperti Deepseek V3 dan Claude 3.7 sonnet.
Referensi 10 juta jendela konteks meta yang dibanggakan untuk Llama 4 Scout, AI PhD dan penulis Andriy Burkov menulis di X sebagian bahwa: “Konteks 10m yang dinyatakan virtual karena tidak ada model yang dilatih pada petunjuk lebih dari 256 ribu token. Ini berarti bahwa jika Anda mengirim lebih dari 256 ribu token ke sana, Anda akan mendapatkan output berkualitas rendah sebagian besar waktu.”
Juga pada subreddit R/Localllama, pengguna DR_KARMINSKI menulis bahwa “Saya sangat kecewa dengan Llama-4,” dan menunjukkan kinerjanya yang buruk dibandingkan dengan model V3 Deepseek yang tidak masuk akal pada tugas-tugas pengkodean seperti mensimulasikan bola yang memantul di sekitar heptagon.
Former Meta researcher and current AI2 (Allen Institute for Artificial Intelligence) Senior Research Scientist Nathan Lambert took to his Interconnects Substack blog on Monday to point out that a benchmark comparison posted by Meta to its own Llama download site of Llama 4 Maverick to other models, based on cost-to-performance on the third-party head-to-head comparison tool LMArena ELO aka Chatbot Arena, actually used a berbeda Versi Llama 4 Maverick dari yang telah disediakan oleh perusahaan itu sendiri – satu “dioptimalkan untuk percakapan.”
Seperti yang ditulis Lambert: “Sneaky. Hasil di bawah ini palsu, dan itu adalah sedikit utama bagi komunitas Meta untuk tidak merilis model yang mereka gunakan untuk membuat dorongan pemasaran utama mereka. Kami telah melihat banyak model terbuka yang muncul untuk memaksimalkan chatbotarena sambil menghancurkan kinerja model pada keterampilan penting seperti matematika atau kode.”
Lambert kemudian mencatat bahwa sementara model khusus ini di arena ini “Menangkap reputasi teknis rilis karena karakternya adalah remaja,” Termasuk banyak emoji dan dialog emotif sembrono, “Model aktual pada penyedia hosting lainnya cukup pintar dan memiliki nada yang masuk akal!”
Menanggapi torrent kritik dan tuduhan memasak benchmark, VP Meta dan kepala Genai Ahmad al-Dahle mengambil X untuk menyatakan:
“Kami senang mulai mendapatkan Llama 4 di semua tangan Anda. Kami sudah mendengar banyak hasil hebat yang didapat orang dengan model -model ini.
Yang mengatakan, kami juga mendengar beberapa laporan kualitas campuran di berbagai layanan. Karena kami menjatuhkan model segera setelah mereka siap, kami berharap akan memakan waktu beberapa hari untuk semua implementasi publik untuk dihubungi. Kami akan terus bekerja melalui perbaikan bug dan mitra onboarding kami.
Kami juga pernah mendengar klaim bahwa kami berlatih di set tes – itu sama sekali tidak benar dan kami tidak akan pernah melakukan itu. Pemahaman terbaik kami adalah bahwa kualitas variabel yang dilihat orang adalah karena perlu menstabilkan implementasi.
Kami percaya model LLAMA 4 adalah kemajuan yang signifikan dan kami berharap dapat bekerja dengan masyarakat untuk membuka kunci nilainya.“
Namun bahkan respons itu dipenuhi dengan banyak keluhan tentang kinerja yang buruk dan seruan untuk informasi lebih lanjut, seperti lebih banyak dokumentasi teknis yang menguraikan model LLAMA 4 dan proses pelatihan mereka, serta pertanyaan tambahan tentang mengapa rilis ini dibandingkan dengan semua rilis LLAMA sebelumnya sangat penuh dengan masalah.
Itu juga datang pada tumit nomor dua di VP penelitian Meta Joelle Pineau, yang bekerja di organisasi penelitian intelijen buatan meta yang berdekatan (wajar), mengumumkan kepergiannya dari perusahaan di LinkedIn minggu lalu dengan “tidak lain adalah kekaguman dan rasa terima kasih yang mendalam untuk masing -masing manajer saya.” Pineau, perlu dicatat juga mempromosikan rilis keluarga model Llama 4 akhir pekan ini.
Llama 4 terus menyebar ke penyedia inferensi lain dengan hasil yang beragam, tetapi aman untuk mengatakan rilis awal keluarga model belum menjadi slam dunk dengan komunitas AI.
Dan Meta Llamacon yang akan datang pada 29 April, perayaan dan pertemuan pertama untuk pengembang pihak ketiga dari keluarga model, kemungkinan akan memiliki banyak makanan untuk diskusi. Kami akan melacak semuanya, nantikan.