
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Seluruh lanskap AI bergeser kembali pada Januari 2025 setelah startup AI China yang saat itu tidak dikenal dalam Deepseek (anak perusahaan dari perusahaan analisis kuantitatif yang berbasis di Hong Kong, Manajemen Modal Penat besar) meluncurkan model penalaran bahasa open source yang kuat, Deepseek R1 secara publik ke dunia, mengalahkan raksasa AS seperti Meta.
Ketika penggunaan Deepseek menyebar dengan cepat di kalangan peneliti dan perusahaan, Meta dilaporkan dikirim ke mode panik setelah mengetahui bahwa model R1 baru ini telah dilatih untuk sebagian kecil dari biaya banyak model terkemuka lainnya namun melebihi mereka hanya beberapa juta dolar – apa yang dibayarkannya beberapa pemimpin tim AI sendiri.
Seluruh strategi AI generatif Meta sampai saat itu telah didasarkan pada merilis model open source terbaik di kelasnya dengan nama merek “llama” untuk para peneliti dan perusahaan untuk dibangun secara bebas (setidaknya, jika mereka memiliki kurang dari 700 juta pengguna bulanan, pada titik mana mereka seharusnya menghubungi Meta untuk persyaratan lisensi berbayar khusus).
Namun, Deepseek R1 yang sangat mengherankan dengan anggaran yang jauh lebih kecil diduga mengguncang kepemimpinan perusahaan dan memaksa semacam perhitungan, dengan versi terakhir Llama, 3.3, yang telah dirilis hanya sebulan sebelumnya pada bulan Desember 2024 namun sudah terlihat ketinggalan zaman.
Sekarang kita tahu buah-buahan dari penghitungan itu: Hari ini, pendiri meta dan CEO Mark Zuckerberg mengambil akun Instagram-nya untuk mengumumkan serangkaian model Llama 4 baru, dengan dua di antaranya-Parameter 400-miliar Llama 4 Maverick dan 109-miliar Parameter Llama 4 Scout-tersedia hari ini untuk pengembang untuk diunduh dan mulai menggunakan atau menggunakan fine.
Behemoth parameter 2 triliun besar Llama 4 juga sedang dipratinjau hari ini, meskipun posting blog Meta pada rilis mengatakan itu masih dilatih, dan tidak memberikan indikasi kapan mungkin dirilis. (Parameter ingat merujuk pada pengaturan yang mengatur perilaku model dan yang umumnya lebih berarti lebih kuat dan kompleks di sekitar model.)
Salah satu fitur headline dari model -model ini adalah bahwa mereka semua multimodal – dilatih, dan oleh karena itu, mampu menerima dan menghasilkan teks, video, dan citra (audio Hough tidak disebutkan).
Lain adalah bahwa mereka memiliki jendela konteks yang sangat panjang – 1 juta token untuk Llama 4 Maverick dan 10 juta untuk Llama 4 Scout – yang masing -masing setara dengan sekitar 1.500 dan 15.000 halaman teks, yang semuanya dapat ditangani oleh model dalam interaksi input/output tunggal. Itu berarti pengguna secara teoritis dapat mengunggah atau menempel hingga 7.500 halaman-dari teks dan menerima sebanyak itu sebagai imbalan dari Llama 4 Scout, yang akan berguna untuk bidang-bidang padat informasi seperti kedokteran, sains, teknik, matematika, sastra, dll.
Inilah yang telah kami pelajari tentang rilis ini sejauh ini:
All-in pada campuran-ekspert
Ketiga model menggunakan pendekatan arsitektur “campuran-ekspert (MOE)” yang dipopulerkan dalam rilis model sebelumnya dari OpenAi dan Mistral, yang pada dasarnya menggabungkan beberapa model yang lebih kecil khusus (“ahli”) dalam berbagai tugas, subjek, dan format media menjadi model keseluruhan yang terpadu, lebih besar. Setiap rilis LLAMA 4 dikatakan sebagai campuran dari 128 ahli yang berbeda, dan lebih efisien untuk dijalankan karena hanya ahli yang diperlukan untuk tugas tertentu, ditambah ahli “dibagikan”, menangani setiap token, alih -alih seluruh model harus berjalan untuk masing -masing.
Seperti yang dicatat oleh posting blog Llama 4:
Akibatnya, sementara semua parameter disimpan dalam memori, hanya subset dari total parameter yang diaktifkan saat melayani model -model ini. Ini meningkatkan efisiensi inferensi dengan menurunkan biaya penyajian model dan latensi – llama 4 maverick dapat dijalankan pada satu [Nvidia] Host H100 DGX untuk penempatan yang mudah, atau dengan inferensi terdistribusi untuk efisiensi maksimum.
Baik Scout dan Maverick tersedia untuk umum untuk tuan rumah mandiri, sementara tidak ada API yang di-host atau tingkatan penetapan harga telah diumumkan untuk infrastruktur meta resmi. Sebaliknya, Meta berfokus pada distribusi melalui unduhan terbuka dan integrasi dengan meta AI di WhatsApp, Messenger, Instagram, dan Web.
Meta memperkirakan biaya inferensi untuk llama 4 maverick pada $ 0,19 hingga $ 0,49 per 1 juta token (menggunakan campuran input dan output 3: 1). Ini membuatnya jauh lebih murah daripada model kepemilikan seperti GPT-4O, yang diperkirakan menelan biaya $ 4,38 per juta token, berdasarkan tolok ukur masyarakat.
Ketiga model Llama 4-terutama maverick dan raksasa-dirancang secara eksplisit untuk penalaran, pengkodean, dan pemecahan masalah langkah demi langkah-meskipun mereka tampaknya tidak menunjukkan rantai model penalaran yang berdedikasi seperti seri Openai “O”, atau Deepseek R1.
Sebagai gantinya, mereka tampaknya dirancang untuk bersaing lebih langsung dengan “klasik,” LLM yang tidak membalas dan model multimodal seperti Openai's GPT-4O dan Deepseek's V3-dengan pengecualian raksasa Llama 4, yang, yang, yang, yang, yang, yang, yang, yang, yang, yang, yang Llama 4, melakukan tampaknya mengancam Deepseek R1 (lebih lanjut tentang ini di bawah ini!)
Selain itu, untuk Llama 4, Meta membangun pipa pasca-pelatihan khusus yang berfokus pada peningkatan penalaran, seperti:
- Menghapus lebih dari 50% petunjuk “mudah” selama penyempurnaan yang diawasi.
- Mengadopsi loop pembelajaran penguatan berkelanjutan dengan permintaan yang semakin sulit.
- Menggunakan evaluasi pass@k dan pengambilan sampel kurikulum untuk memperkuat kinerja dalam matematika, logika, dan pengkodean.
- Menerapkan Metap, teknik baru yang memungkinkan para insinyur menyetel hyperparameters (seperti tingkat pembelajaran per-lapisan) pada model dan menerapkannya pada ukuran model dan jenis token lain sambil mempertahankan perilaku model yang dimaksud.
Metap sangat menarik karena dapat digunakan untuk meletakkan hyperparameters pada model dan kemudian mendapatkan banyak jenis model lain dari itu, meningkatkan efisiensi pelatihan.
Sebagai kolega VentureBeat saya dan pakar LLM Ben Dickson berpendapat bahwa teknik Metap baru: “Ini dapat menghemat banyak waktu dan uang. Ini berarti bahwa mereka menjalankan eksperimen pada model yang lebih kecil alih-alih melakukannya pada yang berskala besar.”
Ini sangat penting ketika model pelatihan sebesar raksasa, yang menggunakan 32K GPU dan presisi FP8, mencapai 390 TFLOPS/GPU lebih dari 30 triliun token – lebih dari dua kali lipat data pelatihan LLAMA 3.
Dengan kata lain: Para peneliti dapat memberi tahu model secara luas bagaimana mereka ingin bertindak, dan menerapkannya pada versi model yang lebih besar dan lebih kecil, dan di berbagai bentuk media.
Yang kuat – tetapi belum itu paling Kuat – Keluarga Model
Dalam video pengumumannya di Instagram (anak perusahaan meta, secara alami), CEO meta Mark Zuckerberg mengatakan bahwa “tujuan perusahaan adalah untuk membangun AI terkemuka di dunia, open source it, dan menjadikannya dapat diakses secara universal sehingga semua orang di dunia mendapat manfaat … itu telah mengatakan untuk sementara waktu yang saya pikir Open Source AI akan menjadi model terkemuka, dan dengan Llama 4, itu, itu adalah Sumber Open Source.
Ini adalah pernyataan yang jelas dengan hati -hati, seperti halnya posting blog meta yang menelepon llama 4 scout, “Model multimodal terbaik di dunia di kelasnya dan lebih kuat dari semua model Llama generasi sebelumnya, ”(penekanan ditambahkan oleh saya).
Dengan kata lain, ini adalah model yang sangat kuat, di dekat bagian atas tumpukan dibandingkan dengan yang lain di kelas ukuran parameter mereka, tetapi tidak harus menetapkan catatan kinerja baru. Meskipun demikian, meta tertarik untuk membuat model keluarga Llama 4 baru beats, di antaranya:
Llama 4 raksasa
- Mengungguli GPT-4.5, Gemini 2.0 Pro, dan Claude Sonnet 3.7 di:
- Math-500 (95.0)
- GPQA Diamond (73.7)
- MMLU Pro (82.2)
Llama 4 maverick
- Beats GPT-4O dan Gemini 2.0 Flash pada sebagian besar tolok ukur penalaran multimodal:
- Chartqa, Docvqa, Mathvista, MMMU
- Kompetitif dengan Deepseek v3.1 (45.8b params) saat menggunakan kurang dari setengah parameter aktif (17b)
- Skor Benchmark:
- Chartqa: 90.0 (vs. GPT-4O 85.7)
- DOCVQA: 94.4 (vs. 92.8)
- MMLU Pro: 80.5
- Biaya hemat: $ 0,19– $ 0,49 per 1 juta token

Llama 4 Scout
- Cocokkan atau mengungguli model seperti Mistral 3.1, Gemini 2.0 Flash-Lite, dan Gemma 3 di:
- DOCVQA: 94.4
- MMLU Pro: 74.3
- Mathvista: 70.7
- Panjang konteks token 10m yang tidak tertandingi-ideal untuk dokumen panjang, basis kode, atau analisis multi-putaran
- Dirancang untuk penyebaran yang efisien pada satu GPU H100

Tapi setelah semua itu, bagaimana Llama 4 menumpuk hingga Deepseek?
Tapi tentu saja, ada seluruh kelas model penalaran yang berat seperti Deepseek R1, seri “O” Openai (seperti GPT-4O), Gemini 2.0, dan Claude Sonnet.
Menggunakan model parameter tertinggi yang dibandingkan-llama 4 raksasa-dan membandingkannya dengan bagan rilis R1 Deepseek Intial untuk model R1-32B dan OpenAI O1, begitulah cara Llama 4 Behemoth menumpuk:
Benchmark | Llama 4 raksasa | Deepseek R1 | Openai O1-1217 |
---|---|---|---|
Math-500 | 95.0 | 97.3 | 96.4 |
GPQA Diamond | 73.7 | 71.5 | 75.7 |
Mmlu | 82.2 | 90.8 | 91.8 |
Apa yang bisa kita simpulkan?
- Math-500: Llama 4 Behemoth sedikit di belakang Deepseek R1 dan Openai O1.
- GPQA Diamond: Behemoth Is Di depan Deepseek R1, tetapi di belakang Openai O1.
- MMLU: Behemoth membuntuti keduanya, tetapi masih mengungguli Gemini 2.0 Pro dan GPT-4.5.
Takeaway: Sementara Deepseek R1 dan Openai O1 Edge Out Behemoth pada beberapa metrik, llama 4 Behemoth tetap sangat kompetitif dan tampil di atau dekat bagian atas papan peringkat yang bernalar di kelasnya.
Keamanan dan kurang politis 'bias'
Meta juga menekankan penyelarasan model dan keamanan dengan memperkenalkan alat-alat seperti Llama Guard, Prompt Guard, dan Cyberseceval untuk membantu pengembang mendeteksi input/output atau permusuhan yang tidak aman, dan mengimplementasikan pengujian agen ofensif generatif (kambing) untuk tim merah otomatis.
Perusahaan juga mengklaim Llama 4 menunjukkan peningkatan substansial pada “bias politik” dan mengatakan “khususnya, [leading LLMs] Secara historis telah bersandar ke kiri ketika datang ke topik politik dan sosial yang diperdebatkan, ”bahwa Llama 4 lebih baik dalam melatih sayap kanan … sesuai dengan pelukan Zuckerberg terhadap Presiden AS Donald J. Trump dan partainya setelah pemilihan 2024.
Dimana llama 4 berdiri sejauh ini
Model Llama 4 Meta menyatukan efisiensi, keterbukaan, dan kinerja kelas atas di seluruh tugas multimodal dan penalaran.
Dengan Scout dan Maverick yang sekarang tersedia untuk umum dan raksasa dipratinjau sebagai model guru yang canggih, ekosistem Llama diposisikan untuk menawarkan alternatif terbuka yang kompetitif untuk model kepemilikan tingkat atas dari Openai, Anthropic, Deepseek, dan Google.
Baik Anda membangun asisten skala perusahaan, pipa penelitian AI, atau alat analitik konteks panjang, Llama 4 menawarkan opsi berkinerja tinggi yang fleksibel dengan orientasi yang jelas terhadap desain penalaran pertama.