
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Kurang dari dua tahun sejak diluncurkan, XAI telah mengirimkan apa yang bisa dibilang bisa menjadi model AI paling canggih hingga saat ini. Grok 3 mencocokkan atau mengalahkan model paling canggih pada semua tolok ukur utama serta arena chatbot yang dievaluasi pengguna, dan pelatihannya bahkan belum selesai.
Kami masih belum memiliki banyak detail tentang Grok 3, karena tim belum merilis kertas atau laporan teknis. Tetapi dari apa yang telah dibagikan Xai dalam presentasi dan berdasarkan eksperimen yang berbeda yang telah dijalankan oleh para ahli AI pada model, kita dapat menebak bagaimana Grok 3 dapat mempengaruhi industri AI dalam beberapa bulan mendatang.
Peluncuran lebih cepat
Dengan meningkatnya kompetisi antara AI Labs (lihat saja rilis Deepseek-R1), kita dapat mengharapkan siklus rilis model menjadi lebih pendek. Dalam presentasi Grok 3, pendiri XAI Elon Musk mengatakan bahwa pengguna dapat “memperhatikan peningkatan hampir setiap hari karena kami terus meningkatkan model.”
“Tekanan kompetitif dari Deepseek dan Grok yang terintegrasi ke dalam lingkungan politik yang bergeser untuk AI – baik domestik maupun internasional – akan membuat kapal terkemuka yang lebih cepat lebih cepat,” tulis Nathan Lambert, ilmuwan pembelajaran mesin di Allen Institute for AI. “Peningkatan persaingan dan penurunan regulasi membuatnya mungkin bahwa kami, para pengguna, akan diberikan AI yang jauh lebih kuat pada jadwal yang jauh lebih cepat.”
Di satu sisi, ini bisa menjadi hal yang baik bagi pengguna karena mereka terus-menerus mendapatkan akses ke model terbaru dan terhebat dibandingkan dengan menunggu peluncuran selama sebulan. Di sisi lain, ia dapat memiliki efek yang tidak stabil bagi pengembang yang mengharapkan perilaku konsisten dari model. Penelitian sebelumnya dan bukti empiris dari pengguna telah menunjukkan bahwa berbagai versi model dapat bereaksi secara berbeda terhadap prompt yang sama.
Perusahaan harus mengembangkan evaluasi khusus dan menjalankannya secara teratur untuk memastikan pembaruan baru tidak merusak aplikasi mereka.
Hukum penskalaan
Rilis baru-baru ini Deepseek-R1 merusak pengeluaran besar-besaran yang dibuat oleh perusahaan besar untuk membuat kelompok komputasi besar. Tetapi kenaikan tiba -tiba Xai adalah pembenaran dari investasi besar -besaran yang telah dilakukan perusahaan teknologi dalam akselerator AI. Grok 3 dilatih dalam waktu singkat berkat supercluster Collosus Xai di Memphis.
“Kami tidak memiliki spesifik, tetapi cukup aman untuk mengambil titik datapen untuk penskalaan masih membantu kinerja (tetapi mungkin tidak pada biaya),” tulis Lambert. “Pendekatan dan pesan XAI adalah untuk mendapatkan cluster terbesar secara online sesegera mungkin. Penjelasan Razor Occam sampai kami memiliki lebih banyak detail adalah bahwa penskalaan membantu, tetapi ada kemungkinan bahwa sebagian besar kinerja Grok berasal dari teknik selain penskalaan naif. ”
Analis lain telah menunjukkan bahwa kemampuan Xai untuk mengukur klaster komputernya telah menjadi kunci keberhasilan Grok 3. Namun, Musk telah menyinggung bahwa ada lebih dari sekadar penskalaan di tempat kerja di sini. Kita harus menunggu kertas untuk mendapatkan detail lengkapnya.

Budaya Sumber Terbuka
Ada pergeseran yang berkembang ke arah sumber terbuka model bahasa besar (LLM). XAI telah memiliki Grok 1 yang bersumber terbuka. Menurut Musk, kebijakan umum perusahaan adalah untuk open source setiap model kecuali versi terbaru. Jadi, ketika Grok 3 dilepaskan sepenuhnya, Grok 2 akan bersumber terbuka. (Sam Altman juga telah menghibur gagasan tentang sumber terbuka beberapa model Openai.)
XAI juga akan menahan diri untuk tidak menunjukkan token rantai penuh (COT) dari Grok 3 alasan untuk mencegah pesaing menyalinnya. Ini sebaliknya akan menunjukkan gambaran terperinci tentang jejak penalaran model (seperti yang telah dilakukan Openai dengan O3-Mini). Cot lengkap hanya akan tersedia setelah Xai Open Sources Grok 3, yang mungkin akan datang setelah rilis Grok 4.
Lakukan Pemeriksaan Getaran Anda Sendiri
Meskipun hasil patokan yang mengesankan, reaksi terhadap Grok 3 telah dicampur. Mantan ilmuwan Openai dan Tesla AI Andrej Karpathy menempatkan kemampuan penalarannya di “sekitar canggih,” bersama dengan O1-Pro, tetapi juga menunjukkan bahwa ia tertinggal di belakang model canggih lainnya pada beberapa tugas seperti menciptakan grafik vektor yang dapat diskalakan komposisi atau menavigasi masalah etika.
Pengguna lain telah menunjukkan kelemahan dalam kemampuan pengkodean Grok 3 dibandingkan dengan model lain, meskipun ada juga banyak contoh Grok 3 yang menarik prestasi pengkodean yang mengesankan.

Berdasarkan pengalaman saya sendiri dengan model terkemuka, saya menyarankan Anda melakukan pemeriksaan dan penelitian getaran Anda sendiri. Saya tidak pernah menilai model berdasarkan prompt sekali tembak. Memiliki serangkaian tes yang mencerminkan jenis tugas yang Anda selesaikan di organisasi Anda (lihat beberapa contoh di sini). Kemungkinannya adalah, dengan pendekatan yang tepat, Anda bisa mendapatkan hasil maksimal dari model canggih ini.