
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Sebuah tim peneliti telah memperkenalkan Light-R1-32B, model AI open-source baru yang dioptimalkan untuk menyelesaikan masalah matematika lanjutan, sehingga tersedia untuk memeluk wajah di bawah lisensi Apache 2.0 yang permisif-gratis untuk perusahaan dan peneliti untuk mengambil, menggunakan, menyempurnakan atau memodifikasi sesuai keinginan, bahkan untuk tujuan komersial.
Model parameter 32 miliar (jumlah pengaturan model) melampaui kinerja model sumber terbuka berukuran sama (dan bahkan lebih besar) seperti Deepseek-R1-Distill-Llama-70B dan Deepseek-R1-Distill-Qwen-yang membatasi semua siswa.
Dikembangkan oleh Liang Wen, Fenrui Xiao, Xin HE, Yunke Cai, Qi An, Zhenyu Duan, Yimin du, Junchen Liu, Lifu Tang, Xiaowei LV, Haosheng Zou, Model Yongchao Deng, Shousheng Jia, dan Xiangzheng Zhang, The Model Deng, Shousheng Jia, dan Xiangzheng Zhang, The Yongchao Deng, Shousheng Jia, dan Xiangzzh Zhang, The Models.
Hebatnya, para peneliti menyelesaikan pelatihan model dalam waktu kurang dari enam jam pada 12 NVIDIA H800 GPU dengan perkiraan total biaya $ 1.000. Ini menjadikan Light-R1-32B salah satu pendekatan yang paling mudah diakses dan praktis untuk mengembangkan model AI yang berspesialisasi dengan kinerja tinggi. Namun, penting untuk diingat bahwa model ini dilatih pada varian Open Source Qwen 2.5-32B-instruct Alibaba, yang dengan sendirinya dianggap memiliki biaya pelatihan di muka yang jauh lebih tinggi.
Bersamaan dengan model, tim telah merilis dataset pelatihan, skrip pelatihan, dan alat evaluasi, memberikan kerangka kerja yang transparan dan dapat diakses untuk membangun model AI yang berfokus pada matematika.
Kedatangan Light-R1-32B mengikuti upaya serupa lainnya dari saingan seperti Microsoft dengan seri orca-math-nya.
Raja matematika baru muncul
Light-R1-32B dirancang untuk mengatasi penalaran matematika yang kompleks, terutama pada tolok ukur AIME (American Invitational Mathematics Examination).
Itu dilatih dari qwen2.5-32b-instruct, mulai dari model tanpa penalaran rantai panjang (COT). Tim menerapkan fine-tuning (SFT) berbasis kurikulum dan optimasi preferensi langsung (DPO) untuk memperbaiki kemampuan pemecahan masalahnya.
Saat dievaluasi, Light-R1-32B mencapai 76,6 pada AIME24 dan 64,6 di AIME25, melampaui Deepseek-R1-Distill-Qwen-32B, yang masing-masing mencetak 72,6 dan 54,9.
Peningkatan ini menunjukkan bahwa pendekatan pelatihan berbasis kurikulum secara efektif meningkatkan penalaran matematika, bahkan ketika pelatihan dari model yang awalnya tidak memiliki COT panjang.
Benchmarking yang adil
Untuk memastikan tolok ukur yang adil, tim mendekontaminasi data pelatihan terhadap tolok ukur penalaran umum, termasuk AIME24/25, Math-500, dan berlian GPQA, mencegah kebocoran data.
Mereka juga menerapkan pemfilteran respons berbasis kesulitan menggunakan deepscaler-1.5b-preview, pada akhirnya membentuk dataset contoh 76.000 untuk tahap pertama fine-tuning yang diawasi. Dataset kedua yang lebih menantang dari 3.000 contoh lebih lanjut meningkatkan kinerja.
Setelah pelatihan, tim menggabungkan beberapa versi terlatih dari Light-R1-32B, yang mengarah ke keuntungan tambahan. Khususnya, model ini mempertahankan kemampuan generalisasi yang kuat pada tugas penalaran ilmiah (GPQA), meskipun telah ditentukan secara matematika.
Bagaimana perusahaan dapat memperoleh manfaat
Light-R1-32B dirilis di bawah Lisensi Apache 2.0, lisensi open-source permisif yang memungkinkan penggunaan gratis, modifikasi, dan penyebaran komersial tanpa memerlukan pekerjaan derivatif untuk bersumber terbuka. T
Nya menjadikannya opsi yang menarik untuk perusahaan, pengembang AI, dan insinyur perangkat lunak yang ingin mengintegrasikan atau menyesuaikan model untuk aplikasi berpemilik.
Lisensi ini juga mencakup hibah paten yang bebas royalti, di seluruh dunia, mengurangi risiko hukum untuk bisnis sambil mengecilkan sengketa paten. Perusahaan dapat dengan bebas menggunakan Light-R1-32B dalam produk komersial, mempertahankan kontrol penuh atas inovasi mereka sambil mendapat manfaat dari ekosistem AI yang terbuka dan transparan.
Untuk CEO, CTO, dan pemimpin TI, Apache 2.0 memastikan efisiensi biaya dan independensi vendor, menghilangkan biaya lisensi dan ketergantungan yang membatasi pada solusi AI berpemilik. Pengembang dan insinyur AI mendapatkan fleksibilitas untuk menyempurnakan, mengintegrasikan, dan memperluas model tanpa batasan, menjadikannya ideal untuk penalaran matematika khusus, penelitian, dan aplikasi AI perusahaan. Namun, karena lisensi tidak memberikan jaminan atau pertanggungan kewajiban, organisasi harus melakukan penilaian keamanan, kepatuhan, dan kinerja mereka sendiri sebelum menggunakan Light-R1-32B di lingkungan kritis.
Transparansi dalam pelatihan berbiaya rendah dan optimasi untuk pemecahan masalah matematika
Para peneliti menekankan bahwa Light-R1-32B menyediakan cara yang valid dan hemat biaya untuk melatih model rantai panjang yang kuat dalam domain khusus.
Dengan berbagi metodologi, data pelatihan, dan kode mereka, mereka bertujuan untuk menurunkan hambatan biaya untuk pengembangan AI berkinerja tinggi.
Pekerjaan di masa depan termasuk mengeksplorasi pembelajaran penguatan (RL) untuk meningkatkan kemampuan penalaran model lebih lanjut.