
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Ini dimulai dengan pengumuman model O1 Openai pada bulan September 2024, tetapi benar -benar berangkat dengan Deepseek R1 yang dirilis pada Januari 2025.
Sekarang, tampaknya sebagian besar penyedia dan pelatih model AI utama berada dalam perlombaan baru untuk memberikan model bahasa AI yang lebih baik, lebih cepat, lebih murah, lebih terjangkau, atau lebih kuat dan berkinerja “penalaran”-yaitu, yang mungkin lebih lama untuk merespons dan menanggapi dengan baik-baik, tetapi secara intersal, tetapi dengan rantai yang lebih baik, yang direfleksikan oleh para model manusia ini, tetapi rantai yang lebih komprehensif, yang lebih komprehensif, yang dipertimbangkan oleh kelas ini, tetapi dengan rantai yang lebih baik, yang direfleksikan oleh kelas ini, tetapi dengan rantai yang lebih komprehensif, yang dipertimbangkan oleh kelas ini, yang dilaksanakan oleh kelas ini, tetapi rantai yang lebih komprehensif, yang dipertimbangkan oleh kelas ini, yang dilaksanakan oleh Kelas Manusia ini, yang dilaksanakan oleh Kelas Manusia Intergening ini, yang dikerjakan oleh kelas ini. untuk kejujuran sebelum menanggapi.
Bytedance, induk raksasa media web Tiongkok dari Tiktok, adalah yang terbaru untuk bergabung dengan partai dengan pengumuman dan publikasi makalah teknis di balik seed-thinking-V1.5, model bahasa besar mendatang (LLM) yang dirancang untuk memajukan kinerja penalaran di kedua bidang sains, teknologi, matematika, dan teknik (STEM) dan domain umum.
Model ini belum tersedia untuk diunduh atau digunakan, dan tidak jelas apa persyaratan lisensi – apakah itu akan menjadi sumber eksklusif/tertutup atau open source/gratis untuk semua untuk digunakan dan dimodifikasi sesuka hati, atau di suatu tempat di antaranya. Tetapi makalah teknis memberikan beberapa detail penting yang layak dilakukan sekarang sebelum setiap kali tersedia.
Dibangun di atas arsitektur campuran yang semakin populer (MOE)
Seperti Llama 4 Meta yang baru dan Mixtral Mistral sebelum itu, seed-Thinking-V1.5 dibangun menggunakan arsitektur campuran (MOE).
Arsitektur ini dirancang untuk membuat model lebih efisien, pada dasarnya menggabungkan kemampuan beberapa model menjadi satu, setiap model yang berspesialisasi dalam domain yang berbeda.
Dalam hal ini, arsitektur MOE berarti bahwa benih-pemikiran-V1.5 hanya menggunakan 20 miliar parameter sekaligus dari total 200 miliar.
Bytedance mengatakan dalam makalah teknisnya yang diterbitkan kepada Github bahwa benih-pemikiran-V1.5 memprioritaskan penalaran terstruktur dan generasi respons yang bijaksana.
The results nearly speak for themselves, with Seed-Thinking-v1.5 outperforming DeepSeek R1 and approaching Google's newly released Gemini 2.5 Pro and OpenAI's o3-mini-high reasoner on many third-party benchmark evaluations, even exceeding those two in the case of the ARC-AGI benchmark, which measures progress towards artificial general intelligence, seen as the goal or “Holy Grail” of AI — a model that Mengungguli manusia pada tugas yang paling berharga secara ekonomi, menurut definisi Openai.
Diposisikan sebagai alternatif yang ringkas namun mampu untuk model canggih yang lebih besar, seed-thinking-V1.5 mencapai hasil tolok ukur kompetitif dan memperkenalkan inovasi dalam pembelajaran penguatan (RL), kurasi data pelatihan, dan infrastruktur AI.
Tolok ukur kinerja dan fokus model
Seed-Thinking-V1.5 menunjukkan kinerja yang kuat pada serangkaian tugas yang menantang, mencetak 86,7% pada AIME 2024, 55,0% lulus@8 pada codeforces, dan 77,3% pada patokan sains GPQA. Hasil ini menempatkannya di dekat atau model yang cocok seperti Openai O3-mini-tinggi dan Google Gemini 2.5 Pro pada metrik penalaran tertentu.
Pada tugas-tugas yang tidak masuk akal, model ini dievaluasi melalui perbandingan preferensi manusia dan mencapai tingkat kemenangan 8,0% lebih tinggi dari Deepseek R1, menunjukkan bahwa kekuatannya digeneralisasi melampaui tantangan logika atau matematika yang berat.
Untuk mengatasi saturasi dalam tolok ukur umum seperti AIME, Bytedance yang diperkenalkan di luar, tolok ukur matematika yang lebih sulit dengan masalah dikuratori yang dirancang untuk menahan hafalan dan lebih baik mendiskriminasi kinerja model. Perangkat evaluasi Codeforces ini diharapkan akan dirilis secara publik untuk mendukung penelitian di masa depan.
Strategi data
Data pelatihan memainkan peran sentral dalam pengembangan model. Untuk fine-tuning yang diawasi (SFT), tim mengkuratori 400.000 sampel, termasuk 300.000 yang dapat diverifikasi (STEM, Logika, dan Tugas Pengkodean) dan 100.000 masalah yang tidak dapat diverifikasi seperti penulisan kreatif dan bermain peran.
Untuk pelatihan RL, data tersegmentasi menjadi:
- Masalah yang dapat diverifikasi: 100.000 pertanyaan STEM yang disaring dengan ketat dan teka -teki logika dengan jawaban yang diketahui, bersumber dari kompetisi elit dan tinjauan ahli.
- Tugas yang tidak dapat diverifikasi: Dataset preferensi manusia yang difokuskan pada petunjuk terbuka, dievaluasi menggunakan model hadiah berpasangan.
Data STEM sangat bersandar pada matematika canggih, akuntansi untuk lebih dari 80% dari set masalah. Data logika tambahan termasuk tugas-tugas seperti Sudoku dan teka-teki 24 poin, dengan kesulitan yang dapat disesuaikan untuk mencocokkan kemajuan model.
Pendekatan Pembelajaran Penguatan
Pembelajaran penguatan dalam pemikiran-benih-V1.5 didukung oleh kerangka kerja aktor-kritik (VAPO) dan kebijakan-gradien (DAPO), yang dikembangkan untuk mengatasi ketidakstabilan yang diketahui dalam pelatihan RL. Teknik-teknik ini fokus pada pengurangan sparsity sinyal hadiah dan meningkatkan stabilitas pelatihan, terutama dalam pengaturan rantai panjang (COT).
Model hadiah memainkan peran penting dalam mengawasi output RL. Bytedance memperkenalkan dua alat utama:
- Verifier Seed: LLM berbasis aturan yang memeriksa apakah jawaban yang dihasilkan dan referensi secara matematis setara.
- Verifier pemikiran-benih: Hakim berbasis penalaran langkah demi langkah yang meningkatkan konsistensi penilaian dan menolak penghargaan peretasan.
Sistem hadiah dua tingkat ini memungkinkan evaluasi yang bernuansa untuk tugas-tugas langsung dan kompleks.
Infrastruktur dan penskalaan
Untuk mendukung pelatihan skala besar yang efisien, Bytedance membangun sistem di atas kerangka kerja hybridflow, dengan eksekusi ditangani oleh cluster Ray dan pelatihan co-located dan proses inferensi untuk mengurangi waktu idle GPU.
Inovasi penting adalah Streaming Rollout System (SRS), yang memisahkan evolusi model dari eksekusi runtime. Ini mempercepat kecepatan iterasi dengan mengelola sebagian generasi yang diselesaikan sebagian di seluruh versi model. Arsitektur ini dilaporkan memberikan siklus RL hingga 3 × lebih cepat.
Teknik infrastruktur tambahan meliputi:
- Presisi campuran (fp8) untuk penghematan memori
- Paralelisme Ahli dan Kernel Auto-Tuning untuk Efisiensi MOE
- Bytecheckpoint untuk pos pemeriksaan yang tangguh dan fleksibel
- Autotuner untuk mengoptimalkan paralelisme dan konfigurasi memori
Evaluasi manusia dan dampak dunia nyata
Untuk mengevaluasi penyelarasan dengan preferensi manusia-sentris, Bytedance melakukan pengujian manusia di berbagai domain termasuk penulisan kreatif, pengetahuan humaniora, dan percakapan umum.
Seed-Thinking-V1.5 Secara konsisten mengungguli Deepseek R1 di seluruh sesi, memperkuat penerapannya terhadap kebutuhan pengguna dunia nyata.
Tim pengembangan mencatat bahwa model penalaran yang dilatih terutama pada tugas yang dapat diverifikasi menunjukkan generalisasi yang kuat untuk domain kreatif – hasil yang dikaitkan dengan struktur dan kekakuan yang tertanam dalam alur kerja pelatihan matematika.
Apa artinya bagi para pemimpin teknis, insinyur data, dan pembuat keputusan perusahaan
Untuk arahan teknis mengelola siklus hidup model bahasa besar-dari kurasi data hingga penyebaran-unggulan-pemikiran-V1.5 menyajikan peluang untuk memikirkan kembali bagaimana kemampuan penalaran diintegrasikan ke dalam tumpukan AI perusahaan.
Proses pelatihan modularnya, yang mencakup set data penalaran yang dapat diverifikasi dan pembelajaran penguatan multi-fase, sangat menarik bagi tim yang ingin skala pengembangan LLM sambil mempertahankan kontrol berbutir halus.
Langkah-langkah Bytedance untuk memperkenalkan verifier benih dan verifier-verifier penawaran mekanisme untuk pemodelan hadiah yang lebih dapat dipercaya, yang bisa sangat penting ketika menggunakan model ke lingkungan yang menghadap ke pelanggan atau diatur.
Untuk tim yang sering beroperasi di bawah tenggat waktu yang ketat dan bandwidth terbatas, stabilitas model di bawah pembelajaran penguatan-diaktifkan oleh inovasi seperti vapo dan pengambilan sampel dinamis-dapat mengurangi siklus iterasi dan merampingkan penyempurnaan untuk tugas-tugas tertentu.
Dari perspektif orkestrasi dan penyebaran, pendekatan infrastruktur hibrida model – termasuk sistem peluncuran streaming (SRS) dan dukungan untuk optimasi FP8 – menyarankan keuntungan signifikan dalam pelatihan throughput dan pemanfaatan perangkat keras.
Fitur-fitur ini akan sangat berharga bagi para insinyur yang bertanggung jawab untuk meningkatkan operasi LLM di seluruh sistem cloud dan on-prem. Fakta bahwa benih-pemikiran-V1.5 dilatih dengan mekanisme untuk mengadaptasi umpan balik hadiah berdasarkan dinamika runtime berbicara langsung dengan tantangan mengelola pipa data heterogen dan mempertahankan konsistensi di seluruh domain.
Untuk tim yang ditugaskan untuk memastikan keandalan, reproduktifitas, dan integrasi yang berkelanjutan dari alat-alat baru, desain tingkat sistem-V1.5 dapat berfungsi sebagai cetak biru untuk membangun sistem orkestrasi multi-modal yang kuat.
Untuk profesional rekayasa data, pendekatan terstruktur untuk data pelatihan – termasuk penyaringan yang ketat, augmentasi, dan verifikasi ahli – menguatkan pentingnya kualitas data sebagai pengali kinerja model. Ini dapat menginspirasi pendekatan yang lebih disengaja untuk pengembangan dataset dan pipa validasi.
Outlook di masa depan
Seed-Thinking-V1.5 adalah hasil dari kolaborasi dalam tim sistem LLM Seed Bytedance, yang dipimpin oleh Yonghui Wu dan dengan perwakilan publik oleh Haibin Lin, kontributor lama AI.
Proyek ini juga mengacu pada upaya sebelumnya seperti Doubao 1.5 Pro dan menggabungkan teknik bersama dalam RLHF dan kurasi data.
Ke depan, tim berencana untuk terus menyempurnakan teknik pembelajaran penguatan, dengan fokus pada efisiensi pelatihan dan pemodelan hadiah untuk tugas yang tidak dapat diverifikasi. Rilis publik tolok ukur internal seperti Beyondaime dimaksudkan untuk menumbuhkan kemajuan yang lebih luas dalam penelitian AI yang berfokus pada penalaran.