
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Microsoft Research telah mengumumkan rilis Phi-4-Reasoning-Plus, model bahasa bobot terbuka yang dibangun untuk tugas-tugas yang membutuhkan penalaran yang mendalam dan terstruktur.
Membangun arsitektur PHI-4 yang dirilis sebelumnya, model baru ini mengintegrasikan penyelesaian yang diawasi dan pembelajaran penguatan untuk memberikan kinerja yang lebih baik pada tolok ukur dalam tugas matematika, sains, pengkodean, dan berbasis logika.
PHI-4-Reasoning-Plus adalah model transformator decoder-only parameter padat 14 miliar yang menekankan skala kualitas lebih dari. Proses pelatihannya melibatkan 16 miliar token-sekitar 8,3 miliar dari mereka yang unik-ditarik dari kumpulan data berbasis web yang sintetis dan dikuratori.
Fase Pembelajaran Penguatan (RL), hanya menggunakan sekitar 6.400 masalah yang berfokus pada matematika, lebih lanjut menyempurnakan kemampuan penalaran model.
Model ini telah dirilis di bawah lisensi MIT permisif-memungkinkan penggunaannya untuk aplikasi komersial dan perusahaan yang luas, dan penyesuaian atau distilasi, tanpa batasan-dan kompatibel dengan kerangka kerja inferensi yang banyak digunakan termasuk memeluk transformator wajah, VLLM, llama.cpp, dan ollama.
Microsoft memberikan rekomendasi terperinci tentang parameter inferensi dan pemformatan cepat sistem untuk membantu pengembang mendapatkan hasil maksimal dari model.
Mengungguli model yang lebih besar
Pengembangan model mencerminkan penekanan Microsoft yang semakin besar pada pelatihan model yang lebih kecil yang mampu menyaingi sistem yang jauh lebih besar dalam kinerja.
Meskipun ukurannya yang relatif sederhana, Phi-reasoning-plus mengungguli model bobot terbuka yang lebih besar seperti Deepseek-R1-Distill-70B pada sejumlah tolok ukur yang menuntut.
Pada ujian matematika AIME 2025, misalnya, ia memberikan akurasi rata-rata yang lebih tinggi saat lulus semua 30 pertanyaan pada percobaan pertama (suatu prestasi yang dikenal sebagai “Pass@1”) daripada model distilasi parameter 70B, dan mendekati kinerja Deepseek-R1 itu sendiri, yang jauh lebih besar pada parameter 671B.
Pemikiran terstruktur melalui penyesuaian
Untuk mencapai hal ini, Microsoft menggunakan strategi pelatihan yang berpusat pada data.
Selama tahap fine-tuning yang diawasi, model ini dilatih menggunakan campuran jejak penalaran rantai sintetis yang dipikirkan dan disaring petunjuk berkualitas tinggi.
Inovasi utama dalam pendekatan pelatihan adalah penggunaan output penalaran terstruktur yang ditandai dengan khusus
Dan token.
Ini memandu model untuk memisahkan langkah-langkah penalaran menengah dari jawaban akhir, mempromosikan transparansi dan koherensi dalam pemecahan masalah bentuk panjang.
Pembelajaran Penguatan untuk Akurasi dan Kedalaman
Mengikuti penyesuaian, Microsoft menggunakan pembelajaran penguatan berbasis hasil-khususnya, algoritma Optimasi Kebijakan Relatif (GRPO) kelompok-untuk meningkatkan akurasi dan efisiensi output model.
Fungsi hadiah RL dibuat untuk menyeimbangkan kebenaran dengan keringkasan, menghukum pengulangan, dan menegakkan konsistensi pemformatan. Hal ini menyebabkan tanggapan yang lebih lama tetapi lebih bijaksana, terutama pada pertanyaan di mana model awalnya tidak memiliki kepercayaan diri.
Dioptimalkan untuk Kendala Penelitian dan Rekayasa
PHI-4-REASONING-PLUS dimaksudkan untuk digunakan dalam aplikasi yang mendapat manfaat dari penalaran berkualitas tinggi di bawah kendala memori atau latensi. Ini mendukung panjang konteks 32.000 token secara default dan telah menunjukkan kinerja yang stabil dalam percobaan dengan input hingga 64.000 token.
Paling baik digunakan dalam pengaturan seperti obrolan dan melakukan secara optimal dengan prompt sistem yang secara eksplisit menginstruksikannya untuk bernalar melalui masalah langkah demi langkah sebelum menyajikan solusi.
Pedoman Pengujian dan Gunakan Keselamatan yang Luas
Microsoft memposisikan model sebagai alat penelitian dan komponen untuk sistem AI generatif daripada solusi drop-in untuk semua tugas hilir.
Pengembang disarankan untuk mengevaluasi kinerja, keamanan, dan keadilan dengan cermat sebelum menggunakan model di lingkungan berisiko tinggi atau yang diatur.
PHI-4-Reasoning-Plus telah mengalami evaluasi keamanan yang luas, termasuk tim merah oleh tim merah AI Microsoft dan membandingkan dengan alat-alat seperti Toxigen untuk menilai tanggapannya di seluruh kategori konten sensitif.
Menurut Microsoft, rilis ini menunjukkan bahwa dengan data dan teknik pelatihan yang dikuratori dengan cermat, model kecil dapat memberikan kinerja penalaran yang kuat – dan akses demokratis dan terbuka ke boot.
Berikut adalah versi revisi dari bagian Implikasi Perusahaan dalam nada yang lebih teknis, bergaya berita, sejajar dengan publikasi teknologi-teknologi:
Implikasi untuk pembuat keputusan teknis perusahaan
Rilis Phi-4-Reasoning-Plus Microsoft dapat menghadirkan peluang yang bermakna bagi pemangku kepentingan teknis perusahaan yang mengelola pengembangan model AI, orkestrasi, atau infrastruktur data.
Untuk insinyur AI dan manajer siklus hidup model, ukuran parameter 14B model digabungkan dengan kinerja benchmark kompetitif memperkenalkan opsi yang layak untuk penalaran kinerja tinggi tanpa tuntutan infrastruktur model yang jauh lebih besar. Kompatibilitasnya dengan kerangka kerja seperti memeluk Transformers Face, VLLM, Llama.cpp, dan Ollama memberikan fleksibilitas penyebaran di berbagai tumpukan perusahaan, termasuk lingkungan yang tak terduga dan tanpa server.
Tim yang bertanggung jawab untuk menggunakan model pembelajaran mesin dan penskalaan dapat menemukan dukungan model untuk konteks 32K yang diperlihatkan-diperluas hingga 64k dalam pengujian-terutama berguna dalam kasus penggunaan dokumen yang berat seperti analisis hukum, QA teknis, atau pemodelan keuangan. Struktur bawaan yang memisahkan penalaran rantai-dipikirkan dari jawaban akhir juga dapat menyederhanakan integrasi ke dalam antarmuka di mana interpretabilitas atau auditabilitas diperlukan.
Untuk tim orkestrasi AI, PHI-reasoning-plus menawarkan arsitektur model yang dapat lebih mudah ditempatkan ke dalam pipa dengan kendala sumber daya. Ini relevan dalam skenario di mana penalaran waktu nyata harus terjadi di bawah batas latensi atau biaya. Kemampuannya yang ditunjukkan untuk menggeneralisasi ke masalah di luar domain, termasuk tugas-tugas NP-keras seperti 3SAT dan TSP, menunjukkan utilitas dalam perencanaan algoritmik dan kasus penggunaan dukungan keputusan di luar yang secara eksplisit ditargetkan selama pelatihan.
Timbal rekayasa data juga dapat mempertimbangkan format penalaran model-yang dirancang untuk mencerminkan langkah pemecahan masalah menengah-sebagai mekanisme untuk melacak konsistensi logis di seluruh urutan panjang data terstruktur. Format output terstruktur dapat diintegrasikan ke dalam lapisan validasi atau sistem logging untuk mendukung kemampuan menjelaskan dalam aplikasi yang kaya data.
Dari sudut pandang tata kelola dan keselamatan, Phi-reasoning-plus menggabungkan beberapa lapisan penyelarasan keselamatan pasca-pelatihan dan telah menjalani pengujian permusuhan oleh tim merah AI internal Microsoft. Untuk organisasi yang tunduk pada persyaratan kepatuhan atau audit, ini dapat mengurangi overhead pengembangan alur kerja penyelarasan khusus dari awal.
Secara keseluruhan, PHI-reasoning-plus menunjukkan bagaimana penalaran kegilaan dimulai oleh orang-orang seperti serangkaian model “O” Openai dan Deepseek R1 terus mempercepat dan memindahkan ke hilir ke model yang lebih kecil, lebih mudah diakses, terjangkau, dan dapat disesuaikan.
Untuk pembuat keputusan teknis yang ditugaskan untuk mengelola kinerja, skalabilitas, biaya, dan risiko, ia menawarkan alternatif modular yang dapat ditafsirkan yang dapat dievaluasi dan diintegrasikan secara fleksibel-apakah dalam titik akhir inferensi yang terisolasi, perkakas tertanam, atau sistem AI generatif full-stack.