
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Microsoft telah memperkenalkan kelas baru model AI yang sangat efisien yang memproses teks, gambar, dan ucapan secara bersamaan sementara membutuhkan daya komputasi yang jauh lebih sedikit daripada sistem yang ada. Model PHI-4 baru, yang dirilis hari ini, mewakili terobosan dalam pengembangan model bahasa kecil (SLM) yang memberikan kemampuan yang sebelumnya disediakan untuk sistem AI yang jauh lebih besar.
PHI-4-multimodal, model dengan hanya 5,6 miliar parameter, dan phi-4-mini, dengan 3,8 miliar parameter, mengungguli pesaing berukuran sama dan bahkan mencocokkan atau melebihi kinerja model dua kali ukuran mereka pada tugas-tugas tertentu, menurut laporan teknis Microsoft.
“Model -model ini dirancang untuk memberdayakan pengembang dengan kemampuan AI canggih,” kata Weizhu Chen, wakil presiden, AI generatif di Microsoft. “PHI-4-multimodal, dengan kemampuannya untuk memproses ucapan, visi, dan teks secara bersamaan, membuka kemungkinan baru untuk menciptakan aplikasi yang inovatif dan sadar konteks.”
Pencapaian teknis datang pada saat perusahaan semakin mencari model AI yang dapat berjalan pada perangkat keras standar atau di “tepi” – langsung pada perangkat daripada di pusat data cloud – untuk mengurangi biaya dan latensi sambil mempertahankan privasi data.
Bagaimana Microsoft Membangun Model AI Kecil Yang Melakukan Semuanya
Apa yang membedakan Phi-4-multimodal adalah teknik “Campuran Loras” novelnya, memungkinkannya untuk menangani teks, gambar, dan input ucapan dalam satu model tunggal.
“Dengan memanfaatkan campuran Loras, phi-4-multimodal memperluas kemampuan multimodal sambil meminimalkan gangguan antara modalitas,” kata makalah penelitian. “Pendekatan ini memungkinkan integrasi yang mulus dan memastikan kinerja yang konsisten di seluruh tugas yang melibatkan teks, gambar, dan ucapan/audio.”
Inovasi ini memungkinkan model untuk mempertahankan kemampuan bahasa yang kuat sambil menambahkan visi dan pengenalan suara tanpa degradasi kinerja yang sering terjadi ketika model diadaptasi untuk beberapa jenis input.
Model ini telah mengklaim posisi teratas pada papan peringkat OpenAsr yang memeluk dengan tingkat kesalahan kata 6,14%, mengungguli sistem pengenalan suara khusus seperti Whisperv3. Ini juga menunjukkan kinerja kompetitif pada tugas visi seperti penalaran matematika dan ilmiah dengan gambar.
AI kompak, dampak besar: Phi-4-mini menetapkan standar kinerja baru
Meskipun ukurannya ringkas, Phi-4-Mini menunjukkan kemampuan luar biasa dalam tugas berbasis teks. Microsoft melaporkan model ini “mengungguli model ukuran yang sama dan setara dengan model dua kali lebih besar” di berbagai tolok ukur pemahaman bahasa.
Yang paling penting adalah kinerja model pada tugas matematika dan pengkodean. Menurut makalah penelitian, “phi-4-mini terdiri dari 32 lapisan transformator dengan ukuran keadaan tersembunyi 3.072” dan menggabungkan perhatian kueri kelompok untuk mengoptimalkan penggunaan memori untuk pembuatan konteks lama.
Pada tolok ukur matematika GSM-8K, Phi-4-Mini mencapai skor 88,6%, mengungguli sebagian besar model parameter 8 miliar, sedangkan pada tolok ukur matematika itu mencapai 64%, jauh lebih tinggi daripada pesaing berukuran serupa.
“Untuk tolok ukur matematika, model ini mengungguli model ukuran serupa dengan margin besar, kadang -kadang lebih dari 20 poin. Bahkan mengungguli skor model dua kali lebih besar, ”catat laporan teknis.
Penyebaran Transformatif: Efisiensi Dunia Nyata PHI-4 sedang beraksi
Kapasitas, mesin jawaban AI yang membantu organisasi menyatukan beragam kumpulan data, telah memanfaatkan keluarga PHI untuk meningkatkan efisiensi dan akurasi platform mereka.
Steve Frederickson, kepala produk pada kapasitas, mengatakan dalam sebuah pernyataan, “Dari eksperimen awal kami, yang benar -benar mengesankan kami tentang PHI adalah keakuratannya yang luar biasa dan kemudahan penyebaran, bahkan sebelum penyesuaian. Sejak itu, kami telah dapat meningkatkan akurasi dan keandalan, semuanya sambil mempertahankan efektivitas dan skalabilitas biaya yang kami hargai sejak awal. ”
Kapasitas melaporkan penghematan biaya 4,2x dibandingkan dengan alur kerja yang bersaing sambil mencapai hasil kualitatif yang sama atau lebih baik untuk tugas preprocessing.
AI Tanpa Batas: Model Microsoft Phi-4 membawa kecerdasan lanjutan di mana saja
Selama bertahun -tahun, pengembangan AI telah didorong oleh filosofi tunggal: lebih besar lebih baik. Lebih banyak parameter, model yang lebih besar, tuntutan komputasi yang lebih besar. Tetapi model Microsoft PHI-4 menantang asumsi itu, membuktikan bahwa kekuatan bukan hanya tentang skala-ini tentang efisiensi.
PHI-4-multimodal dan phi-4-mini dirancang bukan untuk pusat data raksasa teknologi, tetapi untuk dunia nyata-di mana kekuatan komputasi terbatas, masalah privasi adalah yang terpenting, dan AI perlu bekerja mulus tanpa koneksi yang konstan ke cloud. Model -model ini kecil, tetapi beratnya. PHI-4-multimodal mengintegrasikan pidato, visi, dan pemrosesan teks ke dalam satu sistem tanpa mengorbankan akurasi, sementara phi-4-mini memberikan kinerja matematika, pengkodean, dan penalaran dengan model dua kali ukurannya.
Ini bukan hanya tentang membuat AI lebih efisien; Ini tentang membuatnya lebih mudah diakses. Microsoft telah memposisikan PHI-4 untuk adopsi yang meluas, membuatnya tersedia melalui Azure AI Foundry, memeluk wajah, dan katalog NVIDIA API. Tujuannya jelas: AI yang tidak terkunci di balik perangkat keras mahal atau infrastruktur besar, tetapi yang dapat beroperasi pada perangkat standar, di tepi jaringan, dan di industri di mana daya komputasi langka.
Masaya Nishimaki, seorang direktur di perusahaan AI Jepang, Headwaters Co., Ltd., melihat dampaknya secara langsung. “Edge AI menunjukkan kinerja yang luar biasa bahkan di lingkungan dengan koneksi jaringan yang tidak stabil atau di mana kerahasiaan adalah yang terpenting,” katanya dalam sebuah pernyataan. Itu berarti AI yang dapat berfungsi di pabrik, rumah sakit, kendaraan otonom-tempat di mana kecerdasan waktu nyata diperlukan, tetapi di mana model berbasis cloud tradisional gagal.
Pada intinya, PHI-4 mewakili pergeseran pemikiran. AI bukan hanya alat bagi mereka yang memiliki server terbesar dan kantong terdalam. Ini adalah kemampuan yang, jika dirancang dengan baik, dapat bekerja di mana saja, untuk siapa saja. Hal yang paling revolusioner tentang phi-4 bukanlah apa yang bisa dilakukan-di situlah bisa melakukannya.