
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Jika tidak jelas sebelumnya, sekarang sangat jelas: open source benar -benar penting untuk AI. Keberhasilan Deepseek-R1 secara substansial telah membuktikan ada kebutuhan dan permintaan untuk AI open-source.
Tapi apa sebenarnya AI open-source? Untuk meta dan model llama, itu berarti akses gratis untuk menggunakan model, dengan beberapa kondisi. Deepseek tersedia di bawah lisensi open-source permisif Memberikan akses signifikan ke arsitektur dan kemampuannya. Namun, kode pelatihan spesifik dan metodologi terperinci, terutama yang melibatkan teknik pembelajaran penguatan (RL) seperti optimasi kebijakan relatif kelompok (GRPO), belum diungkapkan secara publik. Kelalaian ini membatasi kemampuan masyarakat untuk sepenuhnya memahami dan mereplikasi proses pelatihan model.
Namun, apa yang tidak dimungkinkan oleh Deepseek maupun Llama adalah akses penuh tanpa syarat ke semua kode model, termasuk bobot serta data pelatihan. Tanpa semua informasi itu, pengembang masih dapat bekerja dengan model terbuka tetapi mereka tidak memiliki semua alat dan wawasan yang diperlukan untuk memahami cara kerjanya dan lebih penting bagaimana membangun model yang sama sekali baru. Itu adalah tantangan yang ingin dipecahkan oleh startup baru oleh mantan veteran Google dan Apple AI.
Meluncurkan hari ini, OUMI didukung oleh aliansi 13 universitas riset terkemuka termasuk Princeton, Stanford, MIT, UC Berkeley, University of Oxford, University of Cambridge, University of Waterloo dan Carnegie Mellon. Pendiri OUMI mengumpulkan $ 10 juta, putaran benih sederhana yang menurut mereka memenuhi kebutuhan mereka. Sementara pemain utama seperti Openai merenungkan investasi $ 500 miliar di pusat data besar -besaran melalui proyek -proyek seperti Stargate, OUMI mengambil pendekatan yang sangat berbeda. Platform ini memberi para peneliti dan pengembang toolkit lengkap untuk membangun, mengevaluasi dan menggunakan model pondasi.
“Bahkan perusahaan terbesar tidak dapat melakukan ini sendiri,” Oussama Elachqar, pendiri OUMI dan sebelumnya seorang insinyur pembelajaran mesin di Apple, mengatakan kepada VentureBeat. “Kami secara efektif bekerja di silo di dalam Apple, dan ada banyak silo lain yang terjadi di seluruh industri. Harus ada cara yang lebih baik untuk mengembangkan model -model ini secara kolaboratif. ”
Model open-source seperti Deepseek dan Llama hilang
CEO OUMI dan mantan manajer teknik senior Google Cloud AI Manos Koukoumidis mengatakan kepada VentureBeat bahwa para peneliti secara konsisten mengatakan kepadanya eksperimen AI telah menjadi sangat kompleks.
Sementara model terbuka hari ini adalah langkah maju, itu tidak cukup. Koukoumidis menjelaskan bahwa dengan model AI “terbuka” saat ini seperti Deepseek-R1 dan Llama, sebuah organisasi dapat menggunakan model dan menggunakannya sendiri. Yang hilang adalah bahwa orang lain yang ingin membangun model tidak tahu persis bagaimana itu dibangun.
Para pendiri OUMI percaya bahwa kurangnya transparansi ini merupakan penghalang utama untuk penelitian dan pengembangan AI kolaboratif. Bahkan proyek seperti Llama membutuhkan sejumlah besar upaya dari para peneliti untuk mencari cara mereproduksi dan membangun pekerjaan.
Bagaimana OUMI bekerja untuk membuka AI untuk pengguna perusahaan, peneliti, dan orang lain
Platform OUMI bekerja dengan menyediakan lingkungan all-in-one yang merampingkan alur kerja kompleks yang terlibat dalam membangun model AI.
Koukoumidis menjelaskan bahwa untuk membangun model fondasi, biasanya ada 10 langkah atau lebih yang perlu dilakukan, seringkali secara paralel. OUMI mengintegrasikan semua alat dan alur kerja yang diperlukan ke dalam lingkungan yang terpadu, menghilangkan kebutuhan para peneliti untuk menyatukan dan mengkonfigurasi berbagai komponen sumber terbuka.
Fitur teknis utama meliputi:
- Dukungan untuk model mulai dari parameter 10m hingga 405b
- Implementasi teknik pelatihan lanjutan termasuk SFT, LORA, QLORA dan DPO
- Kompatibilitas dengan model teks dan multimodal
- Alat bawaan untuk pelatihan sintesis dan kurasi data menggunakan juri LLM
- Pilihan Penyebaran Melalui Mesin Inferensi Modern seperti VLLM dan SGLang
- Evaluasi model komprehensif di seluruh tolok ukur industri standar
“Kami tidak harus berurusan dengan pengembangan sumber terbuka yang mencari tahu apa yang dapat Anda gabungkan dan apa yang bekerja dengan baik,” jelas Koukoumidis.
Platform ini memungkinkan pengguna untuk memulai dari yang kecil, menggunakan laptop mereka sendiri untuk eksperimen awal dan pelatihan model. Seiring kemajuan pengguna, mereka kemudian dapat meningkatkan sumber daya komputasi yang lebih besar, seperti kelompok universitas atau penyedia cloud, semuanya dalam lingkungan OUMI yang sama.
Anda tidak memerlukan infrastruktur pelatihan besar untuk membangun model terbuka
Salah satu kejutan besar dengan Deepseek-R1 adalah kenyataan bahwa itu tampaknya dibangun dengan sebagian kecil dari sumber daya yang digunakan meta atau openai untuk membangun model mereka.
Ketika Openai dan yang lainnya berinvestasi miliaran dalam infrastruktur terpusat, OUMI bertaruh pada pendekatan terdistribusi yang dapat secara dramatis mengurangi biaya.
“Gagasan bahwa Anda membutuhkan ratusan miliar [of dollars] Untuk infrastruktur AI pada dasarnya cacat, ”kata Koukoumidis. “Dengan komputasi terdistribusi di seluruh universitas dan lembaga penelitian, kami dapat mencapai hasil yang serupa atau lebih baik di sebagian kecil dari biaya.”
Fokus awal untuk OUMI adalah membangun ekosistem open-source dari pengguna dan pengembangan. Tapi itu tidak semua perusahaan telah merencanakan. OUMI berencana untuk mengembangkan penawaran perusahaan untuk membantu bisnis menyebarkan model -model ini di lingkungan produksi.