
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Canadian AI Startup Cohere diluncurkan pada 2019 secara khusus menargetkan perusahaan, tetapi penelitian independen telah menunjukkan sejauh ini telah berjuang untuk mendapatkan banyak pangsa pasar di antara pengembang pihak ketiga dibandingkan dengan saingannya sebagai penyedia model open-soal-soelse AS yang terdalam.
Namun Cohere terus meningkatkan penawarannya: Hari ini, divisi penelitian nirlaba kohere untuk AI mengumumkan rilis model visi pertama, Aya Vision, sebuah model AI multimodal dengan berat badan baru yang mengintegrasikan kemampuan bahasa dan visi yang dibandingkan dengan posting di dunia.
AYA Vision dirancang untuk meningkatkan kemampuan AI untuk menafsirkan gambar, menghasilkan teks, dan menerjemahkan konten visual ke dalam bahasa alami, membuat AI multibahasa lebih mudah diakses dan efektif. Ini akan sangat membantu bagi perusahaan dan organisasi yang beroperasi di berbagai pasar di seluruh dunia dengan preferensi bahasa yang berbeda.
Ini tersedia sekarang di situs web Cohere dan di komunitas AI Code memeluk lisensi International 4.0 International (CC BY-NC 4.0) Atribution Creative Commons, yang memungkinkan para peneliti dan pengembang untuk menggunakan, memodifikasi, dan membagikan model untuk tujuan non-komersial selama atribusi yang tepat diberikan.
Selain itu, AYA Vision tersedia melalui WhatsApp, memungkinkan pengguna untuk berinteraksi dengan model secara langsung di lingkungan yang akrab.
Ini membatasi penggunaannya untuk perusahaan dan sebagai mesin untuk aplikasi berbayar atau alur kerja menghasilkan uang, sayangnya.
Muncul dalam versi parameter 8 miliar dan 32 miliar (parameter mengacu pada jumlah pengaturan internal dalam model AI, termasuk bobot dan bias, dengan lebih biasanya menunjukkan model yang lebih kuat dan berkinerja).
Mendukung 23 bahasa dan penghitungan
Meskipun model AI terkemuka dari saingan dapat memahami teks di berbagai bahasa, memperluas kemampuan ini ke tugas berbasis visi adalah sebuah tantangan.
Tetapi AYA Vision mengatasi hal ini dengan memungkinkan pengguna untuk menghasilkan keterangan gambar, menjawab pertanyaan visual, menerjemahkan gambar, dan melakukan tugas bahasa berbasis teks dalam beragam bahasa:
1. Bahasa Inggris
2. Prancis
3. Jerman
4. Spanyol
5. Italia
6. Portugis
7. Jepang
8. Korea
9. Cina
10. Arab
11. Yunani
12. Persia
13. Polandia
14. Indonesia
15. Ceko
16. Ibrani
17. Hindi
18. Belanda
19. Rumania
20. Rusia
21. Turki
22. Ukraina
23. Vietnam
Dalam posting blognya, Cohere menunjukkan bagaimana AYA Vision dapat menganalisis citra dan teks tentang kemasan produk dan memberikan terjemahan atau penjelasan. Ini juga dapat mengidentifikasi dan menggambarkan gaya seni dari budaya yang berbeda, membantu pengguna belajar tentang objek dan tradisi melalui pemahaman visual bertenaga AI.
Kemampuan Aya Vision memiliki implikasi luas di berbagai bidang:
• Pembelajaran dan Pendidikan Bahasa: Pengguna dapat menerjemahkan dan menggambarkan gambar dalam berbagai bahasa, membuat konten pendidikan lebih mudah diakses.
• Pelestarian Budaya: Model ini dapat menghasilkan deskripsi terperinci tentang seni, landmark dan artefak sejarah, mendukung dokumentasi budaya dalam bahasa yang kurang terwakili.
• Alat aksesibilitas: AI berbasis visi dapat membantu pengguna tunanetra dengan memberikan deskripsi gambar terperinci dalam bahasa ibu mereka.
• Komunikasi Global: Terjemahan multimodal real-time memungkinkan organisasi dan individu untuk berkomunikasi lintas bahasa secara lebih efektif.
Kinerja yang kuat dan efisiensi tinggi di seluruh tolok ukur terkemuka
Salah satu fitur menonjol AYA Vision adalah efisiensi dan kinerjanya relatif terhadap ukuran model. Meskipun secara signifikan lebih kecil dari beberapa model multimodal terkemuka, AYA Vision telah mengungguli alternatif yang jauh lebih besar dalam beberapa tolok ukur utama.
• AYA Visi 8B mengungguli Llama 90B, yang 11 kali lebih besar.
• AYA Visi 32B mengungguli Qwen 72b, Llama 90b dan Molmo 72b, yang semuanya setidaknya dua kali lebih besar (atau lebih).
• Benchmarking Hasil pada AyavisionBench dan M-Wildvision menunjukkan AYA Vision 8b mencapai tingkat kemenangan hingga 79%, dan AYA Visi 32B mencapai tingkat kemenangan 72% dalam tugas pemahaman citra multibahasa.
Perbandingan visual efisiensi vs kinerja menyoroti keuntungan AYA Vision. Seperti yang ditunjukkan dalam grafik efisiensi vs pertukaran kinerja, AYA Vision 8B dan 32B menunjukkan kinerja terbaik di kelasnya relatif terhadap ukuran parameternya, mengungguli model yang jauh lebih besar sambil mempertahankan efisiensi komputasi.

Inovasi Teknologi yang Menggerakkan Aya Vision
Cohere untuk atribut AI perolehan kinerja AYA Vision untuk beberapa inovasi utama:
• Anotasi sintetis: Model ini memanfaatkan pembuatan data sintetis untuk meningkatkan pelatihan pada tugas multimodal.
• Penskalaan data multibahasa: Dengan menerjemahkan dan mengulangi data lintas bahasa, model ini mendapatkan pemahaman yang lebih luas tentang konteks multibahasa.
• Penggabungan Model Multimodal: Teknik canggih menggabungkan wawasan dari model visi dan bahasa, meningkatkan kinerja keseluruhan.
Kemajuan ini memungkinkan visi AYA untuk memproses gambar dan teks dengan akurasi yang lebih besar sambil mempertahankan kemampuan multibahasa yang kuat.
Bagan peningkatan kinerja langkah demi langkah menampilkan bagaimana inovasi bertahap, termasuk sintetis fine-tuning (SFT), model penggabungan, dan penskalaan, berkontribusi pada tingkat kemenangan tinggi AYA Vision.

Implikasi untuk pembuat keputusan perusahaan
Meskipun Aya Vision seolah-olah melayani perusahaan, bisnis mungkin mengalami kesulitan memanfaatkannya mengingat persyaratan lisensi non-komersial yang membatasi.
Meskipun demikian, CEO, CTO, pemimpin TI dan peneliti AI dapat menggunakan model untuk mengeksplorasi kemampuan multibahasa dan multibodal yang digerakkan AI dalam organisasi mereka-terutama dalam penelitian, pembuatan prototipe, dan pembandingan.
Perusahaan masih dapat menggunakannya untuk penelitian dan pengembangan internal, mengevaluasi kinerja AI multibahasa dan bereksperimen dengan aplikasi multimodal.
Tim CTO dan AI akan menemukan AYA Vision berharga sebagai model berat terbuka yang sangat efisien yang mengungguli alternatif yang jauh lebih besar sambil membutuhkan lebih sedikit sumber daya komputasi.
Ini menjadikannya alat yang berguna untuk membandingkan model kepemilikan, mengeksplorasi solusi potensial yang digerakkan AI, dan menguji interaksi multiboda multibahasa sebelum berkomitmen pada strategi penyebaran komersial.
Bagi para ilmuwan data dan peneliti AI, AYA Visie jauh lebih berguna.
Sifat open-source dan tolok ukur yang ketat memberikan fondasi transparan untuk mempelajari perilaku model, menyempurnakan pengaturan non-komersial, dan berkontribusi untuk kemajuan AI terbuka.
Apakah digunakan untuk penelitian internal, kolaborasi akademik, atau evaluasi etika AI, Aya Vision berfungsi sebagai sumber daya mutakhir bagi perusahaan yang ingin tetap berada di garis depan AI multibahasa dan multimoda-tanpa batasan kepemilikan, model sumber tertutup.
Penelitian dan kolaborasi sumber terbuka
Aya Vision adalah bagian dari AYA, inisiatif yang lebih luas oleh Cohere yang berfokus pada membuat AI dan teknologi terkait lebih multibahasa.
Sejak didirikan pada bulan Februari 2024, Inisiatif AYA telah melibatkan komunitas riset global lebih dari 3.000 peneliti independen di 119 negara, bekerja bersama untuk meningkatkan model AI bahasa.
Untuk memajukan komitmennya terhadap sains terbuka, Cohere telah merilis bobot terbuka untuk AYA Vision 8B dan 32B di Kaggle dan memeluk wajah, memastikan para peneliti di seluruh dunia dapat mengakses dan bereksperimen dengan model. Selain itu, Cohere untuk AI telah memperkenalkan AyavisionBenchmark, set evaluasi visi multibahasa baru yang dirancang untuk memberikan kerangka penilaian yang ketat untuk AI multimodal.
Ketersediaan visi AYA sebagai model bobot terbuka menandai langkah penting dalam membuat penelitian AI multibahasa lebih inklusif dan dapat diakses.
Aya Vision dibangun di atas keberhasilan Expanse Aya, keluarga LLM lain dari Cohere untuk AI yang berfokus pada AI multibahasa. Dengan memperluas fokusnya ke AI multimodal, Cohere for AI memposisikan AYA Vision sebagai alat utama bagi para peneliti, pengembang, dan bisnis yang ingin mengintegrasikan AI multibahasa ke dalam alur kerja mereka.
Ketika inisiatif AYA terus berkembang, Cohere for AI juga telah mengumumkan rencana untuk meluncurkan upaya penelitian kolaboratif baru dalam beberapa minggu mendatang. Para peneliti dan pengembang yang tertarik berkontribusi pada kemajuan AI multibahasa dapat bergabung dengan komunitas sains terbuka atau mengajukan permohonan hibah penelitian.
Untuk saat ini, pelepasan AYA Vision merupakan lompatan yang signifikan dalam AI multimodal multibahasa, menawarkan solusi dengan kinerja tinggi dan berkinerja tinggi yang menantang dominasi model sumber yang lebih besar dan tertutup. Dengan membuat kemajuan ini tersedia untuk komunitas riset yang lebih luas, cohere untuk AI terus mendorong batas-batas apa yang mungkin dalam komunikasi multibahasa yang digerakkan oleh AI.