
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Patronus AI hari ini mengumumkan peluncuran apa yang disebutnya model bahasa multimodal besar pertama di industri ini-sebagai-Judge (mllm-as-a-judge), sebuah alat yang dirancang untuk mengevaluasi sistem AI yang menafsirkan gambar dan menghasilkan teks.
Teknologi evaluasi baru ini bertujuan untuk membantu pengembang mendeteksi dan mengurangi halusinasi dan masalah keandalan dalam aplikasi AI multimodal. Raksasa e-commerce Etsy telah menerapkan teknologi untuk memverifikasi akurasi keterangan untuk gambar produk di pasar barang buatan tangan dan vintage.
“Sangat senang mengumumkan bahwa Etsy adalah salah satu pelanggan kapal kami,” kata Anand Kannappan, salah satu pendiri Patronus AI, dalam sebuah wawancara eksklusif dengan VentureBeat. “Mereka memiliki ratusan juta item di pasar online mereka untuk produk buatan tangan dan vintage yang diciptakan orang di seluruh dunia. Salah satu hal yang ingin AI tim AI mereka dapat memanfaatkan AI generatif adalah kemampuan untuk secara otomatis menghasilkan keterangan gambar dan untuk memastikan bahwa ketika mereka skala di seluruh basis pengguna global mereka, bahwa keterangan yang dihasilkan pada akhirnya benar. “
Mengapa Gemini Google memberi kekuatan kepada Hakim AI baru daripada Openai
Patronus membangun MLLM-as-A-Judge, yang disebut Hakim-Image, pada model Gemini Google setelah penelitian ekstensif membandingkannya dengan alternatif seperti Openai GPT-4V.
“Kami cenderung melihat bahwa ada preferensi yang lebih lambat terhadap egosentrisitas dengan GPT-4V, sedangkan kami melihat bahwa Gemini kurang bias dengan cara-cara itu dan memiliki lebih banyak pendekatan yang adil untuk dapat menilai berbagai jenis pasangan input-output,” jelas Kannappan. “Itu terlihat dalam distribusi penilaian seragam di berbagai sumber yang mereka lihat.”
Penelitian perusahaan menghasilkan wawasan mengejutkan lain tentang evaluasi multimodal. Tidak seperti evaluasi teks saja di mana penalaran multi-langkah sering meningkatkan kinerja, Kannappan mencatat bahwa “biasanya tidak benar-benar meningkatkan kinerja juri MLLM” untuk penilaian berbasis gambar.
Hakim-image menyediakan evaluator siap pakai yang menilai keterangan gambar pada beberapa kriteria, termasuk deteksi halusinasi keterangan, pengakuan objek primer dan non-primer, akurasi lokasi objek, dan deteksi dan analisis teks.
Beyond Retail: Bagaimana tim pemasaran dan firma hukum dapat memperoleh manfaat dari evaluasi gambar AI
Sementara Etsy mewakili pelanggan andalan dalam e-commerce, Patronus melihat aplikasi meluas jauh melampaui ritel.
Ini termasuk “tim pemasaran di seluruh perusahaan yang umumnya ingin dapat membuat deskripsi dan keterangan secara skala terhadap blok baru dalam desain, terutama desain pemasaran, tetapi juga desain produk,” kata Kannappan.
Dia juga menyoroti aplikasi untuk perusahaan yang berurusan dengan pemrosesan dokumen: “Perusahaan yang lebih besar seperti perusahaan jasa usaha dan firma hukum biasanya memiliki tim teknik yang menggunakan teknologi yang relatif warisan untuk dapat mengekstraksi berbagai jenis informasi dari PDF, untuk dapat merangkum konten di dalam dokumen yang lebih besar.”
Karena AI menjadi semakin penting untuk proses bisnis, banyak perusahaan menghadapi dilema build-versus-beli untuk alat evaluasi. Kannappan berpendapat bahwa outsourcing evaluasi AI masuk akal secara strategis dan ekonomi.
“Saat kami telah bekerja dengan tim, [we’ve found that] Banyak orang mungkin mulai dengan sesuatu untuk dilihat apakah mereka dapat mengembangkan sesuatu secara internal, dan kemudian mereka menyadari bahwa itu, satu, bukan inti dari prop nilai mereka atau produk yang mereka kembangkan. Dan dua, ini adalah masalah yang sangat menantang, baik dari perspektif AI, tetapi juga dari perspektif infrastruktur, ”katanya.
Ini berlaku khususnya untuk sistem multimodal, di mana kegagalan dapat terjadi pada beberapa titik dalam proses. “Ketika Anda berurusan dengan sistem atau agen kain, atau bahkan sistem AI multimodal, kami melihat bahwa kegagalan terjadi di semua bagian sistem,” kata Kannappan.
Bagaimana patronus berencana menghasilkan uang saat bersaing dengan raksasa teknologi
Patronus menawarkan beberapa tingkatan harga, dimulai dengan opsi gratis yang memungkinkan pengguna untuk bereksperimen dengan platform hingga batas volume tertentu. Di luar ambang batas itu, pelanggan membayar saat mereka pergi untuk penggunaan evaluator atau dapat terlibat dengan tim penjualan untuk pengaturan perusahaan dengan fitur khusus dan harga yang disesuaikan.
Meskipun menggunakan model Gemini Google sebagai fondasi, perusahaan memposisikan dirinya sebagai pelengkap daripada kompetitif dengan penyedia model yayasan seperti Google, Openai dan Anthropic.
“Kami tidak perlu melihat teknologi yang kami bangun atau solusi yang kami bangun sebagai kompetitif dengan perusahaan dasar, tetapi alat yang sangat saling melengkapi dan tambahan baru dalam toolkit yang pada akhirnya membantu orang mengembangkan sistem LLM yang lebih baik, sebagai lawan dari LLM sendiri,” kata Kannappan.
Evaluasi audio akan datang berikutnya karena Patronus memperluas pengawasan multimodal
Pengumuman hari ini merupakan satu langkah dalam strategi Patronus yang lebih luas untuk evaluasi AI di berbagai modalitas. Perusahaan berencana untuk memperluas di luar gambar ke evaluasi audio segera.
“Kami senang karena ini adalah fase selanjutnya dari visi kami terhadap multimoda, dan secara khusus berfokus pada gambar hari ini – dan kemudian seiring waktu, kami senang dengan apa yang akan kami lakukan, terutama dengan audio di masa depan,” Kannappan mengkonfirmasi.
Roadmap ini selaras dengan apa yang digambarkan Kannappan sebagai “visi penelitian perusahaan terhadap pengawasan yang dapat diskalakan” – mengembangkan mekanisme evaluasi yang dapat mengimbangi sistem AI yang semakin canggih.
“Kami terus mengembangkan sistem, produk, kerangka kerja, metode baru yang pada akhirnya sama mampu sebagai sistem cerdas yang kami inginkan untuk memiliki pengawasan sebagai manusia dalam jangka panjang,” katanya.
Ketika bisnis berlomba untuk menggunakan sistem AI yang dapat menafsirkan gambar, mengekstrak teks dari dokumen, dan menghasilkan konten visual, risiko ketidakakuratan, halusinasi dan bias tumbuh. Patronus bertaruh bahwa bahkan ketika model dasar meningkat, tantangan untuk mengevaluasi sistem AI multimodal yang kompleks akan tetap ada-membutuhkan alat khusus yang dapat berfungsi sebagai juri yang tidak memihak dari output AI yang semakin seperti manusia. Dalam dunia penempatan AI komersial yang berisiko tinggi, para juri digital ini dapat terbukti sama berharganya dengan model yang mereka evaluasi.