
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Startup AI Prancis yang didanai dengan baik, Mistral, puas dengan caranya sendiri.
Dalam lautan model penalaran yang bersaing, perusahaan saat ini memperkenalkan Mistral OCR, API Optical Character Recognition (OCR) baru yang dirancang untuk memberikan kemampuan pemahaman dokumen canggih.
API mengekstrak konten – termasuk catatan tulisan tangan, teks yang diketik, gambar, tabel, dan persamaan – dari PDF dan gambar yang tidak terstruktur dengan akurasi tinggi, menyajikan dalam format terstruktur.
Data terstruktur adalah informasi yang disusun dengan cara yang telah ditentukan sebelumnya, biasanya menggunakan baris dan kolom, membuatnya mudah untuk mencari dan menganalisis. Contoh umum termasuk nama, alamat, dan transaksi keuangan yang disimpan dalam database atau spreadsheet.
Sebaliknya, data yang tidak terstruktur tidak memiliki format atau struktur tertentu, membuatnya lebih menantang untuk diproses dan dianalisis. Kategori ini mencakup berbagai jenis data, seperti email, posting media sosial, video, gambar, dan file audio. Karena data yang tidak terstruktur tidak cocok dengan database tradisional, alat dan teknik khusus, seperti pemrosesan bahasa alami dan pembelajaran mesin, sering digunakan untuk mengekstraksi wawasan yang bermakna darinya.
Memahami perbedaan antara tipe data ini sangat penting untuk bisnis yang bertujuan untuk mengelola dan memanfaatkan aset informasi mereka secara efektif.
Dengan dukungan multibahasa, kecepatan pemrosesan yang cepat, dan integrasi dengan model bahasa besar untuk pemahaman dokumen, OCR Mistral diposisikan untuk membantu organisasi dalam membuat dokumentasi mereka siap-siap.
Mengingat bahwa, menurut posting blog Mistral yang mengumumkan API baru, 90% dari semua informasi bisnis tidak terstruktur, API baru harus menjadi anugerah besar bagi organisasi yang ingin mendigitalkan dan membuat katalog data mereka untuk digunakan dalam aplikasi AI atau basis pengetahuan internal/eksternal.
Standar emas baru untuk OCR
Mistral OCR bertujuan untuk meningkatkan cara organisasi memproses dan menganalisis dokumen yang kompleks.
Tidak seperti solusi OCR tradisional yang terutama berfokus pada ekstraksi teks, Mistral OCR dirancang untuk menginterpretasikan berbagai elemen dan karakter tipografi dokumen, termasuk tabel, ekspresi matematika, dan gambar yang disisipkan, sambil mempertahankan output terstruktur.
Menurut Guillaume Lample, Chief Science Officer di Mistral AI, teknologi ini merupakan langkah signifikan menuju adopsi AI yang lebih luas di perusahaan, terutama untuk perusahaan yang ingin menyederhanakan akses ke dokumentasi internal mereka.
API sudah diintegrasikan ke dalam LE Chat, di mana jutaan pengguna mengandalkannya untuk pemrosesan dokumen.
Sekarang, dengan rilis Mistral-Ocr-Latest, pengembang dan bisnis dapat mengakses model melalui LA Platforme, suite pengembang Mistral AI.
API juga diharapkan tersedia melalui mitra cloud dan inferensi dan akan menawarkan penyebaran di tempat untuk organisasi dengan persyaratan keamanan tinggi.
Memajukan teknologi komputasi awal (70 tahun)
Teknologi OCR telah memainkan peran penting dalam mengotomatisasi ekstraksi data dan digitalisasi dokumen selama beberapa dekade. Mesin OCR komersial pertama dikembangkan pada 1950 -an oleh David Shepard dan rekan -rekannya Harvey dan William Lawless Jr., yang mendirikan Intelligent Machines Research Co. (IMR) untuk membawa teknologi ke pasar.
Sistem ini mendapatkan traksi ketika Reader's Digest menjadi pelanggan utama pertamanya, diikuti oleh bank, perusahaan telekomunikasi seperti AT&T, dan perusahaan minyak besar.
Pada tahun 1959, paten IMR berlisensi IBM dan memperkenalkan mesin pengenalan karakter optiknya sendiri, memformalkan istilah OCR sebagai standar industri.
Sejak itu, teknologi OCR terus berkembang, menggabungkan kecerdasan buatan dan pembelajaran mesin untuk meningkatkan akurasi, memperluas dukungan bahasa, dan menangani format dokumen yang semakin kompleks, dan dapat ditemukan dalam perangkat lunak perusahaan terkemuka seperti pembaca PDF Adobe Acrobat.
Mistral OCR mewakili langkah selanjutnya dalam evolusi ini, memanfaatkan AI untuk meningkatkan pemahaman dokumen di luar pengakuan teks sederhana.
Tolok ukur menunjukkan kekuatan ocral mistral
Mistral AI menyoroti keunggulan kompetitif Mistral OCR atas solusi OCR yang ada, mengutip tes benchmark di mana ia mengungguli alternatif utama, termasuk Google Document AI, Azure OCR, dan Openai GPT-4O.
Model ini mencapai skor akurasi tertinggi dalam pengakuan matematika, dokumen yang dipindai, dan pemrosesan teks multibahasa.
Mistral OCR juga dirancang untuk beroperasi lebih cepat daripada model yang bersaing, mampu memproses hingga 2.000 halaman per menit pada satu node.
Keuntungan kecepatan ini membuatnya cocok untuk pemrosesan dokumen volume tinggi di industri seperti penelitian, layanan pelanggan, dan pelestarian historis.
Sophia Yang, Ph.D., kepala hubungan pengembang di Mistral AI, telah secara aktif menampilkan kemampuan Mistral OCR Mistral pada akun X -nya.
Dia menyoroti tolok ukur kinerja tingkat atas, dukungan multibahasa, dan kemampuan untuk mengekstraksi persamaan matematika secara akurat dari PDF.
Dalam sebuah posting baru -baru ini, ia berbagi contoh OCR yang berhasil mengenali dan memformat ekspresi matematika yang kompleks, memperkuat efektivitasnya untuk aplikasi ilmiah dan akademik.
Fitur Utama dan Kasing Penggunaan
Mistral OCR memperkenalkan beberapa fitur yang menjadikannya solusi serbaguna untuk bisnis dan lembaga yang menangani repositori dokumen besar:
• Pemrosesan multibahasa dan multimodal: Model ini mendukung berbagai bahasa, skrip, dan tata letak dokumen, menjadikannya berguna bagi organisasi global. Sophia Yang menekankan kemampuan ini, menyebutnya sebagai game-changer untuk pemrosesan dokumen multibahasa.
• Output terstruktur dan pelestarian hierarki dokumen: Tidak seperti model OCR dasar, Mistral OCR mempertahankan elemen pemformatan seperti header, paragraf, daftar, dan tabel, memastikan teks yang diekstraksi lebih berguna untuk aplikasi hilir.
• Output dokumen-sebagai prompt dan terstruktur: Pengguna dapat mengekstrak konten tertentu dan memformatnya dalam output terstruktur, seperti JSON atau Markdown, memungkinkan integrasi dengan alur kerja yang digerakkan AI lainnya.
• Opsi hosting mandiri: Organisasi dengan keamanan data yang ketat dan persyaratan kepatuhan dapat menggunakan OCR Mistral dalam infrastruktur mereka sendiri.
Dokumentasi Pengembang AI Mistral Online juga menyoroti kemampuan pemahaman dokumen yang melampaui OCR.
Setelah mengekstraksi teks dan struktur, Mistral OCR terintegrasi dengan model bahasa besar (LLM), yang memungkinkan pengguna untuk berinteraksi dengan konten dokumen menggunakan kueri bahasa alami. Fitur ini memungkinkan:
• Pertanyaan menjawab tentang konten dokumen tertentu
• Ekstraksi dan peringkasan informasi otomatis
• Analisis komparatif di beberapa dokumen
• Tanggapan sadar konteks yang mempertimbangkan dokumen lengkap
Apa yang harus diketahui oleh pembuat keputusan perusahaan tentang Mistral OCR
Untuk CEO, CIO, CTO, manajer TI, dan pemimpin tim, Mistral OCR menghadirkan peluang signifikan untuk efisiensi, keamanan, dan skalabilitas dalam alur kerja yang digerakkan oleh dokumen.
1. Peningkatan efisiensi dan penghematan biaya
Dengan mengotomatiskan pemrosesan dokumen dan mengurangi entri data manual, OCR Mistral mengurangi operasi overhead administratif dan merampingkan operasi. Organisasi dapat memproses volume besar dokumen lebih cepat dan dengan akurasi yang lebih tinggi, mengurangi kebutuhan untuk intervensi manusia. Ini sangat berharga bagi industri seperti keuangan, perawatan kesehatan, hukum, dan kepatuhan, di mana dokumen yang luas adalah hambatan.
2. Peningkatan pengambilan keputusan dengan wawasan yang digerakkan AI
Kemampuan pemahaman dokumen Mistral OCR memungkinkan pembuat keputusan untuk mengekstraksi wawasan yang dapat ditindaklanjuti dari laporan, kontrak, dokumen keuangan, dan makalah penelitian. Para pemimpin TI dapat mengintegrasikan API ke dalam platform intelijen bisnis, memungkinkan analisis dokumen yang dibantu AI yang mendukung pengambilan keputusan yang lebih cepat dan berbasis data.
3. Peningkatan keamanan dan kepatuhan data
Dengan opsi penyebaran di tempat, Mistral OCR memenuhi kebutuhan keamanan dan kepatuhan perusahaan yang menangani data sensitif atau rahasia. CIO dan petugas kepatuhan dapat memastikan bahwa informasi hak milik tetap berada dalam infrastruktur internal sambil memanfaatkan AI untuk pemrosesan dokumen.
4. Integrasi yang mulus dengan alur kerja perusahaan
Manajer CTO dan TI dapat mengintegrasikan OCR Mistral dengan sistem perusahaan yang ada, termasuk platform manajemen konten, perangkat lunak CRM, solusi teknologi hukum, dan asisten yang digerakkan AI. Dukungan API untuk output terstruktur (JSON, MarkDown) memudahkan untuk mengotomatiskan alur kerja berbasis dokumen, meningkatkan produktivitas secara keseluruhan.
5. Keunggulan kompetitif melalui inovasi yang digerakkan AI
Untuk organisasi yang ingin tetap di depan dalam transformasi digital, Mistral OCR menawarkan solusi bertenaga AI yang dapat diskalakan untuk membuat repositori dokumen yang luas lebih mudah diakses. Dengan memanfaatkan AI untuk ekstraksi informasi, perusahaan dapat meningkatkan pengalaman pelanggan, mengoptimalkan basis pengetahuan internal, dan mengurangi ketidakefisienan operasional.
Harga dan ketersediaan
Mistral OCR dihargai 1.000 halaman per $ 1, dengan inferensi batch menawarkan 2.000 halaman per $ 1 USD.
API sekarang tersedia di LA Platforme, dengan rencana ekspansi ke cloud dan mitra inferensi dalam waktu dekat.
Model ini juga bebas untuk mencoba di situs web Mistral Le Chat, chatbot percakapan yang ditenagai oleh model bahasa besarnya yang mirip dengan dan rivalrous dari Openai's ChatGPT, yang memungkinkan pengguna untuk menguji kemampuannya sebelum mengintegrasikannya ke dalam alur kerja mereka. Mistral AI mengharapkan perbaikan berkelanjutan pada model berdasarkan umpan balik pengguna dalam beberapa minggu mendatang.
Ketika saya mengujinya secara singkat pada catatan tulisan tangan pendek (dan berantakan) pada potongan kertas, itu memberikan garis teks yang akurat dan terstruktur kembali dalam waktu kurang dari satu detik.


Apa selanjutnya?
Dengan Mistral OCR, Mistral AI terus memperluas rangkaian alat yang digerakkan AI, menargetkan perusahaan yang membutuhkan solusi pemrosesan dokumen berkinerja tinggi.
Dengan mengintegrasikan OCR dengan pemahaman dokumen bertenaga AI, AI Mistral memungkinkan bisnis untuk mengekstrak, menganalisis, dan berinteraksi dengan dokumen mereka dengan cara yang lebih cerdas.
Para pemimpin perusahaan, pengembang, dan tim TI dapat mengeksplorasi OCR Mistral melalui LA Platforme atau meminta penyebaran di tempat untuk kasus penggunaan khusus.
Pengembang juga dapat memeriksa dokumentasi Mistral AI untuk memulai dengan Mistral-Ock-latest.