
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Dengan permintaan untuk pengambilan perusahaan augmented generasi (RAG) yang sedang meningkat, peluang ini sudah matang bagi penyedia model untuk menawarkan pendapat mereka tentang model penyematan.
Perusahaan AI Prancis Mistral melemparkan topinya ke dalam ring dengan embed codestral, model embedding pertamanya, yang katanya mengungguli model embedding yang ada pada tolok ukur seperti swe-bench.
Model ini berspesialisasi dalam kode dan “berkinerja sangat baik untuk pengambilan kasus penggunaan pada data kode dunia nyata.” Model ini tersedia untuk pengembang untuk $ 0,15 per juta token.
Perusahaan itu mengatakan bahwa kodestral itu “secara signifikan mengungguli embedders kode terkemuka” seperti Voyage Code 3, Cohere Embed V4.0 dan Model Embedding Openai, Text Embedding 3 Large.
Embed Codestral, bagian dari keluarga kode kode Mistral dari model pengkodean, dapat membuat embeddings yang mengubah kode dan data menjadi representasi numerik untuk RAG.
“Embed kodestral dapat menghasilkan embedding dengan dimensi dan presisi yang berbeda, dan gambar di bawah ini menggambarkan pertukaran antara kualitas pengambilan dan biaya penyimpanan,” kata Mistral dalam posting blog. “Embed kodestral dengan dimensi 256 dan presisi int8 masih berkinerja lebih baik daripada model apa pun dari pesaing kami. Dimensi embeddings kami dipesan dengan relevansi. Untuk setiap dimensi target integer n, Anda dapat memilih untuk menjaga dimensi N pertama untuk pertukaran yang lancar antara kualitas dan biaya.”
Mistral menguji model pada beberapa tolok ukur, termasuk SWE-Bench dan Text2Code dari GitHub. Dalam kedua kasus, perusahaan mengatakan bahwa embed codestral mengungguli model embedding terkemuka.
Bench
Text2Code
Menggunakan kasus
Mistral mengatakan embed kodestral dioptimalkan untuk “pengambilan kode kinerja tinggi” dan pemahaman semantik. Perusahaan mengatakan kode ini bekerja paling baik untuk setidaknya empat jenis kasus penggunaan: RAG, pencarian kode semantik, pencarian kesamaan dan analisis kode.
Model penyematan umumnya target kasus penggunaan kain, karena mereka dapat memfasilitasi pengambilan informasi yang lebih cepat untuk tugas atau proses agen. Oleh karena itu, tidak mengherankan bahwa embed kodestral akan fokus pada hal itu.
Model ini juga dapat melakukan pencarian kode semantik, memungkinkan pengembang untuk menemukan cuplikan kode menggunakan bahasa alami. Kasus penggunaan ini berfungsi dengan baik untuk platform alat pengembang, sistem dokumentasi, dan pengkodean kopilot. Embed kodestral juga dapat membantu pengembang mengidentifikasi segmen kode yang duplikat atau string kode serupa, yang dapat membantu untuk perusahaan dengan kebijakan mengenai kode yang digunakan kembali.
Model ini mendukung pengelompokan semantik, yang melibatkan kode pengelompokan berdasarkan fungsi atau strukturnya. Kasus penggunaan ini akan membantu menganalisis repositori, mengkategorikan dan menemukan pola dalam arsitektur kode.
Persaingan meningkat dalam ruang embedding
Mistral telah bermain dengan merilis model baru dan alat agen. Ini merilis Mistral Medium 3, versi menengah dari Model Bahasa Besar (LLM) andalannya, yang saat ini mendukung platform Le Chat Enterprise yang berfokus pada perusahaan.
Ia juga mengumumkan API Agen, yang memungkinkan pengembang untuk mengakses alat untuk membuat agen yang melakukan tugas-tugas dunia nyata dan mengatur beberapa agen.
Gerakan Mistral untuk menawarkan lebih banyak opsi model kepada pengembang tidak luput dari perhatian di ruang pengembang. Beberapa di X mencatat bahwa waktu Mistral dalam merilis embed kodestral adalah “datang pada tumit kompetisi yang meningkat.”
Namun, Mistral harus membuktikan bahwa embed kodestral berkinerja baik tidak hanya dalam pengujian benchmark. Sementara itu bersaing dengan model yang lebih tertutup, seperti yang dari OpenAi dan Cohere, Codestral Embed juga menghadapi opsi open-source dari Qodo, termasuk qodo-embed-1-1,5 B.
VentureBeat menjangkau Mistral tentang opsi lisensi Codestry Embed.