
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Setiap rilis model AI pasti mencakup grafik yang menggembar -gemborkan bagaimana ia mengungguli para pesaingnya dalam tes benchmark ini atau matriks evaluasi.
Namun, tolok ukur ini sering menguji kemampuan umum. Untuk organisasi yang ingin menggunakan model dan agen berbasis model bahasa besar, lebih sulit untuk mengevaluasi seberapa baik agen atau model sebenarnya memahami kebutuhan spesifik mereka.
Model Repository Hugging Face meluncurkan YourBench, alat open-source di mana pengembang dan perusahaan dapat membuat tolok ukur mereka sendiri untuk menguji kinerja model terhadap data internal mereka.
Sumuk Shashidhar, bagian dari tim peneliti evaluasi di Hugging Face, mengumumkan Yourbench pada X. Fitur ini menawarkan “pembandingan khusus dan pembuatan data sintetis dari dokumen Anda. Ini adalah langkah besar menuju peningkatan cara kerja evaluasi model.”
Dia menambahkan bahwa wajah pelukan tahu “bahwa untuk banyak kasus penggunaan yang benar -benar penting adalah seberapa baik model melakukan tugas spesifik Anda. Yourbench memungkinkan Anda mengevaluasi model tentang apa yang penting bagi Anda.”
Membuat evaluasi khusus
Hugging Face mengatakan dalam sebuah makalah bahwa Yourbench bekerja dengan mereplikasi subset dari patokan MulsIve Multitask Language Inteure (MMLU) “menggunakan teks sumber minimal, mencapai ini dengan biaya inferensi total di bawah $ 15 sambil dengan sempurna menjaga peringkat kinerja model relatif.”
Organisasi perlu pra-proses dokumen mereka sebelum Anda dapat bekerja. Ini melibatkan tiga tahap:
- Konsumsi dokumen untuk “menormalkan” format file.
- Chunking semantik Untuk memecah dokumen untuk memenuhi batas jendela konteks dan memfokuskan perhatian model.
- Ringkasan dokumen
Berikutnya adalah proses pembuatan tanya jawab, yang membuat pertanyaan dari informasi tentang dokumen. Di sinilah pengguna membawa LLM yang dipilih untuk melihat mana yang terbaik menjawab pertanyaan.
Memeluk wajah menguji Anda dengan model Deepseek V3 dan R1, model QWEN Alibaba termasuk model penalaran QWEN QWQ, Mistral Large 2411 dan Mistral 3.1 Small, Llama 3.1 dan Llama 3.3, Gemini 2.0 Flash, Gemini 2.0 Flash Lite dan Gemma 3, GPT-4O, GPT-PPT, GEMINI 2.0 FLIT LITE DAN GEMMA 3, GED-4O, GPT-4O, GED-MIT-MIT-MIT-MIT-MIT-MITI, GEMINI 2. Sonnet dan Claude 3.5 Haiku.
Shashidhar mengatakan Face Memeluk juga menawarkan analisis biaya pada model dan menemukan bahwa Qwen dan Gemini 2.0 Flash “menghasilkan nilai luar biasa dengan biaya yang sangat rendah.”
Hitung batasan
Namun, membuat tolok ukur LLM khusus berdasarkan dokumen organisasi datang dengan biaya. Yourbench membutuhkan banyak daya komputasi untuk bekerja. Shashidhar mengatakan pada X bahwa perusahaan “menambah kapasitas” secepat mungkin.
Hugging Face menjalankan beberapa GPU dan mitra dengan perusahaan seperti Google untuk menggunakan layanan cloud mereka untuk tugas inferensi. VentureBeat mengulurkan tangan untuk memeluk wajah tentang penggunaan komputasi Anda.
Benchmarking tidak sempurna
Tolok ukur dan metode evaluasi lainnya memberi pengguna gambaran tentang seberapa baik kinerja model, tetapi ini tidak dengan sempurna menangkap bagaimana model akan bekerja setiap hari.
Beberapa bahkan menyuarakan skeptisisme bahwa tes benchmark menunjukkan keterbatasan model dan dapat menyebabkan kesimpulan palsu tentang keamanan dan kinerjanya. Sebuah studi juga memperingatkan bahwa agen pembandingan bisa “menyesatkan.”
Namun, perusahaan tidak dapat menghindari evaluasi model sekarang karena ada banyak pilihan di pasar, dan para pemimpin teknologi membenarkan kenaikan biaya menggunakan model AI. Ini telah menyebabkan berbagai metode untuk menguji kinerja model dan keandalan.
Google DeepMind memperkenalkan landasan fakta, yang menguji kemampuan model untuk menghasilkan respons yang akurat secara faktual berdasarkan informasi dari dokumen. Beberapa peneliti Universitas Yale dan Tsinghua mengembangkan tolok ukur kode yang membangkitkan diri untuk memandu perusahaan yang mengode LLMS yang bekerja untuk mereka.