
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Perusahaan perlu mengetahui apakah model yang memberi daya pada aplikasi dan agen mereka bekerja dalam skenario kehidupan nyata. Jenis evaluasi ini kadang -kadang bisa rumit karena sulit untuk memprediksi skenario tertentu. Versi yang dirubah dari tolok ukur RewardBench terlihat memberi organisasi gagasan yang lebih baik tentang kinerja kehidupan nyata model.
Allen Institute of AI (AI2) meluncurkan RewardBench 2, versi terbaru dari tolok ukur model hadiahnya, RewardBench, yang mereka klaim memberikan pandangan yang lebih holistik tentang kinerja model dan menilai bagaimana model selaras dengan tujuan dan standar perusahaan.
AI2 membangun RewardBench dengan tugas klasifikasi yang mengukur korelasi melalui komputasi waktu inferensi dan pelatihan hilir. RewardBench terutama berurusan dengan model hadiah (RM), yang dapat bertindak sebagai juri dan mengevaluasi output LLM. RMS menetapkan skor atau “hadiah” yang memandu pembelajaran penguatan dengan umpan balik manusia (RHLF).
Nathan Lambert, seorang ilmuwan riset senior di AI2, mengatakan kepada VentureBeat bahwa RewardBench pertama bekerja sebagaimana dimaksud ketika diluncurkan. Namun, lingkungan model berkembang dengan cepat, dan begitu pula tolok ukurnya.
“Ketika model hadiah menjadi lebih maju dan menggunakan kasus yang lebih bernuansa, kami dengan cepat mengakui dengan komunitas bahwa versi pertama tidak sepenuhnya menangkap kompleksitas preferensi manusia dunia nyata,” katanya.
Lambert menambahkan bahwa dengan RewardBench 2, “Kami berangkat untuk meningkatkan keluasan dan kedalaman evaluasi – memberikan pendapatan yang lebih beragam, menantang dan menyempurnakan metodologi untuk mencerminkan lebih baik bagaimana manusia benar -benar menilai output AI dalam praktik.” Dia mengatakan versi kedua menggunakan permintaan manusia yang tidak terlihat, memiliki pengaturan skor yang lebih menantang dan domain baru.
Menggunakan evaluasi untuk model yang mengevaluasi
Sementara model hadiah menguji seberapa baik model bekerja, penting juga bahwa RMS selaras dengan nilai -nilai perusahaan; Kalau tidak, proses pembelajaran penyempurnaan dan penguatan dapat memperkuat perilaku buruk, seperti halusinasi, mengurangi generalisasi, dan skor respons berbahaya terlalu tinggi.
RewardBench 2 mencakup enam domain yang berbeda: faktualitas, pengajaran yang tepat, matematika, keselamatan, fokus dan ikatan.
“Enterprises should use RewardBench 2 in two different ways depending on their application. If they're performing RLHF themselves, they should adopt the best practices and datasets from leading models in their own pipelines because reward models need on-policy training recipes (ie reward models that mirror the model they're trying to train with RL). For inference time scaling or data filtering, RewardBench 2 has shown that they can select the best model for their domain and see correlated performance,” Kata Lambert.
Lambert mencatat bahwa tolok ukur seperti RewardBench menawarkan kepada pengguna cara untuk mengevaluasi model yang mereka pilih berdasarkan “dimensi yang paling penting bagi mereka, daripada mengandalkan skor satu ukuran untuk semua yang sempit.” Dia mengatakan gagasan kinerja, yang diklaim banyak metode evaluasi, sangat subyektif karena respons yang baik dari model sangat tergantung pada konteks dan tujuan pengguna. Pada saat yang sama, preferensi manusia menjadi sangat bernuansa.
AI 2 merilis versi pertama dari RewardBench pada Maret 2024. Pada saat itu, perusahaan mengatakan itu adalah tolok ukur dan papan peringkat pertama untuk model hadiah. Sejak itu, beberapa metode untuk membandingkan dan meningkatkan RM telah muncul. Para peneliti di Meta's Fair keluar dengan Rewordbench. Deepseek merilis teknik baru yang disebut penyetelan kritik yang berprinsip sendiri untuk RM yang lebih pintar dan terukur.
Bagaimana model dilakukan
Karena RewardBench 2 adalah versi terbaru dari RewardBench, AI2 menguji model yang ada dan yang baru dilatih untuk melihat apakah mereka terus peringkat tinggi. Ini termasuk berbagai model, seperti versi Gemini, Claude, GPT-4.1, dan Llama-3.1, bersama dengan set data dan model seperti Qwen, Skywork, dan Tulu sendiri.
Perusahaan menemukan bahwa model hadiah yang lebih besar berkinerja terbaik di tolok ukur karena model dasar mereka lebih kuat. Secara keseluruhan, model berkinerja terkuat adalah varian instruksi LLAMA-3.1. Dalam hal fokus dan keamanan, data skywork “sangat membantu,” dan Tulu melakukannya dengan baik pada faktualitas.
AI2 mengatakan bahwa sementara mereka percaya RewardBench 2 “adalah langkah maju dalam evaluasi berbasis akurasi multi-domain yang luas” untuk model hadiah, mereka memperingatkan bahwa evaluasi model harus digunakan terutama sebagai panduan untuk memilih model yang paling cocok dengan kebutuhan perusahaan.