
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Kecerdasan itu meresap, namun pengukurannya tampaknya subyektif. Paling -paling, kami memperkirakan ukurannya melalui tes dan tolok ukur. Pikirkan ujian masuk perguruan tinggi: Setiap tahun, banyak siswa mendaftar, menghafal trik-trik tes dan kadang-kadang berjalan pergi dengan skor sempurna. Apakah satu angka, katakanlah 100%, berarti mereka yang mendapatkannya memiliki kecerdasan yang sama – atau bahwa mereka entah bagaimana memaksimalkan kecerdasan mereka? Tentu saja tidak. Tolok ukur adalah perkiraan, bukan pengukuran yang tepat dari seseorang – atau sesuatu – kemampuan yang benar.
Komunitas AI generatif telah lama mengandalkan tolok ukur seperti MMLU (pemahaman bahasa multitask besar-besaran) untuk mengevaluasi kemampuan model melalui pertanyaan pilihan ganda di seluruh disiplin akademik. Format ini memungkinkan perbandingan langsung, tetapi gagal untuk benar -benar menangkap kemampuan cerdas.
Baik Claude 3.5 Sonnet dan GPT-4.5, misalnya, mencapai skor serupa pada tolok ukur ini. Di atas kertas, ini menunjukkan kemampuan yang setara. Namun orang yang bekerja dengan model-model ini tahu bahwa ada perbedaan besar dalam kinerja dunia nyata mereka.
Apa artinya mengukur 'kecerdasan' dalam AI?
Pada tumit rilis benchmark Arc-AGI baru-tes yang dirancang untuk mendorong model menuju penalaran umum dan pemecahan masalah kreatif-ada perdebatan baru tentang apa artinya mengukur “kecerdasan” di AI. Meskipun belum semua orang telah menguji tolok ukur ARC-AGI, industri ini menyambut upaya ini dan lainnya untuk mengembangkan kerangka kerja pengujian. Setiap tolok ukur memiliki kelebihannya, dan Arc-agi adalah langkah yang menjanjikan dalam percakapan yang lebih luas itu.
Perkembangan terkemuka lainnya dalam evaluasi AI adalah 'Ujian Terakhir Kemanusiaan,' tolok ukur komprehensif yang berisi 3.000 pertanyaan peer-review, multi-langkah di berbagai disiplin ilmu. Sementara tes ini merupakan upaya ambisius untuk menantang sistem AI pada penalaran tingkat ahli, hasil awal menunjukkan kemajuan yang cepat-dengan Openai dilaporkan mencapai skor 26,6% dalam waktu sebulan setelah rilis. Namun, seperti tolok ukur tradisional lainnya, ini terutama mengevaluasi pengetahuan dan penalaran secara terpisah, tanpa menguji kemampuan praktis, menggunakan alat yang semakin penting untuk aplikasi AI dunia nyata.
Dalam satu contoh, beberapa model canggih gagal untuk menghitung dengan benar jumlah “R” dalam kata stroberi. Di yang lain, mereka secara tidak benar mengidentifikasi 3,8 sebagai lebih kecil dari 3.1111. Kegagalan semacam ini-pada tugas-tugas yang bahkan anak kecil atau kalkulator dasar dapat menyelesaikan-mengungkapkan ketidakcocokan antara kemajuan yang didorong oleh patokan dan ketahanan dunia nyata, mengingatkan kita bahwa kecerdasan bukan hanya tentang lulus ujian, tetapi juga tentang menavigasi logika sehari-hari yang andal.
Standar baru untuk mengukur kemampuan AI
Karena model telah maju, tolok ukur tradisional ini telah menunjukkan keterbatasan mereka-GPT-4 dengan alat-alat mencapai hanya sekitar 15% pada tugas-tugas dunia nyata yang lebih kompleks dalam tolok ukur GAIA, meskipun skor mengesankan pada tes pilihan ganda.
Pemutusan antara kinerja benchmark ini dan kemampuan praktis telah menjadi semakin bermasalah karena sistem AI beralih dari lingkungan penelitian ke aplikasi bisnis. Tolok ukur tradisional menguji pengingat pengetahuan tetapi kehilangan aspek -aspek penting dari kecerdasan: kemampuan untuk mengumpulkan informasi, menjalankan kode, menganalisis data, dan mensintesis solusi di berbagai domain.
Gaia adalah pergeseran yang diperlukan dalam metodologi evaluasi AI. Dibuat melalui kolaborasi antara meta-fair, meta-genai, huggingface dan tim autogpt, tolok ukur mencakup 466 pertanyaan yang dibuat dengan hati-hati di tiga tingkat kesulitan. Pertanyaan-pertanyaan ini menguji penjelajahan web, pemahaman multi-modal, eksekusi kode, penanganan file dan penalaran yang kompleks-kemampuan yang penting untuk aplikasi AI dunia nyata.
Pertanyaan Level 1 membutuhkan sekitar 5 langkah dan satu alat untuk dipecahkan manusia. Pertanyaan Level 2 menuntut 5 hingga 10 langkah dan beberapa alat, sementara pertanyaan Level 3 dapat memerlukan hingga 50 langkah diskrit dan sejumlah alat. Struktur ini mencerminkan kompleksitas masalah bisnis yang sebenarnya, di mana solusi jarang berasal dari satu tindakan atau alat.
Dengan memprioritaskan fleksibilitas daripada kompleksitas, model AI mencapai akurasi 75%pada GAIA-mengungguli raksasa industri Microsoft's Magnetic-1 (38%) dan agen Langfun Google (49%). Keberhasilan mereka berasal dari menggunakan kombinasi model khusus untuk pemahaman dan penalaran audio-visual, dengan Sonnet 3.5 Anthropic sebagai model utama.
Evolusi dalam evaluasi AI ini mencerminkan perubahan yang lebih luas dalam industri ini: kami beralih dari aplikasi SaaS mandiri ke agen AI yang dapat mengatur beberapa alat dan alur kerja. Karena bisnis semakin bergantung pada sistem AI untuk menangani tugas yang kompleks, multi-langkah, tolok ukur seperti GAIA memberikan ukuran kemampuan yang lebih bermakna daripada tes pilihan ganda tradisional.
Masa depan evaluasi AI tidak terletak pada tes pengetahuan yang terisolasi tetapi dalam penilaian komprehensif kemampuan pemecahan masalah. Gaia menetapkan standar baru untuk mengukur kemampuan AI-yang lebih mencerminkan tantangan dan peluang penyebaran AI dunia nyata.
Sri Ambati adalah pendiri dan CEO H2O.Ai.