
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Dalam tugas pertama saya sebagai manajer produk pembelajaran mesin (ML), pertanyaan sederhana yang menginspirasi debat penuh gairah lintas fungsi dan pemimpin: Bagaimana kita tahu jika produk ini benar -benar berfungsi? Produk yang dipertanyakan yang saya kelola melayani pelanggan internal dan eksternal. Model ini memungkinkan tim internal untuk mengidentifikasi masalah teratas yang dihadapi oleh pelanggan kami sehingga mereka dapat memprioritaskan serangkaian pengalaman yang tepat untuk memperbaiki masalah pelanggan. Dengan jaring saling ketergantungan yang kompleks di antara pelanggan internal dan eksternal, memilih metrik yang tepat untuk menangkap dampak produk sangat penting untuk mengarahkannya ke arah kesuksesan.
Tidak melacak apakah produk Anda bekerja dengan baik seperti mendaratkan pesawat tanpa instruksi dari kontrol lalu lintas udara. Sama sekali tidak ada cara Anda dapat membuat keputusan berdasarkan informasi untuk pelanggan Anda tanpa mengetahui apa yang benar atau salah. Selain itu, jika Anda tidak secara aktif mendefinisikan metrik, tim Anda akan mengidentifikasi metrik cadangan mereka sendiri. Risiko memiliki beberapa rasa metrik 'akurasi' atau 'kualitas' adalah bahwa setiap orang akan mengembangkan versi mereka sendiri, yang mengarah ke skenario di mana Anda mungkin tidak semua bekerja menuju hasil yang sama.
Misalnya, ketika saya meninjau tujuan tahunan saya dan metrik yang mendasari dengan tim teknik kami, umpan balik langsungnya adalah: “Tapi ini adalah metrik bisnis, kami sudah melacak presisi dan penarikan.”
Pertama, identifikasi apa yang ingin Anda ketahui tentang produk AI Anda
Setelah Anda mencapai tugas mendefinisikan metrik untuk produk Anda – dari mana harus memulai? Dalam pengalaman saya, kompleksitas pengoperasian produk ML dengan banyak pelanggan diterjemahkan ke mendefinisikan metrik untuk model juga. Apa yang saya gunakan untuk mengukur apakah model bekerja dengan baik? Mengukur hasil tim internal untuk memprioritaskan peluncuran berdasarkan model kami tidak akan cukup cepat; Mengukur apakah pelanggan mengadopsi solusi yang direkomendasikan oleh model kami dapat mengambil risiko kami menarik kesimpulan dari metrik adopsi yang sangat luas (bagaimana jika pelanggan tidak mengadopsi solusi karena mereka hanya ingin mencapai agen pendukung?).
Maju cepat ke era model bahasa besar (LLM)-di mana kami tidak hanya memiliki output tunggal dari model ML, kami memiliki jawaban teks, gambar, dan musik sebagai output juga. Dimensi produk yang membutuhkan metrik sekarang meningkat dengan cepat – format, pelanggan, ketik … daftarnya terus berlanjut.
Di semua produk saya, ketika saya mencoba menghasilkan metrik, langkah pertama saya adalah menyaring apa yang ingin saya ketahui tentang dampaknya pada pelanggan menjadi beberapa pertanyaan kunci. Mengidentifikasi serangkaian pertanyaan yang tepat memudahkan untuk mengidentifikasi set metrik yang tepat. Berikut beberapa contoh:
- Apakah pelanggan mendapatkan output? → Metrik untuk Cakupan
- Berapa lama waktu yang dibutuhkan produk untuk memberikan output? → Metrik untuk latensi
- Apakah pengguna menyukai output? → Metrik untuk umpan balik pelanggan, adopsi dan retensi pelanggan
Setelah Anda mengidentifikasi pertanyaan kunci Anda, langkah selanjutnya adalah mengidentifikasi satu set sub-pertanyaan untuk sinyal 'input' dan 'output'. Metrik keluaran adalah indikator lagging di mana Anda dapat mengukur peristiwa yang telah terjadi. Metrik input dan indikator utama dapat digunakan untuk mengidentifikasi tren atau memprediksi hasil. Lihat di bawah untuk cara menambahkan sub-pertanyaan yang tepat untuk tertinggal dan indikator utama pada pertanyaan di atas. Tidak semua pertanyaan perlu memiliki indikator terkemuka/tertinggal.
- Apakah pelanggan mendapatkan output? → Cakupan
- Berapa lama waktu yang dibutuhkan produk untuk memberikan output? → Latensi
- Apakah pengguna menyukai output? → Umpan balik pelanggan, adopsi dan retensi pelanggan
- Apakah pengguna menunjukkan bahwa output benar/salah? (keluaran)
- Apakah outputnya bagus/adil? (input)
Langkah ketiga dan terakhir adalah mengidentifikasi metode untuk mengumpulkan metrik. Sebagian besar metrik dikumpulkan secara berskala dengan instrumentasi baru melalui rekayasa data. Namun, dalam beberapa kasus (seperti pertanyaan 3 di atas) terutama untuk produk berbasis ML, Anda memiliki opsi evaluasi manual atau otomatis yang menilai output model. Meskipun selalu yang terbaik untuk mengembangkan evaluasi otomatis, dimulai dengan evaluasi manual untuk “adalah output yang baik/adil” dan membuat rubrik untuk definisi yang baik, adil dan tidak baik akan membantu Anda meletakkan dasar untuk proses evaluasi otomatis yang ketat dan diuji.
Contoh Penggunaan Kasus: Pencarian AI, deskripsi daftar
Kerangka kerja di atas dapat diterapkan pada produk berbasis ML untuk mengidentifikasi daftar metrik utama untuk produk Anda. Mari kita ambil contoh sebagai contoh.
Pertanyaan | Metrik | Sifat metrik |
---|---|---|
Apakah pelanggan mendapatkan output? → Cakupan | % sesi pencarian dengan hasil pencarian yang ditunjukkan kepada pelanggan | Keluaran |
Berapa lama waktu yang dibutuhkan produk untuk memberikan output? → Latensi | Waktu yang dibutuhkan untuk menampilkan hasil pencarian untuk pengguna | Keluaran |
Apakah pengguna menyukai output? → Umpan balik pelanggan, adopsi dan retensi pelanggan Apakah pengguna menunjukkan bahwa output benar/salah? (Output) Apakah outputnya bagus/adil? (Input) | % dari sesi pencarian dengan umpan balik 'jempol' pada hasil pencarian dari pelanggan atau % sesi pencarian dengan klik dari pelanggan % hasil pencarian ditandai sebagai 'baik/adil' untuk setiap istilah pencarian, per rubrik berkualitas | Keluaran Masukan |
Bagaimana dengan produk untuk menghasilkan deskripsi untuk daftar (apakah itu item menu di Doordash atau daftar produk di Amazon)?
Pertanyaan | Metrik | Sifat metrik |
---|---|---|
Apakah pelanggan mendapatkan output? → Cakupan | % Daftar dengan deskripsi yang dihasilkan | Keluaran |
Berapa lama waktu yang dibutuhkan produk untuk memberikan output? → Latensi | Waktu yang dibutuhkan untuk menghasilkan deskripsi kepada pengguna | Keluaran |
Apakah pengguna menyukai output? → Umpan balik pelanggan, adopsi dan retensi pelanggan Apakah pengguna menunjukkan bahwa output benar/salah? (Output) Apakah outputnya bagus/adil? (Input) | % dari daftar dengan deskripsi yang dihasilkan yang diperlukan pengeditan dari tim konten teknis/penjual/pelanggan % dari deskripsi daftar ditandai sebagai 'baik/adil', per rubrik berkualitas | Keluaran Masukan |
Pendekatan yang diuraikan di atas dapat diperluas ke beberapa produk berbasis ML. Saya harap kerangka kerja ini membantu Anda menentukan set metrik yang tepat untuk model ML Anda.
Shianya Rao adalah manajer produk grup di Intuit.