
Bergabunglah dengan acara yang dipercaya oleh para pemimpin perusahaan selama hampir dua dekade. VB Transform menyatukan orang -orang yang membangun strategi AI perusahaan nyata. Pelajari lebih lanjut
Berita utama telah menggelegar selama bertahun -tahun: Model Bahasa Besar (LLM) tidak hanya dapat lulus ujian lisensi medis tetapi juga mengungguli manusia. GPT-4 dapat dengan benar menjawab pertanyaan lisensi ujian medis AS 90% dari waktu, bahkan pada hari-hari AI prasejarah tahun 2023. Sejak itu, LLMS telah melanjutkan untuk terbaik para penghuni yang mengikuti ujian tersebut dan dokter berlisensi.
Pindah, Dokter Google, beri jalan untuk chatgpt, MD tetapi Anda mungkin ingin lebih dari sekadar diploma dari LLM yang Anda gunakan untuk pasien. Seperti seorang mahasiswa kedokteran ace yang dapat mengoceh nama setiap tulang di tangan tetapi pingsan pada pandangan pertama darah asli, penguasaan obat LLM tidak selalu diterjemahkan langsung ke dunia nyata.
Sebuah makalah oleh para peneliti di University of Oxford menemukan bahwa sementara LLMS dapat dengan benar mengidentifikasi kondisi yang relevan 94,9% dari waktu ketika secara langsung disajikan dengan skenario pengujian, peserta manusia menggunakan LLM untuk mendiagnosis skenario yang sama mengidentifikasi kondisi yang benar kurang dari 34,5% dari waktu.
Mungkin bahkan lebih penting lagi, pasien yang menggunakan LLMS berkinerja lebih buruk daripada kelompok kontrol yang hanya diinstruksikan untuk mendiagnosis diri mereka menggunakan “metode apa pun yang biasanya mereka gunakan di rumah.” Kelompok yang ditinggalkan ke perangkat mereka sendiri adalah 76% lebih mungkin untuk mengidentifikasi kondisi yang benar daripada kelompok yang dibantu oleh LLMS.
Studi Oxford menimbulkan pertanyaan tentang kesesuaian LLMS untuk saran medis dan tolok ukur yang kami gunakan untuk mengevaluasi penyebaran chatbot untuk berbagai aplikasi.
Tebak penyakit Anda
Dipimpin oleh Dr. Adam Mahdi, para peneliti di Oxford merekrut 1.298 peserta untuk menampilkan diri sebagai pasien ke LLM. Mereka ditugaskan untuk mencoba mencari tahu apa yang membuat mereka jengkel dan tingkat perawatan yang tepat untuk mencarinya, mulai dari perawatan diri hingga memanggil ambulans.
Setiap peserta menerima skenario terperinci, mewakili kondisi dari pneumonia hingga flu biasa, bersama dengan detail kehidupan umum dan riwayat medis. Misalnya, satu skenario menggambarkan seorang mahasiswa teknik berusia 20 tahun yang mengalami sakit kepala yang melumpuhkan pada malam hari bersama teman-teman. Ini termasuk detail medis yang penting (menyakitkan untuk melihat ke bawah) dan ikan haring merah (dia peminum biasa, berbagi apartemen dengan enam teman, dan baru saja menyelesaikan beberapa ujian yang membuat stres).
Studi ini menguji tiga LLM yang berbeda. Para peneliti memilih GPT-4O karena popularitasnya, Llama 3 untuk bobot terbuka dan perintah R+ untuk kemampuan generasi (RAG) pengambilan-pengambilannya, yang memungkinkannya untuk mencari bantuan web terbuka.
Peserta diminta untuk berinteraksi dengan LLM setidaknya sekali menggunakan rincian yang diberikan, tetapi dapat menggunakannya sebanyak yang mereka inginkan untuk tiba pada diagnosis diri dan tindakan yang dimaksudkan.
Di belakang layar, tim dokter dengan suara bulat memutuskan kondisi “standar emas” yang mereka cari dalam setiap skenario, dan tindakan yang sesuai. Mahasiswa teknik kami, misalnya, menderita pendarahan subarachnoid, yang seharusnya memerlukan kunjungan langsung ke UGD.
Permainan telepon
Meskipun Anda mungkin menganggap LLM yang dapat menerima ujian medis akan menjadi alat yang sempurna untuk membantu orang biasa mendiagnosis diri sendiri dan mencari tahu apa yang harus dilakukan, itu tidak berhasil seperti itu. “Peserta yang menggunakan kondisi yang diidentifikasi LLM yang relevan kurang konsisten daripada yang ada di kelompok kontrol, mengidentifikasi setidaknya satu kondisi yang relevan di sebagian besar 34,5% kasus dibandingkan dengan 47,0% untuk kontrol,” kata penelitian. Mereka juga gagal menyimpulkan tindakan yang benar, memilihnya hanya 44,2% dari waktu, dibandingkan dengan 56,3% untuk akting LLM secara mandiri.
Apa yang salah?
Melihat kembali transkrip, para peneliti menemukan bahwa peserta keduanya memberikan informasi yang tidak lengkap kepada LLMS dan LLMS salah menafsirkan petunjuk mereka. Misalnya, seorang pengguna yang seharusnya menunjukkan gejala batu empedu hanya memberi tahu LLM: “Saya mendapatkan sakit perut yang parah berlangsung hingga satu jam, itu bisa membuat saya muntah dan tampaknya bertepatan dengan takeaway,” menghilangkan lokasi rasa sakit, keparahan, dan frekuensinya. Komando R+ secara tidak benar menyarankan agar peserta mengalami gangguan pencernaan, dan peserta salah menebak kondisi itu.
Bahkan ketika LLMS mengirimkan informasi yang benar, peserta tidak selalu mengikuti rekomendasinya. Studi ini menemukan bahwa 65,7% percakapan GPT-4O menyarankan setidaknya satu kondisi yang relevan untuk skenario, tetapi entah bagaimana kurang dari 34,5% dari jawaban akhir dari peserta mencerminkan kondisi yang relevan.
Variabel manusia
Studi ini bermanfaat, tetapi tidak mengejutkan, menurut Nathalie Volkheimer, spesialis pengalaman pengguna di Renaissance Computing Institute (Renci), University of North Carolina di Chapel Hill.
“Bagi kita yang cukup tua untuk mengingat hari -hari awal pencarian internet, ini adalah déjà vu,” katanya. “Sebagai alat, model bahasa besar membutuhkan petunjuk untuk ditulis dengan tingkat kualitas tertentu, terutama ketika mengharapkan output kualitas.”
Dia menunjukkan bahwa seseorang yang mengalami rasa sakit yang menyilaukan tidak akan menawarkan petunjuk yang luar biasa. Meskipun peserta dalam percobaan laboratorium tidak mengalami gejala secara langsung, mereka tidak menyampaikan setiap detail.
“Ada juga alasan mengapa dokter yang berurusan dengan pasien di garis depan dilatih untuk mengajukan pertanyaan dengan cara tertentu dan pengulangan tertentu,” kata Volkheimer. Pasien menghilangkan informasi karena mereka tidak tahu apa yang relevan, atau paling buruk, berbohong karena mereka malu atau malu.
Bisakah chatbots dirancang lebih baik untuk mengatasinya? “Saya tidak akan menekankan pada mesin di sini,” kata Volkheimer. “Saya akan mempertimbangkan penekanannya pada interaksi manusia-teknologi.” Mobil itu, ia analogisasi, dibangun untuk membuat orang dari titik A ke B, tetapi banyak faktor lain berperan. “Ini tentang pengemudi, jalan, cuaca, dan keamanan umum rute. Ini tidak hanya terserah mesin.”
Tolok ukur yang lebih baik
Studi Oxford menyoroti satu masalah, bukan dengan manusia atau bahkan LLM, tetapi dengan cara kita kadang -kadang mengukurnya – dalam ruang hampa.
Ketika kami mengatakan LLM dapat lulus tes lisensi medis, ujian lisensi real estat, atau ujian state bar, kami menyelidiki kedalaman basis pengetahuannya menggunakan alat yang dirancang untuk mengevaluasi manusia. Namun, langkah -langkah ini memberi tahu kita sangat sedikit tentang seberapa sukses chatbots ini akan berinteraksi dengan manusia.
“Promptnya adalah buku teks (sebagaimana divalidasi oleh sumber dan komunitas medis), tetapi kehidupan dan orang bukan buku teks,” jelas Dr. Volkheimer.
Bayangkan sebuah perusahaan yang akan menggunakan chatbot dukungan yang dilatih di basis pengetahuan internalnya. Satu cara yang tampaknya logis untuk menguji bahwa bot mungkin hanya untuk menjalani tes yang sama dengan yang digunakan perusahaan untuk peserta dukungan pelanggan: menjawab pertanyaan dukungan “pelanggan” yang telah ditulis sebelumnya dan memilih jawaban pilihan ganda. Akurasi 95% tentu akan terlihat sangat menjanjikan.
Kemudian datang penempatan: Pelanggan nyata menggunakan istilah yang tidak jelas, mengungkapkan frustrasi, atau menggambarkan masalah dengan cara yang tidak terduga. LLM, yang dibandingkan hanya pada pertanyaan yang jelas, menjadi bingung dan memberikan jawaban yang salah atau tidak membantu. Ini belum dilatih atau dievaluasi pada situasi yang tidak meningkat atau mencari klarifikasi secara efektif. Ulasan marah menumpuk. Peluncuran ini merupakan bencana, meskipun LLM berlayar melalui tes yang tampaknya kuat bagi rekan -rekan manusianya.
Studi ini berfungsi sebagai pengingat kritis bagi para insinyur AI dan spesialis orkestrasi: jika LLM dirancang untuk berinteraksi dengan manusia, hanya mengandalkan tolok ukur non-interaktif dapat menciptakan rasa aman yang berbahaya tentang kemampuan dunia nyata. Jika Anda merancang LLM untuk berinteraksi dengan manusia, Anda perlu mengujinya dengan manusia – bukan tes untuk manusia. Tapi apakah ada cara yang lebih baik?
Menggunakan AI untuk menguji AI
Para peneliti Oxford merekrut hampir 1.300 orang untuk studi mereka, tetapi sebagian besar perusahaan tidak memiliki kumpulan subjek uji yang duduk -duduk menunggu untuk bermain dengan agen LLM baru. Jadi mengapa tidak hanya mengganti penguji AI untuk penguji manusia?
Mahdi dan timnya juga mencobanya, dengan peserta yang disimulasikan. “Anda adalah seorang pasien,” mereka mendorong LLM, terpisah dari yang akan memberikan saran. “Anda harus menilai gejala Anda sendiri dari sketsa kasus yang diberikan dan bantuan dari model AI. Menyederhanakan terminologi yang digunakan dalam paragraf yang diberikan untuk bahasa awam dan menyimpan pertanyaan atau pernyataan Anda secara wajar.” LLM juga diinstruksikan untuk tidak menggunakan pengetahuan medis atau menghasilkan gejala baru.
Peserta yang disimulasikan ini kemudian mengobrol dengan LLMS yang sama dengan yang digunakan peserta manusia. Tapi mereka tampil jauh lebih baik. Rata -rata, peserta yang disimulasikan menggunakan alat LLM yang sama memakukan kondisi yang relevan 60,7% dari waktu, dibandingkan dengan di bawah 34,5% pada manusia.
Dalam hal ini, ternyata LLMS bermain lebih baik dengan LLM lain daripada manusia, yang menjadikan mereka prediktor yang buruk dari kinerja kehidupan nyata.
Jangan salahkan pengguna
Mengingat skor yang bisa dicapai LLM sendiri, mungkin tergoda untuk menyalahkan para peserta di sini. Lagi pula, dalam banyak kasus, mereka menerima diagnosis yang tepat dalam percakapan mereka dengan LLM, tetapi masih gagal untuk menebaknya dengan benar. Tapi itu akan menjadi kesimpulan yang bodoh untuk bisnis apa pun, Volkheimer memperingatkan.
“Di setiap lingkungan pelanggan, jika pelanggan Anda tidak melakukan hal yang Anda inginkan, hal terakhir yang Anda lakukan adalah menyalahkan pelanggan,” kata Volkheimer. “Hal pertama yang Anda lakukan adalah bertanya mengapa. Dan bukan 'mengapa' dari atas kepala Anda: tetapi investigasi yang mendalam, spesifik, antropologis, psikologis, diperiksa 'mengapa.' Itulah titik awal Anda. “
Anda perlu memahami audiens Anda, tujuan mereka, dan pengalaman pelanggan sebelum menggunakan chatbot, Volkheimer menyarankan. Semua ini akan menginformasikan dokumentasi khusus dan khusus yang pada akhirnya akan membuat LLM bermanfaat. Tanpa materi pelatihan yang dikuratori dengan hati -hati, “Ini akan memuntahkan beberapa jawaban umum yang dibenci semua orang, itulah sebabnya orang membenci chatbots,” katanya. Ketika itu terjadi, “itu bukan karena chatbots mengerikan atau karena ada sesuatu yang salah secara teknis dengan mereka. Itu karena hal -hal yang terjadi di dalamnya adalah buruk.”
“Orang -orang yang merancang teknologi, mengembangkan informasi untuk masuk ke sana dan proses dan sistem, well, orang -orang,” kata Volkheimer. “Mereka juga memiliki latar belakang, asumsi, kekurangan dan buta, serta kekuatan. Dan semua hal itu dapat dibangun ke dalam solusi teknologi apa pun.”