
Bergabunglah dengan acara yang dipercaya oleh para pemimpin perusahaan selama hampir dua dekade. VB Transform menyatukan orang -orang yang membangun strategi AI perusahaan nyata. Pelajari lebih lanjut
Keputusan Google baru -baru ini untuk menyembunyikan token penalaran mentah dari model andalannya, Gemini 2.5 Pro, telah memicu reaksi keras dari pengembang yang telah mengandalkan transparansi untuk membangun dan men -debug aplikasi.
Perubahan, yang menggemakan langkah serupa oleh OpenAI, menggantikan penalaran langkah demi langkah model dengan ringkasan yang disederhanakan. Respons ini menyoroti ketegangan kritis antara menciptakan pengalaman pengguna yang dipoles dan menyediakan alat yang dapat diamati dan dapat dipercaya yang dibutuhkan perusahaan.
Ketika bisnis mengintegrasikan model bahasa besar (LLM) ke dalam sistem yang lebih kompleks dan kritis misi, perdebatan tentang seberapa banyak pekerjaan internal model yang harus diekspos menjadi masalah yang menentukan bagi industri.
'Penurunan peringkat dasar' dalam transparansi AI
Untuk memecahkan masalah yang kompleks, model AI canggih menghasilkan monolog internal, juga disebut sebagai “rantai pemikiran” (COT). Ini adalah serangkaian langkah perantara (misalnya, rencana, konsep kode, koreksi diri) yang dihasilkan oleh model sebelum tiba di jawaban terakhirnya. Misalnya, dapat mengungkapkan bagaimana ia memproses data, bit informasi mana yang digunakannya, bagaimana ia mengevaluasi kode sendiri, dll.
Untuk pengembang, jejak penalaran ini sering berfungsi sebagai alat diagnostik dan debugging yang penting. Ketika sebuah model memberikan output yang salah atau tidak terduga, proses pemikiran mengungkapkan di mana logikanya tersesat. Dan itu adalah salah satu keunggulan utama Gemini 2.5 Pro dibandingkan O1 dan O3 Openai.
Di forum pengembang AI Google, pengguna menyebut penghapusan fitur ini sebagai “regresi besar -besaran.” Tanpa itu, pengembang dibiarkan dalam kegelapan. Seperti yang dikatakan oleh salah satu pengguna di google forum, “Saya tidak dapat secara akurat mendiagnosis masalah jika saya tidak dapat melihat rantai pemikiran mentah seperti dulu.” Yang lain menggambarkan dipaksa untuk “menebak” mengapa model gagal, yang mengarah pada “loop yang sangat membuat frustrasi dan berulang -ulang mencoba memperbaiki keadaan.”
Di luar debugging, transparansi ini sangat penting untuk membangun sistem AI yang canggih. Pengembang mengandalkan cot untuk menyempurnakan petunjuk dan instruksi sistem, yang merupakan cara utama untuk mengarahkan perilaku model. Fitur ini sangat penting untuk membuat alur kerja agen, di mana AI harus menjalankan serangkaian tugas. Salah satu pengembang mencatat, “COTS membantu sangat baik dalam penyetelan alur kerja agen dengan benar.”
Bagi perusahaan, langkah menuju opacity ini bisa menjadi masalah. Model AI Black-Box yang menyembunyikan alasan mereka memperkenalkan risiko yang signifikan, sehingga sulit untuk mempercayai output mereka dalam skenario berisiko tinggi. Tren ini, dimulai oleh model penalaran O-Series Openai dan sekarang diadopsi oleh Google, menciptakan pembukaan yang jelas untuk alternatif sumber terbuka seperti Deepseek-R1 dan QWQ-32B.
Model yang memberikan akses penuh ke rantai penalaran mereka memberi perusahaan lebih banyak kontrol dan transparansi atas perilaku model. Keputusan untuk memimpin CTO atau AI tidak lagi hanya tentang model mana yang memiliki skor tolok ukur tertinggi. Sekarang merupakan pilihan strategis antara model berkinerja terbaik tetapi buram dan yang lebih transparan yang dapat diintegrasikan dengan kepercayaan diri yang lebih besar.
Respons Google
Menanggapi protes, anggota tim Google menjelaskan alasan mereka. Logan Kilpatrick, manajer produk senior di Google DeepMind, mengklarifikasi bahwa perubahan itu “murni kosmetik” dan tidak memengaruhi kinerja internal model. Dia mencatat bahwa untuk aplikasi Gemini yang menghadap konsumen, menyembunyikan proses pemikiran yang panjang menciptakan pengalaman pengguna yang lebih bersih. ” % Orang yang akan atau memang membaca pikiran di aplikasi Gemini sangat kecil,” katanya.
Untuk pengembang, ringkasan baru dimaksudkan sebagai langkah pertama menuju mengakses jejak penalaran secara terprogram melalui API, yang sebelumnya tidak mungkin.
Tim Google mengakui nilai pemikiran mentah bagi pengembang. “Saya mendengar bahwa Anda semua menginginkan pikiran mentah, nilainya jelas, ada kasus penggunaan yang membutuhkannya,” tulis Kilpatrick, menambahkan bahwa membawa fitur kembali ke studio AI yang berfokus pada pengembang adalah “sesuatu yang dapat kita jelajahi.”
Reaksi Google terhadap reaksi pengembang menunjukkan jalan tengah dimungkinkan, mungkin melalui “mode pengembang” yang mengaktifkan kembali akses pemikiran mentah. Kebutuhan akan observabilitas hanya akan tumbuh ketika model AI berkembang menjadi agen yang lebih otonom yang menggunakan alat dan menjalankan rencana multi-langkah yang kompleks.
Ketika Kilpatrick menyimpulkan dalam sambutannya, “… Saya dapat dengan mudah membayangkan bahwa pikiran mentah menjadi persyaratan penting dari semua sistem AI mengingat meningkatnya kompleksitas dan kebutuhan untuk observabilitas + penelusuran.”
Apakah token beralasan berlebihan?
Namun, para ahli menyarankan ada dinamika yang lebih dalam yang sedang dimainkan daripada hanya pengalaman pengguna. Subbarao Kambhampati, seorang profesor AI di Arizona State University, mempertanyakan apakah “token menengah” yang dihasilkan oleh model penalaran sebelum jawaban akhir dapat digunakan sebagai panduan yang dapat diandalkan untuk memahami bagaimana model menyelesaikan masalah. Sebuah makalah yang baru-baru ini ia tulis ikut berpendapat bahwa “token menengah” antropomorfisasi sebagai “jejak penalaran” atau “pikiran” dapat memiliki implikasi berbahaya.
Model sering masuk ke arah yang tak berkesudahan dan tidak dapat dipahami dalam proses penalaran mereka. Beberapa percobaan menunjukkan bahwa model yang dilatih pada jejak penalaran yang salah dan hasil yang benar dapat belajar untuk menyelesaikan masalah seperti halnya model yang dilatih pada jejak penalaran yang dikuratori dengan baik. Selain itu, generasi model penalaran terbaru dilatih melalui algoritma pembelajaran penguatan yang hanya memverifikasi hasil akhir dan tidak mengevaluasi “jejak penalaran” model.
“Fakta bahwa urutan token menengah sering kali terlihat seperti pekerjaan goresan manusia yang lebih baik dan dieja … tidak memberi tahu kita banyak tentang apakah mereka digunakan untuk tujuan yang sama seperti yang digunakan manusia, apalagi tentang apakah mereka dapat digunakan sebagai jendela yang dapat ditafsirkan tentang apa yang ditulis oleh para peneliti.
“Sebagian besar pengguna tidak dapat melihat apa pun dari volume token perantara mentah yang dimuntahkan oleh model -model ini,” kata Kambhampati kepada VentureBeat. “Seperti yang kami sebutkan, Deepseek R1 menghasilkan 30 halaman Pseudo-Inggris dalam menyelesaikan masalah perencanaan sederhana! Penjelasan sinis tentang mengapa O1/O3 memutuskan untuk tidak menunjukkan token mentah yang semula mungkin karena mereka menyadari orang akan memperhatikan betapa tidak koherennya mereka!”
Yang mengatakan, Kambhampati menyarankan bahwa ringkasan atau penjelasan post-facto cenderung lebih dapat dipahami oleh pengguna akhir. “Masalahnya menjadi sejauh mana mereka sebenarnya menunjukkan operasi internal yang dialami LLMS,” katanya. “Misalnya, sebagai guru, saya mungkin memecahkan masalah baru dengan banyak awal yang salah dan mundur, tetapi jelaskan solusinya dengan cara yang saya pikir memfasilitasi pemahaman siswa.”
Keputusan untuk menyembunyikan cot juga berfungsi sebagai parit yang kompetitif. Jejak penalaran mentah adalah data pelatihan yang sangat berharga. Seperti yang dicatat Kambhampati, pesaing dapat menggunakan jejak -jejak ini untuk melakukan “distilasi,” proses pelatihan model yang lebih kecil dan lebih murah untuk meniru kemampuan yang lebih kuat. Menyembunyikan pemikiran mentah membuat lebih sulit bagi saingan untuk menyalin saus rahasia model, keuntungan penting dalam industri yang padat sumber daya.
Perdebatan tentang rantai pemikiran adalah pratinjau percakapan yang jauh lebih besar tentang masa depan AI. Masih banyak yang harus dipelajari tentang cara kerja internal model penalaran, bagaimana kita dapat memanfaatkannya, dan seberapa jauh penyedia model bersedia untuk memungkinkan pengembang mengaksesnya.