
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Wells Fargo memiliki dengan tenang Mencapai apa yang masih diimpikan oleh sebagian besar perusahaan: membangun sistem AI generatif berskala besar dan siap-produksi yang benar-benar berfungsi. Pada tahun 2024 saja, asisten bank yang bertenaga AI, Fargo, menangani 245,4 juta Interaksi – lebih dari dua kali lipat proyeksi aslinya – dan ia melakukannya tanpa pernah mengekspos data pelanggan yang sensitif ke model bahasa.
Fargo membantu pelanggan dengan kebutuhan perbankan sehari -hari melalui suara atau teks, menangani permintaan seperti membayar tagihan, mentransfer dana, memberikan rincian transaksi, dan menjawab pertanyaan tentang aktivitas akun. Asisten telah terbukti menjadi alat yang lengket bagi pengguna, rata -rata beberapa interaksi per sesi.
Sistem ini bekerja melalui pipa privasi-pertama. Pelanggan berinteraksi melalui aplikasi, di mana pidato ditranskrip secara lokal dengan model ucapan-ke-teks. Teks itu kemudian digosok dan diperkuat oleh sistem internal Wells Fargo, termasuk model bahasa kecil (SLM) untuk deteksi informasi yang dapat diidentifikasi secara pribadi (PII). Hanya dengan demikian panggilan yang dilakukan ke model Google Flash 2.0 untuk mengekstrak niat pengguna dan entitas yang relevan. Tidak ada data sensitif yang pernah mencapai model.
“Lapisan orkestrasi berbicara dengan model,” kata Wells Fargo Cio Chintan Mehta dalam sebuah wawancara dengan VentureBeat. “Kami sedang filter di depan dan di belakang.”
Satu -satunya hal yang dilakukan model, jelasnya, adalah menentukan niat dan entitas berdasarkan frasa yang diserahkan pengguna, seperti mengidentifikasi bahwa permintaan melibatkan akun tabungan. “Semua perhitungan dan detokenisasi, semuanya ada di pihak kita,” kata Mehta. “API kita … tidak ada dari mereka yang melewati LLM. Mereka semua hanya duduk ortogonal untuk itu.”
Statistik internal Wells Fargo menunjukkan jalan dramatis: dari 21,3 juta interaksi pada tahun 2023 hingga lebih dari 245 juta pada tahun 2024, dengan lebih dari 336 juta interaksi kumulatif sejak diluncurkan. Adopsi bahasa Spanyol juga melonjak, menyumbang lebih dari 80% dari penggunaan sejak peluncuran September 2023.
Arsitektur ini mencerminkan pergeseran strategis yang lebih luas. Mehta mengatakan pendekatan bank didasarkan pada membangun “sistem gabungan,” di mana lapisan orkestrasi menentukan model mana yang akan digunakan berdasarkan tugas. Gemini Flash 2.0 Powers Fargo, tetapi model yang lebih kecil seperti Llama digunakan di tempat lain secara internal, dan model OpenAI dapat disadap sesuai kebutuhan.
“Kami poli-model dan poli-cloud,” katanya, mencatat bahwa sementara bank bersandar pada cloud Google hari ini, ia juga menggunakan Azure Microsoft.
Mehta mengatakan model-agnostisisme sangat penting sekarang bahwa delta kinerja antara model teratas kecil. Dia menambahkan bahwa beberapa model masih unggul di bidang -bidang tertentu – Claude Sonnet 3.7 dan Openai's O3 Mini High untuk pengkodean, Openai's O3 untuk penelitian mendalam, dan sebagainya – tetapi dalam pandangannya, pertanyaan yang lebih penting adalah bagaimana mereka diatur menjadi saluran pipa.
Ukuran jendela konteks tetap menjadi satu area di mana ia melihat pemisahan yang bermakna. Mehta memuji kapasitas 1M Gemini 2.5 Pro sebagai tepi yang jelas untuk tugas-tugas seperti pengambilan augmented generasi (RAG), di mana data yang tidak terstruktur pra-pemrosesan dapat menambah penundaan. “Gemini benar -benar membunuhnya dalam hal itu,” katanya. Untuk banyak kasus penggunaan, katanya, overhead data preprocessing sebelum menggunakan model sering kali lebih besar daripada manfaatnya.
Desain Fargo menunjukkan bagaimana model konteks yang besar dapat memungkinkan otomatisasi volume tinggi yang cepat, sesuai, bahkan tanpa intervensi manusia. Dan itu sangat kontras dengan pesaing. Di Citi, misalnya, Kepala Analytics Promiti Dutta mengatakan tahun lalu bahwa risiko model bahasa besar yang menghadap eksternal (LLM) masih terlalu tinggi. Dalam ceramah yang diselenggarakan oleh VentureBeat, ia menggambarkan sistem di mana agen assist tidak berbicara langsung dengan pelanggan, karena kekhawatiran tentang halusinasi dan sensitivitas data.
Wells Fargo memecahkan masalah ini melalui desain orkestrasi. Alih-alih mengandalkan manusia di loop, ia menggunakan perlindungan berlapis dan logika internal untuk menjaga LLM keluar dari jalur yang peka terhadap data.
Gerakan agen dan desain multi-agen
Wells Fargo juga bergerak menuju sistem yang lebih otonom. Mehta menggambarkan sebuah proyek baru-baru ini untuk menulis kembali 15 tahun dokumen pinjaman yang diarsipkan. Bank menggunakan jaringan agen yang berinteraksi, beberapa di antaranya dibangun di atas kerangka kerja open source seperti Langgraph. Setiap agen memiliki peran khusus dalam proses tersebut, yang termasuk mengambil dokumen dari arsip, mengekstraksi isinya, mencocokkan data dengan sistem catatan, dan kemudian melanjutkan pipa untuk melakukan perhitungan – semua tugas yang secara tradisional membutuhkan analis manusia. Seorang manusia mengulas output akhir, tetapi sebagian besar pekerjaan berjalan secara mandiri.
Bank juga mengevaluasi model penalaran untuk penggunaan internal, di mana Mehta mengatakan diferensiasi masih ada. Sementara sebagian besar model sekarang menangani tugas sehari -hari dengan baik, penalaran tetap menjadi kasus tepi di mana beberapa model jelas melakukannya lebih baik daripada yang lain, dan mereka melakukannya dengan cara yang berbeda.
Mengapa latensi (dan harga) penting
Di Wayfair, CTO Fiona Tan mengatakan Gemini 2.5 Pro telah menunjukkan janji yang kuat, terutama di bidang kecepatan. “Dalam beberapa kasus, Gemini 2.5 kembali lebih cepat dari Claude atau Openai,” katanya, merujuk eksperimen terbaru oleh timnya.
Tan mengatakan bahwa latensi yang lebih rendah membuka pintu untuk aplikasi pelanggan real-time. Saat ini, Wayfair menggunakan LLMS untuk sebagian besar aplikasi yang menghadap internal-termasuk dalam merchandising dan perencanaan modal-tetapi inferensi yang lebih cepat memungkinkan mereka memperluas LLM ke produk yang menghadap pelanggan seperti alat tanya jawab pada halaman detail produk.
Tan juga mencatat peningkatan kinerja pengkodean Gemini. “Tampaknya cukup sebanding dengan Claude 3.7,” katanya. Tim telah mulai mengevaluasi model melalui produk seperti kursor dan code assist, di mana pengembang memiliki fleksibilitas untuk memilih.
Google telah merilis harga agresif untuk Gemini 2.5 Pro: $ 1,24 per juta token input dan token output $ 10 per juta. Tan mengatakan bahwa harga, ditambah fleksibilitas SKU untuk tugas penalaran, menjadikan Gemini pilihan yang kuat ke depan.
Sinyal yang lebih luas untuk Google Cloud Next
Cerita Wells Fargo dan Wayfair mendarat pada saat yang tepat untuk Google, yang menjadi tuan rumah konferensi tahunan Google Cloud Next minggu ini di Las Vegas. Sementara OpenAI dan Anthropic telah mendominasi wacana AI dalam beberapa bulan terakhir, penyebaran perusahaan dapat diam -diam berayun kembali ke bantuan Google.
Pada konferensi tersebut, Google diharapkan untuk menyoroti gelombang inisiatif AI agen, termasuk kemampuan baru dan perkakas untuk membuat agen otonom lebih berguna dalam alur kerja perusahaan. Sudah di acara Cloud Next tahun lalu, CEO Thomas Kurian memprediksi agen akan dirancang untuk membantu pengguna “mencapai tujuan spesifik” dan “terhubung dengan agen lain” untuk menyelesaikan tugas – tema yang menggemakan banyak prinsip orkestrasi dan otonomi yang dijelaskan Mehta.
Mehta Wells Fargo menekankan bahwa kemacetan nyata untuk adopsi AI tidak akan menjadi model kinerja atau ketersediaan GPU. “Saya pikir ini sangat kuat. Saya tidak punya keraguan tentang itu,” katanya, tentang janji AI generatif untuk mengembalikan nilai untuk aplikasi perusahaan. Tetapi dia memperingatkan bahwa siklus hype mungkin berjalan di depan dari nilai praktis. “Kita harus sangat bijaksana karena tidak terjebak dengan benda -benda mengkilap.”
Perhatiannya yang lebih besar? Kekuatan. “Kendala tidak akan menjadi chip,” kata Mehta. “Ini akan menjadi pembangkit listrik dan distribusi. Itulah hambatan nyata.”