
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Salesforce sedang menangani salah satu tantangan kecerdasan buatan yang paling gigih untuk aplikasi bisnis: kesenjangan antara intelijen mentah sistem AI dan kemampuannya untuk secara konsisten tampil di lingkungan perusahaan yang tidak dapat diprediksi – apa yang oleh perusahaan disebut sebagai “intelijen bergerigi.”
Dalam pengumuman penelitian yang komprehensif hari ini, Salesforce AI Research mengungkapkan beberapa tolok ukur, model, dan kerangka kerja baru yang dirancang untuk membuat agen AI di masa depan lebih cerdas, tepercaya, dan serbaguna untuk penggunaan perusahaan. Inovasi ini bertujuan untuk meningkatkan kemampuan dan konsistensi sistem AI, terutama ketika digunakan sebagai agen otonom dalam pengaturan bisnis yang kompleks.
“Sementara LLMS dapat unggul pada tes standar, merencanakan perjalanan yang rumit, dan menghasilkan puisi yang canggih, kecemerlangan mereka sering tersandung ketika dihadapkan dengan kebutuhan akan pelaksanaan tugas yang andal dan konsisten dalam lingkungan perusahaan yang dinamis dan tidak dapat diprediksi,” kata Silvio Savarese, Kepala Ilmuwan Salesforce dan kepala penelitian AI, selama sebuah konferensi pers mendahului.
Inisiatif ini mewakili dorongan Salesforce terhadap apa yang disebut Savare “Enterprise General Intelligence” (EGI) – AI yang dirancang khusus untuk kompleksitas bisnis daripada pengejaran yang lebih teoretis dari Kecerdasan Umum Buatan (AGI).
“Kami mendefinisikan EGI sebagai agen AI yang dibangun khusus untuk bisnis yang dioptimalkan tidak hanya untuk kemampuan, tetapi juga untuk konsistensi,” jelas Savarese. “Sementara AGI dapat memunculkan gambar-gambar mesin superintelligent yang melampaui kecerdasan manusia, bisnis tidak menunggu masa depan yang jauh dan ilusif. Mereka menerapkan konsep dasar ini sekarang untuk menyelesaikan tantangan dunia nyata pada skala.”
Bagaimana Salesforce Mengukur dan Memperbaiki Masalah Ketidakkonsistenan AI dalam Pengaturan Perusahaan
Fokus sentral dari penelitian ini mengukur dan mengatasi ketidakkonsistenan kinerja AI. Salesforce memperkenalkan dataset sederhana, tolok ukur publik yang menampilkan 225 pertanyaan penalaran langsung yang dirancang untuk mengukur seberapa bergerigi kemampuan sistem AI sebenarnya.
“AI hari ini bergerigi, jadi kita perlu mengerjakannya. Tapi bagaimana kita bisa mengerjakan sesuatu tanpa mengukurnya terlebih dahulu? Itulah tepatnya tolok ukur sederhana ini,” jelas Shelby Heinecke, manajer senior penelitian di Salesforce, selama konferensi pers.
Untuk aplikasi perusahaan, ketidakkonsistenan ini bukan hanya masalah akademis. Satu kesalahan langkah dari agen AI dapat mengganggu operasi, mengikis kepercayaan pelanggan, atau menimbulkan kerusakan keuangan yang substansial.
“Untuk bisnis, AI bukan hobi santai; ini adalah alat penting misi yang membutuhkan prediktabilitas yang tak tergoyahkan,” kata Savarese dalam komentarnya.
Inside Crmarena: Tempat Pengujian Virtual Salesforce untuk Agen AI Enterprise
Mungkin inovasi yang paling signifikan adalah Crmarena, kerangka kerja pembandingan baru yang dirancang untuk mensimulasikan skenario manajemen hubungan pelanggan yang realistis. Ini memungkinkan pengujian komprehensif agen AI dalam konteks profesional, menangani kesenjangan antara tolok ukur akademik dan persyaratan bisnis dunia nyata.
“Mengakui bahwa model AI saat ini sering gagal dalam mencerminkan tuntutan rumit dari lingkungan perusahaan, kami telah memperkenalkan Crmarena: kerangka kerja pembandingan baru yang dirancang dengan cermat untuk mensimulasikan skenario CRM yang realistis dan beralasan secara profesional,” kata Savarese.
Kerangka kerja mengevaluasi kinerja agen di tiga kepribadian utama: agen layanan, analis, dan manajer. Pengujian awal mengungkapkan bahwa bahkan dengan dorongan terpandu, agen terkemuka berhasil kurang dari 65% dari waktu untuk melakukan pemalsuan fungsi untuk kasus penggunaan personas ini.
“Arena CRM pada dasarnya adalah alat yang telah diperkenalkan secara internal untuk meningkatkan agen,” jelas Savarese. “Ini memungkinkan kita untuk menekankan menguji agen -agen ini, memahami ketika mereka gagal, dan kemudian menggunakan pelajaran -pelajaran ini yang kita pelajari dari kasus -kasus kegagalan itu untuk meningkatkan agen kita.”
Model penyematan baru yang memahami konteks perusahaan lebih baik dari sebelumnya
Di antara inovasi teknis yang diumumkan, Salesforce menyoroti SFR-Embedding, model baru untuk pemahaman kontekstual yang lebih dalam yang memimpin Benchmark Embedding Teks Masif (MTEB) di 56 set data.
“SFR Embedding bukan hanya penelitian. Ini akan segera datang ke data cloud,” Heinecke mencatat.
Versi khusus, SFR-Embedding-Code, juga diperkenalkan untuk pengembang, memungkinkan pencarian kode berkualitas tinggi dan merampingkan pengembangan. Menurut Salesforce, versi parameter 7B memimpin benchmark pengambilan informasi kode (COIR), sementara model yang lebih kecil (400m, 2B) menawarkan alternatif yang efisien dan hemat biaya.
Mengapa model AI yang lebih kecil dan berfokus pada aksi dapat mengungguli model bahasa yang lebih besar untuk tugas bisnis
Salesforce juga mengumumkan XLAM V2 (model aksi besar), keluarga model yang dirancang khusus untuk memprediksi tindakan daripada hanya menghasilkan teks. Model -model ini mulai dari hanya 1 miliar parameter – sebagian kecil dari ukuran banyak model bahasa terkemuka.
“Apa yang istimewa dari model XLAM kami adalah bahwa jika Anda melihat ukuran model kami, kami memiliki model 1B, kami sampai ke model 70B. Model 1B, misalnya, adalah sebagian kecil dari ukuran banyak model bahasa besar saat ini,” Heinecke menjelaskan. “Model kecil ini mengemas begitu banyak kekuatan dalam mengambil kemampuan untuk mengambil tindakan berikutnya.”
Tidak seperti model bahasa standar, model tindakan ini secara khusus dilatih untuk memprediksi dan menjalankan langkah -langkah selanjutnya dalam urutan tugas, menjadikannya sangat berharga bagi agen otonom yang perlu berinteraksi dengan sistem perusahaan.
“Model aksi besar berada di bawah kap, dan cara kami membangunnya adalah kami mengambil LLM dan kami menyempurnakannya pada apa yang kami sebut lintasan aksi,” tambah Heinecke.
Perusahaan AI Keselamatan: Bagaimana Lapisan Kepercayaan Salesforce Membentuk Pagar untuk Penggunaan Bisnis
Untuk mengatasi kekhawatiran perusahaan tentang keselamatan dan keandalan AI, Salesforce memperkenalkan SFR-Guard, keluarga model yang dilatih pada data yang tersedia untuk umum dan data internal yang terspesialisasi CRM. Model -model ini memperkuat lapisan kepercayaan perusahaan, yang menyediakan pawang untuk perilaku agen AI.
“Pagar Agenforce menetapkan batasan yang jelas untuk perilaku agen berdasarkan kebutuhan, kebijakan, dan standar bisnis, memastikan agen bertindak dalam batas yang telah ditentukan,” kata perusahaan dalam pengumumannya.
Perusahaan juga meluncurkan ContextualJudgeBench, tolok ukur baru untuk mengevaluasi model juri yang berbasis LLM dalam konteks-menguji lebih dari 2.000 pasangan respons yang menantang untuk akurasi, keringkasan, kesetiaan, dan penolakan yang tepat untuk menjawab.
Melihat melampaui teks, Salesforce meluncurkan Taco, keluarga model aksi multimodal yang dirancang untuk mengatasi masalah multi-langkah yang kompleks melalui rantai pemikiran dan aksi (COTA). Pendekatan ini memungkinkan AI untuk menafsirkan dan menanggapi pertanyaan rumit yang melibatkan banyak jenis media, dengan Salesforce mengklaim peningkatan hingga 20% pada tolok ukur MMVET yang menantang.
Co-Inovasi dalam Tindakan: Bagaimana Umpan Balik Pelanggan Membentuk Peta Jalan AI Perusahaan Salesforce
ITAI Asseo, direktur senior inkubasi dan strategi merek di AI Research, menekankan pentingnya co-inovasi pelanggan dalam mengembangkan solusi AI siap-perusahaan.
“Ketika kita berbicara dengan pelanggan, salah satu poin nyeri utama yang kita miliki adalah bahwa ketika berhadapan dengan data perusahaan, ada toleransi yang sangat rendah untuk benar -benar memberikan jawaban yang tidak akurat dan yang tidak relevan,” jelas Asseo. “Kami telah membuat banyak kemajuan, apakah itu dengan mesin penalaran, dengan teknik kain dan metode lain di sekitar LLM.”
Asseo mengutip contoh -contoh inkubasi pelanggan yang menghasilkan peningkatan yang signifikan dalam kinerja AI: “Ketika kami menerapkan mesin penalaran Atlas, termasuk beberapa teknik canggih untuk pengambilan generasi augmented, ditambah dengan penalaran kami dan metodologi loop agen dan arsitektur, kami melihat akurasi yang dua kali lipat dari pelanggan mampu melakukan ketika bekerja dengan jenis pesaing besar lainnya.
Jalan Menuju Intelijen Umum Perusahaan: Apa Selanjutnya untuk Salesforce AI
Dorongan penelitian Salesforce datang pada saat kritis dalam adopsi AI perusahaan, karena bisnis semakin mencari sistem AI yang menggabungkan kemampuan canggih dengan kinerja yang dapat diandalkan.
Sementara seluruh industri teknologi mengejar model yang semakin besar dengan kemampuan mentah yang mengesankan, fokus Salesforce pada kesenjangan konsistensi menyoroti pendekatan yang lebih bernuansa untuk pengembangan AI-yang memprioritaskan persyaratan bisnis dunia nyata daripada tolok ukur akademik.
Teknologi yang diumumkan pada hari Kamis akan mulai diluncurkan dalam beberapa bulan mendatang, dengan SFR-Embedding menuju ke Data Cloud terlebih dahulu, sementara inovasi lain akan memberi daya pada versi Agenforce di masa depan.
Seperti yang dicatat oleh Savarese dalam konferensi pers, “Ini bukan tentang mengganti manusia. Ini tentang penanggung jawab.” Dalam perlombaan untuk mendominasi perusahaan AI, Salesforce bertaruh bahwa konsistensi dan keandalan – bukan hanya intelijen mentah – akhirnya akan mendefinisikan pemenang revolusi AI bisnis.