
Artikel ini adalah bagian dari edisi khusus VentureBeat, “Biaya Nyata AI: Kinerja, Efisiensi, dan ROI pada skala.” Baca lebih lanjut dari edisi khusus ini.
Munculnya Model Bahasa Besar (LLM) telah memudahkan perusahaan untuk membayangkan jenis -jenis proyek yang dapat mereka lakukan, yang mengarah ke lonjakan program percontohan yang sekarang beralih ke penempatan.
Namun, ketika proyek -proyek ini memperoleh momentum, perusahaan menyadari bahwa LLM sebelumnya yang mereka gunakan adalah sulit dan, lebih buruk, mahal.
Masukkan model bahasa kecil dan distilasi. Model seperti Google Gemma Family, Microsoft's PHI dan Mistral's Small 3.1 memungkinkan bisnis untuk memilih model yang cepat dan akurat yang berfungsi untuk tugas -tugas tertentu. Perusahaan dapat memilih model yang lebih kecil untuk kasus penggunaan tertentu, memungkinkan mereka untuk menurunkan biaya menjalankan aplikasi AI mereka dan berpotensi mencapai pengembalian investasi yang lebih baik.
LinkedIn Distinguished Engineer Karthik Ramgopal mengatakan kepada VentureBeat bahwa perusahaan memilih model yang lebih kecil karena beberapa alasan.
“Model yang lebih kecil membutuhkan lebih sedikit waktu komputasi, memori, dan waktu inferensi yang lebih cepat, yang diterjemahkan langsung ke dalam infrastruktur yang lebih rendah OPEX (pengeluaran operasional) dan CAPEX (pengeluaran modal) mengingat biaya GPU, ketersediaan dan persyaratan daya,” kata RamGoapl. “Model khusus tugas memiliki ruang lingkup yang lebih sempit, membuat perilaku mereka lebih selaras dan dapat dipelihara dari waktu ke waktu tanpa rekayasa cepat yang kompleks.”
Pengembang model memberi harga model kecil mereka. Openai O4-Mini berharga $ 1,1 per juta token untuk input dan token $ 4,4/juta untuk output, dibandingkan dengan versi O3 penuh pada $ 10 untuk input dan $ 40 untuk output.
Perusahaan saat ini memiliki kumpulan model kecil yang lebih besar, model khusus tugas dan model suling untuk dipilih. Saat ini, sebagian besar model andalan menawarkan berbagai ukuran. Misalnya, keluarga model Claude dari antropik terdiri dari Claude Opus, model terbesar, soneta Claude, model serba guna, dan Claude Haiku, versi terkecil. Model -model ini cukup kompak untuk beroperasi pada perangkat portabel, seperti laptop atau ponsel.
Pertanyaan Tabungan
Namun, ketika membahas pengembalian investasi, pertanyaannya selalu: seperti apa ROI? Haruskah itu menjadi pengembalian biaya yang dikeluarkan atau penghematan waktu yang pada akhirnya berarti dolar disimpan di telepon? Para ahli VentureBeat berbicara dengan ROI tersebut bisa sulit untuk menilai karena beberapa perusahaan percaya bahwa mereka telah mencapai ROI dengan memotong waktu yang dihabiskan untuk tugas sementara yang lain menunggu dolar aktual yang disimpan atau lebih banyak bisnis yang dibawa untuk mengatakan jika investasi AI benar -benar berhasil.
Biasanya, perusahaan menghitung ROI dengan formula sederhana seperti yang dijelaskan oleh Kepala Teknologi yang Diketahui Ravi Naarla dalam pos: ROI = (biaya manfaat)/biaya. Tetapi dengan program AI, manfaatnya tidak segera terlihat. Dia menyarankan perusahaan mengidentifikasi manfaat yang mereka harapkan, memperkirakan ini berdasarkan data historis, bersikap realistis tentang keseluruhan biaya AI, termasuk perekrutan, implementasi dan pemeliharaan, dan memahami bahwa Anda harus berada di dalamnya untuk jangka panjang.
Dengan model kecil, para ahli berpendapat bahwa ini mengurangi biaya implementasi dan pemeliharaan, terutama ketika model penyempurnaan untuk memberi mereka lebih banyak konteks untuk perusahaan Anda.
Arijit Sengupta, pendiri dan CEO Aible, mengatakan bahwa bagaimana orang membawa konteks ke model menentukan berapa banyak penghematan biaya yang bisa mereka dapatkan. Untuk individu yang membutuhkan konteks tambahan untuk petunjuk, seperti instruksi yang panjang dan kompleks, ini dapat menghasilkan biaya token yang lebih tinggi.
“Anda harus memberikan konteks model dengan satu atau lain cara; tidak ada makan siang gratis. Tetapi dengan model besar, yang biasanya dilakukan dengan meletakkannya di prompt,” katanya. “Pikirkan tuning dan pasca-pelatihan sebagai cara alternatif memberikan konteks model. Saya mungkin mengeluarkan $ 100 dari biaya pasca-pelatihan, tetapi itu bukan astronomi.”
Sengupta mengatakan mereka telah melihat sekitar 100x pengurangan biaya hanya dari pasca-pelatihan saja, sering menjatuhkan biaya penggunaan model “dari jutaan digit tunggal menjadi sesuatu seperti $ 30.000.” Dia menunjukkan bahwa nomor ini mencakup biaya operasi perangkat lunak dan biaya yang berkelanjutan dari model dan database vektor.
“Dalam hal biaya pemeliharaan, jika Anda melakukannya secara manual dengan para ahli manusia, mungkin mahal untuk dipelihara karena model kecil harus pasca-terlatih untuk menghasilkan hasil yang sebanding dengan model besar,” katanya.
Eksperimen yang dilakukan menunjukkan bahwa model spesifik tugas, disesuaikan dengan baik berkinerja baik untuk beberapa kasus penggunaan, seperti LLM, membuat kasus yang menggunakan beberapa model spesifik-kasus penggunaan daripada yang besar untuk melakukan semuanya lebih hemat biaya.
Perusahaan ini membandingkan versi llama-3.3-70b-instruct yang dilatih dengan opsi parameter 8B yang lebih kecil dari model yang sama. Model 70B, pasca dilatih seharga $ 11,30, adalah 84% akurat dalam evaluasi otomatis dan 92% dalam evaluasi manual. Setelah disesuaikan dengan biaya $ 4,58, model 8B mencapai akurasi 82% dalam penilaian manual, yang akan cocok untuk kasus penggunaan yang lebih kecil dan lebih bertarget.
Faktor biaya cocok untuk tujuan
Model ukuran kanan tidak harus datang dengan biaya kinerja. Hari-hari ini, organisasi memahami bahwa pilihan model tidak hanya berarti memilih antara GPT-4O atau LLAMA-3.1; Mengetahui bahwa beberapa kasus penggunaan, seperti peringkasan atau pembuatan kode, lebih baik dilayani oleh model kecil.
Daniel Hoske, chief technology officer di Contact Center AI Products Product Cresta, mengatakan memulai pengembangan dengan LLMS menginformasikan potensi penghematan biaya dengan lebih baik.
“Anda harus mulai dengan model terbesar untuk melihat apakah apa yang Anda bayangkan bahkan berfungsi sama sekali, karena jika tidak berfungsi dengan model terbesar, itu tidak berarti itu dengan model yang lebih kecil,” katanya.
Ramgopal mengatakan LinkedIn mengikuti pola yang sama karena prototipe adalah satu -satunya cara masalah ini dapat mulai muncul.
“Pendekatan khas kami untuk kasus penggunaan agen dimulai dengan LLMs tujuan umum karena generalisasi yang luas memungkinkan kami untuk dengan cepat membuat prototipe, memvalidasi hipotesis dan menilai kesesuaian pasar produk,” kata Ramgopal LinkedIn. “Saat produk matang dan kami menghadapi kendala seputar kualitas, biaya atau latensi, kami beralih ke solusi yang lebih disesuaikan.”
Pada fase eksperimen, organisasi dapat menentukan apa yang paling mereka hargai dari aplikasi AI mereka. Mencari tahu ini memungkinkan pengembang untuk merencanakan lebih baik apa yang ingin mereka simpan dan pilih ukuran model yang paling sesuai dengan tujuan dan anggaran mereka.
Para ahli memperingatkan bahwa walaupun penting untuk dibangun dengan model yang paling cocok dengan apa yang mereka kembangkan, LLMS parameter tinggi akan selalu lebih mahal. Model besar akan selalu membutuhkan daya komputasi yang signifikan.
Namun, model kecil dan khusus tugas yang terlalu spesifik juga menimbulkan masalah. Rahul Pathak, wakil presiden Data dan AI GTM di AWS, mengatakan dalam posting blog bahwa optimasi biaya datang tidak hanya dari menggunakan model dengan kebutuhan daya komputasi yang rendah, tetapi lebih dari mencocokkan model dengan tugas. Model yang lebih kecil mungkin tidak memiliki jendela konteks yang cukup besar untuk memahami instruksi yang lebih kompleks, yang mengarah pada peningkatan beban kerja untuk karyawan manusia dan biaya yang lebih tinggi.
Sengupta juga memperingatkan bahwa beberapa model suling bisa rapuh, sehingga penggunaan jangka panjang mungkin tidak menghasilkan penghematan.
Terus -menerus mengevaluasi
Terlepas dari ukuran model, pemain industri menekankan fleksibilitas untuk mengatasi masalah potensial atau kasus penggunaan baru. Jadi jika mereka mulai dengan model besar dan model yang lebih kecil dengan kinerja yang serupa atau lebih baik dan biaya yang lebih rendah, organisasi tidak dapat berharga tentang model yang mereka pilih.
Tessa Burg, CTO dan kepala inovasi di perusahaan pemasaran merek Mod OP, mengatakan kepada VentureBeat bahwa organisasi harus memahami bahwa apa pun yang mereka bangun sekarang akan selalu digantikan oleh versi yang lebih baik.
“Kami mulai dengan pola pikir bahwa teknologi di bawah alur kerja yang kami ciptakan, proses yang kami buat lebih efisien, akan berubah. Kami tahu bahwa model apa pun yang kami gunakan akan menjadi versi terburuk dari model. ”
Burg mengatakan bahwa model yang lebih kecil membantu menyelamatkan perusahaan dan kliennya dalam meneliti dan mengembangkan konsep. Waktu dihemat, katanya, itu mengarah pada penghematan anggaran dari waktu ke waktu. Dia menambahkan bahwa itu adalah ide yang baik untuk mengeluarkan casing penggunaan frekuensi tinggi dan berbiaya tinggi untuk model ringan.
Sengupta mencatat bahwa vendor sekarang membuatnya lebih mudah untuk beralih di antara model secara otomatis, tetapi memperingatkan pengguna untuk menemukan platform yang juga memfasilitasi penyesuaian, sehingga mereka tidak mengeluarkan biaya tambahan.