
Artikel ini adalah bagian dari edisi khusus VentureBeat, “Biaya Nyata AI: Kinerja, Efisiensi, dan ROI pada skala.” Baca lebih lanjut dari edisi khusus ini.
Penyedia model terus meluncurkan model bahasa besar (LLM) yang semakin canggih dengan jendela konteks yang lebih panjang dan kemampuan penalaran yang ditingkatkan.
Ini memungkinkan model untuk memproses dan “berpikir” lebih banyak, tetapi juga meningkatkan komputasi: semakin banyak model yang diambil dan dikeluarkan, semakin banyak energi yang dihabiskannya dan semakin tinggi biayanya.
Pasangkan ini dengan semua bermain -main dengan dorongan – perlu beberapa kali mencoba untuk mencapai hasil yang dimaksudkan, dan kadang -kadang pertanyaan yang dihadapi tidak memerlukan model yang dapat berpikir seperti PhD – dan pengeluaran komputasi bisa keluar dari kendali.
Ini memunculkan operasi yang cepat, disiplin yang sama sekali baru di zaman AI yang fajar.
“Teknik yang cepat adalah seperti menulis, pembuatan yang sebenarnya, sedangkan OP yang cepat seperti penerbitan, di mana Anda mengembangkan konten,” Crawford del Prete, Presiden IDC, mengatakan kepada VentureBeat. “Kontennya hidup, kontennya berubah, dan Anda ingin memastikan Anda menyempurnakannya dari waktu ke waktu.”
Tantangan penggunaan dan biaya komputasi
Penggunaan dan biaya komputasi adalah dua “konsep terkait tetapi terpisah” dalam konteks LLM, jelas David Emerson, ilmuwan terapan di Vector Institute. Secara umum, harga pengguna membayar skala berdasarkan jumlah token input (apa yang diminta pengguna) dan jumlah token output (apa yang diberikan model). Namun, mereka tidak diubah untuk tindakan di belakang layar seperti meta-prompt, instruksi kemudi atau generasi pengambilan (RAG).
Meskipun konteks yang lebih lama memungkinkan model untuk memproses lebih banyak teks sekaligus, itu secara langsung diterjemahkan menjadi lebih banyak kegagalan (pengukuran daya komputasi) secara signifikan, jelasnya. Beberapa aspek model transformator bahkan skala secara kuadratik dengan panjang input jika tidak dikelola dengan baik. Respons yang tidak perlu lama juga dapat memperlambat waktu pemrosesan dan membutuhkan komputasi tambahan dan biaya untuk membangun dan mempertahankan algoritma untuk respons pasca-proses ke dalam jawaban yang diharapkan pengguna.
Biasanya, lingkungan konteks yang lebih lama memberi insentif kepada penyedia untuk dengan sengaja memberikan respons verbose, kata Emerson. Misalnya, banyak model penalaran yang lebih berat (O3 atau O1 dari OpenAI, misalnya) akan sering memberikan respons panjang untuk bahkan pertanyaan sederhana, menimbulkan biaya komputasi yang berat.
Inilah contohnya:
Masukan: Jawab masalah matematika berikut. Jika saya memiliki 2 apel dan saya membeli 4 lagi di Simpan setelah makan 1, berapa banyak apel yang saya miliki?
Keluaran: Jika saya makan 1, saya hanya memiliki 1 tersisa. Saya akan memiliki 5 apel jika saya membeli 4 lagi.
Model tidak hanya menghasilkan lebih banyak token daripada yang dibutuhkan, tetapi juga mengubur jawabannya. Seorang insinyur kemudian mungkin harus merancang cara terprogram untuk mengekstrak jawaban akhir atau mengajukan pertanyaan tindak lanjut seperti 'Apa jawaban akhir Anda?' Itu menimbulkan lebih banyak biaya API.
Atau, prompt dapat dirancang ulang untuk memandu model untuk menghasilkan jawaban langsung. Misalnya:
Masukan: Jawab masalah matematika berikut. Jika saya memiliki 2 apel dan saya membeli 4 lagi di THe Simpan setelah makan 1, berapa banyak apel yang saya miliki? Mulailah tanggapan Anda dengan “Jawabannya adalah”…
Atau:
Masukan: Jawab masalah matematika berikut. Jika saya memiliki 2 apel dan saya membeli 4 lagi di toko setelah makan 1, berapa banyak apel yang saya miliki? Bungkus jawaban terakhir Anda dalam tag tebal .
“Cara pertanyaan yang diajukan dapat mengurangi upaya atau biaya untuk mendapatkan jawaban yang diinginkan,” kata Emerson. Dia juga menunjukkan bahwa teknik seperti dorongan beberapa tembakan (memberikan beberapa contoh dari apa yang dicari pengguna) dapat membantu menghasilkan output yang lebih cepat.
Satu bahaya tidak tahu kapan harus menggunakan teknik canggih seperti rantai-pemikiran (COT) yang diminta (menghasilkan jawaban dalam langkah-langkah) atau referensi diri, yang secara langsung mendorong model untuk menghasilkan banyak token atau melalui beberapa iterasi ketika menghasilkan respons, Emerson menunjukkan.
Tidak setiap pertanyaan membutuhkan model untuk menganalisis dan menganalisis kembali sebelum memberikan jawaban, ia menekankan; Mereka bisa dengan sempurna mampu menjawab dengan benar ketika diinstruksikan untuk merespons secara langsung. Selain itu, salah yang mendorong konfigurasi API (seperti OpenAI O3, yang membutuhkan upaya penalaran yang tinggi) akan dikenakan biaya yang lebih tinggi ketika permintaan yang lebih rendah dan lebih murah akan mencukupi.
“Dengan konteks yang lebih lama, pengguna juga dapat tergoda untuk menggunakan pendekatan 'segalanya kecuali wastafel dapur', di mana Anda membuang teks sebanyak mungkin ke dalam konteks model dengan harapan bahwa hal itu akan membantu model melakukan tugas lebih akurat,” kata Emerson. “Meskipun lebih banyak konteks dapat membantu model melakukan tugas, itu tidak selalu merupakan pendekatan terbaik atau paling efisien.”
Evolusi untuk meminta OPS
Bukan rahasia besar bahwa infrastruktur yang dioptimalkan AI mungkin sulit didapat hari ini; IDC Del Prete menunjukkan bahwa perusahaan harus dapat meminimalkan jumlah waktu idle GPU dan mengisi lebih banyak kueri ke dalam siklus idle antara permintaan GPU.
“Bagaimana cara memeras lebih banyak dari komoditas yang sangat, sangat berharga ini?,” Katanya. “Karena saya harus meningkatkan pemanfaatan sistem saya, karena saya hanya tidak memiliki manfaat hanya dengan melemparkan lebih banyak kapasitas pada masalah tersebut.”
Prompt Ops dapat membantu mengatasi tantangan ini, karena pada akhirnya mengelola siklus hidup prompt. Sementara rekayasa prompt adalah tentang kualitas prompt, ops prompt adalah tempat Anda mengulang, Del Prete menjelaskan.
“Ini lebih banyak orkestrasi,” katanya. “Saya menganggapnya sebagai kurasi pertanyaan dan kurasi bagaimana Anda berinteraksi dengan AI untuk memastikan Anda mendapatkan hasil maksimal dari itu.”
Model dapat cenderung “lelah,” bersepeda dalam loop di mana kualitas output menurun, katanya. Prompt Ops membantu mengelola, mengukur, memantau, dan menyetel petunjuk. “Saya pikir ketika kita melihat ke belakang tiga atau empat tahun dari sekarang, itu akan menjadi disiplin utuh. Itu akan menjadi keterampilan.”
Meskipun masih sangat banyak bidang yang muncul, penyedia awal termasuk QueryPal, Cepat, Penolakan dan Truelens. Ketika Ops Prompt Evolve, platform ini akan terus mengulangi, meningkatkan dan memberikan umpan balik waktu nyata untuk memberi pengguna lebih banyak kapasitas untuk menyetel petunjuk dari waktu ke waktu, mencatat Prete.
Akhirnya, ia memperkirakan, agen akan dapat menyetel, menulis, dan menyusun permintaan sendiri. “Tingkat otomatisasi akan meningkat, tingkat interaksi manusia akan berkurang, Anda akan dapat memiliki agen yang beroperasi secara lebih mandiri dalam petunjuk yang mereka buat.”
Kesalahan mendorong umum
Sampai prompt ops sepenuhnya terwujud, pada akhirnya tidak ada prompt yang sempurna. Beberapa kesalahan terbesar yang dilakukan orang, menurut Emerson:
- Tidak cukup spesifik tentang masalah yang harus diselesaikan. Ini termasuk bagaimana pengguna menginginkan model untuk memberikan jawabannya, apa yang harus dipertimbangkan ketika merespons, kendala untuk memperhitungkan dan faktor -faktor lainnya. “Dalam banyak pengaturan, model membutuhkan jumlah konteks yang baik untuk memberikan respons yang memenuhi harapan pengguna,” kata Emerson.
- Tidak memperhitungkan cara suatu masalah dapat disederhanakan untuk mempersempit ruang lingkup respons. Haruskah jawabannya berada dalam kisaran tertentu (0 hingga 100)? Haruskah jawabannya diutarakan sebagai masalah pilihan ganda daripada sesuatu yang terbuka? Bisakah pengguna memberikan contoh yang baik untuk mengontekstualisasikan kueri? Bisakah masalahnya dipecah menjadi langkah -langkah untuk pertanyaan yang terpisah dan lebih sederhana?
- Tidak memanfaatkan struktur. LLM sangat pandai dalam pengenalan pola, dan banyak yang dapat memahami kode. Saat menggunakan poin -poin, daftar terperinci atau indikator tebal (****) mungkin tampak “agak berantakan” pada mata manusia, Emerson mencatat, panggilan ini dapat bermanfaat bagi LLM. Meminta output terstruktur (seperti JSON atau Markdown) juga dapat membantu ketika pengguna ingin memproses respons secara otomatis.
Ada banyak faktor lain yang perlu dipertimbangkan dalam mempertahankan pipa produksi, berdasarkan praktik terbaik teknik, kata Emerson. Ini termasuk:
- Memastikan bahwa throughput pipa tetap konsisten;
- Memantau kinerja petunjuk dari waktu ke waktu (berpotensi terhadap set validasi);
- Menyiapkan tes dan deteksi peringatan dini untuk mengidentifikasi masalah pipa.
Pengguna juga dapat memanfaatkan alat yang dirancang untuk mendukung proses pendakian. Misalnya, DSPY open-source dapat secara otomatis mengonfigurasi dan mengoptimalkan prompt untuk tugas hilir berdasarkan beberapa contoh berlabel. Meskipun ini mungkin merupakan contoh yang cukup canggih, ada banyak penawaran lain (termasuk beberapa yang dibangun ke dalam alat seperti ChatGPT, Google dan lainnya) yang dapat membantu dalam desain yang cepat.
Dan pada akhirnya, Emerson berkata, “Saya pikir salah satu hal paling sederhana yang dapat dilakukan pengguna adalah mencoba untuk tetap up-to-date pada pendekatan pendakian yang efektif, pengembangan model dan cara baru untuk mengonfigurasi dan berinteraksi dengan model.”