
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Perlombaan untuk memperluas model bahasa besar (LLM) di luar ambang batas jutaan yang telah memicu perdebatan sengit di komunitas AI. Model seperti Minimax-Text-01 memiliki kapasitas 4 juta yang diawasi, dan Gemini 1.5 Pro dapat memproses hingga 2 juta token secara bersamaan. Mereka sekarang menjanjikan aplikasi yang mengubah permainan dan dapat menganalisis seluruh basis kode, kontrak hukum, atau makalah penelitian dalam satu panggilan inferensi.
Inti dari diskusi ini adalah panjang konteks – jumlah teks yang dapat diproses oleh model AI dan juga Ingat sekaligus. Jendela konteks yang lebih panjang memungkinkan model Machine Learning (ML) untuk menangani lebih banyak informasi dalam satu permintaan dan mengurangi kebutuhan untuk dokumen chunking menjadi sub-dokumen atau membagi percakapan. Untuk konteks, model dengan kapasitas 4 juta yang dapat dicerna dapat mencerna 10.000 halaman buku dalam sekali jalan.
Secara teori, ini harus berarti pemahaman yang lebih baik dan penalaran yang lebih canggih. Tetapi apakah Windows konteks besar ini diterjemahkan ke nilai bisnis dunia nyata?
Ketika perusahaan menimbang biaya penskalaan infrastruktur terhadap potensi keuntungan dalam produktivitas dan akurasi, pertanyaannya tetap: apakah kita membuka batas perbatasan baru dalam penalaran AI, atau hanya memperluas batas memori token tanpa perbaikan yang berarti? Artikel ini meneliti pertukaran teknis dan ekonomi, tantangan pembandingan dan mengembangkan alur kerja perusahaan yang membentuk masa depan LLM konteks besar.
Munculnya model jendela konteks besar: hype atau nilai nyata?
Mengapa perusahaan AI berlomba untuk memperluas panjang konteks
Para pemimpin AI seperti Openai, Google DeepMind dan Minimax berada dalam perlombaan senjata untuk memperluas panjang konteks, yang setara dengan jumlah teks yang dapat diproses oleh model AI dalam sekali jalan. Janji? Pemahaman yang lebih dalam, lebih sedikit halusinasi dan interaksi yang lebih mulus.
Untuk perusahaan, ini berarti AI yang dapat menganalisis seluruh kontrak, men -debug basis kode besar atau meringkas laporan panjang tanpa melanggar konteks. Harapannya adalah bahwa menghilangkan solusi seperti chunking atau generasi pengambilan (RAG) dapat membuat alur kerja AI lebih halus dan lebih efisien.
Memecahkan masalah 'jarum-in-a-haystack'
Masalah jarum-in-a-haystack mengacu pada kesulitan AI mengidentifikasi informasi kritis (jarum) yang tersembunyi di dalam kumpulan data besar-besaran (Haystack). LLMS sering melewatkan detail kunci, yang mengarah ke inefisiensi di:
- Pencarian dan Pengambilan Pengetahuan: Asisten AI berjuang untuk mengekstraksi fakta yang paling relevan dari repositori dokumen yang luas.
- Hukum dan Kepatuhan: Pengacara perlu melacak dependensi klausul di seluruh kontrak yang panjang.
- Analisis Perusahaan: Analis keuangan berisiko kehilangan wawasan penting yang terkubur dalam laporan.
Model konteks yang lebih besar membantu model mempertahankan lebih banyak informasi dan berpotensi mengurangi halusinasi. Mereka membantu meningkatkan akurasi dan juga memungkinkan:
- Pemeriksaan Kepatuhan Lintas Dokumen: Prompt tunggal 256K dapat menganalisis seluruh manual kebijakan terhadap undang-undang baru.
- Sintesis literatur medis: Para peneliti menggunakan jendela 128K+ token untuk membandingkan hasil uji coba obat selama beberapa dekade penelitian.
- Pengembangan Perangkat Lunak: Debugging meningkat ketika AI dapat memindai jutaan baris kode tanpa kehilangan dependensi.
- Penelitian Keuangan: Analis dapat menganalisis laporan pendapatan penuh dan data pasar dalam satu kueri.
- Dukungan Pelanggan: Chatbots dengan memori yang lebih panjang memberikan interaksi yang lebih sadar konteks.
Meningkatkan Jendela Konteks juga membantu model referensi yang lebih baik detail yang relevan dan mengurangi kemungkinan menghasilkan informasi yang salah atau dibuat. Sebuah studi 2024 Stanford menemukan bahwa model 128K-Token mengurangi tingkat halusinasi sebesar 18% dibandingkan dengan sistem RAG ketika menganalisis perjanjian merger.
Namun, pengadopsi awal telah melaporkan beberapa tantangan: Penelitian JPMorgan Chase menunjukkan bagaimana model berkinerja buruk pada sekitar 75% dari konteks mereka, dengan kinerja pada tugas-tugas keuangan kompleks runtuh hingga nol di luar 32K token. Model masih secara luas berjuang dengan penarikan jangka panjang, sering kali memprioritaskan data terbaru daripada wawasan yang lebih dalam.
Ini menimbulkan pertanyaan: Apakah jendela 4 juta yang benar-benar benar-benar meningkatkan penalaran, atau apakah itu hanya perluasan memori yang mahal? Berapa banyak input luas yang sebenarnya digunakan model ini? Dan apakah manfaatnya lebih besar daripada kenaikan biaya komputasi?
Biaya vs. Kinerja: RAG vs. PROMED BESAR: Opsi mana yang menang?
Trade-off ekonomi menggunakan kain
Rag menggabungkan kekuatan LLM dengan sistem pengambilan untuk mengambil informasi yang relevan dari basis data eksternal atau toko dokumen. Ini memungkinkan model untuk menghasilkan respons berdasarkan pengetahuan yang sudah ada sebelumnya dan data yang diambil secara dinamis.
Ketika perusahaan mengadopsi AI untuk tugas -tugas kompleks, mereka menghadapi keputusan utama: menggunakan petunjuk besar dengan jendela konteks besar, atau mengandalkan Rag untuk mengambil informasi yang relevan secara dinamis.
- Prompt besar: Model dengan jendela token besar memproses semuanya dalam satu pass dan mengurangi kebutuhan untuk mempertahankan sistem pengambilan eksternal dan menangkap wawasan lintas dokumen. Namun, pendekatan ini mahal secara komputasi, dengan biaya inferensi yang lebih tinggi dan persyaratan memori.
- RAG: Alih -alih memproses seluruh dokumen sekaligus, Rag hanya mengambil bagian yang paling relevan sebelum menghasilkan respons. Ini mengurangi penggunaan dan biaya token, membuatnya lebih terukur untuk aplikasi dunia nyata.
Membandingkan Biaya Inferensi AI: Pengambilan Multi-Langkah vs. Prompt Single Besar
Sementara petunjuk besar menyederhanakan alur kerja, mereka membutuhkan lebih banyak daya dan memori GPU, membuatnya mahal dalam skala. Pendekatan berbasis RAG, meskipun membutuhkan beberapa langkah pengambilan, sering mengurangi konsumsi token secara keseluruhan, yang mengarah pada biaya inferensi yang lebih rendah tanpa mengorbankan akurasi.
Untuk sebagian besar perusahaan, pendekatan terbaik tergantung pada kasus penggunaan:
- Butuh analisis dokumen yang mendalam? Model konteks besar dapat bekerja lebih baik.
- Butuh AI yang dapat diskalakan dan hemat biaya untuk kueri dinamis? Rag kemungkinan adalah pilihan yang lebih pintar.
Jendela konteks besar sangat berharga saat:
- Teks lengkap harus dianalisis sekaligus (mis: ulasan kontrak, audit kode).
- Meminimalkan kesalahan pengambilan sangat penting (mis: Kepatuhan peraturan).
- Latensi kurang menjadi perhatian daripada akurasi (mis: penelitian strategis).
Per Google Research, model prediksi saham menggunakan Windows 128K yang menganalisis 10 tahun transkrip pendapatan mengungguli Rag sebesar 29%. Di sisi lain, pengujian internal Github Copilot menunjukkan bahwa 2,3x penyelesaian tugas yang lebih cepat versus kain untuk migrasi monorepo.
Meruntuhkan pengembalian yang semakin berkurang
Batas model konteks besar: latensi, biaya dan kegunaan
Sementara model konteks besar menawarkan kemampuan yang mengesankan, ada batasan seberapa banyak konteks ekstra benar -benar bermanfaat. Saat Windows konteks meluas, tiga faktor utama berperan:
- Latensi: Semakin banyak token yang merupakan proses model, semakin lambat inferensi. Jendela konteks yang lebih besar dapat menyebabkan keterlambatan yang signifikan, terutama ketika respons real-time diperlukan.
- Biaya: Dengan setiap token tambahan yang diproses, biaya komputasi naik. Meningkatkan infrastruktur untuk menangani model yang lebih besar ini bisa menjadi sangat mahal, terutama untuk perusahaan dengan beban kerja volume tinggi.
- Kegunaan: Seiring tumbuhnya konteks, kemampuan model untuk secara efektif “fokus” pada informasi yang paling relevan berkurang. Hal ini dapat menyebabkan pemrosesan yang tidak efisien di mana data yang kurang relevan berdampak pada kinerja model, menghasilkan pengembalian yang berkurang untuk akurasi dan efisiensi.
Teknik Infini-Intention Google berupaya mengimbangi trade-off ini dengan menyimpan representasi terkompresi dari konteks panjang sewenang-wenang dengan memori terikat. Namun, kompresi menyebabkan kehilangan informasi, dan model berjuang untuk menyeimbangkan informasi langsung dan historis. Hal ini menyebabkan degradasi kinerja dan kenaikan biaya dibandingkan dengan kain tradisional.
Perlombaan Lengan Jendela Konteks membutuhkan arah
Sementara model 4M-Token mengesankan, perusahaan harus menggunakannya sebagai alat khusus daripada solusi universal. Masa depan terletak pada sistem hybrid yang secara adaptif memilih antara kain dan petunjuk besar.
Perusahaan harus memilih antara model konteks besar dan RAG berdasarkan kompleksitas penalaran, biaya dan latensi. Jendela konteks besar sangat ideal untuk tugas yang membutuhkan pemahaman yang mendalam, sementara Rag lebih hemat biaya dan efisien untuk tugas-tugas faktual yang lebih sederhana. Perusahaan harus menetapkan batas biaya yang jelas, seperti $ 0,50 per tugas, karena model besar bisa menjadi mahal. Selain itu, petunjuk besar lebih cocok untuk tugas offline, sedangkan sistem kain unggul dalam aplikasi real-time yang membutuhkan respons cepat.
Inovasi yang muncul seperti Graphrag dapat lebih meningkatkan sistem adaptif ini dengan mengintegrasikan grafik pengetahuan dengan metode pengambilan vektor tradisional yang lebih baik menangkap hubungan yang kompleks, meningkatkan penalaran yang bernuansa dan menjawab ketepatan hingga 35% dibandingkan dengan pendekatan khusus vektor. Implementasi terbaru oleh perusahaan seperti Lettria telah menunjukkan peningkatan dramatis dalam akurasi dari 50% dengan kain tradisional hingga lebih dari 80% menggunakan graphrag dalam sistem pengambilan hibrida.
Seperti yang diperingatkan Yuri Kuratov: “Memperluas konteks tanpa meningkatkan penalaran seperti membangun jalan raya yang lebih luas untuk mobil yang tidak bisa mengarahkan.”Masa depan AI terletak pada model yang benar -benar memahami hubungan di berbagai ukuran konteks.
Rahul Raja adalah insinyur perangkat lunak staf di LinkedIn.
Advitya Gemawat adalah insinyur pembelajaran mesin (ML) di Microsoft.