
Bergabunglah dengan acara yang dipercaya oleh para pemimpin perusahaan selama hampir dua dekade. VB Transform menyatukan orang -orang yang membangun strategi AI perusahaan nyata. Pelajari lebih lanjut
Proyek visi komputer jarang berjalan persis seperti yang direncanakan, dan yang ini tidak terkecuali. Idenya sederhana: membangun model yang dapat melihat foto laptop dan mengidentifikasi kerusakan fisik – hal -hal seperti layar retak, kunci yang hilang atau engsel yang rusak. Tampaknya seperti kasus penggunaan langsung untuk model gambar dan model bahasa besar (LLM), tetapi dengan cepat berubah menjadi sesuatu yang lebih rumit.
Sepanjang jalan, kami mengalami masalah dengan halusinasi, output dan gambar yang tidak dapat diandalkan yang bahkan bukan laptop. Untuk menyelesaikan ini, kami akhirnya menerapkan kerangka kerja agen dengan cara yang tidak lazim – bukan untuk otomatisasi tugas, tetapi untuk meningkatkan kinerja model.
Dalam posting ini, kami akan berjalan melalui apa yang kami coba, apa yang tidak berhasil dan bagaimana kombinasi pendekatan akhirnya membantu kami membangun sesuatu yang dapat diandalkan.
Di mana kami mulai: diminta monolitik
Pendekatan awal kami cukup standar untuk model multimodal. Kami menggunakan satu, prompt besar untuk meneruskan gambar ke LLM yang mampu gambar dan memintanya untuk mengidentifikasi kerusakan yang terlihat. Strategi yang diminta monolitik ini mudah diimplementasikan dan berfungsi dengan baik untuk tugas-tugas yang bersih dan terdefinisi dengan baik. Tapi data dunia nyata jarang diputar bersama.
Kami mengalami tiga masalah utama sejak awal:
- Halusinasi: Model itu kadang -kadang akan menemukan kerusakan yang tidak ada atau salah label apa yang dilihatnya.
- Deteksi gambar sampah: Tidak ada cara yang dapat diandalkan untuk menandai gambar yang bahkan bukan laptop, seperti gambar meja, dinding atau orang yang sesekali tergelincir dan menerima laporan kerusakan yang tidak masuk akal.
- Akurasi yang tidak konsisten: Kombinasi masalah ini membuat model terlalu tidak dapat diandalkan untuk penggunaan operasional.
Inilah titik ketika menjadi jelas bahwa kita perlu mengulangi.
Perbaikan Pertama: Memadukan Resolusi Gambar
Satu hal yang kami perhatikan adalah seberapa banyak kualitas gambar mempengaruhi output model. Pengguna mengunggah semua jenis gambar mulai dari yang tajam dan beresolusi tinggi hingga buram. Ini membuat kami merujuk pada penelitian yang menyoroti bagaimana resolusi gambar berdampak pada model pembelajaran yang mendalam.
Kami melatih dan menguji model menggunakan campuran gambar resolusi tinggi dan rendah. Idenya adalah untuk membuat model lebih tangguh terhadap berbagai kualitas gambar yang akan ditemui dalam praktik. Ini membantu meningkatkan konsistensi, tetapi masalah inti halusinasi dan penanganan gambar sampah bertahan.
The Multimodal Detour: Text-only LLM Goes Multimodal
Didorong oleh eksperimen terbaru dalam menggabungkan captioning gambar dengan llms khusus teks-seperti teknik yang dibahas Batchdi mana keterangan dihasilkan dari gambar dan kemudian ditafsirkan oleh model bahasa, kami memutuskan untuk mencobanya.
Begini cara kerjanya:
- LLM dimulai dengan menghasilkan beberapa teks yang mungkin untuk suatu gambar.
- Model lain, yang disebut model embedding multimodal, memeriksa seberapa baik setiap teks sesuai dengan gambar. Dalam hal ini, kami menggunakan Siglip untuk mencetak kesamaan antara gambar dan teks.
- Sistem menjaga beberapa keterangan teratas berdasarkan skor ini.
- LLM menggunakan keterangan teratas itu untuk menulis yang baru, mencoba untuk lebih dekat dengan apa yang sebenarnya ditunjukkan oleh gambar.
- Ini mengulangi proses ini sampai keterangan berhenti membaik, atau mencapai batas yang ditetapkan.
Sementara pintar dalam teori, pendekatan ini memperkenalkan masalah baru untuk kasus penggunaan kami:
- Halusinasi yang gigih: Keterangan itu sendiri kadang -kadang termasuk kerusakan imajiner, yang kemudian dilaporkan oleh LLM.
- Cakupan yang tidak lengkap: Bahkan dengan beberapa teks, beberapa masalah terlewatkan sepenuhnya.
- Peningkatan kompleksitas, sedikit manfaat: Langkah -langkah yang ditambahkan membuat sistem lebih rumit tanpa mengungguli pengaturan sebelumnya.
Itu adalah percobaan yang menarik, tetapi pada akhirnya bukan solusi.
Penggunaan kreatif kerangka kerja agen
Ini adalah titik balik. Sementara kerangka kerja agen biasanya digunakan untuk mengatur aliran tugas (pikirkan agen yang mengoordinasikan undangan kalender atau tindakan layanan pelanggan), kami bertanya -tanya apakah memecah tugas interpretasi gambar menjadi agen khusus yang lebih kecil dapat membantu.
Kami membangun kerangka kerja agen yang terstruktur seperti ini:
- Agen orkestrator: Itu memeriksa gambar dan mengidentifikasi komponen laptop mana yang terlihat (layar, keyboard, sasis, port).
- Agen komponen: Agen khusus memeriksa setiap komponen untuk jenis kerusakan tertentu; Misalnya, satu untuk layar retak, yang lain untuk kunci yang hilang.
- Agen deteksi sampah: Agen terpisah menandai apakah gambar itu bahkan laptop di tempat pertama.
Pendekatan modular yang digerakkan oleh tugas ini menghasilkan hasil yang jauh lebih tepat dan dapat dijelaskan. Halusinasi turun secara dramatis, gambar sampah ditandai dengan andal dan tugas masing -masing agen sederhana dan cukup fokus untuk mengontrol kualitas dengan baik.
The Blind Spots: Pertukaran dari pendekatan agen
Sama efektifnya dengan ini, itu tidak sempurna. Dua batasan utama muncul:
- Peningkatan latensi: Menjalankan beberapa agen berurutan ditambahkan ke waktu inferensi total.
- Kesenjangan cakupan: Agen hanya dapat mendeteksi masalah yang mereka diprogram secara eksplisit untuk dicari. Jika suatu gambar menunjukkan sesuatu yang tidak terduga bahwa tidak ada agen yang ditugaskan mengidentifikasi, itu akan luput dari perhatian.
Kami membutuhkan cara untuk menyeimbangkan presisi dengan cakupan.
Solusi hibrida: Menggabungkan pendekatan agen dan monolitik
Untuk menjembatani kesenjangan, kami menciptakan sistem hybrid:
- Itu kerangka kerja agen Berlari lebih dulu, menangani deteksi yang tepat dari jenis kerusakan yang diketahui dan gambar sampah. Kami membatasi jumlah agen pada yang paling penting untuk meningkatkan latensi.
- Lalu, a gambar monolitik llm prompt memindai gambar untuk hal lain yang mungkin dilewatkan oleh agen.
- Akhirnya, kami Menyetel model Menggunakan serangkaian gambar yang dikuratori untuk kasus penggunaan prioritas tinggi, seperti skenario kerusakan yang sering dilaporkan, untuk lebih meningkatkan akurasi dan keandalan.
Kombinasi ini memberi kami ketepatan dan kemampuan penjelasan dari pengaturan agen, cakupan luas dari dorongan monolitik dan peningkatan kepercayaan diri dari penyempurnaan yang ditargetkan.
Apa yang kami pelajari
Beberapa hal menjadi jelas pada saat kami menyelesaikan proyek ini:
- Kerangka kerja agen lebih fleksibel daripada yang mereka dapatkan kredit: Meskipun mereka biasanya dikaitkan dengan manajemen alur kerja, kami menemukan bahwa mereka dapat secara bermakna meningkatkan kinerja model ketika diterapkan dengan cara modular yang terstruktur.
- Memadukan pendekatan yang berbeda ketukan hanya mengandalkan satu: Kombinasi dari deteksi berbasis agen yang tepat di samping cakupan luas LLMS, ditambah sedikit penyesuaian di tempat yang paling penting, memberi kami hasil yang jauh lebih dapat diandalkan daripada metode tunggal sendiri.
- Model visual rentan terhadap halusinasi: Bahkan pengaturan yang lebih maju dapat melompat ke kesimpulan atau melihat hal -hal yang tidak ada. Dibutuhkan desain sistem yang bijaksana untuk menjaga kesalahan itu tetap terkendali.
- Variasi kualitas gambar membuat perbedaan: Pelatihan dan pengujian dengan gambar yang jelas dan beresolusi tinggi dan sehari-hari, yang berkualitas lebih rendah membantu model tetap tangguh ketika dihadapkan dengan foto-foto dunia nyata yang tidak terduga.
- Anda membutuhkan cara untuk menangkap gambar sampah: Cek khusus untuk sampah atau gambar yang tidak terkait adalah salah satu perubahan paling sederhana yang kami buat, dan itu memiliki dampak yang sangat besar pada keandalan sistem secara keseluruhan.
Pikiran terakhir
Apa yang dimulai sebagai ide sederhana, menggunakan prompt LLM untuk mendeteksi kerusakan fisik dalam gambar laptop, dengan cepat berubah menjadi percobaan yang jauh lebih dalam dalam menggabungkan teknik AI yang berbeda untuk mengatasi masalah dunia nyata yang tidak dapat diprediksi. Sepanjang jalan, kami menyadari bahwa beberapa alat yang paling berguna adalah yang awalnya tidak dirancang untuk jenis pekerjaan ini.
Kerangka kerja agen, sering dipandang sebagai utilitas alur kerja, terbukti sangat efektif ketika digunakan kembali untuk tugas -tugas seperti deteksi kerusakan terstruktur dan pemfilteran gambar. Dengan sedikit kreativitas, mereka membantu kami membangun sistem yang tidak hanya lebih akurat, tetapi lebih mudah dipahami dan dikelola dalam praktik.
Shruti Tiwari adalah manajer produk AI di Dell Technologies.
Vadiraj Kulkarni adalah ilmuwan data di Dell Technologies.