
Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Diffbot, sebuah perusahaan kecil di Silicon Valley yang terkenal karena mengelola salah satu indeks pengetahuan web terbesar di dunia, hari ini mengumumkan peluncuran model AI baru yang menjanjikan untuk mengatasi salah satu tantangan terbesar di bidang ini: akurasi faktual.
Model baru ini, versi Meta LLama 3.3 yang disempurnakan, adalah implementasi sumber terbuka pertama dari sistem yang dikenal sebagai graph retrieval-augmented generation, atau GraphRAG.
Tidak seperti model AI konvensional, yang hanya mengandalkan sejumlah besar data pelatihan yang dimuat sebelumnya, LLM Diffbot memanfaatkan informasi real-time dari Grafik Pengetahuan perusahaan, sebuah database yang terus diperbarui yang berisi lebih dari satu triliun fakta yang saling berhubungan.
“Kami mempunyai tesis: pada akhirnya penalaran untuk tujuan umum akan disaring menjadi sekitar 1 miliar parameter,” kata Mike Tung, pendiri dan CEO Diffbot, dalam sebuah wawancara dengan VentureBeat. “Anda sebenarnya tidak menginginkan pengetahuan dalam model tersebut. Anda ingin modelnya mahir dalam menggunakan alat sehingga dapat menanyakan pengetahuan secara eksternal.”
Bagaimana cara kerjanya
Grafik Pengetahuan Diffbot adalah database otomatis dan luas yang telah merayapi web publik sejak tahun 2016. Grafik ini mengkategorikan halaman web ke dalam entitas seperti orang, perusahaan, produk, dan artikel, mengekstraksi informasi terstruktur menggunakan kombinasi visi komputer dan pemrosesan bahasa alami.
Setiap empat hingga lima hari, Grafik Pengetahuan diperbarui dengan jutaan fakta baru, sehingga memastikan Grafik Pengetahuan tetap terkini. Model AI Diffbot memanfaatkan sumber daya ini dengan membuat kueri grafik secara real-time untuk mengambil informasi, dibandingkan mengandalkan pengetahuan statis yang dikodekan dalam data pelatihannya.
Misalnya, ketika ditanya tentang peristiwa berita terkini, model dapat mencari pembaruan terkini di web, mengekstrak fakta yang relevan, dan mengutip sumber asli. Proses ini dirancang untuk membuat sistem lebih akurat dan transparan dibandingkan LLM tradisional.
“Bayangkan bertanya kepada AI tentang cuaca,” kata Tung. “Alih-alih menghasilkan jawaban berdasarkan data pelatihan yang sudah ketinggalan zaman, model kami menanyakan layanan cuaca langsung dan memberikan respons berdasarkan informasi waktu nyata.”
Bagaimana Grafik Pengetahuan Diffbot mengalahkan AI tradisional dalam menemukan fakta
Dalam pengujian benchmark, pendekatan Diffbot tampaknya membuahkan hasil. Perusahaan melaporkan modelnya mencapai skor akurasi 81% pada FreshQA, tolok ukur buatan Google untuk menguji pengetahuan faktual real-time, melampaui ChatGPT dan Gemini. Ia juga mendapat skor 70,36% pada MMLU-Pro, versi tes standar pengetahuan akademis yang lebih sulit.
Mungkin yang paling penting, Diffbot menjadikan modelnya sepenuhnya open-source, memungkinkan perusahaan menjalankannya di perangkat keras mereka sendiri dan menyesuaikannya dengan kebutuhan mereka. Hal ini menjawab kekhawatiran yang semakin besar mengenai privasi data dan keterikatan vendor dengan penyedia AI besar.
“Anda dapat menjalankannya secara lokal di mesin Anda,” kata Tung. “Tidak mungkin Anda dapat menjalankan Google Gemini tanpa mengirimkan data Anda ke Google dan mengirimkannya ke luar lokasi Anda.”
AI sumber terbuka dapat mengubah cara perusahaan menangani data sensitif
Peluncuran ini dilakukan pada momen penting dalam pengembangan AI. Beberapa bulan terakhir ini terdapat banyak kritik terhadap kecenderungan model bahasa besar untuk “berhalusinasi” atau menghasilkan informasi palsu, bahkan ketika perusahaan terus meningkatkan ukuran model. Pendekatan Diffbot menyarankan jalan alternatif ke depan, yang berfokus pada mendasarkan sistem AI pada fakta yang dapat diverifikasi daripada mencoba mengkodekan semua pengetahuan manusia dalam jaringan saraf.
“Tidak semua orang hanya menginginkan model yang semakin besar,” kata Tung. “Anda dapat memiliki model yang memiliki kemampuan lebih dari model besar dengan pendekatan non-intuitif seperti kami.”
Pakar industri mencatat bahwa pendekatan berbasis Grafik Pengetahuan Diffbot bisa sangat bermanfaat untuk aplikasi perusahaan yang mengutamakan akurasi dan kemampuan audit. Perusahaan ini sudah menyediakan layanan data ke perusahaan-perusahaan besar termasuk Cisco, DuckDuckGo, dan Snapchat.
Model ini segera tersedia melalui rilis sumber terbuka di GitHub dan dapat diuji melalui demo publik di diffy.chat. Bagi organisasi yang ingin menerapkannya secara internal, Diffbot mengatakan versi yang lebih kecil dengan 8 miliar parameter dapat berjalan pada satu GPU Nvidia A100, sedangkan versi penuh dengan 70 miliar parameter memerlukan dua GPU H100.
Ke depan, Tung percaya bahwa masa depan AI tidak terletak pada model yang semakin besar, namun pada cara yang lebih baik dalam mengatur dan mengakses pengetahuan manusia: “Fakta menjadi membosankan. Banyak dari fakta-fakta ini yang akan dipindahkan ke tempat-tempat eksplisit di mana Anda benar-benar dapat mengubah pengetahuan dan di mana Anda dapat memperoleh asal data.”
Saat industri AI bergulat dengan tantangan seputar keakuratan dan transparansi faktual, peluncuran Diffbot menawarkan alternatif menarik terhadap paradigma dominan yang lebih besar adalah lebih baik. Masih harus dilihat apakah teknologi ini berhasil mengubah arah industri, namun hal ini jelas menunjukkan bahwa dalam hal AI, ukuran bukanlah segalanya.