
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Deepseek-R1 pasti telah menciptakan banyak kegembiraan dan perhatian, terutama untuk model saingan Openai O1. Jadi, kami menempatkan mereka untuk menguji dalam perbandingan berdampingan pada beberapa analisis data sederhana dan tugas riset pasar.
Untuk menempatkan model pada pijakan yang sama, kami menggunakan pencarian keberanian Pro, yang sekarang mendukung O1 dan R1. Tujuan kami adalah untuk melihat melampaui tolok ukur dan melihat apakah model -model tersebut benar -benar dapat melakukan tugas -tugas ad hoc yang memerlukan pengumpulan informasi dari web, memilih bagian data yang tepat dan melakukan tugas -tugas sederhana yang membutuhkan upaya manual yang substansial.
Kedua model itu mengesankan tetapi membuat kesalahan ketika dorongan tidak memiliki kekhususan. O1 sedikit lebih baik dalam tugas penalaran tetapi transparansi R1 memberikannya keunggulan dalam kasus (dan akan ada beberapa) di mana ia membuat kesalahan.
Berikut ini adalah rincian dari beberapa percobaan kami dan tautan ke halaman -halaman kebingungan di mana Anda dapat meninjau hasilnya sendiri.
Menghitung pengembalian investasi dari web
Tes pertama kami diukur apakah model dapat menghitung pengembalian investasi (ROI). Kami mempertimbangkan skenario di mana pengguna telah menginvestasikan $ 140 dalam tujuh yang luar biasa (Alphabet, Amazon, Apple, Meta, Microsoft, Nvidia, Tesla) pada hari pertama setiap bulan dari Januari hingga Desember 2024. Kami meminta model untuk menghitung nilainya dari portofolio pada tanggal saat ini.
Untuk menyelesaikan tugas ini, model harus menarik informasi harga mag 7 untuk hari pertama setiap bulan, membagi investasi bulanan secara merata di seluruh saham ($ 20 per saham), jumlahnya dan hitung nilai portofolio sesuai dengan nilai dari Saham pada tanggal saat ini.
Dalam tugas ini, kedua model gagal. O1 mengembalikan daftar harga saham untuk Januari 2024 dan Januari 2025 bersama dengan formula untuk menghitung nilai portofolio. Namun, gagal menghitung nilai yang benar dan pada dasarnya mengatakan bahwa tidak akan ada ROI. Di sisi lain, R1 membuat kesalahan hanya berinvestasi pada Januari 2024 dan menghitung pengembalian untuk Januari 2025.
Namun, yang menarik adalah proses penalaran model. Sementara O1 tidak memberikan banyak rincian tentang bagaimana ia telah mencapai hasilnya, penalaran R1 yang dilacak menunjukkan bahwa ia tidak memiliki informasi yang benar karena mesin pengambilan kebingungan telah gagal mendapatkan data bulanan untuk harga saham (banyak aplikasi pembangkitan pengambil karena model kurangnya kemampuan tetapi karena pengambilan yang buruk). Ini terbukti menjadi sedikit umpan balik penting yang membawa kami ke percobaan berikutnya.

Penalaran atas konten file
Kami memutuskan untuk menjalankan percobaan yang sama seperti sebelumnya, tetapi alih -alih meminta model untuk mengambil informasi dari web, kami memutuskan untuk menyediakannya dalam file teks. Untuk ini, kami menyalin data bulanan saham pasted untuk setiap saham dari Yahoo! Keuangan menjadi file teks dan memberikannya kepada model. File tersebut berisi nama setiap saham ditambah tabel HTML yang berisi harga untuk hari pertama setiap bulan dari Januari hingga Desember 2024 dan harga yang tercatat terakhir. Data tidak dibersihkan untuk mengurangi upaya manual dan menguji apakah model dapat memilih bagian yang tepat dari data.
Sekali lagi, kedua model gagal memberikan jawaban yang tepat. O1 tampaknya telah mengekstraksi data dari file, tetapi menyarankan perhitungan dilakukan secara manual dalam alat seperti Excel. Jejak alasannya sangat kabur dan tidak mengandung informasi yang berguna untuk memecahkan masalah model. R1 juga gagal dan tidak memberikan jawaban, tetapi penalaran jejak berisi banyak informasi yang berguna.
Misalnya, jelas bahwa model tersebut telah dengan benar menguraikan data HTML untuk setiap stok dan dapat mengekstraksi informasi yang benar. Itu juga mampu melakukan perhitungan investasi dari bulan ke bulan, menjumlahkannya dan menghitung nilai akhir sesuai dengan harga saham terbaru dalam tabel. Namun, nilai akhir itu tetap dalam rantai penalaran dan gagal membuatnya menjadi jawaban akhir. Model ini juga telah dikacaukan oleh barisan di grafik NVIDIA yang telah menandai perpecahan stok 10: 1 perusahaan pada 10 Juni 2024, dan akhirnya salah menghitung nilai akhir portofolio.

Sekali lagi, pembeda yang sebenarnya bukanlah hasilnya, tetapi kemampuan untuk menyelidiki bagaimana model mencapai tanggapannya. Dalam hal ini, R1 memberi kami pengalaman yang lebih baik, memungkinkan kami untuk memahami keterbatasan model dan bagaimana kami dapat merumuskan kembali prompt kami dan memformat data kami untuk mendapatkan hasil yang lebih baik di masa depan.
Membandingkan data melalui web
Eksperimen lain yang kami lakukan mengharuskan model untuk membandingkan statistik dari empat pusat NBA terkemuka dan menentukan mana yang memiliki peningkatan terbaik dalam persentase sasaran lapangan (FG%) dari 2022/2023 hingga musim 2023/2024. Tugas ini mengharuskan model untuk melakukan penalaran multi-langkah atas berbagai titik data. Tangkapan di prompt adalah bahwa itu termasuk Victor Wembanyama, yang baru saja memasuki liga sebagai pemula pada tahun 2023.
Pengambilan untuk prompt ini jauh lebih mudah, karena statistik pemain banyak dilaporkan di web dan biasanya termasuk dalam profil Wikipedia dan NBA mereka. Kedua model menjawab dengan benar (ini adalah Giannis jika Anda penasaran), meskipun tergantung pada sumber yang mereka gunakan, angka mereka sedikit berbeda. Namun, mereka tidak menyadari bahwa Wemby tidak memenuhi syarat untuk perbandingan dan mengumpulkan statistik lain dari waktunya di Liga Eropa.
Dalam jawabannya, R1 memberikan rincian hasil yang lebih baik dengan tabel perbandingan bersama dengan tautan ke sumber yang digunakan untuk jawabannya. Konteks yang ditambahkan memungkinkan kami untuk memperbaiki prompt. Setelah kami memodifikasi prompt yang menetapkan bahwa kami mencari FG% dari musim NBA, model tersebut mengesampingkan Wemby dengan benar dari hasilnya.

Putusan akhir
Model penalaran adalah alat yang kuat, tetapi masih memiliki cara untuk dilalui sebelum dapat sepenuhnya dipercaya dengan tugas, terutama karena komponen lain dari aplikasi model bahasa besar (LLM) terus berkembang. Dari eksperimen kami, baik O1 dan R1 masih dapat membuat kesalahan dasar. Meskipun menunjukkan hasil yang mengesankan, mereka masih membutuhkan sedikit pegangan untuk memberikan hasil yang akurat.
Idealnya, model penalaran harus dapat menjelaskan kepada pengguna ketika tidak memiliki informasi untuk tugas tersebut. Atau, penalaran jejak model harus dapat memandu pengguna untuk lebih memahami kesalahan dan memperbaiki petunjuk mereka untuk meningkatkan akurasi dan stabilitas tanggapan model. Dalam hal ini, R1 lebih unggul. Mudah -mudahan, model penalaran di masa depan, termasuk seri O3 Openai yang akan datang, akan memberikan lebih banyak visibilitas dan kontrol kepada pengguna.