
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
OpenAI telah mengumumkan rilis GPT-4.5, yang CEO Sam Altman sebelumnya katakan akan menjadi model non-rantai terakhir (COT).
Perusahaan mengatakan model baru “bukan model perbatasan” tetapi masih merupakan model bahasa besar terbesar (LLM), dengan efisiensi komputasi yang lebih. Altman mengatakan bahwa, meskipun GPT-4.5 tidak beralasan dengan cara yang sama seperti penawaran baru Openai lainnya O1 atau O3-Mini, model baru ini masih menawarkan lebih banyak perhatian seperti manusia.
Pengamat industri, banyak di antaranya memiliki akses awal ke model baru, telah menemukan GPT-4.5 sebagai langkah yang menarik dari Openai, mengurangi harapan mereka tentang apa yang harus dapat dicapai oleh model tersebut.
Wharton Profesor dan komentator AI Ethan Mollick memposting di media sosial bahwa GPT-4.5 adalah “model yang sangat aneh dan menarik,” mencatat bahwa itu bisa “aneh malas pada proyek yang kompleks” meskipun menjadi penulis yang kuat.
Salah satu pendiri Openai dan mantan kepala Tesla AI Andrej Karpathy mencatat bahwa GPT-4.5 membuatnya ingat ketika GPT-4 keluar dan dia melihat potensi model itu. Dalam sebuah posting ke X, Karpathy mengatakan bahwa, saat menggunakan GPT 4.5, “semuanya sedikit lebih baik, dan itu luar biasa, tetapi juga tidak persis dengan cara yang sepele untuk ditunjukkan.”
Karpathy, bagaimanapun memperingatkan bahwa orang seharusnya tidak mengharapkan dampak revolusioner dari model karena “tidak mendorong kemampuan model ke depan dalam kasus -kasus di mana penalaran sangat penting (matematika, kode, dll.).”
Pikiran Industri Secara Detail
Inilah yang dikatakan Karpathy tentang iterasi GPT terbaru dalam posting panjang di x:
“Hari ini menandai pelepasan GPT4.5 oleh Openai. Saya telah menantikan ini selama ~ 2 tahun, sejak GPT4 dirilis, karena rilis ini menawarkan pengukuran kualitatif dari kemiringan perbaikan yang Anda dapatkan dari penskalaan komputasi pretraining (yaitu hanya melatih model yang lebih besar). Setiap 0,5 dalam versi kira -kira 10x pretraining compute. Sekarang, ingat bahwa GPT1 hampir tidak menghasilkan teks yang koheren. GPT2 adalah mainan yang bingung. GPT2.5 “dilewati” langsung ke GPT3, yang bahkan lebih menarik. GPT3.5 melintasi ambang batas di mana itu cukup untuk benar -benar mengirim sebagai produk dan memicu “momen chatgpt” Openai. Dan GPT4 pada gilirannya juga terasa lebih baik, tetapi saya akan mengatakan bahwa itu pasti terasa halus.
Saya ingat menjadi bagian dari hackathon yang mencoba menemukan petunjuk konkret di mana GPT4 mengungguli 3.5. Mereka pasti ada, tetapi contoh yang jelas dan konkret “slam dunk” sulit ditemukan. Itu saja … semuanya hanya sedikit lebih baik tetapi dengan cara yang tersebar. Pilihan kata sedikit lebih kreatif. Pemahaman tentang nuansa dalam prompt ditingkatkan. Analogi sedikit lebih masuk akal. Modelnya sedikit lebih lucu. Pengetahuan dan pemahaman dunia ditingkatkan di tepi domain langka. Halusinasi sedikit lebih jarang. Getarannya sedikit lebih baik. Rasanya seperti air yang naik semua kapal, di mana semuanya menjadi sedikit ditingkatkan sebesar 20%. Demikianlah dengan harapan itulah saya masuk ke pengujian GPT4.5, yang saya miliki aksesnya selama beberapa hari, dan yang melihat 10x lebih banyak pretraining komputasi daripada GPT4. Dan saya merasa seperti, sekali lagi, saya berada di hackathon yang sama 2 tahun yang lalu. Semuanya sedikit lebih baik dan luar biasa, tetapi juga tidak persis dengan cara yang sepele untuk ditunjukkan. Namun, sangat menarik dan menarik sebagai pengukuran kualitatif lain dari kemiringan kemampuan tertentu yang datang “gratis” dari hanya pretraining model yang lebih besar.
Perlu diingat bahwa GPT4.5 hanya dilatih dengan pretraining, diawasi Finetuning dan RLHF, jadi ini belum menjadi model penalaran. Oleh karena itu, rilis model ini tidak mendorong kemampuan model ke depan dalam kasus di mana penalaran sangat penting (matematika, kode, dll.). Dalam kasus -kasus ini, pelatihan dengan RL dan mendapatkan pemikiran sangat penting dan bekerja lebih baik, bahkan jika di atas model dasar yang lebih tua (misalnya kemampuan Gpt4ish atau lebih). Keadaan seni di sini tetap menjadi O1 penuh. Agaknya, Openai sekarang akan mencari untuk melatih lebih lanjut dengan pembelajaran penguatan di atas GPT4.5 untuk memungkinkannya berpikir dan mendorong kemampuan model di domain ini.
NAMUN. Kami benar -benar berharap untuk melihat peningkatan dalam tugas -tugas yang tidak beralasan, dan saya akan mengatakan itu adalah tugas -tugas yang lebih terkait dengan IQ (IQ) yang terkait dan dibotolkan oleh EG World Belly, Creativity, pembuatan analogi, pemahaman umum, humor, dll. Jadi ini adalah tugas yang paling saya minati selama cek vibe saya.
Jadi di bawah ini, saya pikir akan menyenangkan untuk menyoroti 5 petunjuk lucu/lucu yang menguji kemampuan ini, dan untuk mengaturnya menjadi “arena lm lite” interaktif di sini di X, menggunakan kombinasi gambar dan jajak pendapat di utas. Sayangnya X tidak memungkinkan Anda untuk memasukkan gambar dan jajak pendapat dalam satu posting, jadi saya harus berganti -ganti posting yang memberikan gambar (menunjukkan prompt, dan dua tanggapan satu dari 4 dan satu dari 4,5), dan jajak pendapat, di mana orang dapat memilih mana yang lebih baik. Setelah 8 jam, saya akan mengungkapkan identitas model mana yang mana. Mari kita lihat apa yang terjadi 🙂“
Pikiran CEO Kotak tentang GPT-4.5
Pengguna awal lainnya juga melihat potensi di GPT-4.5. CEO Box Aaron Levie mengatakan pada X bahwa perusahaannya menggunakan GPT-4.5 untuk membantu mengekstrak data terstruktur dan metadata dari konten perusahaan yang kompleks.
“Terobosan AI terus datang. Openai baru saja mengumumkan GPT-4.5, dan kami akan membuatnya tersedia untuk membuat pelanggan kotak hari ini di kotak AI Studio.
Kami telah menguji GPT4.5 dalam mode akses awal dengan kotak AI untuk perusahaan penggunaan data yang tidak terstruktur perusahaan tingkat lanjut, dan telah melihat hasil yang kuat. Dengan Box AI Enterprise Eval, kami menguji model terhadap berbagai skenario yang berbeda, seperti akurasi tanya jawab, kemampuan penalaran dan banyak lagi. Secara khusus, untuk mengeksplorasi kemampuan GPT-4.5, kami fokus pada bidang utama dengan potensi signifikan untuk dampak perusahaan: ekstraksi data terstruktur, atau ekstraksi metadata, dari konten perusahaan yang kompleks.
Di Box, kami dengan ketat mengevaluasi model ekstraksi data menggunakan beberapa dataset kelas perusahaan. Salah satu dataset utama yang kami manfaatkan adalah Cuad, yang terdiri dari lebih dari 510 kontrak hukum komersial. Dalam dataset ini, Box telah mengidentifikasi 17.000 bidang yang dapat diekstraksi dari konten yang tidak terstruktur dan mengevaluasi model berdasarkan ekstraksi tembakan tunggal untuk bidang ini (ini adalah tes tersulit kami, di mana model hanya memiliki kesempatan untuk mengekstrak semua metadata dalam satu pass vs mengambil beberapa upaya). Dalam pengujian kami, GPT-4.5 dengan benar mengekstraksi 19 poin persentase lebih banyak bidang secara akurat dibandingkan dengan GPT-4O, menyoroti peningkatan kemampuannya untuk menangani data kontrak yang bernuansa.
Selanjutnya, untuk memastikan GPT-4.5 dapat menangani tuntutan konten perusahaan dunia nyata, kami mengevaluasi kinerjanya terhadap serangkaian dokumen yang lebih ketat, set tantangan Box sendiri. Kami memilih sebagian dari kontrak hukum yang kompleks-yang memiliki konten multi-modal, informasi dan panjang kepadatan tinggi melebihi 200 halaman-untuk mewakili beberapa skenario paling sulit yang dihadapi pelanggan kami. Pada set tantangan ini, GPT-4.5 juga secara konsisten mengungguli GPT-4O dalam mengekstraksi bidang kunci dengan akurasi yang lebih tinggi, menunjukkan kemampuan superiornya untuk menangani dokumen hukum yang rumit dan bernuansa.
Secara keseluruhan, kami melihat hasil yang kuat dengan GPT-4.5 untuk data perusahaan yang kompleks, yang akan membuka lebih banyak kasus penggunaan di perusahaan.“
Pertanyaan tentang Harga dan Pentingnya
Bahkan ketika pengguna awal menemukan GPT-4.5 dapat diterapkan-meskipun agak malas-mereka mempertanyakan rilisnya.
Misalnya, kritikus Openai terkemuka Gary Marcus menyebut GPT-4.5 sebagai “tidak ada yang tidak ada” di Bluesky.
CEO Face Memeluk Clement Delangue berkomentar bahwa sumber sumber tertutup GPT4.5 membuatnya “meh.”
Namun, banyak yang mencatat bahwa GPT-4.5 tidak ada hubungannya dengan kinerjanya. Sebaliknya, orang mempertanyakan mengapa Openai akan merilis model yang sangat mahal sehingga hampir menjadi penghalang untuk digunakan tetapi tidak sekuat model lainnya.
Seorang pengguna berkomentar di X: “Jadi Anda memberi tahu saya GPT-4.5 bernilai lebih dari O1 namun tidak berkinerja baik pada tolok ukur…. Masuk akal. “
Pengguna X lainnya mengemukakan teori bahwa biaya token tinggi dapat mencegah pesaing seperti Deepseek “untuk menyaring model 4.5.”
Deepseek menjadi pesaing besar melawan Openai pada bulan Januari, dengan para pemimpin industri menemukan Deepseek-R1 alasan untuk menjadi mampu seperti Openai-tetapi lebih terjangkau.