
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Rilis Openai GPT-4.5 agak mengecewakan, dengan banyak yang menunjukkan titik harga gila (sekitar 10 hingga 20x lebih mahal daripada Claude 3.7 soneta dan 15 hingga 30x lebih mahal daripada GPT-4O).
Namun, mengingat bahwa ini adalah model non-reasoning terbesar dan paling kuat Openai, ada baiknya mempertimbangkan kekuatannya dan area di mana ia bersinar.
Pengetahuan dan kesejajaran yang lebih baik
Ada sedikit detail tentang arsitektur model atau corpus pelatihan, tetapi kami memiliki perkiraan kasar bahwa itu telah dilatih dengan 10x lebih komputasi. Dan, modelnya sangat besar sehingga Openai perlu menyebarkan pelatihan di berbagai pusat data untuk menyelesaikan dalam waktu yang wajar.
Model yang lebih besar memiliki kapasitas yang lebih besar untuk belajar pengetahuan dunia dan nuansa bahasa manusia (mengingat bahwa mereka memiliki akses ke data pelatihan berkualitas tinggi). Ini terbukti dalam beberapa metrik yang disajikan oleh tim Openai. Misalnya, GPT-4.5 memiliki peringkat tertinggi pada PersonQA, tolok ukur yang mengevaluasi halusinasi dalam model AI.
Eksperimen praktis juga menunjukkan bahwa GPT-4.5 lebih baik daripada model tujuan umum lainnya yang tetap setia pada fakta dan mengikuti instruksi pengguna.
Pengguna telah menunjukkan bahwa tanggapan GPT-4.5 terasa lebih alami dan sadar konteks daripada model sebelumnya. Kemampuannya untuk mengikuti pedoman nada dan gaya juga telah meningkat.
Setelah rilis GPT-4.5, ilmuwan AI dan co-founder Openai Andrej Karpathy, yang memiliki akses awal ke model, mengatakan dia “berharap[ed] Untuk melihat peningkatan dalam tugas yang tidak beralasan berat, dan saya akan mengatakan itu adalah tugas yang lebih terkait dengan IQ) terkait dan dibotolkan oleh pengetahuan dunia, kreativitas, pembuatan analogi, pemahaman umum, humor, dll. “
Namun, mengevaluasi kualitas penulisan juga sangat subyektif. Dalam sebuah survei bahwa Karpathy berlari pada petunjuk yang berbeda, kebanyakan orang lebih suka tanggapan GPT-4O daripada GPT-4.5. Dia menulis di X: “Entah penguji rasa sakit tinggi memperhatikan struktur yang baru dan unik tetapi yang rasanya rendah sangat membanjiri jajak pendapat. Atau kami hanya berhalusinasi. Atau contoh -contoh ini tidak terlalu bagus. Atau sebenarnya cukup dekat dan ini adalah ukuran sampel yang terlalu kecil. Atau semua hal di atas. “
Pemrosesan dokumen yang lebih baik
Dalam eksperimennya, Box, yang telah mengintegrasikan GPT-4.5 ke dalam produk Kotak AI Studio, menulis bahwa GPT-4.5 adalah “sangat kuat untuk kasus penggunaan perusahaan, di mana keakuratan dan integritas sangat penting … pengujian kami menunjukkan bahwa GPT-4.5 adalah salah satu model terbaik yang tersedia baik dalam hal skor eval kami dan juga kemampuannya untuk menangani banyak pertanyaan yang paling keras dari AI yang keras.
Dalam evaluasi internalnya, Box menemukan GPT-4.5 lebih akurat pada tugas-tugas yang dijawab dengan dokumen perusahaan-mengungguli GPT-4 asli dengan sekitar 4 poin persentase pada set tes mereka.

Tes Box juga menunjukkan bahwa GPT-4.5 unggul dalam pertanyaan matematika yang tertanam dalam dokumen bisnis, yang sering dihadapi oleh model GPT yang lebih tua. Misalnya, lebih baik dalam menjawab pertanyaan tentang dokumen keuangan yang membutuhkan penalaran atas data dan melakukan perhitungan.
GPT-4.5 juga menunjukkan peningkatan kinerja dalam mengekstraksi informasi dari data yang tidak terstruktur. Dalam tes yang melibatkan mengekstraksi bidang dari ratusan dokumen hukum, GPT-4.5 adalah 19% lebih akurat daripada GPT-4O.
Perencanaan, pengkodean, mengevaluasi hasil
Mengingat pengetahuan dunianya yang lebih baik, GPT-4.5 juga bisa menjadi model yang cocok untuk membuat rencana tingkat tinggi untuk tugas-tugas kompleks. Langkah-langkah yang rusak kemudian dapat diserahkan ke model yang lebih kecil tetapi lebih efisien untuk menjelaskan dan mengeksekusi.
Menurut Constellation Research, “Dalam pengujian awal, GPT-4.5 tampaknya menunjukkan kemampuan yang kuat dalam perencanaan dan eksekusi agen, termasuk alur kerja pengkodean multi-langkah dan otomatisasi tugas yang kompleks.”
GPT-4.5 juga dapat berguna dalam tugas pengkodean yang membutuhkan pengetahuan internal dan kontekstual. GitHub sekarang menyediakan akses terbatas ke model dalam asisten pengkodean kopilot dan mencatat bahwa GPT-4.5 “melakukan secara efektif dengan petunjuk kreatif dan memberikan respons yang andal terhadap kueri pengetahuan yang tidak jelas.”
Mengingat pengetahuan dunia yang lebih dalam, GPT-4.5 juga cocok untuk tugas “LLM-AS-A-Hakim”, di mana model yang kuat mengevaluasi output dari model yang lebih kecil. Misalnya, model seperti GPT-4O atau O3 dapat menghasilkan satu atau beberapa tanggapan, alasan atas solusi dan memberikan jawaban akhir untuk GPT-4.5 untuk revisi dan penyempurnaan.
Apakah itu sepadan dengan harganya?
Namun, mengingat biaya besar GPT-4.5, sangat sulit untuk membenarkan banyak kasus penggunaan. Tapi itu tidak berarti itu akan tetap seperti itu. Salah satu tren konstan yang telah kita lihat dalam beberapa tahun terakhir adalah biaya inferensi yang anjlok, dan jika tren ini berlaku untuk GPT-4.5, ada baiknya bereksperimen dengannya dan menemukan cara untuk menggunakan kekuatannya untuk digunakan dalam aplikasi perusahaan.
Perlu juga dicatat bahwa model baru ini dapat menjadi dasar untuk model penalaran di masa depan. Per karpati: “Perlu diingat bahwa GPT4.5 hanya dilatih dengan pretraining, diawasi finetuning dan rlhf [reinforcement learning from human feedback]jadi ini belum menjadi model penalaran. Oleh karena itu, rilis model ini tidak mendorong kemampuan model ke depan dalam kasus-kasus di mana penalaran sangat penting (matematika, kode, dll.) … Agaknya, OpenAI sekarang akan mencari untuk melatih lebih lanjut dengan pembelajaran penguatan di atas model GPT-4.5 untuk memungkinkannya berpikir, dan mendorong kemampuan model dalam domain ini. “