
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Openai hari ini mengumumkan pada akun yang berfokus pada pengembang di Jejaring Sosial X bahwa pengembang perangkat lunak pihak ketiga di luar perusahaan sekarang dapat mengakses penguatan penguatan (RFT) untuk model penalaran bahasa O4-Mini yang baru, memungkinkan mereka untuk menyesuaikan versi baru yang didasarkan pada produk unik perusahaan mereka, terminologi internal, tujuan, karyawan, proses, dan banyak lagi.
Pada dasarnya, kemampuan ini memungkinkan pengembang mengambil model yang tersedia untuk masyarakat umum dan mengubahnya agar lebih sesuai dengan kebutuhan mereka menggunakan dasbor platform OpenAI.
Kemudian, mereka dapat menggunakannya melalui Openai's Application Programming Interface (API), bagian lain dari platform pengembangnya, dan menghubungkannya ke komputer, database, dan aplikasi karyawan internal mereka.
Setelah dikerahkan, jika seorang karyawan atau pemimpin di perusahaan ingin menggunakannya melalui chatbot internal khusus atau OpenAi GPT khusus untuk menarik pengetahuan perusahaan pribadi dan hak milik; atau untuk menjawab pertanyaan spesifik tentang produk dan kebijakan perusahaan; Atau menghasilkan komunikasi dan jaminan baru dalam suara perusahaan, mereka dapat melakukannya dengan lebih mudah dengan versi model RFT mereka.
Namun, satu catatan peringatan: Penelitian telah menunjukkan bahwa model yang disesuaikan mungkin lebih rentan terhadap jailbreak dan halusinasi, jadi lanjutkan dengan hati-hati!
Peluncuran ini memperluas alat optimisasi model perusahaan di luar fine-tuning (SFT) yang diawasi dan memperkenalkan kontrol yang lebih fleksibel untuk tugas yang kompleks dan khusus domain.
Selain itu, OpenAI mengumumkan bahwa fine-tuning yang diawasi sekarang didukung untuk model Nano GPT-4.1-nya, penawaran paling terjangkau dan tercepat perusahaan hingga saat ini.
Bagaimana cara penguatan tunning (RFT) membantu organisasi dan perusahaan?
RFT membuat versi baru dari model penalaran O4-Mini Openai yang secara otomatis disesuaikan dengan tujuan pengguna, atau usaha/organisasi mereka.
Ia melakukannya dengan menerapkan loop umpan balik selama pelatihan, yang pengembang di perusahaan besar (atau bahkan pengembang independen yang bekerja sendiri) sekarang dapat memulai relatif, dengan mudah, dan terjangkau melalui platform pengembang online Openai.
Alih -alih melatih serangkaian pertanyaan dengan jawaban yang benar yang benar – yang merupakan apa yang dilakukan pembelajaran yang diawasi tradisional – RFT menggunakan model grader untuk mencetak beberapa tanggapan kandidat per prompt.
Algoritma pelatihan kemudian menyesuaikan bobot model sehingga output skor tinggi menjadi lebih mungkin.
Struktur ini memungkinkan pelanggan untuk menyelaraskan model dengan tujuan bernuansa seperti “gaya rumah” perusahaan dan terminologi, aturan keselamatan, akurasi faktual, atau kepatuhan kebijakan internal.
Untuk melakukan RFT, pengguna perlu:
- Tentukan fungsi penilaian atau gunakan grader berbasis model OpenAI.
- Unggah dataset dengan prompt dan validasi pemisahan.
- Konfigurasikan pekerjaan pelatihan melalui API atau dasbor penyempurnaan.
- Pantau kemajuan, tinjau pos pemeriksaan, dan beralih pada data atau logika penilaian.
RFT saat ini hanya mendukung model penalaran O-Series dan tersedia untuk model O4-Mini.
Kasus Penggunaan Perusahaan Awal
Di platformnya, Openai menyoroti beberapa pelanggan awal yang telah mengadopsi RFT di berbagai industri:
- Sesuai ai Digunakan RFT untuk menyempurnakan model untuk tugas analisis pajak yang kompleks, mencapai peningkatan 39% dalam akurasi dan mengungguli semua model terkemuka pada tolok ukur penalaran pajak.
- Suasana Layanan Kesehatan RFT terapan ke penugasan kode medis ICD-10, meningkatkan kinerja model sebesar 12 poin di atas dasar dokter pada dataset panel emas.
- Harvey Digunakan RFT untuk analisis dokumen hukum, meningkatkan skor ekstraksi F1 sebesar 20% dan cocok dengan akurasi GPT-4O sambil mencapai inferensi yang lebih cepat.
- Runloop Model yang disesuaikan untuk menghasilkan cuplikan kode API Stripe, menggunakan siswa kelas sadar-sintaks dan logika validasi AST, mencapai peningkatan 12%.
- Milo Terapan RFT untuk tugas penjadwalan, meningkatkan kebenaran dalam situasi kompleksitas tinggi dengan 25 poin.
- SafetyKit Digunakan RFT untuk menegakkan kebijakan moderasi konten yang bernuansa dan peningkatan model F1 dari 86% menjadi 90% dalam produksi.
- Chipstack, Thomson Reutersdan mitra lainnya juga menunjukkan keuntungan kinerja dalam pembuatan data terstruktur, tugas perbandingan hukum, dan alur kerja verifikasi.
Kasus-kasus ini sering berbagi karakteristik: definisi tugas yang jelas, format output terstruktur, dan kriteria evaluasi yang andal-semuanya penting untuk penyempurnaan penguatan yang efektif.
RFT sekarang tersedia untuk organisasi yang diverifikasi. OpenAI menawarkan diskon 50% untuk tim yang memilih untuk berbagi kumpulan data pelatihan mereka dengan OpenAi untuk membantu meningkatkan model masa depan. Pengembang yang tertarik dapat memulai menggunakan dokumentasi RFT dan dasbor OpenAI.
Struktur Harga dan Penagihan
Tidak seperti fine-tuning yang diawasi atau preferensi, yang ditagih per token, RFT ditagih berdasarkan waktu yang dihabiskan secara aktif berlatih. Secara khusus:
- $ 100 per jam waktu pelatihan inti (waktu waktu dinding selama peluncuran model, penilaian, pembaruan, dan validasi).
- Waktu diatur oleh yang kedua, dibulatkan ke dua tempat desimal (jadi 1,8 jam pelatihan akan menelan biaya $ 180).
- Biaya berlaku hanya untuk bekerja yang memodifikasi model. Antrian, pemeriksaan keselamatan, dan fase pengaturan idle tidak ditagih.
- Jika pengguna menggunakan model OpenAI sebagai siswa kelas (misalnya, GPT-4.1), token inferensi yang dikonsumsi selama penilaian ditagih secara terpisah pada tarif API standar OpenAI. Kalau tidak, perusahaan dapat menggunakan model luar, termasuk yang open source, sebagai siswa kelas.
Berikut adalah contoh kerusakan biaya:
Skenario | Waktu yang dapat ditagih | Biaya |
---|---|---|
Pelatihan 4 jam | 4 jam | $ 400 |
1,75 jam (Prorated) | 1,75 jam | $ 175 |
Pelatihan 2 jam + 1 jam hilang (karena kegagalan) | 2 jam | $ 200 |
Model penetapan harga ini memberikan desain pekerjaan yang efisien transparansi dan penghargaan. Untuk mengendalikan biaya, Openai mendorong tim untuk:
- Gunakan siswa kelas ringan atau efisien jika memungkinkan.
- Hindari validasi yang terlalu sering terjadi kecuali perlu.
- Mulailah dengan dataset yang lebih kecil atau lari yang lebih pendek untuk mengkalibrasi ekspektasi.
- Pantau pelatihan dengan API atau alat dasbor dan jeda sesuai kebutuhan.
Openai menggunakan metode penagihan yang disebut “kemajuan maju yang ditangkap,” yang berarti pengguna hanya ditagih untuk langkah -langkah pelatihan model yang berhasil diselesaikan dan dipertahankan.
Jadi, haruskah organisasi Anda berinvestasi dalam meraih versi khusus dari O4-Mini Openai atau tidak?
Fine-tuning penguatan memperkenalkan metode yang lebih ekspresif dan dapat dikendalikan untuk mengadaptasi model bahasa dengan kasus penggunaan dunia nyata.
Dengan dukungan untuk output terstruktur, grader berbasis kode dan berbasis model, dan kontrol API penuh, RFT memungkinkan tingkat kustomisasi baru dalam penyebaran model. Peluncuran Openai menekankan desain tugas yang bijaksana dan evaluasi yang kuat sebagai kunci keberhasilan.
Pengembang yang tertarik untuk mengeksplorasi metode ini dapat mengakses dokumentasi dan contoh melalui dasbor fine-tuning OpenAI.
Untuk organisasi dengan masalah yang jelas dan jawaban yang dapat diverifikasi, RFT menawarkan cara yang menarik untuk menyelaraskan model dengan tujuan operasional atau kepatuhan – tanpa membangun infrastruktur RL dari awal.