
Ini adalah fakta yang terkenal bahwa keluarga model yang berbeda dapat menggunakan tokenizer yang berbeda. Namun, ada analisis terbatas tentang bagaimana prosesnya “Tokenisasi“ Sendiri bervariasi di seluruh tokenisasi ini. Apakah semua token menghasilkan jumlah token yang sama untuk teks input yang diberikan? Jika tidak, seberapa berbedanya token yang dihasilkan? Seberapa signifikan perbedaannya?
Dalam artikel ini, kami mengeksplorasi pertanyaan -pertanyaan ini dan memeriksa implikasi praktis dari variabilitas tokenisasi. Kami menyajikan kisah komparatif dari dua keluarga model Frontier: Claude Chatgpt vs Anthropic's Anthropic. Meskipun angka “biaya per-token” yang diiklankan sangat kompetitif, eksperimen mengungkapkan bahwa model antropik dapat 20-30% lebih mahal daripada model GPT.
Harga API-Claude 3.5 Sonnet vs GPT-4O
Pada Juni 2024, struktur penetapan harga untuk dua model perbatasan canggih ini sangat kompetitif. Baik Anthropic's Claude 3.5 Sonnet dan Openai GPT-4O memiliki biaya yang identik untuk token output, sementara Claude 3.5 soneta menawarkan biaya 40% lebih rendah untuk token input.
Sumber: Vantage
“Inefisiensi Tokenizer” yang tersembunyi
Meskipun laju token input yang lebih rendah dari model antropik, kami mengamati bahwa total biaya eksperimen menjalankan (pada set prompt tetap tertentu) dengan GPT-4O jauh lebih murah jika dibandingkan dengan Claude Sonnet-3.5.
Mengapa?
Tokenizer antropik cenderung memecah input yang sama menjadi lebih banyak token dibandingkan dengan tokenizer Openai. Ini berarti bahwa, untuk petunjuk yang identik, model antropik menghasilkan token yang jauh lebih banyak daripada rekan -rekan OpenAI mereka. Akibatnya, sementara biaya per token untuk input Claude 3.5 sonnet mungkin lebih rendah, peningkatan tokenisasi dapat mengimbangi penghematan ini, yang mengarah ke biaya keseluruhan yang lebih tinggi dalam kasus penggunaan praktis.
Biaya tersembunyi ini berasal dari cara tokenizer Anthropic mengkodekan informasi, sering menggunakan lebih banyak token untuk mewakili konten yang sama. Inflasi jumlah token memiliki dampak yang signifikan pada biaya dan pemanfaatan jendela konteks.
Inefisiensi Tokenisasi yang bergantung pada domain
Berbagai jenis konten domain secara berbeda oleh tokenizer Anthropic, yang mengarah ke berbagai tingkat peningkatan jumlah token dibandingkan dengan model Openai. Komunitas penelitian AI telah mencatat perbedaan tokenisasi yang sama di sini. Kami menguji temuan kami di tiga domain populer, yaitu: artikel bahasa Inggris, kode (Python) dan matematika.
Domain | Input model | Token GPT | Token Claude | % Token overhead |
Artikel Bahasa Inggris | 77 | 89 | ~ 16% | |
Kode (Python) | 60 | 78 | ~ 30% | |
Matematika | 114 | 138 | ~ 21% |
% Token overhead dari Claude 3.5 sonnet sonnet Tokenizer (relatif terhadap GPT-4O) Sumber: Lavanya Gupta
Saat membandingkan Claude 3.5 soneta dengan GPT-4O, tingkat inefisiensi tokenizer bervariasi secara signifikan di seluruh domain konten. Untuk artikel bahasa Inggris, tokenizer Claude menghasilkan token sekitar 16% lebih banyak daripada GPT-4O untuk teks input yang sama. Overhead ini meningkat tajam dengan konten yang lebih terstruktur atau teknis: untuk persamaan matematika, overhead berdiri di 21%, dan untuk kode Python, Claude menghasilkan 30% lebih banyak token.
Variasi ini muncul karena beberapa jenis konten, seperti dokumen teknis dan kode, sering kali berisi pola dan simbol yang diacak oleh tokenizer Anthropic menjadi potongan -potongan yang lebih kecil, yang mengarah ke jumlah token yang lebih tinggi. Sebaliknya, lebih banyak konten bahasa alami cenderung menunjukkan overhead token yang lebih rendah.
Implikasi praktis lain dari inefisiensi tokenizer
Di luar implikasi langsung pada biaya, ada juga dampak tidak langsung pada pemanfaatan jendela konteks. Sementara model antropik mengklaim jendela konteks yang lebih besar dari token 200k, yang bertentangan dengan token 128k Openai, karena verbositas, ruang token yang dapat digunakan secara efektif mungkin lebih kecil untuk model antropik. Oleh karena itu, berpotensi ada perbedaan kecil atau besar dalam ukuran jendela konteks “yang diiklankan” vs ukuran jendela konteks “efektif”.
Implementasi tokenizer
Model GPT menggunakan byte pair encoding (BPE), yang sering menggabungkan pasangan karakter yang terjadi bersamaan untuk membentuk token. Secara khusus, model GPT terbaru menggunakan tokenizer O200K_Base open-source. Token aktual yang digunakan oleh GPT-4O (di Toktoken Tokenizer) dapat dilihat di sini.
JSON
{
#reasoning
"o1-xxx": "o200k_base",
"o3-xxx": "o200k_base",
# chat
"chatgpt-4o-": "o200k_base",
"gpt-4o-xxx": "o200k_base", # e.g., gpt-4o-2024-05-13
"gpt-4-xxx": "cl100k_base", # e.g., gpt-4-0314, etc., plus gpt-4-32k
"gpt-3.5-turbo-xxx": "cl100k_base", # e.g, gpt-3.5-turbo-0301, -0401, etc.
}
Sayangnya, tidak banyak yang bisa dikatakan tentang tokenizer antropik karena tokenizer mereka tidak secara langsung dan mudah tersedia seperti GPT. Antropik merilis Token Hitung API mereka pada Desember 2024. Namun, itu segera dibatasi dalam versi 2025 kemudian.
Latenode melaporkan bahwa “Antropik menggunakan tokenizer unik dengan hanya 65.000 variasi token, dibandingkan dengan 100.261 variasi token Openai untuk GPT-4.” Colab Notebook ini berisi kode Python untuk menganalisis perbedaan tokenisasi antara model GPT dan Claude. Alat lain yang memungkinkan berinteraksi dengan beberapa tokenizer umum yang tersedia untuk umum memvalidasi temuan kami.
Kemampuan untuk secara proaktif memperkirakan jumlah token (tanpa memohon API model aktual) dan biaya anggaran sangat penting untuk perusahaan AI.
Kunci takeaways
- Harga kompetitif antropik hadir dengan biaya tersembunyi:
Sementara Claude 3.5 soneta Anthropic menawarkan biaya token input 40% lebih rendah dibandingkan dengan GPT-4O Openai, keuntungan biaya yang jelas ini dapat menyesatkan karena perbedaan dalam bagaimana input teks ditopkenized. - “Inefisiensi Tokenizer” tersembunyi:
Model antropik lebih inheren verbose. Untuk bisnis yang memproses volume teks yang besar, memahami perbedaan ini sangat penting ketika mengevaluasi biaya sebenarnya dari model penyebaran. - Inefisiensi tokenizer yang bergantung pada domain:
Saat memilih antara model openai dan antropik, mengevaluasi sifat teks input Anda. Untuk tugas bahasa alami, perbedaan biaya mungkin minimal, tetapi domain teknis atau terstruktur dapat menyebabkan biaya yang secara signifikan lebih tinggi dengan model antropik. - Jendela konteks yang efektif:
Karena verbositas tokenizer Anthropic, jendela konteks 200k yang diiklankan lebih besar dapat menawarkan ruang yang kurang efektif daripada 128K Openai, yang mengarah ke a potensi kesenjangan antara jendela konteks yang diiklankan dan aktual.
Antropik tidak menanggapi permintaan VentureBeat untuk memberikan komentar dengan waktu pers. Kami akan memperbarui cerita jika mereka merespons.