
Ingin wawasan yang lebih cerdas di kotak masuk Anda? Mendaftar untuk buletin mingguan kami untuk hanya mendapatkan apa yang penting bagi AI, data, dan pemimpin keamanan perusahaan. Berlangganan sekarang
Sudah sedikit lebih dari sebulan sejak startup AI China Deepseek, cabang dari Capital Management High-flyer yang berbasis di Hong Kong, merilis versi terbaru dari model open source open source Deepseek, R1-0528.
Seperti pendahulunya, Deepseek-R1-yang mengguncang AI dan komunitas bisnis global dengan seberapa murah itu dilatih dan seberapa baik kinerjanya pada tugas penalaran, semuanya tersedia untuk pengembang dan perusahaan secara gratis-R1-0528 sudah diadaptasi dan di-remix oleh laboratorium AI lainnya dan pengembang, terima kasih dalam sebagian besar Apache Apache.
Minggu ini, perusahaan Jerman berusia 24 tahun TNG Technology Consulting GmbH merilis satu adaptasi seperti itu: Deepseek-TNG R1T2 Chimera, model terbaru dalam keluarga Chimera Large Language Model (LLM). R1T2 memberikan dorongan penting dalam efisiensi dan kecepatan, mencetak di atas 90% dari skor benchmark intelijen R1-0528saat menghasilkan jawaban dengan Kurang dari 40% dari jumlah token output R1-0528.
Itu berarti menghasilkan tanggapan yang lebih pendek, diterjemahkan langsung ke Inferensi yang lebih cepat dan biaya komputasi yang lebih rendah. Pada kartu model TNG yang dirilis untuk R1T2 baru di komunitas berbagi kode AI memeluk wajah, perusahaan menyatakan bahwa “sekitar 20% lebih cepat dari R1 reguler” (yang dirilis kembali pada bulan Januari) “dan lebih dari dua kali lebih cepat dari R1-0528” (pembaruan resmi Mei dari Deepseek).
Sudah, responsnya sangat positif dari komunitas pengembang AI. “Sialan! Deepseek R1T2-200% lebih cepat dari R1-0528 & 20% lebih cepat dari R1,” tulis Vaibhav (VB) Srivastav, seorang pemimpin senior di Face, pada X. “Secara signifikan lebih baik daripada R1 di GPQA & AIME 24, dibuat melalui perakitan para ahli dengan para ahli dengan DS V3 & R1.
Keuntungan ini dimungkinkan oleh metode perakitan Experts (AOE) TNG-teknik untuk membangun LLM dengan secara selektif menggabungkan tensor berat (parameter internal) dari beberapa model pra-terlatih yang dijelaskan TNG dalam sebuah makalah yang diterbitkan pada bulan Mei di ArXIV, jurnal online akses terbuka yang tidak ditinjau oleh non-peer.
Seorang penerus R1T Chimera asli, R1T2 memperkenalkan konfigurasi “tri-mind” baru yang mengintegrasikan tiga model induk: Deepseek-R1-0528, Deepseek-R1, dan Deepseek-V3-0324. Hasilnya adalah model yang direkayasa untuk mempertahankan kemampuan penalaran yang tinggi sementara secara signifikan mengurangi biaya inferensi.
R1T2 dibangun tanpa penyesuaian atau pelatihan ulang lebih lanjut. Ini mewarisi kekuatan penalaran R1-0528, pola pemikiran terstruktur R1, dan perilaku ringkas, berorientasi instruksi dari V3-0324-memberikan model yang lebih efisien, namun mampu untuk penggunaan perusahaan dan penelitian.
Bagaimana Majelis-of-Experts (AOE) berbeda dari campuran Ekseklam (MOE)
Campuran-Eksekar (MOE) adalah desain arsitektur di mana berbagai komponen, atau “ahli,” diaktifkan secara kondisional per input. Dalam moe llms seperti Deepseek-V3 atau Mixtral, hanya subset dari lapisan ahli model (misalnya, 8 dari 256) yang aktif selama setiap umpan maju token yang diberikan. Ini memungkinkan model yang sangat besar untuk mencapai jumlah parameter yang lebih tinggi dan spesialisasi sambil menjaga biaya inferensi dapat dikelola – karena hanya sebagian kecil dari jaringan yang dievaluasi per token.
Assembly-of-Experts (AOE) adalah teknik penggabungan model, bukan arsitektur. Ini digunakan untuk membuat model baru dari beberapa model MOE pra-terlatih dengan secara selektif menginterpolasi tensor berat mereka.
“Para ahli” di AOE merujuk pada komponen model yang digabungkan – biasanya tensor ahli yang dialihkan dalam lapisan MOE – bukan ahli yang diaktifkan secara dinamis saat runtime.
Implementasi AOE TNG terutama berfokus terutama pada penggabungan tensor ahli yang dialihkan-bagian dari model yang paling bertanggung jawab untuk penalaran khusus-sementara sering mempertahankan lapisan bersama dan perhatian yang lebih efisien dari model yang lebih cepat seperti V3-0324. Pendekatan ini memungkinkan model chimera yang dihasilkan untuk mewarisi kekuatan penalaran tanpa mereplikasi verbositas atau latensi model induk terkuat.
Kinerja dan Kecepatan: Apa yang sebenarnya ditunjukkan oleh tolok ukur
Menurut perbandingan benchmark yang disajikan oleh TNG, R1T2 mencapai antara 90% dan 92% Dari penalaran kinerja orangtua paling cerdas, Deepseek-R1-0528, yang diukur dengan set uji AIME-24, AIME-25, dan GPQA-Diamond.
Namun, tidak seperti Deepseek-R1-0528-yang cenderung menghasilkan jawaban yang panjang dan terperinci karena penalaran rantai-dipikirkan yang diperluas-R1T2 dirancang agar jauh lebih ringkas. Ini memberikan respons yang sama cerdasnya saat menggunakan kata -kata yang jauh lebih sedikit.
Daripada berfokus pada waktu pemrosesan mentah atau token per detik, TNG mengukur “kecepatan” dalam hal Hitungan token output per jawaban – Proxy praktis untuk biaya dan latensi. Menurut tolok ukur yang dibagikan oleh TNG, R1T2 menghasilkan tanggapan menggunakan Sekitar 40% dari token Diperlukan oleh R1-0528.
Yang diterjemahkan menjadi a Pengurangan 60% panjang outputyang secara langsung mengurangi waktu inferensi dan menghitung beban, mempercepat respons sebesar 2x, atau 200%.
Jika dibandingkan dengan Deepseek-R1 asli, R1T2 juga ada Rata -rata 20% lebih ringkasmenawarkan keuntungan yang berarti dalam efisiensi untuk penyebaran throughput tinggi atau sensitif-biaya.
Efisiensi ini tidak datang dengan biaya intelijen. Seperti yang ditunjukkan dalam bagan tolok ukur yang disajikan dalam makalah teknis TNG, R1T2 berada di zona yang diinginkan pada kurva biaya intelijen vs output. Ini menjaga kualitas penalaran sambil meminimalkan verbositas – hasil yang penting untuk aplikasi perusahaan di mana kecepatan inferensi, throughput, dan biaya semua materi.
Pertimbangan dan ketersediaan penyebaran
R1T2 dirilis di bawah lisensi MIT permisif dan sekarang tersedia di Face Memeluk, artinya open source dan tersedia untuk digunakan dan dibangun ke dalam aplikasi komersial.
TNG mencatat bahwa sementara model ini sangat cocok untuk tugas penalaran umum, saat ini tidak disarankan untuk menggunakan kasus penggunaan yang membutuhkan panggilan fungsi atau penggunaan alat, karena keterbatasan yang diwarisi dari garis keturunan Deepseek-R1. Ini dapat dibahas dalam pembaruan mendatang.
Perusahaan juga menyarankan pengguna Eropa untuk menilai kepatuhan dengan UU AI UE, yang mulai berlaku pada 2 Agustus 2025.
Perusahaan yang beroperasi di UE harus meninjau ketentuan yang relevan atau mempertimbangkan penggunaan model penghentian setelah tanggal tersebut jika persyaratan tidak dapat dipenuhi.
Namun, perusahaan AS yang beroperasi di dalam negeri dan melayani pengguna yang berbasis di AS, atau negara-negara lain, bukan Tunduk pada ketentuan UU AI UE, yang seharusnya memberi mereka fleksibilitas yang cukup besar saat menggunakan dan menggunakan model penalaran sumber terbuka yang cepat dan cepat ini. Jika mereka melayani pengguna di UE, beberapa ketentuan UU UE masih berlaku.
TNG telah membuat varian chimera sebelumnya tersedia melalui platform seperti OpenRouter dan Chutes, di mana mereka dilaporkan memproses miliaran token setiap hari. Rilis R1T2 merupakan evolusi lebih lanjut dalam upaya ketersediaan publik ini.
Tentang TNG Technology Consulting GmbH
Didirikan pada Januari 2001, TNG Technology Consulting GMBH berbasis di Bavaria, Jerman, dan mempekerjakan lebih dari 900 orang, dengan konsentrasi tinggi PhD dan spesialis teknis.
Perusahaan ini berfokus pada pengembangan perangkat lunak, kecerdasan buatan, dan layanan DevOps/cloud, melayani klien perusahaan besar di seluruh industri seperti telekomunikasi, asuransi, otomotif, e-commerce, dan logistik.
TNG beroperasi sebagai kemitraan konsultasi berbasis nilai. Strukturnya yang unik, didasarkan pada penelitian operasional dan prinsip-prinsip manajemen diri, mendukung budaya inovasi teknis.
Ini secara aktif berkontribusi pada komunitas open-source dan penelitian, seperti yang ditunjukkan melalui rilis publik seperti R1T2 dan publikasi metodologi assembly-of-experts-nya.
Apa artinya bagi pembuat keputusan teknis perusahaan
Untuk CTO, pemilik platform AI, tim pemeran teknik, dan tim pengadaannya, R1T2 memperkenalkan manfaat nyata dan opsi strategis:
- Biaya inferensi yang lebih rendah: Dengan lebih sedikit token output per tugas, R1T2 mengurangi waktu GPU dan konsumsi energi, diterjemahkan langsung ke dalam penghematan infrastruktur-terutama penting dalam lingkungan throughput atau waktu nyata.
- Kualitas penalaran tinggi tanpa overhead: Ini mempertahankan banyak kekuatan penalaran model tingkat atas seperti R1-0528, tetapi tanpa kelihatannya panjang. Ini sangat ideal untuk tugas terstruktur (matematika, pemrograman, logika) di mana jawaban ringkas lebih disukai.
- Terbuka dan dapat dimodifikasi: Lisensi MIT memungkinkan kontrol dan kustomisasi penyebaran penuh, memungkinkan hosting pribadi, penyelarasan model, atau pelatihan lebih lanjut dalam lingkungan yang diatur atau diaktifkan udara.
- Modularitas yang muncul: Pendekatan AOE menyarankan masa depan di mana model dibangun secara modular, memungkinkan perusahaan untuk merakit varian khusus dengan menggabungkan kembali kekuatan model yang ada, daripada melatih kembali dari awal.
- Peringatan: Perusahaan yang mengandalkan pemalsuan fungsi, penggunaan alat, atau orkestrasi agen canggih harus mencatat keterbatasan saat ini, meskipun pembaruan chimera di masa depan dapat membahas kesenjangan ini.
TNG mendorong para peneliti, pengembang, dan pengguna perusahaan untuk mengeksplorasi model, menguji perilakunya, dan memberikan umpan balik. Chimera R1T2 tersedia di huggingface.co/tngtech/deepseek-tng-r1t2-chimera, dan pertanyaan teknis dapat diarahkan ke riset@tngtech.com.
Untuk latar belakang teknis dan metodologi benchmark, makalah penelitian TNG tersedia di ARXIV: 2506.14794.