
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Startup kecerdasan buatan yang berbasis di Tokyo, Sakana, yang didirikan oleh mantan ilmuwan AI Google top termasuk Llion Jones dan David Ha, telah meluncurkan jenis baru arsitektur model AI yang disebut Continuous Thought Machines (CTM).
CTM dirancang untuk mengantarkan era baru model bahasa AI yang akan lebih fleksibel dan mampu menangani berbagai tugas kognitif-seperti menyelesaikan labirin kompleks atau tugas navigasi tanpa isyarat posisi atau embedding spasial yang sudah ada sebelumnya-menggerakkannya lebih dekat ke cara penalaran manusia melalui masalah yang tidak ada masalah.
Alih -alih mengandalkan lapisan paralel yang tetap yang memproses input sekaligus – seperti yang dilakukan model transformator —ctms membuka komputasi atas langkah -langkah dalam setiap unit input/output, yang dikenal sebagai “neuron” buatan.
Setiap neuron dalam model mempertahankan riwayat pendek dari aktivitas sebelumnya dan menggunakan memori itu untuk memutuskan kapan harus mengaktifkan lagi.
Keadaan internal yang ditambahkan ini memungkinkan CTM untuk menyesuaikan kedalaman dan durasi penalaran mereka secara dinamis, tergantung pada kompleksitas tugas. Dengan demikian, setiap neuron jauh lebih padat secara informasi dan kompleks daripada dalam model transformator yang khas.
Startup telah memposting makalah di Open Access Journal Arxiv yang menggambarkan karyanya, repositori microsite dan github.
Bagaimana CTM berbeda dari LLM berbasis transformator
Sebagian besar model bahasa besar modern (LLM) masih secara fundamental didasarkan pada arsitektur “transformator” yang diuraikan dalam makalah seminal 2017 dari peneliti otak Google yang berjudul “Perhatian adalah yang Anda butuhkan.”
Model-model ini menggunakan lapisan neuron buatan yang paralelisasi dan tetap untuk memproses input dalam satu pass-apakah input tersebut berasal dari petunjuk pengguna pada waktu inferensi atau data berlabel selama pelatihan.
Sebaliknya, CTM memungkinkan setiap neuron buatan untuk beroperasi pada timeline internalnya sendiri, membuat keputusan aktivasi berdasarkan memori jangka pendek dari negara-negara sebelumnya. Keputusan -keputusan ini terungkap atas langkah -langkah internal yang dikenal sebagai “kutu,” memungkinkan model untuk menyesuaikan durasi penalarannya secara dinamis.
Arsitektur berbasis waktu ini memungkinkan CTM untuk bernalar secara progresif, menyesuaikan berapa lama dan seberapa dalam mereka menghitung-mengambil jumlah kutu yang berbeda berdasarkan kompleksitas input.
Memori dan sinkronisasi spesifik neuron membantu menentukan kapan perhitungan harus dilanjutkan-atau berhenti.
Jumlah kutu berubah sesuai dengan informasi yang dimasukkan, dan mungkin lebih atau kurang bahkan jika informasi input identik, karena setiap neuron memutuskan berapa banyak kutu untuk menjalani sebelum memberikan output (atau tidak memberikannya sama sekali).
Ini mewakili keberangkatan teknis dan filosofis dari pembelajaran mendalam konvensional, bergerak menuju model yang lebih beralasan secara biologis. Sakana telah membingkai CTM sebagai langkah menuju kecerdasan yang lebih seperti otak-sistem yang beradaptasi dari waktu ke waktu, memproses informasi secara fleksibel, dan terlibat dalam perhitungan internal yang lebih dalam saat dibutuhkan.
Tujuan Sakana adalah untuk “pada akhirnya mencapai tingkat kompetensi yang menyaingi atau melampaui otak manusia.”
Menggunakan variabel, jadwal kustom untuk memberikan lebih banyak kecerdasan
CTM dibangun di sekitar dua mekanisme utama.
Pertama, setiap neuron dalam model mempertahankan “sejarah” pendek atau memori kerja kapan diaktifkan dan mengapa, dan menggunakan sejarah ini untuk membuat keputusan kapan harus menembak selanjutnya.
Kedua, sinkronisasi saraf – bagaimana dan kapan kelompok dari neuron buatan model “api,” atau memproses informasi bersama – dibiarkan terjadi secara organik.
Kelompok neuron memutuskan kapan harus menembak bersama berdasarkan keselarasan internal, bukan instruksi eksternal atau pembentukan hadiah. Peristiwa sinkronisasi ini digunakan untuk memodulasi perhatian dan menghasilkan output – yaitu, perhatian diarahkan ke area -area di mana lebih banyak neuron yang ditembakkan.
Model ini tidak hanya memproses data, ini mengatur waktu pemikirannya untuk mencocokkan kompleksitas tugas.
Bersama -sama, mekanisme ini memungkinkan CTM mengurangi beban komputasi pada tugas yang lebih sederhana sambil menerapkan penalaran yang lebih dalam dan berkepanjangan jika diperlukan.
Dalam demonstrasi mulai dari klasifikasi gambar dan pemecahan labirin 2D hingga pembelajaran penguatan, CTM telah menunjukkan interpretabilitas dan kemampuan beradaptasi. Langkah -langkah “pemikiran” internal mereka memungkinkan para peneliti untuk mengamati bagaimana keputusan terbentuk dari waktu ke waktu – tingkat transparansi yang jarang terlihat pada keluarga model lain.
Hasil awal: Bagaimana CTM dibandingkan dengan model transformator pada tolok ukur dan tugas utama
Mesin pemikiran berkelanjutan Sakana AI tidak dirancang untuk mengejar skor benchmark yang topboard, tetapi hasil awal menunjukkan bahwa desainnya yang terinspirasi secara biologis tidak datang dengan biaya kemampuan praktis.
Pada tolok ukur ImageNet-1K yang banyak digunakan, CTM mencapai 72,47% top-1 dan 89,89% akurasi top-5.
Sementara ini jauh dari model transformator canggih seperti Vit atau ConvNext, tetap kompetitif-terutama mengingat bahwa arsitektur CTM pada dasarnya berbeda dan tidak dioptimalkan semata-mata untuk kinerja.
Yang lebih menonjol adalah perilaku CTM dalam tugas berurutan dan adaptif. Dalam skenario pemecahan labirin, model ini menghasilkan output arah langkah demi langkah dari gambar mentah-tanpa menggunakan embeddings posisional, yang biasanya penting dalam model transformator. Jejak perhatian visual mengungkapkan bahwa CTM sering menghadiri daerah gambar dalam urutan seperti manusia, seperti mengidentifikasi fitur wajah dari mata ke hidung ke mulut.
Model ini juga menunjukkan kalibrasi yang kuat: Perkiraan kepercayaannya selaras dengan akurasi prediksi aktual. Tidak seperti kebanyakan model yang memerlukan penskalaan suhu atau penyesuaian post-hoc, CTM meningkatkan kalibrasi secara alami dengan rata-rata prediksi dari waktu ke waktu ketika penalaran internal mereka terungkap.
Perpaduan antara penalaran berurutan, kalibrasi alam, dan interpretabilitas ini menawarkan pertukaran yang berharga untuk aplikasi di mana kepercayaan dan keterlacakan penting sebanyak akurasi mentah.
Apa yang dibutuhkan sebelum CTM siap untuk penempatan perusahaan dan komersial?
Sementara CTM menunjukkan janji substansial, arsitekturnya masih eksperimental dan belum dioptimalkan untuk penyebaran komersial. Sakana AI menyajikan model sebagai platform untuk penelitian dan eksplorasi lebih lanjut daripada solusi perusahaan plug-and-play.
Pelatihan CTM saat ini menuntut lebih banyak sumber daya daripada model transformator standar. Struktur temporal dinamis mereka memperluas ruang keadaan, dan penyetelan yang cermat diperlukan untuk memastikan pembelajaran yang stabil dan efisien di seluruh langkah waktu internal. Selain itu, dukungan debugging dan perkakas masih menyusul-banyak perpustakaan dan profiler saat ini tidak dirancang dengan mempertimbangkan model waktu-lipat.
Namun, Sakana telah meletakkan dasar yang kuat untuk adopsi masyarakat. Implementasi CTM lengkap bersumber terbuka di GitHub dan termasuk skrip pelatihan khusus domain, pos pemeriksaan pretrained, plot utilitas, dan alat analisis. Tugas yang didukung termasuk klasifikasi gambar (Imagenet, CIFAR), navigasi labirin 2D, Qamnist, komputasi paritas, penyortiran, dan pembelajaran penguatan.
Demo web interaktif juga memungkinkan pengguna menjelajahi CTM dalam tindakan, mengamati bagaimana perhatiannya bergeser dari waktu ke waktu selama inferensi – cara yang menarik untuk memahami aliran penalaran arsitektur.
Agar CTM mencapai lingkungan produksi, kemajuan lebih lanjut diperlukan dalam optimasi, efisiensi perangkat keras, dan integrasi dengan jaringan pipa inferensi standar. Tetapi dengan kode yang dapat diakses dan dokumentasi aktif, Sakana telah memudahkan para peneliti dan insinyur untuk mulai bereksperimen dengan model saat ini.
Apa yang harus diketahui oleh para pemimpin AI perusahaan tentang CTM
Arsitektur CTM masih di masa-masa awalnya, tetapi pembuat keputusan perusahaan harus sudah mencatat. Kemampuannya untuk mengalokasikan komputasi secara adaptif, mengatur diri sendiri kedalaman penalaran, dan menawarkan interpretabilitas yang jelas dapat terbukti sangat berharga dalam sistem produksi yang menghadapi kompleksitas input variabel atau persyaratan peraturan yang ketat.
Insinyur AI yang mengelola penyebaran model akan menemukan nilai dalam inferensi hemat energi CTM-terutama dalam aplikasi skala besar atau latensi-sensitif.
Sementara itu, penalaran langkah demi langkah arsitektur membuka kemampuan menjelaskan yang lebih kaya, memungkinkan organisasi untuk melacak bukan hanya apa yang diprediksi model, tetapi bagaimana itu tiba di sana.
Untuk tim orkestrasi dan MLOPS, CTMS berintegrasi dengan komponen yang akrab seperti encoder berbasis resnet, yang memungkinkan penggabungan yang lebih halus ke dalam alur kerja yang ada. Dan infrastruktur di lead dapat menggunakan kait profil arsitektur untuk lebih baik mengalokasikan sumber daya dan memantau dinamika kinerja dari waktu ke waktu.
CTM belum siap untuk mengganti transformator, tetapi mereka mewakili kategori model baru dengan keterjangkauan baru. Untuk organisasi yang memprioritaskan keselamatan, interpretabilitas, dan komputasi adaptif, arsitektur patut mendapat perhatian erat.
Sejarah Penelitian AI kotak -kotak Sakana
Pada bulan Februari, Sakana memperkenalkan AI CUDA Engineer, sistem AI agen yang dirancang untuk mengotomatiskan produksi kernel CUDA yang sangat dioptimalkan, set instruksi yang memungkinkan unit pemrosesan grafis (GPU) NVIDIA (dan lainnya) atau unit komputasi.
Janji itu signifikan: speedup 10x hingga 100x dalam operasi ML. Namun, tak lama setelah rilis, pengulas eksternal menemukan bahwa sistem tersebut mengeksploitasi kelemahan dalam kotak pasir evaluasi – pada dasarnya “curang” dengan melewati pemeriksaan kebenaran melalui eksploitasi memori.
Dalam sebuah pos publik, Sakana mengakui masalah ini dan memuji anggota masyarakat dengan menguncinya.
Sejak itu mereka merombak evaluasi dan alat profil runtime mereka untuk menghilangkan celah yang sama dan merevisi hasil dan makalah penelitian mereka. Insiden itu menawarkan tes dunia nyata dari salah satu nilai yang dinyatakan Sakana: merangkul iterasi dan transparansi dalam mengejar sistem AI yang lebih baik.
Bertaruh pada mekanisme evolusioner
Etos pendirian Sakana AI terletak pada penggabungan perhitungan evolusi dengan pembelajaran mesin modern. Perusahaan percaya model saat ini terlalu kaku – terhubung ke arsitektur tetap dan membutuhkan pelatihan ulang untuk tugas -tugas baru.
Sebaliknya, Sakana bertujuan untuk menciptakan model yang beradaptasi secara real time, menunjukkan perilaku yang muncul, dan skala secara alami melalui interaksi dan umpan balik, seperti halnya organisme dalam suatu ekosistem.
Visi ini sudah bermanifestasi dalam produk seperti Transformer², sebuah sistem yang menyesuaikan parameter LLM pada waktu inferensi tanpa pelatihan ulang, menggunakan trik aljabar seperti dekomposisi bernilai tunggal.
Ini juga terbukti dalam komitmen mereka terhadap sistem open-sourcing seperti ilmuwan AI-bahkan di tengah kontroversi-menunjukkan kesediaan untuk terlibat dengan komunitas riset yang lebih luas, bukan hanya bersaing dengannya.
Sebagai pemain lama seperti OpenAi dan Google Double Down pada model yayasan, Sakana memetakan kursus yang berbeda: sistem kecil, dinamis, terinspirasi secara biologis yang berpikir dalam waktu, berkolaborasi dengan desain, dan berkembang melalui pengalaman.