
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Saat ini, hampir setiap produk dan model AI mutakhir menggunakan arsitektur transformator. Model Bahasa Besar (LLM) seperti GPT-4O, LLAMA, Gemini dan Claude semuanya berbasis transformator, dan aplikasi AI lainnya seperti Text-to-Speech, pengenalan ucapan otomatis, pembuatan gambar dan model teks-ke-video memiliki transformator sebagai teknologi dasar mereka.
Dengan hype di sekitar AI yang tidak mungkin melambat dalam waktu dekat, sekarang saatnya untuk memberi Transformers mereka, itulah sebabnya saya ingin menjelaskan sedikit tentang bagaimana mereka bekerja, mengapa mereka begitu penting untuk pertumbuhan solusi yang dapat diskalakan dan mengapa Mereka adalah tulang punggung LLMS.
Transformer lebih dari sekadar memenuhi mata
Singkatnya, transformator adalah arsitektur jaringan saraf yang dirancang untuk memodelkan urutan data, menjadikannya ideal untuk tugas -tugas seperti terjemahan bahasa, penyelesaian kalimat, pengenalan ucapan otomatis dan banyak lagi. Transformers telah benar-benar menjadi arsitektur dominan untuk banyak tugas pemodelan urutan ini karena mekanisme perhatian yang mendasarinya dapat dengan mudah diparalelkan, memungkinkan skala besar saat melatih dan melakukan inferensi.
Awalnya diperkenalkan dalam makalah 2017, “Perhatian adalah yang Anda butuhkan” dari para peneliti di Google, transformator diperkenalkan sebagai arsitektur encoder-decoder yang dirancang khusus untuk terjemahan bahasa. Tahun berikutnya, Google merilis representasi encoder dua arah dari Transformers (Bert), yang dapat dianggap sebagai salah satu LLM pertama – meskipun sekarang dianggap kecil menurut standar hari ini.
Sejak itu – dan terutama dipercepat dengan munculnya model GPT dari Openai – trennya adalah melatih model yang lebih besar dan lebih besar dengan lebih banyak data, lebih banyak parameter dan jendela konteks yang lebih lama.
Untuk memfasilitasi evolusi ini, ada banyak inovasi seperti: perangkat keras GPU yang lebih canggih dan perangkat lunak yang lebih baik untuk pelatihan multi-GPU; teknik seperti kuantisasi dan campuran ahli (MOE) untuk mengurangi konsumsi memori; pengoptimal baru untuk pelatihan, seperti Shampoo dan Adamw; Teknik untuk menghitung perhatian secara efisien, seperti flashattention dan caching KV. Tren kemungkinan akan berlanjut di masa mendatang.
Pentingnya perhatian diri pada transformer
Bergantung pada aplikasinya, model transformator mengikuti arsitektur encoder-decoder. Komponen encoder mempelajari representasi vektor data yang kemudian dapat digunakan untuk tugas hilir seperti klasifikasi dan analisis sentimen. Komponen decoder mengambil vektor atau representasi laten dari teks atau gambar dan menggunakannya untuk menghasilkan teks baru, membuatnya berguna untuk tugas -tugas seperti penyelesaian dan peringkasan kalimat. Untuk alasan ini, banyak model canggih yang akrab, seperti keluarga GPT, hanya decoder.
Model Encoder-Decoder menggabungkan kedua komponen, membuatnya berguna untuk terjemahan dan tugas-tugas urutan-ke-urutan lainnya. Untuk arsitektur Encoder dan Decoder, komponen inti adalah lapisan perhatian, karena inilah yang memungkinkan model untuk mempertahankan konteks dari kata -kata yang muncul jauh lebih awal dalam teks.
Perhatian datang dalam dua rasa: perhatian diri dan perhatian silang. Perhatian diri digunakan untuk menangkap hubungan antara kata-kata dalam urutan yang sama, sedangkan perhatian silang digunakan untuk menangkap hubungan antara kata-kata di dua urutan yang berbeda. Perhatian silang menghubungkan komponen enkoder dan dekoder dalam model dan selama terjemahan. Misalnya, ini memungkinkan kata bahasa Inggris “Strawberry” untuk berhubungan dengan kata Prancis “Fraise.” Secara matematis, baik perhatian dan perhatian silang adalah bentuk multiplikasi matriks yang berbeda, yang dapat dilakukan dengan sangat efisien menggunakan GPU.
Karena lapisan perhatian, transformer dapat lebih baik menangkap hubungan antara kata-kata yang dipisahkan oleh jumlah teks yang panjang, sedangkan model sebelumnya seperti jaringan saraf berulang (RNN) dan model memori jangka pendek (LSTM) kehilangan jejak konteks kata-kata dari sebelumnya dalam teks.
Masa depan model
Saat ini, Transformers adalah arsitektur dominan untuk banyak kasus penggunaan yang membutuhkan LLM dan manfaat dari sebagian besar penelitian dan pengembangan. Meskipun ini tampaknya tidak mungkin berubah dalam waktu dekat, satu kelas model yang berbeda yang mendapatkan minat baru-baru ini adalah model ruang negara (SSM) seperti Mamba. Algoritma yang sangat efisien ini dapat menangani urutan data yang sangat panjang, sedangkan transformer dibatasi oleh jendela konteks.
Bagi saya, aplikasi model transformator yang paling menarik adalah model multimodal. GPT-4O Openai, misalnya, mampu menangani teks, audio, dan gambar-dan penyedia lain mulai mengikuti. Aplikasi multimodal sangat beragam, mulai dari captioning video hingga kloning suara hingga segmentasi gambar (dan banyak lagi). Mereka juga menghadirkan kesempatan untuk membuat AI lebih mudah diakses oleh mereka yang cacat. Misalnya, orang buta dapat sangat dilayani oleh kemampuan untuk berinteraksi melalui komponen suara dan audio dari aplikasi multimoda.
Ini adalah ruang yang menarik dengan banyak potensi untuk mengungkap kasus penggunaan baru. Tetapi ingatlah bahwa, setidaknya untuk masa mendatang, sebagian besar didukung oleh arsitektur transformator.
Terrence Alsup adalah ilmuwan data senior di Finastra.
DatadecisionMakers
Selamat datang di komunitas VentureBeat!
DatadecisionMakers adalah tempat para ahli, termasuk orang teknis yang melakukan pekerjaan data, dapat berbagi wawasan dan inovasi terkait data.
Jika Anda ingin membaca tentang ide-ide mutakhir dan informasi terkini, praktik terbaik, dan masa depan teknologi data dan data, bergabunglah dengan kami di DatadecisionMakers.
Anda bahkan mungkin mempertimbangkan untuk menyumbangkan artikel Anda sendiri!
Baca lebih lanjut dari pembuat data