
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Dunia AI diguncang minggu lalu ketika Deepseek, startup AI Cina, mengumumkan model bahasa terbarunya Deepseek-R1 yang tampaknya cocok dengan kemampuan sistem AI Amerika terkemuka di sebagian kecil dari biaya. Pengumuman ini memicu aksi jual pasar yang meluas yang menghapus hampir $ 200 miliar dari nilai pasar Nvidia dan memicu perdebatan panas tentang masa depan pengembangan AI.
Narasi yang dengan cepat muncul menunjukkan bahwa Deepseek secara fundamental mengganggu ekonomi membangun sistem AI canggih, yang diduga mencapai hanya dengan $ 6 juta apa yang telah dihabiskan perusahaan Amerika untuk dicapai. Interpretasi ini mengirim gelombang kejut melalui Silicon Valley, di mana perusahaan seperti Openai, Anthropic dan Google telah membenarkan investasi besar -besaran dalam menghitung infrastruktur untuk mempertahankan keunggulan teknologi mereka.
Tetapi di tengah turbulensi pasar dan tajuk terengah-engah, Dario Amodei, salah satu pendiri antropik dan salah satu peneliti perintis di balik model bahasa besar saat ini (LLM), menerbitkan analisis terperinci yang menawarkan perspektif yang lebih bernuansa tentang pencapaian Deepseek. Posting blognya memotong histeria untuk memberikan beberapa wawasan penting tentang apa yang sebenarnya dicapai Deepseek dan apa artinya bagi masa depan pengembangan AI.
Berikut adalah empat wawasan utama dari analisis Amodei yang membentuk kembali pemahaman kita tentang pengumuman Deepseek.
1. Narasi 'Model $ 6 juta' melewatkan konteks penting
Biaya pengembangan yang dilaporkan Deepseek perlu dilihat melalui lensa yang lebih luas, menurut Amodei. Dia secara langsung menantang interpretasi populer:
“Deepseek tidak 'melakukan untuk $ 6 juta berapa biaya perusahaan AI kami.' Saya hanya bisa berbicara untuk antropik, tetapi Claude 3.5 sonnet adalah model menengah yang harganya beberapa juta juta $ 10 untuk berlatih (saya tidak akan memberikan angka yang tepat). Juga, 3,5 soneta tidak dilatih dengan cara apa pun yang melibatkan model yang lebih besar atau lebih mahal (bertentangan dengan beberapa rumor). ”
Pengungkapan yang mengejutkan ini secara fundamental menggeser narasi seputar efisiensi biaya Deepseek. Ketika mempertimbangkan bahwa Sonnet dilatih 9-12 bulan yang lalu dan masih mengungguli model Deepseek pada banyak tugas, pencapaian ini tampak lebih sejalan dengan perkembangan alami dari biaya pengembangan AI daripada terobosan revolusioner.
Waktu dan konteks juga penting secara signifikan. Mengikuti tren historis pengurangan biaya dalam pengembangan AI – yang diperkirakan Amodei sekitar 4x per tahun – struktur biaya Deepseek tampaknya sebagian besar pada tren daripada secara dramatis di depan kurva.
2. Deepseek-V3, bukan R1, adalah pencapaian teknis yang sebenarnya
Sementara pasar dan media sangat fokus pada model R1 Deepseek, Amodei menunjukkan bahwa inovasi perusahaan yang lebih signifikan datang lebih awal.
“Deepseek-V3 sebenarnya adalah inovasi nyata dan apa yang seharusnya membuat orang memperhatikan sebulan yang lalu (kami pasti melakukannya). Sebagai model pretrained, tampaknya mendekati kinerja model canggih AS pada beberapa tugas penting, sementara harganya jauh lebih sedikit untuk berlatih. ”
Perbedaan antara V3 dan R1 sangat penting untuk memahami kemajuan teknologi Deepseek yang sebenarnya. V3 mewakili inovasi rekayasa asli, terutama dalam mengelola “cache nilai kunci” model dan mendorong batas-batas metode campuran para ahli (MOE).
Wawasan ini membantu menjelaskan mengapa reaksi dramatis pasar terhadap R1 mungkin salah tempat. R1 pada dasarnya menambahkan kemampuan belajar penguatan ke Yayasan V3 – langkah yang saat ini dilakukan oleh banyak perusahaan dengan model mereka.
3. Total investasi perusahaan mengungkapkan gambaran yang berbeda
Mungkin aspek yang paling terbuka dari analisis Amodei menyangkut investasi Deepseek secara keseluruhan dalam pengembangan AI.
“Sudah dilaporkan-kami tidak dapat memastikan itu benar-bahwa Deepseek sebenarnya memiliki 50.000 chip generasi hopper, yang saya kira berada dalam faktor ~ 2-3x dari apa yang dimiliki perusahaan AI AS utama. 50.000 chip hopper itu berharga ~ $ 1 miliar. Dengan demikian, total pengeluaran Deepseek sebagai perusahaan (berbeda dari pengeluaran untuk melatih model individu) tidak jauh berbeda dari laboratorium AI AS. ”
Wahyu ini secara dramatis membingkai ulang narasi seputar efisiensi sumber daya Deepseek. Sementara perusahaan mungkin telah mencapai hasil yang mengesankan dengan pelatihan model individu, investasi keseluruhannya dalam pengembangan AI tampaknya secara kasar sebanding dengan rekan -rekan Amerika.
Perbedaan antara biaya pelatihan model dan total investasi perusahaan menyoroti pentingnya sumber daya substansial yang berkelanjutan dalam pengembangan AI. Ini menunjukkan bahwa sementara efisiensi rekayasa dapat ditingkatkan, tetap kompetitif dalam AI masih membutuhkan investasi modal yang signifikan.
4. 'Titik crossover' saat ini bersifat sementara
Amodei menggambarkan momen saat ini dalam pengembangan AI sebagai unik tetapi cepat.
“Karena itu kami berada di 'titik crossover' yang menarik, di mana sementara itu adalah kasus bahwa beberapa perusahaan dapat menghasilkan model penalaran yang baik,” tulisnya. “Ini dengan cepat akan berhenti benar karena semua orang bergerak lebih jauh ke atas kurva penskalaan pada model -model ini.”
Pengamatan ini memberikan konteks penting untuk memahami keadaan kompetisi AI saat ini. Kemampuan banyak perusahaan untuk mencapai hasil yang serupa dalam kemampuan penalaran merupakan fenomena sementara daripada status quo baru.
Implikasinya penting untuk masa depan pengembangan AI. Ketika perusahaan terus meningkatkan model mereka, terutama di bidang pembelajaran penguatan yang intensif sumber daya, lapangan kemungkinan sekali lagi akan membedakan berdasarkan siapa yang dapat berinvestasi paling banyak dalam pelatihan dan infrastruktur. Ini menunjukkan bahwa sementara Deepseek telah mencapai tonggak sejarah yang mengesankan, itu belum secara fundamental mengubah ekonomi jangka panjang dari pengembangan AI tingkat lanjut.
Biaya sebenarnya dari membangun AI: apa yang diungkapkan analisis Amodei
Analisis terperinci Amodei tentang pencapaian Deepseek memotong selama berminggu -minggu spekulasi pasar untuk mengekspos ekonomi aktual membangun sistem AI canggih. Posting blognya secara sistematis membongkar kepanikan dan antusiasme yang mengikuti pengumuman Deepseek, menunjukkan bagaimana biaya pelatihan model $ 6 juta perusahaan cocok dalam pawai pengembangan AI yang stabil.
Pasar dan media tertarik pada narasi sederhana, dan kisah sebuah perusahaan Cina secara dramatis meremehkan biaya pengembangan AI AS yang terbukti tak tertahankan. Namun kerusakan Amodei mengungkapkan kenyataan yang lebih kompleks: total investasi Deepseek, terutama yang dilaporkan $ 1 miliar dalam komputasi perangkat keras, mencerminkan pengeluaran rekan -rekan Amerika.
Momen paritas biaya antara kami dan pengembangan AI Cina menandai apa yang disebut Amodei sebagai “titik crossover” – jendela sementara di mana banyak perusahaan dapat mencapai hasil yang sama. Analisisnya menunjukkan jendela ini akan ditutup saat kemampuan AI maju dan tuntutan pelatihan meningkat. Lapangan kemungkinan akan kembali ke organisasi yang disukai dengan sumber daya terdalam.
Membangun AI canggih tetap merupakan upaya yang mahal, dan pemeriksaan hati -hati Amodei menunjukkan mengapa mengukur biaya sebenarnya membutuhkan memeriksa ruang lingkup investasi penuh. Dekonstruksi metodis pencapaian Deepseek pada akhirnya terbukti lebih signifikan daripada pengumuman awal yang memicu turbulensi seperti itu di pasar.