
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Memindahkan data dari beragam sumber ke lokasi yang tepat untuk penggunaan AI adalah tugas yang menantang. Di situlah teknologi orkestrasi data seperti Apache Airflow cocok.
Hari ini, komunitas Airflow Apache keluar dengan pembaruan terbesarnya selama bertahun -tahun, dengan debut rilis 3.0. Rilis baru ini menandai pembaruan versi besar pertama dalam empat tahun. Aliran udara telah aktif, terus bertambah pada seri 2.x, termasuk pembaruan 2.9 dan 2.10 pada tahun 2024, yang keduanya memiliki fokus berat pada AI.
Dalam beberapa tahun terakhir, insinyur data telah mengadopsi aliran udara Apache sebagai alat standar de facto mereka. Apache Airflow telah memantapkan dirinya sebagai platform orkestrasi alur kerja sumber terbuka terkemuka dengan lebih dari 3.000 kontributor dan adopsi luas di seluruh perusahaan Fortune 500. Ada juga beberapa layanan komersial berdasarkan platform, termasuk Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows untuk Apache Airflow (MWAA) dan Microsoft Azure Data Factory Managed Airflow, antara lain.
Ketika organisasi berjuang untuk mengoordinasikan alur kerja data di seluruh sistem yang berbeda, awan dan semakin banyak beban kerja AI, organisasi memiliki kebutuhan yang semakin besar. Apache Airflow 3.0 membahas kebutuhan perusahaan penting dengan desain ulang arsitektur yang dapat meningkatkan cara organisasi membangun dan menggunakan aplikasi data.
“Bagi saya, Airflow 3 adalah awal yang baru, ini adalah fondasi untuk set kemampuan yang jauh lebih besar,” Vikram Koka, Airflow Airflow PMC (Komite Manajemen Proyek) anggota dan Kepala Strategi di Astronom, mengatakan kepada VentureBeat dalam sebuah wawancara eksklusif. “Ini hampir merupakan refactor lengkap berdasarkan apa yang dikatakan perusahaan kepada kami bahwa mereka butuhkan untuk tingkat adopsi kritis misi berikutnya.”
Kompleksitas data perusahaan telah mengubah kebutuhan orkestrasi data
Karena bisnis semakin bergantung pada pengambilan keputusan yang didorong oleh data, kompleksitas alur kerja data telah meledak. Organisasi sekarang mengelola jaringan pipa rumit yang mencakup beberapa lingkungan cloud, beragam sumber data, dan beban kerja AI yang semakin canggih.
Aliran udara 3.0 muncul sebagai solusi yang dirancang khusus untuk memenuhi kebutuhan perusahaan yang berkembang ini. Tidak seperti versi sebelumnya, rilis ini jauh dari paket monolitik, memperkenalkan model klien terdistribusi yang memberikan fleksibilitas dan keamanan. Arsitektur baru ini memungkinkan perusahaan untuk:
- Jalankan tugas di beberapa lingkungan cloud.
- Menerapkan kontrol keamanan granular.
- Mendukung beragam bahasa pemrograman.
- Aktifkan penyebaran multi-cloud sejati.
Dukungan bahasa yang diperluas Airflow 3.0 juga menarik. Sementara versi sebelumnya terutama berpusat pada Python, rilis baru secara asli mendukung beberapa bahasa pemrograman.
Airflow 3.0 diatur untuk mendukung Python dan pergi dengan dukungan yang direncanakan untuk java, naskah dan karat. Pendekatan ini berarti insinyur data dapat menulis tugas dalam bahasa pemrograman pilihan mereka, mengurangi gesekan dalam pengembangan dan integrasi alur kerja.
Kemampuan yang digerakkan oleh peristiwa mengubah alur kerja data
Aliran udara secara tradisional unggul dalam pemrosesan batch yang dijadwalkan, tetapi perusahaan semakin membutuhkan kemampuan pemrosesan data real-time. Aliran udara 3.0 sekarang mendukung kebutuhan itu.
“Perubahan utama dalam aliran udara 3 adalah apa yang kami sebut penjadwalan yang digerakkan oleh acara,” Koka menjelaskan.
Alih -alih menjalankan pekerjaan pemrosesan data setiap jam, aliran udara sekarang secara otomatis memulai pekerjaan ketika file data tertentu diunggah atau ketika pesan tertentu muncul. Ini dapat mencakup data yang dimuat ke dalam ember penyimpanan cloud Amazon S3 atau pesan data streaming di Apache Kafka.
Kemampuan penjadwalan yang digerakkan oleh acara membahas kesenjangan kritis antara ETL tradisional [Extract, Transform and Load] Kerangka kerja alat dan pemrosesan aliran seperti Apache Flink atau Apache Spark Streaming terstruktur, yang memungkinkan organisasi untuk menggunakan satu lapisan orkestrasi untuk alur kerja yang dijadwalkan dan dipicu oleh peristiwa.
Aliran udara akan mempercepat eksekusi inferensi perusahaan dan senyawa ai
Orkestrasi data yang digerakkan oleh peristiwa juga akan membantu aliran udara untuk mendukung eksekusi inferensi yang cepat.
Sebagai contoh, Koka merinci kasus penggunaan di mana inferensi real-time digunakan untuk layanan profesional seperti pelacakan waktu hukum. Dalam skenario itu, aliran udara dapat digunakan untuk membantu mengumpulkan data mentah dari sumber seperti kalender, email, dan dokumen. Model bahasa besar (LLM) dapat digunakan untuk mengubah informasi yang tidak terstruktur menjadi data terstruktur. Model pra-terlatih lain kemudian dapat digunakan untuk menganalisis data pelacakan waktu terstruktur, menentukan apakah pekerjaan tersebut dapat ditagih, kemudian menetapkan kode dan tarif penagihan yang sesuai.
Koka menyebut pendekatan ini sebagai sistem AI majemuk – alur kerja yang menyatukan model AI yang berbeda untuk menyelesaikan tugas yang kompleks secara efisien dan cerdas. Arsitektur Airflow 3.0 yang digerakkan oleh acara membuat jenis proses inferensi multi-langkah real-time ini mungkin di berbagai kasus penggunaan perusahaan.
Compound AI adalah pendekatan yang pertama kali ditentukan oleh Pusat Penelitian Kecerdasan Buatan Berkeley pada tahun 2024 dan sedikit berbeda dari AI agen. Koka menjelaskan bahwa AI agen memungkinkan untuk pengambilan keputusan AI yang otonom, sedangkan Compound AI memiliki alur kerja yang telah ditentukan sebelumnya yang lebih dapat diprediksi dan dapat diandalkan untuk kasus penggunaan bisnis.
Bermain bola dengan aliran udara, bagaimana Texas Rangers terlihat mendapat manfaat
Di antara banyak pengguna aliran udara adalah tim bisbol Major League Texas Rangers.
Oliver Dykstra, Insinyur Data Full-Stack di Texas Rangers Baseball Club, mengatakan kepada VentureBeat bahwa tim menggunakan aliran udara yang di-host di platform Astronomer Astro sebagai 'pusat saraf' operasi data baseball. Dia mencatat bahwa semua pengembangan pemain, kontrak, analitik, dan tentu saja, data game diatur melalui aliran udara.
“Kami berharap dapat meningkatkan ke Airflow 3 dan peningkatannya untuk penjadwalan, pengamatan, dan garis keturunan data yang digerakkan oleh peristiwa,” kata Dykstra. “Karena kami sudah mengandalkan aliran udara untuk mengelola pipa AI/ML kritis kami, efisiensi tambahan dan keandalan aliran udara 3 akan membantu meningkatkan kepercayaan dan ketahanan produk data ini dalam seluruh organisasi kami.”
Apa artinya ini untuk adopsi AI perusahaan
Untuk pembuat keputusan teknis yang mengevaluasi strategi orkestrasi data, Airflow 3.0 memberikan manfaat yang dapat ditindaklanjuti yang dapat diimplementasikan secara fase.
Langkah pertama adalah mengevaluasi alur kerja data saat ini yang akan mendapat manfaat dari kemampuan baru yang digerakkan oleh peristiwa. Organisasi dapat mengidentifikasi jalur pipa data yang saat ini memicu pekerjaan terjadwal, tetapi pemicu berbasis acara dapat dikelola lebih efisien. Pergeseran ini dapat secara signifikan mengurangi latensi pemrosesan sambil menghilangkan operasi pemungutan suara yang sia -sia.
Selanjutnya, para pemimpin teknologi harus menilai lingkungan pengembangan mereka untuk menentukan apakah dukungan bahasa baru aliran udara dapat mengkonsolidasikan alat orkestrasi yang terfragmentasi. Tim yang saat ini memelihara alat orkestrasi yang terpisah untuk lingkungan bahasa yang berbeda dapat mulai merencanakan strategi migrasi untuk menyederhanakan tumpukan teknologi mereka.
Untuk perusahaan yang memimpin dalam implementasi AI, Airflow 3.0 merupakan komponen infrastruktur penting yang dapat mengatasi tantangan yang signifikan dalam adopsi AI: mengatur alur kerja AI multi-tahap yang kompleks pada skala perusahaan. Kemampuan platform untuk mengoordinasikan sistem AI majemuk dapat membantu memungkinkan organisasi untuk melampaui konsep bukti ke penyebaran AI di seluruh perusahaan dengan tata kelola, keamanan, dan keandalan yang tepat.