
Bergabunglah dengan acara yang dipercaya oleh para pemimpin perusahaan selama hampir dua dekade. VB Transform menyatukan orang -orang yang membangun strategi AI perusahaan nyata. Pelajari lebih lanjut
Hari ini, pada data tahunan + AI Summit, databricks mengumumkan bahwa mereka adalah open-sourcing kerangka ETL deklaratif intinya sebagai pipa deklaratif Apache Spark, membuatnya tersedia untuk seluruh komunitas Apache Spark dalam rilis mendatang.
DataBricks meluncurkan kerangka kerja sebagai delta live tabel (DLT) pada tahun 2022 dan telah sejak itu memperluasnya ke Bantuan tim membangun dan mengoperasikan jalur pipa data yang andal dan dapat diskalakan dari ujung ke ujung. Langkah ke open-source itu memperkuat komitmen perusahaan untuk membuka ekosistem sambil menandai upaya untuk one-up saingannya Snowflake, yang baru-baru ini meluncurkan layanan OpenFlow sendiri untuk integrasi data-komponen penting rekayasa data.
Penawaran Snowflake Taps Apache Nifi untuk memusatkan data apa pun dari sumber apa pun ke dalam platformnya, sementara databricks membuat teknologi teknik pipa in-house terbuka, memungkinkan pengguna untuk menjalankannya di mana saja Apache Spark didukung-dan bukan hanya pada platformnya sendiri.
Menyatakan pipa, biarkan percikan menangani sisanya
Secara tradisional, rekayasa data telah dikaitkan dengan tiga titik nyeri utama: penulisan pipa kompleks, overhead operasi manual dan kebutuhan untuk mempertahankan sistem terpisah untuk beban kerja batch dan streaming.
Dengan pipa Deklaratif Spark, insinyur menggambarkan apa yang harus dilakukan pipa mereka menggunakan SQL atau Python, dan Apache Spark menangani eksekusi. Kerangka kerja secara otomatis melacak dependensi antara tabel, mengelola pembuatan tabel dan evolusi dan menangani tugas operasional seperti eksekusi paralel, pos pemeriksaan, dan coba lagi dalam produksi.
“Anda mendeklarasikan serangkaian dataset dan aliran data, dan Apache Spark mencari tahu rencana eksekusi yang tepat,” Michael Armbrust, insinyur perangkat lunak terkemuka di databricks, mengatakan dalam sebuah wawancara dengan VentureBeat.
Kerangka kerja mendukung data batch, streaming dan semi-terstruktur, termasuk file dari sistem penyimpanan objek seperti Amazon S3, ADLS, atau GCS, di luar kotak. Insinyur hanya harus mendefinisikan pemrosesan waktu-nyata dan berkala melalui API tunggal, dengan definisi pipa divalidasi sebelum eksekusi untuk menangkap masalah lebih awal-tidak perlu mempertahankan sistem yang terpisah.
“Ini dirancang untuk realitas data modern seperti mengubah umpan data, bus pesan, dan analitik waktu-nyata yang memberi daya pada sistem AI. Jika Apache Spark dapat memprosesnya (data), jaringan pipa ini dapat menanganinya,” jelas Armbrust. Dia menambahkan bahwa pendekatan deklaratif menandai upaya terbaru dari databricks untuk menyederhanakan Apache Spark.
“Pertama, kami membuat fungsional komputasi terdistribusi dengan RDD (dataset terdistribusi yang tangguh). Kemudian kami membuat deklaratif eksekusi kueri dengan Spark SQL. Kami membawa model yang sama untuk streaming dengan streaming terstruktur dan membuat cloud storage transaksional dengan Danau Delta. Sekarang, kami mengambil lompatan berikutnya dari membuat saluran pipa ujung ke ujung,” katanya.
Terbukti pada skala
Sementara kerangka kerja pipa deklaratif diatur untuk berkomitmen pada basis kode Spark, kecakapannya sudah diketahui ribuan perusahaan yang telah menggunakannya sebagai bagian dari solusi Lakeflow Databricks untuk menangani beban kerja mulai dari pelaporan batch harian hingga aplikasi streaming sub-detik.
Manfaatnya sangat mirip di seluruh papan: Anda membuang jauh lebih sedikit waktu pengembangan pipa atau pada tugas pemeliharaan dan mencapai kinerja, latensi, atau biaya yang jauh lebih baik, tergantung pada apa yang ingin Anda optimalkan.
Blok Perusahaan Jasa Keuangan menggunakan kerangka kerja untuk memotong waktu pengembangan lebih dari 90%, sementara Navy Federal Credit Union mengurangi waktu pemeliharaan pipa sebesar 99%. Mesin streaming terstruktur percikan, di mana jaringan pipa deklaratif dibangun, memungkinkan tim untuk menyesuaikan pipa untuk latensi spesifik mereka, hingga streaming waktu nyata.
“Sebagai manajer teknik, saya suka fakta bahwa insinyur saya dapat fokus pada apa yang paling penting bagi bisnis,” kata Jian Zhou, manajer teknik senior di Navy Federal Credit Union. “Sangat menyenangkan melihat tingkat inovasi ini sekarang bersumber terbuka, membuatnya dapat diakses oleh lebih banyak tim.”
Brad Turnbaugh, insinyur data senior di 84,51 °, mencatat bahwa kerangka kerja telah “membuatnya lebih mudah untuk mendukung batch dan streaming tanpa menjahit sistem yang terpisah” sambil mengurangi jumlah kode yang harus dikelola oleh timnya.
Pendekatan berbeda dari kepingan salju
Snowflake, salah satu saingan terbesar basis data, juga telah mengambil langkah -langkah pada konferensi baru -baru ini untuk mengatasi tantangan data, memulai debutnya layanan konsumsi yang disebut OpenFlow. Namun, pendekatan mereka sedikit berbeda dari databricks dalam hal ruang lingkup.
OpenFlow, dibangun di atas Apache nifi, berfokus terutama pada integrasi data dan pergerakan ke dalam platform Snowflake. Pengguna masih perlu membersihkan, mengubah, dan menggabungkan data setelah tiba di Snowflake. Pipa Deklaratif Spark, di sisi lain, melampaui dengan beralih dari sumber ke data yang dapat digunakan.
“Pipa Deklaratif Spark dibangun untuk memberdayakan pengguna untuk memutar pipa data ujung ke ujung-yang berfokus pada penyederhanaan transformasi data dan operasi pipa kompleks yang mendukung transformasi tersebut,” kata Armbrust.
Sifat open-source dari pipa deklaratif Spark juga membedakannya dari solusi berpemilik. Pengguna tidak perlu menjadi pelanggan databricks untuk memanfaatkan teknologi ini, selaras dengan sejarah perusahaan yang berkontribusi proyek besar seperti Katalog Delta Lake, MLFLOW dan Unity ke komunitas open-source.
Timeline ketersediaan
Apache Spark Declarative Pipelines akan berkomitmen pada basis kode Apache Spark dalam rilis yang akan datang. Timeline yang tepat, bagaimanapun, masih belum jelas.
“Kami sangat senang dengan prospek open-sourcing kerangka pipa deklaratif kami sejak kami meluncurkannya,” kata Armbrust. “Selama 3+ tahun terakhir, kami telah belajar banyak tentang pola yang paling berhasil dan memperbaiki yang membutuhkan beberapa penyesuaian. Sekarang terbukti dan siap berkembang di tempat terbuka.”
Peluncuran open source juga bertepatan dengan ketersediaan umum pipa Deklaratif Databricks Lakeflow, versi komersial teknologi yang mencakup fitur dan dukungan perusahaan tambahan.
Databricks Data + AI Summit berjalan dari 9 hingga 12 Juni 2025