Data Lakes vs. Data Mesh: Menyongsong Masa Depan Strategi Data Organisasi

Selama lebih dari satu dekade, organisasi telah mengadopsi data lake untuk mengatasi keterbatasan teknis gudang data dan bertransformasi menjadi entitas yang lebih berfokus pada data. Meskipun banyak organisasi telah memanfaatkan data lake untuk menjelajahi kasus penggunaan data baru dan meningkatkan pendekatan berbasis data mereka, beberapa organisasi lainnya merasa manfaat yang dijanjikan sulit untuk dicapai. Akibatnya, efektivitas dan pengembalian investasi (ROI) dari berbagai inisiatif data lake kini tengah mendapat perhatian yang lebih mendalam.

Menavigasi Perangkap: Ketika Data Lake Berubah Menjadi Data Swamp

Pandangan komunitas teknologi terhadap data lake telah berubah seiring dengan tantangan yang dihadapi beberapa organisasi dalam mengelola penyimpanan data yang besar dan menghindari “data swamp,” di mana data disimpan namun tidak dimanfaatkan. Data swamp ini adalah kumpulan data yang sangat besar yang ditumpahkan sembarangan, mengakibatkan masalah dalam hal penemuan dan kegunaan data. Sentralisasi dapat menimbulkan kemacetan yang memperlambat akses dan analisis, dan tanpa tata kelola yang ketat, kualitas data dapat cepat menurun. Selain itu, pendekatan satu ukuran untuk semua yang diterapkan pada data lake sering kali tidak memenuhi kebutuhan spesifik dari berbagai domain bisnis. Potensi data lake sering kali tidak dapat dimanfaatkan secara optimal karena pengguna menghadapi kesulitan dalam mengekstrak nilai akibat kurangnya alat yang tepat atau kompleksitas data itu sendiri.

Data Lake yang Diterapkan dengan BaikData Lake yang Diterapkan dengan Buruk
Sumber Kebenaran TunggalData silos yang sulit diakses
Penyimpanan yang hemat biayaBanyak data tidak relevan disimpan (“Data adalah Data is The New Oil”)
Demokratisasi dataKeterampilan khusus diperlukan untuk mengakses data
Fleksibilitas format dataKualitas data yang buruk dan inkonsistensi
Analitik canggih dan pembelajaran mesinKesulitan mengekstrak nilai dari data tak terstruktur yang besar
Wawasan yang lebih cepatKomunikasi lambat dan kekurangan alat, antarmuka, serta keterampilan
Manajemen data yang efisien  Manajemen menjadi rumit seiring pertumbuhan data lake

Produsen Data vs. Konsumen Data: Jurang dalam Organisasi

Penyebab utama masalah ini terletak pada interaksi organisasi antara produsen data dan konsumen data di satu sisi, serta tim data lake pusat di sisi lainnya. Produsen data sering kali lebih termotivasi untuk mengembangkan fitur aplikasi baru daripada membuat data tersedia untuk keperluan analisis. Fokus mereka pada beban kerja transaksional, bukan analitik, sering kali mengakibatkan data yang dibagikan berkualitas rendah. Selain itu, mereka juga kurang terhubung dengan konsumen data mereka, sehingga sering terjadi ketidaksesuaian antara apa yang diproduksi dan apa yang sebenarnya dibutuhkan.

Tim data lake juga menghadapi tantangan mereka sendiri: Mereka dibebani dengan banyak sumber data, harus melakukan pemeliharaan teknis yang kompleks, dan sering kali harus mengatur prioritas yang berubah-ubah. Dengan kemampuan analitik yang terbatas dan kurangnya koneksi dengan produsen data, konsumen sering merasa frustrasi karena kurangnya transparansi, nilai yang tidak jelas, dan rendahnya prioritas terhadap kebutuhan mereka. Biasanya, produsen dan konsumen data tidak berinteraksi secara langsung; komunikasi ini terhalang oleh organisasi proxy data lake, di mana semua data disimpan secara terpusat.

Memberdayakan Tim dengan Data Mesh: Jalan Menuju Ekosistem Data Terdistribusi

Diskusi dalam komunitas teknologi kini beralih ke strategi data yang lebih canggih dan fleksibel, yang dikenal sebagai data mesh. Strategi ini bertujuan mengatasi beberapa keterbatasan dari data lake terpusat dengan mengusung pendekatan manajemen data yang lebih terdistribusi, berpusat pada manusia, dan sesuai dengan konteks.

Data mesh adalah alternatif untuk masalah sentralisasi. Pendekatan ini menetapkan tanggung jawab atas data analitis kepada tim-tim yang spesifik pada domain yang membangun dan menjalankan aplikasi serta menghasilkan data transaksional, seperti tim e-commerce, serta tim yang mengonsumsi data dan menggunakannya untuk mendapatkan wawasan. Misalnya, tim yang mengelola halaman checkout di sebuah toko online dan menyimpan data penjualan dalam database transaksional juga bertanggung jawab untuk menyediakan data penjualan tersebut untuk analitik, pelaporan, dan penggunaan AI/ML, seperti pemasaran atau keuangan. Data mesh mempermudah dan menyederhanakan penggunaan data analitis bagi konsumen.

Ini bukan hanya sekadar antarmuka tambahan; data disajikan sebagai produk data independen yang memberikan manfaat spesifik kepada konsumen aktual. Produk data ini mencakup data spesifik beserta metadata-nya, kode sumber yang diperlukan untuk menyiapkan dan menyajikan data, infrastruktur pengujian dan produksi yang diperlukan (sebagai Infrastructure as Code/IaC), serta konfigurasinya.

Menumbuhkan Literasi Data: Memperkenalkan Peran Baru dalam Tim Data Mesh

Tim yang membuat dan menggunakan data, seperti tim checkout e-commerce dan departemen pemasaran dalam contoh saya, sering kali kurang memiliki keahlian dalam mengembangkan dan mengelola data untuk analitik. Namun, pengetahuan mendalam mereka tentang konteks bisnis data sangat berharga. Dalam kerangka kerja data mesh, penting untuk memanfaatkan pengetahuan ini dengan meningkatkan keterampilan tim-tim tersebut untuk mengimplementasikan kasus penggunaan analitik. Ini melibatkan pemberian pelatihan mendalam kepada anggota yang ada dan pembentukan peran-peran khusus tambahan. Dua peran kunci yang sangat penting adalah pemilik produk data yang mengarahkan strategi data dan insinyur data yang menangani aspek teknis dalam pembuatan dan pengelolaan produk data tersebut.

Pemilik produk data adalah seorang profesional yang berfokus pada bisnis dan memiliki pemahaman mendalam tentang domain bisnis dari perspektif transaksional dan analitik. Mereka berkomunikasi langsung dengan konsumen produk data, mendefinisikan produk, strateginya, dan peta jalannya.

Insinyur data adalah seorang ahli umum dalam rekayasa data dan ilmu data dengan keahlian mendalam di area terkait data yang dibutuhkan oleh bisnis. Mereka membangun produk data yang sesungguhnya dan menjadi kontak utama untuk pertanyaan teknis dari tim lain.

Membangun Dasar Kesuksesan: Platform Data Mesh

Untuk memaksimalkan potensi data mesh, saya merekomendasikan agar kedua peran tersebut diintegrasikan langsung ke dalam tim produsen dan konsumen. Sebagai alternatif yang valid namun kurang optimal, karena memperkenalkan kembali tim proxy, adalah membentuk tim data mesh terpisah untuk setiap domain bisnis (misalnya, e-commerce). Platform data mesh mendukung produsen dan konsumen dengan mempermudah serta meningkatkan efisiensi pekerjaan mereka. Tim platform data mesh tidak terlibat dalam pembuatan produk data atau penyimpanan serta pemrosesan data.

Platform data mesh memiliki tiga peran utama: (1) menyediakan alat dan infrastruktur seperti katalog data, kontrol akses, pipeline CI/CD, pemantauan, serta lingkungan pengembangan dan pengujian; (2) melatih dan memberi saran kepada produsen dan konsumen serta, jika diperlukan, mendukung mereka dengan kapasitas pengembangan tambahan; dan (3) memoderasi standar dan prosedur umum dalam pendekatan terfederasi yang harus dipatuhi di seluruh organisasi. Misi dari platform data mesh adalah membuat pekerjaan produsen dan konsumen menjadi lebih sederhana, efisien, dan bebas stres.

Namun, menjalankan platform dengan sukses dan berkelanjutan tidak semudah yang sering dikatakan oleh beberapa pihak di komunitas teknologi. Saya telah merangkum pengalaman saya dalam postingan blog tentang cara membangun platform yang efektif mendukung tim pengembangan Anda.

Jika diterapkan dengan benar, model data mesh mendorong pendekatan proaktif dalam menjaga kualitas, relevansi, dan aksesibilitas data, serta menyesuaikan produk data untuk memenuhi kebutuhan spesifik dari berbagai unit bisnis. Dengan menyelaraskan data analitik secara erat dengan konteks operasionalnya, data mesh memfasilitasi penggunaan dan berbagi data yang lebih efektif di seluruh organisasi. Ini memanfaatkan prinsip-prinsip arsitektur terdistribusi modern, seperti yang diambil dari arsitektur mikroservis, untuk tidak hanya menyimpan data secara lebih efisien tetapi juga membuatnya mudah diakses untuk konsumsi, yang pada gilirannya mendorong wawasan yang dapat ditindaklanjuti dan selaras dengan tujuan bisnis.

Ingin tahu lebih banyak mengenai aws cloud, silahkan hubungi awscloud@ilogoindonesia.id