Tag Archives: Jim Baker

Memahami Permasalahan Dalam Kualitas Data

Sebelum data dikonsumsi, penting bagi bisnis untuk memastikan bahwa data tersebut sudah terlepas dari permasalahan terkait dengan kualitas, baik itu masalah validitas atau masalah-masalah lainnya. Upaya tersebut penting, karena permasalahan pada kualitas data bisa memberikan dampak yang tidak baik pada saat pengolahan dan capaian hasil analisisnya.

Jim Baker atau sering disebut sebagai “Dr. Data” dalam blog pribadinya menuliskan bahwa ada dua jenis tipe permasalahan dalam kualitas data, yakni “know what” dan “know how”.

Permasalahan pertama, yakni “know what”, dikatakan lebih mudah dideteksi karena berkaitan dengan validitas. Seperti apa yang seharusnya terdiri dari dua opsi kemudian tiba-tiba muncul angka lima dalam datanya. Permasalahan seperti ini disebutkan Jim bisa diselesaikan oleh perangkat lunak, dan bahkan orang-orang yang tidak mempunyai latar belakang mengenai data bisa menyelesaikannya. Ini berkaitan dengan kelengkapan, konsistensi, keunikan, dan validitas data.

Permasalahan kedua disebutkan lebih kompleks atau lebih misterius dari yang pertama. Permasalahan mengenai “know how” berkaitan dengan timeline dan akurasi pada data. Untuk memecahkan permasalahan ini diperlukan tingkat riset, wawasan dan pengalaman untuk memecahkannya. Jim mencontohkan kasus yang kedua ini dengan data pensiun. Seharusnya ketika ada data mengenai pensiun tanggal pensiun semua jelas, artinya data sebelumnya harus saling terkait dan tervalidasi. Untuk itu diperlukan masukan dan konfirmasi dari beberapa pihak.

Dari dua permasalahan ini disebutkan bahwa 80 persen permasalahan yang ditemui ada di tipe pertama dan 20 persen di tipe kedua. Namun untuk investasi atau biaya yang dikeluarkan untuk mengatasi permasalahan tersebut justru sebaliknya. Tipe kedua lebih banyak, disebutkan bisa mencapai 80 persen anggaran untuk mengantisipasinya.

Untuk meningkatkan akurasi data yang dimiliki antisipasi tipe permasalahan pertama dan kedua harus dipecahkan bersama. Yang harus diketahui adalah permasalahan pertama biasanya ditimbulkan dari permasalahan di ekspor atau impor data, data yang corrupt, data yang dihasilkan secara manual bahkan human error.

Berbeda dengan permasalahan pertama, permasalahan kedua disebutkan hadir berkat hal-hal yang lebih natural. Seperti data yang kelihatan benar kemarin berubah menjadi tidak benar sekarang, sederhananya karena keadaan seseorang telah berubah.

Untuk mengantisipasi keduanya diperlukan sesuatu dan seseorang yang ahli. Sesuatu berupa perangkat lunak yang berkualitas dan seseorang untuk ahli data yang profesional dan berkualitas.

Disclosure: DailySocial bekerja sama dengan bigdata-madesimple.com untuk seri penulisan artikel tentang big data.