Apa itu Big Data: Jenis, Ekosistem dan, Karakteristiknya
Di era teknologi digital, sebagian orang sudah akrab dengan istilah Big Data. Tapi tidak sedikit pula masyarakat awam data yang bingung dengan istilah ini.
Big data merupakan salah satu istilah yang menggambarkan volume suatu data yang besar baik terstruktur maupun tidak terstruktur. Jumlahnya pun selalu bertambah setiap harinya.
Dalam bahasa Indonesia, istilah big data disebut dengan mahadata, data raya dan data berskala besar.
Kemudian, big data itu apa sih? Kira-kira, apakah sekumpulan data bisa disebut dengan big data? Terus apa aja sih karakteristik dari big data? Simak artikelnya sampai habis yuk Sobat Rakamin!
1. Sekilas Tentang Big Data
Big data merupakan istilah dalam bidang data science yang digunakan untuk menyebutkan volume data berukuran besar. Melihat ukurannya yang besar pastinya membutuhkan proses komputasi dengan jangka waktu tertentu untuk bisa mendapatkannya.
Kalau bicara soal besarnya suatu data, kira-kira berapa sih ukuran yang tepat? Seringkali kesalahpahaman yang terjadi bahwa big data dianggap sebagai data yang ukurannya tidak dapat dihitung dalam satuan metrik data seperti bytes.
Misalnya gigabytes, terabytes, exabytes. Tapi sebenarnya anggapan ini tidak selamanya benar.
Suatu data dikatakan sebagai big data tergantung pada konteks dari sistem penyimpanannya. Contoh paling simple adalah aplikasi Gmail.
Kita tahu bahwa saat melakukan pengiriman file dibawah 25 MB maka Gmail tidak memberikan notifikasi apapun dan menganggap bahwa data tersebut bukan termasuk big data. Sedangkan jika kita ingin mengirimkan file lebih dari 25 MB maka Gmail akan memberitahukan kepada kita untuk menjadikan file kita dalam bentuk drive.
Selain Gmail, banyak juga contoh dari big data yang bisa kita temukan dalam kehidupan sehari-hari. Misalnya riwayat checkout saat berbelanja di marketplace, history akun yang ada di aplikasi smartphone kita, nomor telepon yang kita simpan dalam kontak juga bagian dari big data.
Jadi, sudah jelas bahwa big data memegang kumpulan data dalam jumlah yang besar dan kian bertambah terus setiap waktu.
2. Jenis Big Data
Peranan big data dalam kehidupan sehari-hari ternyata banyak jenisnya. Ada tiga jenis dalam big data berdasarkan susunan datanya. Dimulai dari structured data, semi-structured data dan unstructured data.
Masing-masing jenis dari big data punya ciri khasnya sendiri. Berikut adalah penjelasan dari ketiga jenis big data.
Structured Data
Jenis big data yang pertama yaitu structured data atau data yang terstruktur. Pada umumnya, jenis structured data sudah punya susunan data yang baik.
Maksudnya baik disini data sudah terdefinisikan dengan jelas mulai dari keseragaman ukuran, satuan pengukuran yang sudah sesuai dengan standar, format angka sudah setara dengan ketentuan, kemudahan akses, dan struktur angka yang jelas.
Data yang terstruktur akan memudahkan data scientist untuk melakukan analisis data. Artinya structured data sudah siap untuk dilakukan pengolahan dengan alat dan metode tertentu.
Semi-Structured Data
Lanjut, jenis data yang kedua adalah data semi-terstruktur. Ada yang menarik dari jenis data ini. Sebab, semi-structured data merujuk pada data yang belum diklasifikasikan di bawah repositori tertentu (database).
Walaupun belum didefinisikan tapi data ini juga mengandung informasi penting yang memisahkan elemen individu dalam data. Data ini tidak memiliki model data yang telah ditentukan sebelumnya dan lebih kompleks daripada data terstruktur, namun lebih mudah disimpan daripada data tidak terstruktur.
Contoh dari semi-structured data adalah data dalam bentuk file .json atau .xml, data email, paket TCP/IP, file zip dan lain-lain.
Unstructured Data
Jenis big data yang terakhir adalah unstructured data atau data tidak terstruktur. Data tidak terstruktur merupakan jenis big data yang tidak memiliki bentuk maupun struktur khusus apapun.
Dengan memiliki data yang tidak terstruktur pastinya akan menyulitkan untuk melakukan analisis data. Pastinya juga memiliki perbedaan perlakuan terhadap data yang terstruktur.
Kelebihan dari adanya unstructured data adalah data disimpan dalam format asli walaupun tidak terstruktur.
Kemampuan beradaptasi dalam meningkatkan format file dalam database memungkinkan pengguna untuk menyiapkan dan menganalisis hanya data yang mereka butuhkan.
Ketika kamu memiliki jenis data yang tidak terstruktur maka sebagai seorang praktisi data perlu keahlian untuk melakukan persiapan dan analisis data dari unstructured data.
Contoh dari data yang tidak terstruktur adalah ada foto, file, video, audio, konten media sosial, pdf, slide presentasi dan lain-lain.
3. Ekosistem Big Data
Big data memiliki empat ekosistem yaitu Data Devices, Data Collector, Data Aggregator dan Data User. Keempat ekosistem ini dapat digambarkan sebagai berikut:
Data Aggregators adalah kompilasi informasi dari basis data dengan tujuan untuk mempersiapkan dataset gabungan untuk pengolahan data. Analytics adalah cara untuk mengeksplorasi, menyelidiki, dan memahami secara mendalam suatu objek.
Hasil analytics biasanya tidak menyebabkan kebingungan, karena konteksnya biasanya membuat makna yang jelas. Perkembangan analytics dimulai dari Data Support System (DSS), kemudian berkembang menjadi Business Intelligence (BI), baru kemudian menjadi analytics.
Menurut Imam Cholissodin dan Efi Riyandani (2018), Business Intelligence dapat dilihat sebagai istilah umum untuk semua aplikasi yang mendukung Data Support System, bagaimana hal itu dikembangkan dalam industri dan semakin meluas sampai akhirnya di kalangan akademisi.
Business Intelligence berevolusi dari Data Support System, dan orang dapat berargumentasi bahwa analytics berevolusi dari Business Intelligence. Dengan demikian, analytics merupakan istilah umum untuk aplikasi analisis data.
Big Data Analytics merupakan alat dan teknik analisis yang akan sangat membantu dalam memahami big data, dengan syarat algoritma yang menjadi bagian dari alat- alat ini harus mampu bekerja dengan jumlah besar pada kondisi real-time dan pada sebaran data yang berbeda-beda
4. Karakteristik Big Data
Big data memiliki karakteristik tersendiri dalam penerapan kehidupan sehari-hari. Karakter dasar dari big data tentunya memiliki perkembangan yang cukup signifikan setiap era.
Mulanya big data memiliki tiga karakteristik yang disimbolkan dengan 3V. Kemudian berkembang menjadi 5V, 7V bahkan sekarang ini upgrade menjadi 10V.
Kali ini, kita akan jelaskan terkait dengan apa saja isi dari 10V itu? Yuk kita intip sama-sama ya penjelasannya sobat Rakamin.
1. Volume
Karakteristik big data yang pertama adalah volume. Kita tahu bahwa big data akan selalu berkembang setiap detiknya. Karakteristik volume pastinya menjadi karakter utama dalam big data.
Sebab sekumpulan data yang diperoleh pastinya didapatkan dalam jumlah yang besar dan saking banyaknya tentu akan berpengaruh pada jenis datanya.
Kita terkadang sulit membedakan mana data yang terstruktur dan mana yang tergolong jenis data tidak terstruktur. Adapun contohnya adalah feed Twitter, chat Whatsapp, status whatsapp, postingan instagram dan lain-lain.
Dari sini sudah jelas terlihat bahwa arus data yang bergerak setiap hari dan jumlahnya tidak menentu setiap hari. Kadang ribuan bahkan terrabyte tiap detiknya. Misalnya dalam setiap menit ada sekitar 350 jam tayang video yang diunggah ke YouTube.
2. Velocity
Velocity menggambarkan kecepatan data yang dibuat, diolah kembali dan digeneralisasi dalam sebuah big data. Kecepatan disini sangat berpengaruh terhadap lalu lintas big data.
Data bisa diakses dengan sangat cepat sehingga dapat langsung muncul dalam detik itu juga (real-time). Kecuali beda ceritanya apabila kamu terhalang dengan jaringan koneksi internet maka pastinya akan muncul lama.
Kita bisa contohkan bahwa Google mencatat sekitar 65 ribu pencarian setiap detiknya. Kalau misalnya dikalkulasikan maka lebih dari 5,6 miliar pencarian pada setiap harinya.
3. Variety
Selanjutnya kita masuk ke karakter data ketiga yaitu variety. Data dikategorikan sebagai big data apabila punya keragaman data tetapi memiliki banyak sekali variabelnya.
Variety menggambarkan bahwa big data memiliki variasi data yang beragam. Kita sudah jelaskan diatas yaitu karakter unstructured data, structured data dan semi-structured data.
Tiap jenis data tentunya memiliki beberapa perlakuan dalam melakukan pengolahan dan analisis data. Analisis terhadap data tidak terstruktur tentunya memiliki perbedaan dengan data terstruktur.
Apabila datanya terstruktur maka data yang didapatkan sudah seragam sehingga bisa langsung dilakukan pengolahan. Sedangkan apabila datanya tidak terstruktur akan memerlukan algoritma yang berbeda dan waktu analisisnya juga membutuhkan waktu yang lama.
Untuk data-data semacam itu akan memerlukan waktu lebih untuk memprosesnya, karena bisa jadi di dalam data yang tidak terstruktur tersebut masih ada data lain atau data baru yang bisa digali.
4. Value
Dalam karakteristik big data, ada juga yang disebut dengan value. Hal ini berarti big data memiliki nilai yang sangat tinggi apabila dilakukan pengolahan data secara tepat dan akurat oleh praktisi data.
Value dapat diartikan pula seberapa bernilai atau bermaknanya data untuk keperluan pengambilan keputusan. Contohnya, disediakan data penjualan produk X dalam kuartal ketiga tahun 2021.
Bagi konsumen, data ini mungkin tidak penting karena buat apa bagi mereka. Namun, bagi pengambil kebijakan di tingkat manajerial, data penjualan pastinya sangat penting karena dari situlah mereka melakukan pengambilan keputusan.
Jadi disini dapat disimpulkan bahwa data di satu sisi mungkin kurang penting dan tidak ada artinya bagi sebagian orang. Namun data bisa menjadi sangat valuable jika ditangani oleh orang yang tepat.
5. Veracity
Veracity menjadi karakteristik big data yang kelima. Veracity menggambarkan seberapa akurat atau tidak sih suatu data itu. Apabila data tersebut tidak akurat gimana orang yang mau menangani data yang sumbernya masih dipertanyakan.
Valid dan akuratnya suatu data butuh proses yang tidak mudah. Pastinya butuh kedalaman dalam melakukan analisis big data secara sistematis dan runtut.
Apalagi sekarang zaman semakin canggih, kita bisa dengan mudah untuk mendeteksi apakah data tersebut akurat atau tidak. Soalnya, ketika kamu coba input data di sistem saja, ada proses validasi data yang dimana kamu nggak bisa memasukkan nilai yang nggak valid.
Tentu, ini bakal bantu kamu banget untuk mengurangi kesalahan input. Terus, data digital juga memperkecil risiko kehilangan dan kerusakan data. Jadi, data kamu akan jauh lebih akurat.
6. Visualization
Karakteristik keenam adalah visualization. Setelah data dianalisis maka selanjutnya data akan dilakukan tahap visualisasi data. Visualisasi sangat penting bagi seorang praktisi data.
Dalam bisnis contohnya, visualisasi data dapat membantu pengambil kebijakan untuk menganalisis laporan penjualan, strategi pemasaran, dan minat produk.
Berdasarkan analisis, visualisasi data dapat fokus pada bidang-bidang yang membutuhkan perhatian untuk meningkatkan laba, yang pada gilirannya membuat bisnis lebih produktif.
Kita tahu bahwa dengan big data yang volume datanya besar akan menyulitkan kita untuk membuat kesimpulan kalau para analis tidak menggunakan tahapan yang benar. Kalau tahapannya benar, otomatis penarikan kesimpulan akan menjadi lebih mudah.
7. Validity
Validity kurang lebih mirip dengan veracity. Karakteristik ini sama-sama berpatokan pada prinsip bahwa suatu data haruslah valid dan akurat agar pengambilan keputusan yang dilakukan tepat sasaran.
Namun, validity disini lebih ke apakah memang data yang telah dikumpulkan sudah sesuai dengan permasalahan yang ingin dipecahkan oleh si analis. Jangan sampai datanya sudah akurat tapi kesesuaian datanya kurang diperhatikan.
Pastikan penggunaan data yang akan diolah sesuai dengan tujuan-tujuan tertentu agar bisa berjalan dengan baik.
8. Volatility
Sobat Rakamin pernah mendengar istilah volatilitas tidak? Jika belum, volatility atau volatilitas menggambarkan bahwa data setiap harinya mengalami perubahan yang kecenderungannya beragam.
Simplenya gini deh, kita bisa lihat contohnya melalui data harga daging sapi yang diamati selama pemberlakuan PPKM. Kecenderungan di lapangan tidak selamanya stabil namun terjadi pula penurunan yang drastis. Bisa naik melonjak bahkan turun.
Pada intinya, karakteristik volatility mengisyaratkan bahwa data yang didapatkan hari ni ataupun beberapa hari kemudian punya perbedaan dengan data yang ada saat ini. Perbedaan data bisa diasumsikan pada adanya keterkaitan dari sisi homogenitas data.
9. Vulnerability
Karakteristik kesembilan dalam big data adalah vulnerability. Maksudnya adalah karakter ini mengedepankan aspek keamanan dan perlindungan data.
Data yang dimiliki oleh perusahaan, instansi, organisasi, bisnis harus akuntabel dan bisa dipertanggungjawabkan. Peruntukannya jelas ditujukan untuk siapa. Dalam hal ini, big data harus mampu terlindungi dari tangan-tangan jahil yang tidak sepantasnya mengakses data tanpa seizin ownernya.
Misalnya kasus peretasan data pribadi yang dilakukan oleh pihak-pihak yang tidak bertanggung jawab.
10. Variability
Karakteristik big data yang terakhir adalah variability atau variasi data. Variability menggambarkan bahwa data selalu berubah-ubah setiap waktu. Data yang berbeda tersebut bisa berdampak pada karakteristik lainnya, misalnya saja pada proses dan kecepatan transfer data. Semakin besar variasinya semakin beragam pula datanya.
Di Rakamin Academy ada banyak pilihan kelas bisnis yang bisa kamu pilih sesuai dengan kebutuhan. Mulai dari Digital Marketing, SEO, UI UX Designer, Business Intelligence, Data Science dan lain-lain. Kamu juga akan mendapatkan sesi Coaching & CV Grooming untuk disalurkan kerja. What are you waiting for? Segera daftar yuk sobat Rakamin!