SlideShare a Scribd company logo
Big data analytics
1
Learning objectives
Pengenalan Big Data Dan Karakteristiknya
Arsitektur dan Infrastruktur Big Data
Sistem Informasi Berbasis Big Data
Teknik Pengumpulan dan Penyimpanan Data dalam Big Data
Big Data Processing: Batch Processing vs Real-Time Processing
Data Cleaning dan Preprocessing dalam Big Data
Big Data Analytics: Teknik dan Metode
Visualisasi Data dalam Big Data Analytics
Keamanan dan Privasi dalam Big Data
Tren dan Masa Depan Big Data Analytics
Pengenalan Big data dan karakteristiknya
3
Big Data didefinisikan sebagai kumpulan set data yang volumenya,
kecepatannya, atau varietasnya sangat besar sehingga sulit untuk
menyimpan, mengelola, memproses, dan menganalisis data
menggunakan basis data tradisional dan alat pemrosesan data.
Big Data mengacu pada kumpulan data yang sangat besar dan
kompleks, yang tumbuh dengan cepat dari waktu ke waktu. Saking
besarnya, data ini tidak dapat diproses secara efektif dengan aplikasi
pemrosesan data tradisional. Big Data mencakup data terstruktur, semi-
terstruktur, dan tidak terstruktur, yang berasal dari berbagai sumber
seperti :
- Media Sosial
- Transaksi Online
- Log Server`
Big Data
4
Pengenalan Big data dan karakteristiknya
Menurut perkiraan International Bisnis Machine ada 2,5 kuintiliun byte data dibuat
setiap hari. Laporan terbaru dari DOMO (Platform yang menyediakan Bussiness
Intellegence) memperkirakan jumlah data yang dihasilkan setiap menit di platform
online popular. Berikut adalah beberapa bagian data penting dari laporan tersebut
Pengguna Facebook membagikan hampir 4,16 juta konten
Pengguna Twitter mengirim hampir 300.000 tweet
Pengguna Instagram menyukai hampir 1,73 juta foto
Pengguna YouTube mengunggah 300 jam konten video baru
Amazon menerima 4.300 pengunjung baru
Pelanggan Netflix melakukan streaming hampir 77.000 jam video
5
Pengenalan Big data dan karakteristiknya
Analitik Big Data berkaitan dengan pengumpulan, penyimpanan, pemrosesan,
dan analisis data berskala besar. Alat dan kerangka kerja khusus diperlukan
untuk analisis big data ketika :
Kecepatan data sangat tinggi
dan data perlu dianalisis
secara waktu nyata
3. Ada keragaman data yang
terlibat, yang dapat terstruktur,
tidak terstruktur, atau semi-
terstruktur, dan dikumpulkan dari
berbagai sumber data
4. Berbagai jenis analitik perlu
dilakukan untuk mengekstrak
nilai dari data seperti analitik
deskriptif, diagnostik, prediktif,
dan preskriptif
Volume data yang terlibat sangat
besar sehingga sulit untuk
menyimpan, memproses, dan
menganalisis data pada satu mesin
1.
2.
3.
4.
6
Pengenalan Big data dan karakteristiknya
Karakteristik Big Data
Value
Veracity
Variety
Velocity
Volume
Nilai data mengacu pada
kegunaan data untuk tujuan
yang dimaksudkan. Tujuan
akhir dari setiap sistem
analitik data besar adalah
untuk mengekstrak nilai
dari data. Nilai data juga
terkait dengan keakuratan
atau ketepatan data. Untuk
beberapa aplikasi, nilai
juga bergantung pada
seberapa cepat kita dapat
memproses data
Keakuratan mengacu pada
seberapa akurat data
tersebut. Untuk
mengekstrak nilai dari data,
data perlu dibersihkan
untuk menghilangkan
gangguan. Aplikasi
berbasis data hanya dapat
menuai manfaat dari data
besar ketika data tersebut
bermakna dan akurat. Oleh
karena itu, pembersihan
data penting agar data
yang salah dan cacat dapat
disaring.
Varietas mengacu pada
bentuk-bentuk data. Data
besar datang dalam
berbagai bentuk seperti
terstruktur, tidak terstruktur,
atau semi-terstruktur,
termasuk data teks,
gambar, audio, video, dan
data sensor. Sistem data
besar perlu cukup fleksibel
untuk menangani varietas
data semacam itu
Kecepatan data mengacu
pada seberapa cepat data
dihasilkan. Data yang
dihasilkan oleh sumber
tertentu dapat tiba dengan
kecepatan yang sangat
tinggi, misalnya, data
media sosial atau data
sensor. Kecepatan adalah
karakteristik penting
lainnya dari data besar dan
alasan utama pertumbuhan
data secara eksponensial.
Big Data adalah bentuk
data yang volumenya
sangat besar sehingga
tidak akan muat pada satu
mesin, oleh karena itu alat
dan kerangka kerja khusus
diperlukan untuk
menyimpan, memproses,
dan menganalisis data
tersebut,
Sebagai contoh, aplikasi
media sosial memproses
miliaran pesan setiap hari,
sistem industri dan energi
dapat menghasilkan
terabyte data sensor setiap
hari, aplikasi agregasi taksi
dapat memproses jutaan
transaksi dalam sehari, dll.
7
Pengenalan Big data dan karakteristiknya
Perbedaan Big Data dengan Data Tradisional
Big Data
Data Tradisional
Aspek
Memahami perbedaan antara data terstruktur dan tidak
terstruktur sangat penting. Data tradisional sangat terstruktur,
sementara data besar dapat berkisar dari format terstruktur
hingga tidak terstruktur, termasuk teks, gambar, dan video.
Sangat terstruktur; diorganisasikan
dalam bidang yang telah ditentukan
sebelumnya seperti tabel dan baris
Struktur
Set data besar (petabyte hingga zettabyte) yang memerlukan
penyimpanan dan pemrosesan terdistribusi
Set data yang lebih kecil dan mudah
dikelola (gigabyte hingga terabyte) yang
cocok untuk basis data relasional.
Volume
Dihasilkan secara terus-menerus dan seringkali secara waktu
nyata, misalnya, oleh perangkat yang menangkap data
langsung.
Dihasilkan dan diperbarui secara
berkala, seperti harian atau mingguan.
Kecepatan
Memerlukan kerangka kerja canggih seperti Hadoop dan
Spark untuk pemrosesan berskala tinggi dan berkecepatan
tinggi
Dikelola dengan alat konvensional
seperti SQL, yang dirancang untuk data
terstruktur
Processing Tools
Analitik waktu nyata, pembelajaran mesin, dan pemodelan
prediktif di bidang-bidang seperti media sosial, e-commerce,
dan IoT
Catatan pelanggan, transaksi
keuangan, dan manajemen inventaris
Case
Penggunaan
Umum
Sebuah platform e-commerce global menganalisis jutaan
transaksi, klik, dan interaksi media sosial secara waktu nyata
untuk mengoptimalkan personalisasi dan alur inventaris
Sebuah toko ritel lokal menggunakan
SQL untuk melacak penjualan bulanan
dan informasi kontak pelanggan.
Contoh
8
Arsitektur dan infrastruktur big data
 Arsitektur Big Data dirancang untuk
menangani volume data yang besar,
beragam, dan bergerak cepat. Arsitektur
ini terdiri dari beberapa komponen utama
yang bekerja sama untuk
mengumpulkan, menyimpan,
memproses, dan memvisualisasikan
data. Berikut adalah komponen-
komponen utama tersebut :
1. Data Sources (Sumber Data)
• Database relasional (misalnya, MySQL,
PostgreSQL)
• File log dari server web
• Sensor IoT (Internet of Things)
• Media sosial
• Data streaming (misalnya, dari aplikasi
keuangan atau sensor)
• Dan sumber data lainya.z
2. Data Storage (Penyimpanan Data)
 Hadoop Distributed File System (HDFS): Sistem file yang dirancang untuk
menyimpan data dalam jumlah besar di klaster computer.
 NoSQL databases (misalnya, Cassandra, MongoDB): Database yang
dirancang untuk menangani data tidak terstruktur dan semi-terstruktur.
 Cloud storage (misalnya, Amazon S3, Azure Blob Storage): Layanan
penyimpanan berbasis cloud yang skalabel dan terjangkau.
3. Data Processing (Pemrosesan Data)
 Pemrosesan Batch: Memproses data dalam jumlah besar dalam batch,
biasanya untuk analisis historis. Contohnya adalah MapReduce di Hadoop.
 Pemrosesan Streaming: Memproses data secara real-time saat data
tersebut tiba. Ini berguna untuk aplikasi yang membutuhkan respons
cepat, seperti deteksi penipuan. Contohnya adalah Apache Spark
Streaming atau Apache Kafka Streams.
4. Visualitation (Data Visualization)
 Komponen ini menyajikan hasil pemrosesan data dalam format yang
mudah dipahami, seperti grafik, diagram, dan dasbor.
 Alat visualisasi data populer termasuk : Tableau, Power BI dan Grafana
9
Arsitektur dan infrastruktur big data
Dalam era Big Data, organisasi menghadapi tantangan untuk menyimpan dan
mengelola volume data yang besar, beragam, dan terus berkembang. Untuk
mengatasi tantangan ini, berbagai teknologi penyimpanan telah dikembangkan,
termasuk Data Lake, Data Warehouse, dan NoSQL.
Data Lake
Kekurangan
Keunggulan
Karakteristik
Konsep
• Membutuhkan tata
kelola data yang kuat
untuk mencegah "data
swamp".
• Membutuhkan keahlian
khusus untuk
mengakses dan
menganalisis data.
• Fleksibilitas dalam
menyimpan berbagai
jenis data.
• Skalabilitas untuk
menangani volume data
yang besar.
• Biaya penyimpanan yang
relatif rendah.
• Menyimpan data mentah
dalam format aslinya.
• Skema data ditentukan
saat data akan dianalisis
(schema-on-read).
• Cocok untuk eksplorasi
data, analisis prediktif,
dan machine learning.
• Data Lake adalah
repositori penyimpanan
terpusat yang menyimpan
data mentah dalam
berbagai format, baik
terstruktur, semi-
terstruktur, maupun tidak
terstruktur.
• Tujuannya adalah untuk
menyimpan semua data
organisasi di satu tempat,
sehingga dapat diakses
dan dianalisis kapan saja
Arsitektur dan infrastruktur big data
Data Warehouse
Kekurangan
Keunggulan
Karakteristik
Konsep
• Kurang fleksibel
dalam menangani
data tidak
terstruktur.
• Biaya pembangunan
dan pemeliharaan
yang relatif tinggi.
• Proses untuk
memasukan data
membutuhkan waktu
yang relatif lama.
• Kinerja kueri yang
cepat dan andal.
• Data yang konsisten
dan terpercaya.
• Mudah digunakan
untuk analisis bisnis.
• Menyimpan data
terstruktur yang telah
dibersihkan dan
diintegrasikan.
• Skema data tetap
dan terdefinisi
dengan baik.
• Cocok untuk
pelaporan bisnis,
analisis OLAP
(Online Analytical
Processing), dan
dashboard.
• Data Warehouse
adalah repositori
penyimpanan
terstruktur yang
menyimpan data
yang telah diproses
dan dioptimalkan
untuk analisis bisnis.
• Tujuannya adalah
untuk menyediakan
sumber data yang
konsisten dan andal
untuk pengambilan
Keputusan.
11
Arsitektur dan infrastruktur big data
NoSQL (Not Only SQL)
Kekurangan
Keunggulan
Karakteristik
Konsep
• Kurang cocok
untuk transaksi
kompleks yang
membutuhkan
ACID compliance.
• Membutuhkan
keahlian khusus
untuk mengelola
dan
mengoptimalkan.
• Skalabilitas
horizontal yang
mudah.
• Fleksibilitas dalam
menangani berbagai
jenis data.
• Kinerja tinggi untuk
aplikasi yang
membutuhkan
kecepatan akses
data yang cepat.
• Menyimpan data
dalam berbagai
format, seperti
dokumen, key-
value, kolom lebar,
dan grafik.
• Skema data dinamis
dan fleksibel.
• Cocok untuk
aplikasi web,
aplikasi seluler, dan
aplikasi Big Data
yang membutuhkan
skalabilitas tinggi.
• NoSQL (Not Only
SQL) adalah jenis
database yang
dirancang untuk
menangani data
tidak terstruktur dan
semi-terstruktur
dalam skala besar.
• NoSQL tidak
menggunakan
skema data
relasional seperti
database SQL
tradisional.
12
Arsitektur dan infrastruktur big data
Google BigQuery
Apache Spark
Hadoop
Platform
• Gudang data tanpa server
yang dikelola sepenuhnya
yang memungkinkan kueri
SQL cepat atas kumpulan
data skala petabyte.
• Solusi berbasis cloud yang
menghilangkan kebutuhan
manajemen infrastruktur.
• Sistem pemrosesan terdistribusi
sumber terbuka yang unggul dalam
kecepatan dan keserbagunaan.
• Memproses data dalam memori, yang
secara signifikan mempercepat
pemrosesan dibandingkan dengan
MapReduce Hadoop.
• Kerangka kerja sumber terbuka yang
memungkinkan penyimpanan dan pemrosesan
terdistribusi dari kumpulan data besar di seluruh
klaster perangkat keras komoditas.
• Komponen utama termasuk HDFS (Hadoop
Distributed File System) untuk penyimpanan dan
MapReduce untuk pemrosesan.
Gambaran
Umum
• Tanpa server: Tidak
diperlukan manajemen
infrastruktur.
• Skalabilitas: Dapat
menangani kumpulan data
besar.
• Kinerja kueri cepat:
Dioptimalkan untuk kueri
analitis.
• Kecepatan: Pemrosesan dalam
memori untuk analitik cepat.
• Keserbagunaan: Mendukung
berbagai beban kerja pemrosesan
data.
• Kemudahan penggunaan:
Menyediakan API untuk berbagai
bahasa pemrograman.
• Skalabilitas: Dapat menangani petabyte data.
• Toleransi kesalahan: Data direplikasi di seluruh
node, memastikan keandalan.
Kekuatan
Utama
• Gudang data dan
kecerdasan bisnis.
• Analisis kueri ad-hoc.
• Analitik prediktif.
• Analitik streaming waktu nyata.
• Pembelajaran mesin.
• Analisis data interaktif.
• Pemrosesan batch kumpulan Big Data.
• Gudang Data
• Analisis Log
Kasus
Penggunaan
13
PERAN SISTEM INFORMASIDALAM PENGELOLAAN BIG DATA
Sistem informasi memainkan peran penting dalam pengelolaan Big Data, yang
ditandai dengan volume, kecepatan, dan variasi data yang besar. Berikut adalah
beberapa peran utama sistem informasi dalam konteks Big Data:
- Sistem informasi bertanggung jawab untuk
mengumpulkan data dari berbagai sumber, baik
internal maupun eksternal.
- Ini melibatkan penggunaan teknologi seperti
sensor, aplikasi web, dan platform media sosial.
Pengumpulan dan Penyimpanan Data
- Sistem informasi memungkinkan pemrosesan
data yang efisien, termasuk pembersihan,
transformasi, dan integrasi data.
- Ini memfasilitasi analisis data yang mendalam
menggunakan teknik seperti data mining,
machine learning, dan analisis prediktif.
- Hasil analisis ini memberikan wawasan
berharga untuk pengambilan keputusan bisnis.
Pemrosesan dan Analisis Data
- Sistem informasi menyediakan alat untuk memvisualisasikan
data dalam bentuk grafik, diagram, dan dasbor.
- Visualisasi ini membantu pengguna memahami pola dan tren
dalam data dengan lebih mudah.
- Ini memungkinkan komunikasi yang efektif dari wawasan
yang diperoleh dari analisis Big Data.
Visualisasi Data
14
- Sistem informasi mendukung pengambilan
keputusan berdasarkan data dengan
menyediakan informasi yang relevan dan akurat.
- Ini memungkinkan organisasi untuk membuat
keputusan yang lebih baik dan lebih cepat,
berdasarkan wawasan yang diperoleh dari
analisis Big Data.
- Sistem informasi mendukung manajemen
informasi yang lebih lengkap dan akurat secara
real time. Informasi ini dapat digunakan untuk
pengambilan suatu keputusan yang lebih baik
dan lebih efektif untuk mencapai suatu tujuan.
Pengambilan Keputusan
- Sistem informasi memastikan keamanan data
dengan menerapkan kontrol akses dan enkripsi.
- Ini juga mengatur tata kelola data, termasuk
kualitas data, privasi, dan kepatuhan terhadap
peraturan
- Sistem Informasi Bisnis yang terintegrasi dengan
analisis Big Data dapat meningkatkan keamanan
perusahaan. Dengan memonitor aktivitas jaringan
dan menganalisis pola keamanan, perusahaan
dapat mendeteksi ancaman potensial lebih awal.
Keamanan dan Manajemen Data
PERAN SISTEM INFORMASIDALAM PENGELOLAAN BIG DATA
15
1
Data Integration
Menggabungkan data dari berbagai
sumber, seperti database, API, dan
sensor IoT
2
Data Processing
Menggunakan teknologi seperti
Hadoop dan Spark untuk
memproses data dalam skala besar.
3
Data Analysis
Menerapkan algoritma machine
learning dan statistik untuk
menganalisis data.
4
Decision Making
Menggunakan hasil analisis untuk
mendukung pengambilan
keputusan bisnis.
INTEGRASI SISTEM INFORMASI dalam analisisbig data
Integrasi sistem informasi dalam analisis big data merupakan proses menggabungkan dan
mengelola data dari berbagai sumber dan sistem yang berbeda untuk menghasilkan informasi
yang lebih berguna dan akurat. Integrasi antara sistem informasi dan big data analytics
melibatkan beberapa langkah.
16
E-commerce
Sektor Transportasi: Optimasi Rute
dan Prediksi Keterlambatan
Sektor Keuangan : Deteksi Fraud dan
Manajemen Risiko
• Perusahaan e-commerce
seperti Amazon dan Netflix
menggunakan Big Data
untuk merekomendasikan
produk dan konten yang
relevan kepada pelanggan.
• Perusahaan logistik dan
transportasi umum
menggunakan Big Data untuk
menganalisis data GPS, data
lalu lintas, dan data cuaca.
• Bank dan perusahaan asuransi
menggunakan Big Data untuk
menganalisis data transaksi, data
perilaku nasabah, dan data media
sosial.
Kasus
• Mereka menganalisis data
riwayat pembelian, data
penelusuran, dan data
peringkat untuk memahami
preferensi pelanggan.
• Dengan wawasan ini,
mereka dapat
mempersonalisasi
pengalaman pelanggan dan
meningkatkan penjualan.
• Mereka menggunakan analisis
ini untuk mengoptimalkan rute
pengiriman, memprediksi
keterlambatan, dan
meningkatkan efisiensi
operasional.
• Big data juga digunakan untuk
mengembangkan sistem
transportasi cerdas yang dapat
mengurangi kemacetan dan
meningkatkan keselamatan.
• Mereka menggunakan analisis ini
untuk mendeteksi transaksi
mencurigakan, mengidentifikasi pola
penipuan, dan menilai risiko kredit.
• Big data juga digunakan untuk
mengembangkan model risiko yang
lebih akurat dan untuk
mengoptimalkan strategi investasi.
Penerapan
• Peningkatan penjualan,
peningkatan keterlibatan
pelanggan, dan peningkatan
loyalitas pelanggan.
• Pengurangan biaya operasional,
peningkatan ketepatan waktu
pengiriman, dan peningkatan
keselamatan jalan.
• Pengurangan kerugian akibat penipuan,
peningkatan akurasi penilaian risiko, dan
peningkatan profitabilitas.
Hasil
Studi kasus penerapan sistem informasi berbasis Big Data
TeknikPengumpulanDatadalamBigData
Pengumpulan data merupakan langkah pertama dalam pengelolaan big
data. Ada tiga jenis sumber data, yaitu :
1. Data Terstruktur
Data yang disimpan dalam
format terorganisir, seperti
database SQL atau spreadsheet.
3. Data Tidak Terstruktur
Data yang tidak memiliki
format tertentu, seperti teks,
gambar, dan video.
17
2. Data Semi-Terstruktur
Data yang memiliki struktur
tetapi tidak seformal data
terstruktur, seperti JSON
atau XML.
Web Scraping
Mengambil data dari situs
web yang biasanya bersifat
terstruktur dalam halaman
web. Contohnya, berita, harga
produk, data sosial.
Metode Pengumpulan Data
Sensor IoT
Mengumpulkan data secara real-time dari
perangkat IoT seperti sensor suhu, GPS,
atau kamera
18
API (Application
Programming Interface)
Mengakses data dari
platform yang biasanya
terstruktur dan dalam
format yang terorganisir.
Metode pengumpulan data sangat penting dalam proses analisis big data karena
mereka memungkinkan pengumpulan data yang relevan dan bermanfaat dari berbagai
sumber. Berikut 3 metode pengumpulan data yang sering digunakan dalam konteks
big data:
Teknologi penyimpanan: HDFS, MongoDB, Cassandra
19
MongoDB
Hadoop Distributed File System
• MongoDB adalah database NoSQL
berbasis dokumen yang dirancang untuk
fleksibilitas dan skalabilitas.
• Cocok untuk aplikasi web dan mobile
yang membutuhkan skema data dinamis
dan akses data cepat.
• HDFS dirancang untuk menyimpan dan memproses data
berukuran sangat besar (Big Data) dalam lingkungan
terdistribusi.
• Ideal untuk aplikasi yang membutuhkan pemrosesan batch
data besar, seperti analisis log, data warehousing, dan
machine learning.
Tujuan Utama
• Database NoSQL: Tidak menggunakan
skema tabel relasional tradisional.
• Berbasis Dokumen: Data disimpan dalam
dokumen mirip JSON, yang fleksibel dan
mudah diubah.
• Skalabilitas Horizontal: Dapat diskalakan
dengan menambahkan lebih banyak
server (sharding).
• Fleksibilitas Skema: Tidak memerlukan
skema tetap, yang memungkinkan
pengembang untuk dengan mudah
mengubah struktur data.
• Terdistribusi: Data dibagi dan disimpan di banyak komputer
(node) dalam kluster.
• Toleransi Kesalahan: Data direplikasi di beberapa node untuk
memastikan ketersediaan data jika terjadi kegagalan node.
• Skalabilitas Tinggi: Dapat menangani petabyte data dengan
menambahkan lebih banyak node ke kluster.
• Pemrosesan Batch: Dioptimalkan untuk pemrosesan batch data
besar, bukan untuk akses data real-time.
Karakteristik
• Aplikasi Web, Manajemen Konten, IoT
(Internet Of Things) dan Aplikasi Real
Time
• Analisis Big Data, Data warehousing ,Pemrosesan log dan
Machine learning
Penggunaan
Teknologi penyimpanan: HDFS, MongoDB, Cassandra
20
Cassandra
• Cassandra adalah database NoSQL kolom lebar yang dirancang
untuk ketersediaan tinggi dan skalabilitas linear.
• Ideal untuk aplikasi yang membutuhkan penanganan data tulis yang
sangat besar dan ketersediaan 24/7, seperti aplikasi IoT, keuangan,
dan media sosial.
Tujuan Utama
• Database NoSQL Kolom Lebar: Data disimpan dalam tabel dengan
kolom yang dapat bervariasi untuk setiap baris..
• Ketersediaan Tinggi: Dirancang untuk toleransi kesalahan dan
ketersediaan 24/7.
• Skalabilitas Linear: Kinerja meningkat secara linier dengan
menambahkan lebih banyak node.
• Desentralisasi: Tidak ada titik kegagalan tunggal.
Karakteristik
• IoT, Aplikasi keuangan,Media sosial, Analisis data deret waktu
Penggunaan
Konsep Batch processing
Konsep Batch processing
Apache Hadoop adalah framework open source yang memungkinkan
penyimpanan dan pemrosesan set data besar secara terdistribusi di
berbagai cluster komputer menggunakan model pemrograman
sederhana. modul terdiri dari framework Hadoop utama dan bekerja
secara kolektif untuk membentuk ekosistem Hadoop:
Batch Processing adalah metode pemrosesan data di mana data dikumpulkan dalam batch dan diproses
dalam satu kali operasi. Cocok untuk pemrosesan data skala besar yang tidak memerlukan respons
waktu nyata.
MapReduce
Hadoop YARN
Hadoop Schedulers
Konsep Batch processing
Konsep Batch processing
Hadoop YARN generasi berikutnya dari Hadoop. Memisahkan mesin pemrosesan (MapReduce) dari
komponen manajemen sumber daya.
Hadoop YARN
Konsep Batch processing
Konsep Batch processing
Komponen utama YARN dijelaskan sebagai berikut:
• Resource Manager (RM)
• Application Master (AM)
• Node Manager (NM)
• Kontainer
Hadoop YARN
Konsep Batch processing
Konsep Batch processing
Hadoop Schedulers
Hadoop schedulers merupakan Komponen yang
memungkinkan Hadoop mendukung berbagai algoritma
penjadwalan. Kerangka kerja penjadwal yang dapat
dicolokkan memberikan fleksibilitas untuk mendukung
berbagai beban kerja dengan prioritas dan kendala
kinerja yang berbeda-beda. Algoritma penjadwalan
Hadoop dijelaskan sebagai berikut:
• FIFO
• Fair Scheduler
• Capacity Scheduler
Kegunaan Hadoop:
• Analisis dan big data
• Penyimpanan dan pengarsipan data
• Data lake
• Analisis pemasaran
• Pengelolaan risiko
• AI dan machine learning
Konsep Real-time processing
Konsep Real-time processing
Real time processing yang mana digunakan untuk menganalisis data yang terus menerus terupdate
setiap waktu (data in motion). Kemampuan untuk memproses data secara real time seperti yang
diterima dan mendeteksi kondisi dalam waktu singkat setelah mendapatkan data dimungkinkan
berkat streaming processing. Beberapa teknologi yang umum digunakan untuk stream processing
meliputi:
• Apache Kafka
• Apache Flink
Konsep Real-time processing
Konsep Real-time processing
Apache Kafka merupakan sistem pesan distribusi
yang di desain khusus untuk mengelola aliran data
dalam lingkup yang sangat besar. Kafka
memungkinkan pengiriman dan pemrosesan data
dalam bentuk streams (alur data) yang real-time,
sehingga dapat digunakan dalam berbagai aplikasi
yang membutuhkan pemrosesan data secara cepat
dan terus-menerus, seperti pemantauan sistem,
analisis data real-time, dan pengelolaan log aplikasi.
Beberapa alasan mengapa Apache Kafka sangat
populer dalam pengolahan big data antara lain:
• Skalabilitas yang Tinggi
• Keandalan dan Tahan Gangguan
• Kecepatan Pemrosesan Data
• Kompatibilitas dengan Ekosistem Big Data
Konsep Real-time processing
Konsep Real-time processing
Apache Kafka memiliki beberapa komponen utama yang berfungsi dalam pemrosesan dan pengelolaan
data besar secara efisien:
• Topic
• Producer
• Customer
• Partisi
• Broker
• Cluster
• Offset
• Replikasi
Konsep Real-time processing
Konsep Real-time processing
Apache Flink adalah kerangka kerja pemrosesan
aliran data (stream processing) sumber terbuka
yang terdistribusi. Ini berarti Flink dirancang untuk
memproses aliran data yang terus menerus dan
tidak terbatas, dengan fokus pada kecepatan,
ketahanan, dan ketepatan. Flink telah
dikembangkan untuk mengutamakan streaming,
dan menawarkan antarmuka pemrograman
terpadu untuk pemrosesan aliran dan batch.
Apache Flink
Beberapa jenis aplikasi umum yang didukung
oleh Apache Flink adalah:
• Aplikasi berbasis peristiwa
• Aplikasi Analitik Data
• Aplikasi pipeline data
Konsep Real-time processing
Konsep Real-time processing
Apache Flink memiliki beberapa konsep inti yang mendasarinya, yang memungkinkan
pemrosesan data aliran dan batch yang efisien dan andal.
Apache Flink
Pemrosesan Aliran Data
(Stream Processing)
Pemrosesan Batch sebagai
Kasus Khusus Aliran Data
Pemrosesan Batch sebagai
Kasus Khusus Aliran Data
Toleransi Kesalahan
(Fault Tolerance)
Windows
Tepat Satu Kali
(Exactly-Once)
Arsitektur Terdistribusi
Konsep Real-time processing
Konsep Real-time processing
Beberapa skenario spesifik di mana Apache Flink sangat berguna:
Apache Flink
Analisis Data Real-time
• Deteksi Penipuan
• Pemantauan
Aplikasi dan
Infrastruktur
• Analisis Perilaku
Pengguna
Pemrosesan Peristiwa
Kompleks (CEP)
• Deteksi Pola
• Peringatan Real-time
Aplikasi Berbasis Peristiwa
(Event-Driven Applications)
• Pemrosesan Aliran
Data Skala Besar
• Transformasi Data
Real-time
Pemrosesan Batch
Data Cleaning dalam analitik big data
Data Cleaning dalam analitik big data
Data cleaning adalah proses menambahkan data
yang hilang, memperbaiki, mengoreksi, atau
menghapus data yang salah dan tidak relevan
dari kumpulan data. Data cleaning merupakan
salah satu teknik preprocessing data yang paling
penting karena pada teknik ini data akan
dipastikan siap untuk digunakan. Data cleaning
akan memperbaiki semua data yang hilang
dengan mengganti data hilang tersebut dengan
nilai mean, median, atau modus, tergantung dari
jenis data yang digunakan.
Tujuan utama dari data cleaning adalah untuk
meningkatkan akurasi dan konsistensi data.
Dengan data yang bersih, Anda dapat mengurangi
risiko kesalahan dalam analisis dan pengambilan
keputusan. Data cleaning juga membantu Anda
menghilangkan data duplikat dan tidak relevan,
sehingga dataset Anda lebih efisien dan mudah
dikelola.
Data Cleaning dalam analitik big data
Data Cleaning dalam analitik big data
Pentingnya Data Cleaning
Dampak Data yang Tidak Bersih
Kesalahan dalam
analisis data
Data yang tidak bersih
dapat menyebabkan
kesalahan dalam
analisis. Kemungkinan
menemukan hasil yang
tidak akurat karena data
yang digunakan
mengandung kesalahan
atau inkonsistensi.
Pengambilan
keputusan yang salah.
Data yang tidak akurat
dapat membuat
kelirumengambil
keputusan penting.
Data Cleaning dalam analitik big data
Data Cleaning dalam analitik big data
HANDLING MISSING VALUES
Missing values, atau nilai yang hilang, merujuk pada keadaan di
mana suatu entitas data tidak memiliki nilai untuk atribut tertentu.
Terdapat beberapa jenis missing values yaitu:
MCAR (Missing
Completely at Random)
Terjadi secara acak,
tanpa keterkaitan
dengan variabel lain.
MAR (Missing at
Random)
Keterkaitan dengan
variabel yang teramati,
meskipun tidak langsung
terkait dengan variabel
yang hilang.
MNAR (Missing Not at
Random)
Ketergantungan pada nilai
yang tidak teramati, sulit
untuk kita identifikasi tanpa
informasi tambahan.
Data Cleaning dalam analitik big data
Data Cleaning dalam analitik big data
HANDLING MISSING VALUES
Penghapusan Data
Menghilangkan baris atau kolom yang
mengandung missing values.
Pendekatan ini dapat efektif jika jumlah
missing values relatif kecil dan
penghapusan tidak merusak
signifikansi data.
Imputasi Data
Menggantikan missing values dengan nilai rata-rata
atau median dari variabel terkait. Metode ini sederhana
namun dapat efektif jika distribusi data tidak terlalu
condong. Kemudian menggunakan metode interpolasi
(memprediksi nilai yang hilang berdasarkan nilai yang
diamati) atau ekstrapolasi (memprediksi nilai yang
hilang berdasarkan tren yang ada).
Model Berbasis Imputasi
Menggunakan model machine learning
seperti regresi atau algoritma
pembelajaran mesin lainnya untuk
memprediksi nilai yang hilang
berdasarkan atribut lain dalam dataset.
Penanganan Domain-Specific
Dalam beberapa kasus, nilai tetap atau
kategori khusus dapat diberikan kepada
missing values berdasarkan pengetahuan
domain khusus.
Data Cleaning dalam analitik big data
Data Cleaning dalam analitik big data
TEKNIK IDENTIFIKASI MISSING VALUES
Statistik Deskriptif
Analisis statistik
sederhana seperti mean,
median, dan deviasi
standar dapat
memberikan gambaran
awal terhadap adanya
missing values.
Pemeriksaan Spesifik
Kolom
Fokus pada pemeriksaan
khusus pada kolom-
kolom tertentu dapat
mengungkapkan pola
keberadaan missing
values yang berkaitan
dengan variabel tersebut.
Visualisasi Data
Grafik seperti histogram
atau heatmap dapat
membantu secara intuitif
mengidentifikasi pola
keberadaan missing
values.
Analisis Korelasi
Menilai korelasi antar
variabel dapat membantu
mengidentifikasi pola
keberadaan missing
values yang terkait
dengan variabel lain.
Analisis Temporal atau
Spasial
Jika data bersifat temporal
atau spasial, analisis
terhadap distribusi missing
values dapat
mengungkapkan pola yang
berguna untuk pemahaman
konteks data.
Data Cleaning dalam analitik big data
Data Cleaning dalam analitik big data
Normalization
Biasanya dalam preprocessing, proses normalisasi untuk
memodifikasi nilai dalam varabel sehingga kita dapat
mengukurnya dalam skala umum. Beberapa bentuk
normalisasi yang paling umum bertujuan untuk mengubah
nilai-nilai sehingga jumlahnya menjadi 1. Normalisasi L1 (di
library scikit-learn), yang mengacu pada Penyimpangan
Absolut Terkecil, bekerja dengan memastikan bahwa jumlah
nilai absolut adalah 1 dalam setiap baris. Normalisasi L2,
yang mengacu pada kuadrat terkecil, bekerja dengan
memastikan bahwa jumlah kuadrat adalah 1
x_normalized = x / ||x||_1 x_normalized = x / ||x||_2
Rumus L1 Rumus L2
Data Cleaning dalam analitik big data
Data Cleaning dalam analitik big data
Encoding
Data Cleaning dalam analitik big data
Data Cleaning dalam analitik big data
Tools data cleanin Python (Pandas)
Langkah 1: Impor library
Langkah 2: Memuat Data
Langkah 3: Inspkesi Awal Data
Langkah 4: Pembersihan Data
• Handling Missing Values
Data Cleaning dalam analitik big data
Data Cleaning dalam analitik big data
Tools data cleanin Python (Pandas)
Langkah 4: Handling Missing Values
• Removing duplicate values
• Outlier removal
• Changing data type
Setelah proses pembersihan selesai, sangat penting untuk menyimpan data yang telah
dibersihkan agar siap untuk analisis lebih lanjut atau penggunaan selanjutnya.
Data Cleaning dalam analitik big data
Data Cleaning dalam analitik big data
Tools data cleaning OpenRefine
Impor data Identifikasi dan pemisahan keywords
Pembersihan data keywords
Mengatasi duplikat keywords
Data Cleaning dalam analitik big data
Data Cleaning dalam analitik big data
Tools data cleaning OpenRefine
Ekspor data yang telah dicleaning
Types of analysis on big data
42
Descriptive Analitics Diagnostic Analytics
- Untuk menjawab pertanyaan “What Happened?”
- Tujuan : Memberikan gambaran jelas tentang pola dan tren
- Contoh : Berdasarkan analisis atas laporan penjualan
bulanan, penjualan perusahaan mengalami penurunan di
Bulan Januari
- Untuk menjawab pertanyaan “Why it Happened?”
- Tujuan : Menemukan pola tersembunyi yang mungkin
tidak terlihat secara langsung
- Contoh : Perusahaan menganalisis bahwa penurunan
terjadi karena adanya iklan yang kurang efektif
Predictive Analytics
- Untuk menjawab pertanyaan “What Will Happen?”
- Tujuan : Membantu Perusahaan mempersiapkan diri
untuk menghadapi peristiwa yang mungkin terjadi
- Contoh : Penjualan perusahaan diprediksi akan naik di
Bulan Maret
Prescriptive Analytics
- Untuk menjawab pertanyaan “What will we do?”
- Tujuan : Menyediakan solusi / langkah yang harus diambil
berdasarkan hasil analsis data
- Contoh : Perusahaan harus mengoptimalkan sumber daya
untuk menghadapi penjualan yang diprediksi akan
mengalami peningkatan
Examples of implementing analysis on big data
Examples of implementing analysis on big data
Source : https://www.mentionlytics.com
Machine learning for big data
44
Mengelompokkan data ke
dalam grup yang memiliki
kesamaan / pola serupa.
Contoh : Segmentasi
pelanggan berdasarkan
perilaku pembelian.
Penggunaan algoritma dan data input untuk menganalisis dan memprediksi big data.
Clustering
Mengkategorian data ke
dalam label / kelas tertentu
berdasarkan fitur yang ada.
Contoh : Mengklasifikasi
apakah suatu email
termasuk spam / tidak.
Classification
Memprediksi nilai kontinu
berdasarkan variable input
tertentu.
Contoh : Memprediksi harga
rumah berdasarkan fitur
seperti lokasi & ukuran.
Regression
1 2 3
Tools analysis for big data
1. Python (Skicit-learn)
Pilihan terbaik bagi user yang membutuhkan
fleksibilitas dan kemampuan untuk menangani
Big Data dengan pustaka yang sangat kuat untuk
machine learning dan analitik.
2. R
Pilihan terbaik untuk analitik statistik
mendalam dan visualisasi data,
terutama di kalangan akademisi dan
peneliti.
3. RapidMiner
Sangat cocok bagi pengguna
yang ingin melakukan analitik
tanpa menulis kode dan lebih
fokus pada eksplorasi dan
pembuatan model prediktif
dengan antarmuka grafis yang
mudah digunakan.
46
1 3 5
6
4
2
Mempermudah
Pemahaman Data
yang Kompleks
Mempercepat
Pengambilan
Keputusan
Meningkatkan
Kolaborasi Antara
Tim
Mengidentifikasi
Pola dan Tren
Mengurangi
Kompleksitas dan
Meningkatkan
Efisiensi
Membantu
Komunikasi Hasil
kepada Pemangku
Kepentingan
Pentingnya visualisasidata
47
Tools visualisasi dalam big data
Tools visualisasi dalam big data
Tableau dan Power BI lebih cocok untuk pengguna
non-teknis yang membutuhkan visualisasi interaktif
dan pembuatan laporan bisnis, dengan Tableau
lebih unggul dalam hal interaktivitas dan Power BI
lebih terjangkau.
Matplotlib dan Seaborn adalah alat berbasis Python yang ideal untuk data scientist
dan analis data yang membutuhkan fleksibilitas tinggi, kustomisasi penuh, dan
visualisasi statistik. Seaborn lebih mudah digunakan untuk visualisasi statistik,
sementara Matplotlib menawarkan lebih banyak kontrol untuk visualisasi yang lebih
kompleks.
49
Contoh Tampilan Tools Visualisasi
Tableau
Power BI
Seaborn
Matplotlib
50
Penerapan Visualisasi Interaktif
“ “
Source : https://www.luzmo.com
1. Keamanan
 Ahli IT harus mampu memilah dan mengolah data dengan pengetahuan serta
kebijaksanaan.
 Data bisa berasal dari berbagai sumber, termasuk dunia nyata, virtual, cyber, hingga
supranatural.
 Salah satu metode keamanan utama adalah enkripsi (encryption algorithm), yang
dapat melindungi data dari peretas jika tidak memiliki kunci untuk membukanya.
2. Privasi
Dunia TI saat ini menghadapi tantangan besar dalam menjaga privasi.
Privasi dalam data sering mengacu pada PII (Personally Identifiable
Information), yaitu informasi pribadi yang dapat mengidentifikasi individu
secara langsung dan bersifat sensitif.
Non-PII adalah informasi non-pribadi yang tidak dapat digunakan untuk
identifikasi individu secara langsung.
2 Jenis Privasi
52
Privasi Offline
 Hak individu untuk menjaga informasi pribadi dan aktivitasnya
dari pengawasan, intervensi, atau gangguan dalam kehidupan
nyata.
 Melibatkan perlindungan data pribadi dalam bentuk fisik seperti
catatan medis, laporan keuangan, dan dokumen identitas.
 Tujuan utamanya adalah melindungi individu dari
penyalahgunaan, pencurian identitas, dan diskriminasi.
 Perlindungan ini tetap penting meskipun dunia semakin digital,
untuk menjaga kebebasan individu dan mencegah
penyalahgunaan informasi pribadi.
Privasi Online
 Hak individu untuk mengontrol informasi pribadi saat
menggunakaninternet dan layanan digital.
 Meliputi perlindungan data dari pengumpulan, penggunaan, dan
penyebaran ilegal oleh pihak ketiga seperti perusahaan
teknologi, pengiklan, dan peretas.
 Data pribadi seperti nama, alamat, nomor telepon, dan
informasi keuangan sering dikumpulkan oleh layanan online.
 Perlindungan privasi online bertujuan memastikan data tetap di
bawah kendali pemiliknya dan tidak disalahgunakan.
 Menurut Pew Research Center (2019), mayoritas orang khawatir
tentang bagaimana data mereka digunakan oleh perusahaan
teknologi dan pemerintah.
Tantangan keamanan dalam pengelolaan data skalabesar
TANTANGAN UTAMA BIG DATA
• Volume data yang sangat besar (hingga zettabyte)
membuat sulit untuk memproses, menyimpan, dan
melindungi data secara efektif.
• Diperlukan infrastruktur komputasi yang kuat dan
solusi penyimpanan yang andal untuk menangani
data dalam jumlah besar.
KERAGAMAN DATA
• Data Big Data berasal dari berbagai sumber seperti
sensor, media sosial, dan perangkat IoT, dengan
format yang bervariasi dari terstruktur hingga tidak
terstruktur.
• Hal ini menyebabkan tantangan dalam integrasi,
normalisasi, dan analisis data, sehingga memerlukan
teknik khusus.
ANCAMAN KEAMANAN
• Data dalam jumlah besar yang tersimpan dapat menjadi target serangan siber, termasuk pencurian data, perusakan sistem,
dan penyalahgunaan informasi.
• Organisasi harus menerapkan langkah-langkah keamanan siber yang komprehensif, termasuk deteksi ancaman, pemulihan
pasca serangan, dan kebijakankeamanan yang ketat.
Teknik perlindungan data : Enkripsi, Tokenisasi,
anonimisasi
1) Enkripsi Data
Enkripsi mengubah data menjadi format yang
tidak dapat dibaca oleh pihak tidak berwenang.
Dapat diterapkan saat data disimpan (at-rest) dan
ditransmisikan (in-transit).
Algoritma enkripsi umum: AES, RSA, PGP, dengan
tingkat keamanan dan kompleksitas yang bervariasi.
Kunci enkripsi harus disimpan dengan aman
untuk menjaga kerahasiaan data.
Enkripsi end-to-end digunakan untuk melindungi
data sensitif sepanjang siklus hidupnya.c
2) Manajemen Akses
Membatasi akses ke data sensitif hanya untuk pengguna yang
memiliki otoritas.
Menggunakan autentikasi kuat, seperti username & password,
two-factor authentication, dan biometrik.
Kontrol akses berbasis peran (RBAC) dan atribut (ABAC) untuk
mengatur hak akses.
Audit dan pemantauan aktivitas untuk mendeteksi
penyalahgunaan.
Prinsip least privilege (hak akses minimum) untuk membatasi
akses hanya pada informasi yang diperlukan.Menetapkan
prosedur pemberian, peninjauan, dan pencabutan hak akses yang
terdokumentasi dengan baik.
Anonimisasi& pseudonimisasi
1. Anonimisasi menghapus informasi identitas
pribadi agar tidak dapat dikaitkan kembali
dengan individu.
2. Pseudonimisasi mengganti informasi identitas
pribadi dengan pseudonim atau identifikasi
alternatif untuk menjaga privasi saat data
dianalisis, diproses, atau dibagikan.
Kedua teknik ini memungkinkan pemanfaatan data
sensitif secara lebih aman sesuai dengan peraturan
privasi.
55
BACKUP DAN PEMULIHAN DATA
1. Membuat cadangan data secara rutin untuk
mencegah kehilangan akibat kerusakan,
kesalahan, atau serangan siber.
2. Menyimpan backup di lokasi aman yang
terpisah dari lokasi penyimpanan utama.
3. Menggunakan strategi backup terdiversifikasi,
seperti media penyimpanan berbeda, cloud
storage, atau replikasi data.
4. Melakukan pengujian berkala terhadap proses
pemulihan data untuk menjaga keandalan dan
integritas.
5. Menetapkan prosedur pemulihan
terdokumentasi yang dapat diimplementasikan
dengan cepat saat dibutuhkan.
Pemantauan dan peringatan dini
56
 Menerapkan sistem pemantauan aktivitas data dan
jaringan untuk mendeteksi aktivitas mencurigakan.
 Menggunakan alat analitik dan deteksi anomali untuk
mengidentifikasi potensi ancaman atau pelanggaran.
 Mengkonfigurasi sistem agar memberikan peringatan dini
terhadap aktivitas mencurigakan.
 Menyiapkan prosedur tanggap darurat untuk menangani
insiden keamanan data.
 Melakukan analisis forensik pada insiden keamanan
untuk mengidentifikasi penyebab dan mengembangkan
solusi perbaikan.
1. Memberikan pelatihan
komprehensif tentang praktik
keamanan data.
2. Meningkatkan kesadaran
pengguna terhadap ancaman
keamanan dan praktik terbaik.
3. Mendorong budaya keamanan di
seluruh organisasi melalui
komunikasi efektif dan contoh
yang baik.
4. Melakukan pengujian & evaluasi
berkala untuk memastikan
pemahaman dan kepatuhan
pengguna.
5. Memperbarui materi pelatihan
secara rutin untuk
mengakomodasi perubahan
teknologi dan ancaman baru.
PELATIHAN DAN KESADARAN PENGGUNA
57
KEBIJAKAN & PROSEDUR
 Mengembangkan dan menerapkan kebijakan
keamanan yang terdokumentasi dengan baik.
 Menetapkan prosedur dan panduan untuk
pengelolaan serta perlindungan data sensitif.
 Memastikan kebijakan selaras dengan
peraturan dan undang-undang yang berlaku.
 Melakukan peninjauan dan pembaruan berkala
untuk mengakomodasi perubahan kebutuhan
dan ancaman.
 Mempromosikan kepatuhan terhadap kebijakan
melalui komunikasi efektif dan pengawasan
yang konsisten.
KLASIFIKASI DATA
 Mengklasifikasikan data berdasarkan
sensitivitas dan kepentingannya bagi
organisasi.
 Menerapkan kontrol keamanan sesuai tingkat
klasifikasi seperti enkripsi, pembatasan
akses, dan pemantauan ketat.
 Menyesuaikan kontrol keamanan secara
dinamis dengan perubahan klasifikasi data.
 Mendokumentasikan skema klasifikasi dan
mengkomunikasikannya kepada seluruh
pengguna.
Regulasi terkait data : gdpr, uu perlindungan data pribadi
Regulasi terkait data : gdpr, uu perlindungan data pribadi
 Pentingnya kepatuhan terhadap regulasi dalam pengelolaan big data, termasuk perlindungan
privasi.
 Regulasi utama seperti GDPR (Eropa) dan CPA (Amerika Serikat) mengatur kewajiban organisasi
dalam mengumpulkan, menyimpan, mengolah, dan menggunakan data pribadi.
 Prinsip perlindungan privasi mencakup transparansi, pembatasan pengumpulan, keamanan
data, dan hak individu.
 Organisasi harus memiliki kebijakan dan prosedur yang jelas untuk memastikan kepatuhan
regulasi, termasuk penilaian dampak privasi, penetapan tanggung jawab, pemantauan, dan
audit berkala.
 Evaluasi risiko privasi diperlukan untuk mengidentifikasi dan memitigasi risiko, serta
menetapkan peran dan tanggung jawab dalam pengelolaan data.
 Pentingnya kepatuhan terhadap regulasi dalam pengelolaan big data, termasuk perlindungan
privasi.
 Regulasi utama seperti GDPR (Eropa) dan CPA (Amerika Serikat) mengatur kewajiban organisasi
dalam mengumpulkan, menyimpan, mengolah, dan menggunakan data pribadi.
 Prinsip perlindungan privasi mencakup transparansi, pembatasan pengumpulan, keamanan
data, dan hak individu.
 Organisasi harus memiliki kebijakan dan prosedur yang jelas untuk memastikan kepatuhan
regulasi, termasuk penilaian dampak privasi, penetapan tanggung jawab, pemantauan, dan
audit berkala.
 Evaluasi risiko privasi diperlukan untuk mengidentifikasi dan memitigasi risiko, serta
menetapkan peran dan tanggung jawab dalam pengelolaan data.
Gambaran umum tentang regulasi global
Gambaran umum tentang regulasi global
CCPA (California Consumer
Privacy Act) di Amerika Serikat
GDPR (General Data Protection
Regulation) di Uni Eropa
UU PDP No. 27 Tahun 2022
(Undang – Undang Pelindungan
Data Pribadi) di Indonesia
CCPA berlaku di negara bagian
California dan memberikan
perlindungan kepada konsumen
atas penggunaan data pribadi
mereka. Perusahaan yang
beroperasi di California
diwajibkan memberikan
informasi kepada konsumen
tentang bagaimana data
mereka digunakan dan
memungkinkan konsumen
untuk menolak penjualan data
pribadi mereka.
GDPR dianggap sebagai standar
emas dalam regulasi data.
Diberlakukan sejak 2018, GDPR
mengatur tentang perlindungan
data pribadi di seluruh negara
anggota Uni Eropa. Aturan ini
mengharuskan perusahaan
untuk transparan dalam
pengelolaan data serta
memberikan hak kepada
individu untuk mengakses,
mengubah, atau menghapus
data mereka.
UU ini menetapkan aturan
mengenai pengumpulan,
pengolahan, penyimpanan, dan
distribusi data pribadi, serta
mewajibkan perusahaan untuk
melindungi privasi individu dan
memperoleh persetujuan
eksplisit dari pemilik data
sebelum data digunakan.
Perbedaan dan persamaan antara berbagai regulasi
60
HIGH
VALUE
1
Persetujuan Pengguna
UU PDP, GDPR, dan CCPA sama-sama mengharuskan
adanya persetujuan eksplisit dari individu sebelum
data pribadi mereka dapat dikumpulkan atau
diproses. Ini berarti bahwa perusahaan harus
transparan mengenai tujuan penggunaan data serta
mendapatkan izin dari pengguna untuk melakukan
aktivitas tersebut.
Hak Akses dan Penghapusan Data
Salah satu persamaan yang menonjol antara UU PDP,
GDPR, dan CCPA adalah hak individu untuk
mengakses data pribadi mereka dan menghapusnya
jika diinginkan. Individu berhak mengetahui data apa
saja yang dikumpulkan tentang mereka, bagaimana
data tersebut digunakan, serta memiliki hak untuk
meminta penghapusan data dalam kondisi tertentu.
Sanksi dan Penalti
Setiap regulasi menetapkan sanksi bagi perusahaan
yang melanggar aturan kepatuhan data. GDPR
memiliki denda yang paling ketat, di mana
perusahaan dapat dikenai sanksi hingga 4% dari
pendapatan global tahunan mereka. Sementara itu,
CCPA dan UU PDP juga menetapkan denda besar bagi
pelanggaran, meskipun dengan batasan yang
berbeda.
Keterlibatan Konsumen
GDPR dan CCPA mengutamakan keterlibatan
konsumen dalam pengelolaan data pribadi. GDPR
memberikan hak penuh kepada pengguna untuk
mengatur bagaimana data mereka diproses,
sementara CCPA lebih fokus pada memberikan opsi
kepada konsumen untuk memilih keluar dari
penjualan data.
Tren dan masa depan big data analytics
Tren dan masa depan big data analytics
 Artificial Intelligence (AI): AI akan berperan penting dalam analisis data besar dengan kecepatan
tinggi dan kemampuan mengenali pola rumit untuk menghasilkan wawasan mendalam.
 Cloud Computing: Memungkinkan pemrosesan data secara efisien tanpa perlu infrastruktur
fisik sendiri.
 Penggunaan Jaringan: Big Data Analytics akan semakin terintegrasi dengan perangkat IoT,
sensor, dan platform digital lainnya.
 Implementasi AI dalam Big Data :
 Sektor kesehatan: AI digunakan dalam analisis catatan medis, tes laboratorium, dan citra
medis untuk diagnosa penyakit lebih akurat.
 E-commerce: AI menganalisis perilaku konsumen untuk rekomendasi produk yang
dipersonalisasi.
 Kolaborasi AI dan Big Data: Memberikan nilai tambah besar di berbagai industri..
Peran artificial intelligence (ai) dalam big data
Peran artificial intelligence (ai) dalam big data
Manfaat AI dalam Big Data :
Pemrosesan data lebih cepat dan efisien.
Penyaringan dan pembersihan data (Data Cleansing).
Analitik prediktif dan pengambilan keputusan.
Deteksi pola dan anomali.
Peningkatan pengalaman pelanggan.
Optimasi proses bisnis.
Visualisasi data canggih.
NLP untuk analisis teks.
Peningkatan akurasi dan pengurangan bias.
AI memiliki peran penting dalam Big Data Analytics dengan memberikan kemampuan analisis,
pemrosesan, dan interpretasi data dalam jumlah besar secara cepat dan akurat. AI dapat:
 Mengidentifikasi pola tersembunyi dan meramalkan hasil masa depan.
 Mengotomatiskan proses analitik untuk pengambilan keputusan lebih cerdas.
 Meningkatkan efisiensi serta keunggulan kompetitif di berbagai industri.
Integrasi big data dengan teknologi blockchain dan iot
Pencatatan Data IoT di Blockchain
 Data dari perangkat IoT dicatat aman dan transparan di blockchain, mengurangi risiko manipulasi
dan meningkatkan integritas.
Contoh: Sensor suhu dan kelembaban mencatat data langsung ke blockchain untuk verifikasi kondisi
gudang.
Analisis Big Data untuk IoT
 Data IoT dalam blockchain dapat diolah dengan Big Data untuk mendapatkan wawasan.
Contoh: Analisis penggunaan energi perangkat IoT dapat memberikan rekomendasi efisiensi energi.
Automatisasi dengan Smart
 ContractsSmart contracts di blockchain memungkinkan otomatisasi transaksi berbasis data IoT.
Contoh: Jika sensor mendeteksi suhu di bawah batas tertentu, smart contract dapat menyalakan
pemanas atau memberi peringatan ke operator.
Manajemen Rantai Pasokan
 IoT memantau kondisi dan pergerakan barang dalam rantai pasokan.
 Data dicatat di blockchain untuk visibilitas lokasi dan status barang, lalu dianalisis untuk
meningkatkan efisiensi pengiriman.
Big Data berperan penting dalam pengambilan keputusan strategis, terutama di era digital
dengan volume data yang terus berkembang. Penggunaannya memungkinkan organisasi
membuat keputusan lebih tepat, berbasis data, dan efisien.
Cara Big Data mendukung keputusan strategis:
 Memberikan wawasan lebih mendalam (insight).
 Prediksi dan peramalan tren.
 Peningkatan efisiensi operasional.
 Segmentasi pasar dan personalisasi.
 Pengambilan keputusan secara real-time.
 Analisis sentimen dan media sosial.
 Deteksi risiko dan pengelolaan krisis.
 Meningkatkan keunggulan kompetitif.
 Pengelolaan dan optimalisasi sumber daya.
 Kolaborasi antar-departemen.
Big Data membantu keputusan strategis dengan menyediakan informasi akurat dan berbasis
data. Dengan analitik Big Data, perusahaan dapat membuat keputusan lebih tepat, meramalkan
tren, meningkatkan efisiensi, serta mendapatkan keunggulan kompetitif. Teknologi ini
memungkinkan keputusan yang lebih proaktif dan responsif terhadap perubahan pasar, yang
penting untuk keberhasilan jangka panjang.
65

More Related Content

PPTX
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
PPTX
Kuliah_Umum_Big_Data_Analysis_TEKNIK INFORMATIKA.pptx
PPTX
WOSS 003 mahadata
DOCX
Membangun platform big data
PPTX
Dampak AI Terhadap Perkembangan Basis Data.pptx
PPTX
arsitektur data pada bisnis dan aplikasi
PPTX
Big data Traveloka.pptx
PPTX
Herwanto_Kuliah_Umum_Big_Data_Analysis.pptx
Kuliah_Umum_Big_Data_Analysis_TEKNIK INFORMATIKA.pptx
WOSS 003 mahadata
Membangun platform big data
Dampak AI Terhadap Perkembangan Basis Data.pptx
arsitektur data pada bisnis dan aplikasi
Big data Traveloka.pptx

Similar to PPT Big Data and Analytic sistem informasi (20)

PPTX
Bab 6 dasar dasar intelejen bisnis, database dan manajemen informasi
PPTX
Kecerdasan bisnis
PPTX
Kecerdasan bisnis- Sistem Penunjang Keputusan
PDF
MAteri perkuliahan Big Data bagi mahasiswa
PDF
Pengantar-Big-Data.pdf
PDF
Aathifah Teta Fitranti_195020307111072_tugas resume pekan ke 6.pdf
PPT
Kel2 Data Warehouse 2
PPT
Kel2 Data Warehouse
PPTX
mengelola sumber data
DOCX
Sejarah perkembangan basis data
PPTX
P1 Big Data - Pengantar Big Data dan Analisis Big Data
PPTX
2.-Pengantar- Big -Data Gambaran Umum Big Data.pptx
PDF
Pertemuan 01 Big Data - Pengantar-Big-Data.pdf
PPTX
pengenalan-Pengantar-Big-Data _____.pptx
PPTX
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
PDF
LPR Week 1-KEMASTURA Group-2023.Data Analytics
PPTX
Slide-SIF101-Data-Knowledge.pptx
PPTX
Pertemuan 9 data mining dan data ware.pptx
PPTX
Business intelligence
PPTX
Pengenalan Dasar Big Data untuk Praktisi Pemula
Bab 6 dasar dasar intelejen bisnis, database dan manajemen informasi
Kecerdasan bisnis
Kecerdasan bisnis- Sistem Penunjang Keputusan
MAteri perkuliahan Big Data bagi mahasiswa
Pengantar-Big-Data.pdf
Aathifah Teta Fitranti_195020307111072_tugas resume pekan ke 6.pdf
Kel2 Data Warehouse 2
Kel2 Data Warehouse
mengelola sumber data
Sejarah perkembangan basis data
P1 Big Data - Pengantar Big Data dan Analisis Big Data
2.-Pengantar- Big -Data Gambaran Umum Big Data.pptx
Pertemuan 01 Big Data - Pengantar-Big-Data.pdf
pengenalan-Pengantar-Big-Data _____.pptx
Pengantar-Big-Databhgfhfhfdhgfdghgfdhdfhfhf.pptx
LPR Week 1-KEMASTURA Group-2023.Data Analytics
Slide-SIF101-Data-Knowledge.pptx
Pertemuan 9 data mining dan data ware.pptx
Business intelligence
Pengenalan Dasar Big Data untuk Praktisi Pemula
Ad

Recently uploaded (9)

DOCX
Antivirus Versi.FULL.JALiN.KB.PRO Keutuhan Aplikasi Konsep dan Praktik dalam ...
PPTX
Materi asdsa asd asd sad sa dsa dsa d sa
PDF
Rekomendasi Riset Lanjutan : perspektif_futurologis.pdf
PDF
Modul_Pemula_Merakit_Komputer untuk smppdf
PPTX
Peranan AI dalam Dunia Pendidikan dan Industri Aplikasinya
DOCX
Keutuhan Aplikasi Konsep dan Praktik dalam Upaya menciptakan aplikasi Anti Vi...
PPTX
Implementasi Microservices pada Manufaktur
PPTX
Materi_Array_Karakter_String untuk kelas XI sma.pptx
PPT
pengantar-sistem-informasi manajemen.ppt
Antivirus Versi.FULL.JALiN.KB.PRO Keutuhan Aplikasi Konsep dan Praktik dalam ...
Materi asdsa asd asd sad sa dsa dsa d sa
Rekomendasi Riset Lanjutan : perspektif_futurologis.pdf
Modul_Pemula_Merakit_Komputer untuk smppdf
Peranan AI dalam Dunia Pendidikan dan Industri Aplikasinya
Keutuhan Aplikasi Konsep dan Praktik dalam Upaya menciptakan aplikasi Anti Vi...
Implementasi Microservices pada Manufaktur
Materi_Array_Karakter_String untuk kelas XI sma.pptx
pengantar-sistem-informasi manajemen.ppt
Ad

PPT Big Data and Analytic sistem informasi

  • 2. Learning objectives Pengenalan Big Data Dan Karakteristiknya Arsitektur dan Infrastruktur Big Data Sistem Informasi Berbasis Big Data Teknik Pengumpulan dan Penyimpanan Data dalam Big Data Big Data Processing: Batch Processing vs Real-Time Processing Data Cleaning dan Preprocessing dalam Big Data Big Data Analytics: Teknik dan Metode Visualisasi Data dalam Big Data Analytics Keamanan dan Privasi dalam Big Data Tren dan Masa Depan Big Data Analytics
  • 3. Pengenalan Big data dan karakteristiknya 3 Big Data didefinisikan sebagai kumpulan set data yang volumenya, kecepatannya, atau varietasnya sangat besar sehingga sulit untuk menyimpan, mengelola, memproses, dan menganalisis data menggunakan basis data tradisional dan alat pemrosesan data. Big Data mengacu pada kumpulan data yang sangat besar dan kompleks, yang tumbuh dengan cepat dari waktu ke waktu. Saking besarnya, data ini tidak dapat diproses secara efektif dengan aplikasi pemrosesan data tradisional. Big Data mencakup data terstruktur, semi- terstruktur, dan tidak terstruktur, yang berasal dari berbagai sumber seperti : - Media Sosial - Transaksi Online - Log Server` Big Data
  • 4. 4 Pengenalan Big data dan karakteristiknya Menurut perkiraan International Bisnis Machine ada 2,5 kuintiliun byte data dibuat setiap hari. Laporan terbaru dari DOMO (Platform yang menyediakan Bussiness Intellegence) memperkirakan jumlah data yang dihasilkan setiap menit di platform online popular. Berikut adalah beberapa bagian data penting dari laporan tersebut Pengguna Facebook membagikan hampir 4,16 juta konten Pengguna Twitter mengirim hampir 300.000 tweet Pengguna Instagram menyukai hampir 1,73 juta foto Pengguna YouTube mengunggah 300 jam konten video baru Amazon menerima 4.300 pengunjung baru Pelanggan Netflix melakukan streaming hampir 77.000 jam video
  • 5. 5 Pengenalan Big data dan karakteristiknya Analitik Big Data berkaitan dengan pengumpulan, penyimpanan, pemrosesan, dan analisis data berskala besar. Alat dan kerangka kerja khusus diperlukan untuk analisis big data ketika : Kecepatan data sangat tinggi dan data perlu dianalisis secara waktu nyata 3. Ada keragaman data yang terlibat, yang dapat terstruktur, tidak terstruktur, atau semi- terstruktur, dan dikumpulkan dari berbagai sumber data 4. Berbagai jenis analitik perlu dilakukan untuk mengekstrak nilai dari data seperti analitik deskriptif, diagnostik, prediktif, dan preskriptif Volume data yang terlibat sangat besar sehingga sulit untuk menyimpan, memproses, dan menganalisis data pada satu mesin 1. 2. 3. 4.
  • 6. 6 Pengenalan Big data dan karakteristiknya Karakteristik Big Data Value Veracity Variety Velocity Volume Nilai data mengacu pada kegunaan data untuk tujuan yang dimaksudkan. Tujuan akhir dari setiap sistem analitik data besar adalah untuk mengekstrak nilai dari data. Nilai data juga terkait dengan keakuratan atau ketepatan data. Untuk beberapa aplikasi, nilai juga bergantung pada seberapa cepat kita dapat memproses data Keakuratan mengacu pada seberapa akurat data tersebut. Untuk mengekstrak nilai dari data, data perlu dibersihkan untuk menghilangkan gangguan. Aplikasi berbasis data hanya dapat menuai manfaat dari data besar ketika data tersebut bermakna dan akurat. Oleh karena itu, pembersihan data penting agar data yang salah dan cacat dapat disaring. Varietas mengacu pada bentuk-bentuk data. Data besar datang dalam berbagai bentuk seperti terstruktur, tidak terstruktur, atau semi-terstruktur, termasuk data teks, gambar, audio, video, dan data sensor. Sistem data besar perlu cukup fleksibel untuk menangani varietas data semacam itu Kecepatan data mengacu pada seberapa cepat data dihasilkan. Data yang dihasilkan oleh sumber tertentu dapat tiba dengan kecepatan yang sangat tinggi, misalnya, data media sosial atau data sensor. Kecepatan adalah karakteristik penting lainnya dari data besar dan alasan utama pertumbuhan data secara eksponensial. Big Data adalah bentuk data yang volumenya sangat besar sehingga tidak akan muat pada satu mesin, oleh karena itu alat dan kerangka kerja khusus diperlukan untuk menyimpan, memproses, dan menganalisis data tersebut, Sebagai contoh, aplikasi media sosial memproses miliaran pesan setiap hari, sistem industri dan energi dapat menghasilkan terabyte data sensor setiap hari, aplikasi agregasi taksi dapat memproses jutaan transaksi dalam sehari, dll.
  • 7. 7 Pengenalan Big data dan karakteristiknya Perbedaan Big Data dengan Data Tradisional Big Data Data Tradisional Aspek Memahami perbedaan antara data terstruktur dan tidak terstruktur sangat penting. Data tradisional sangat terstruktur, sementara data besar dapat berkisar dari format terstruktur hingga tidak terstruktur, termasuk teks, gambar, dan video. Sangat terstruktur; diorganisasikan dalam bidang yang telah ditentukan sebelumnya seperti tabel dan baris Struktur Set data besar (petabyte hingga zettabyte) yang memerlukan penyimpanan dan pemrosesan terdistribusi Set data yang lebih kecil dan mudah dikelola (gigabyte hingga terabyte) yang cocok untuk basis data relasional. Volume Dihasilkan secara terus-menerus dan seringkali secara waktu nyata, misalnya, oleh perangkat yang menangkap data langsung. Dihasilkan dan diperbarui secara berkala, seperti harian atau mingguan. Kecepatan Memerlukan kerangka kerja canggih seperti Hadoop dan Spark untuk pemrosesan berskala tinggi dan berkecepatan tinggi Dikelola dengan alat konvensional seperti SQL, yang dirancang untuk data terstruktur Processing Tools Analitik waktu nyata, pembelajaran mesin, dan pemodelan prediktif di bidang-bidang seperti media sosial, e-commerce, dan IoT Catatan pelanggan, transaksi keuangan, dan manajemen inventaris Case Penggunaan Umum Sebuah platform e-commerce global menganalisis jutaan transaksi, klik, dan interaksi media sosial secara waktu nyata untuk mengoptimalkan personalisasi dan alur inventaris Sebuah toko ritel lokal menggunakan SQL untuk melacak penjualan bulanan dan informasi kontak pelanggan. Contoh
  • 8. 8 Arsitektur dan infrastruktur big data  Arsitektur Big Data dirancang untuk menangani volume data yang besar, beragam, dan bergerak cepat. Arsitektur ini terdiri dari beberapa komponen utama yang bekerja sama untuk mengumpulkan, menyimpan, memproses, dan memvisualisasikan data. Berikut adalah komponen- komponen utama tersebut : 1. Data Sources (Sumber Data) • Database relasional (misalnya, MySQL, PostgreSQL) • File log dari server web • Sensor IoT (Internet of Things) • Media sosial • Data streaming (misalnya, dari aplikasi keuangan atau sensor) • Dan sumber data lainya.z 2. Data Storage (Penyimpanan Data)  Hadoop Distributed File System (HDFS): Sistem file yang dirancang untuk menyimpan data dalam jumlah besar di klaster computer.  NoSQL databases (misalnya, Cassandra, MongoDB): Database yang dirancang untuk menangani data tidak terstruktur dan semi-terstruktur.  Cloud storage (misalnya, Amazon S3, Azure Blob Storage): Layanan penyimpanan berbasis cloud yang skalabel dan terjangkau. 3. Data Processing (Pemrosesan Data)  Pemrosesan Batch: Memproses data dalam jumlah besar dalam batch, biasanya untuk analisis historis. Contohnya adalah MapReduce di Hadoop.  Pemrosesan Streaming: Memproses data secara real-time saat data tersebut tiba. Ini berguna untuk aplikasi yang membutuhkan respons cepat, seperti deteksi penipuan. Contohnya adalah Apache Spark Streaming atau Apache Kafka Streams. 4. Visualitation (Data Visualization)  Komponen ini menyajikan hasil pemrosesan data dalam format yang mudah dipahami, seperti grafik, diagram, dan dasbor.  Alat visualisasi data populer termasuk : Tableau, Power BI dan Grafana
  • 9. 9 Arsitektur dan infrastruktur big data Dalam era Big Data, organisasi menghadapi tantangan untuk menyimpan dan mengelola volume data yang besar, beragam, dan terus berkembang. Untuk mengatasi tantangan ini, berbagai teknologi penyimpanan telah dikembangkan, termasuk Data Lake, Data Warehouse, dan NoSQL. Data Lake Kekurangan Keunggulan Karakteristik Konsep • Membutuhkan tata kelola data yang kuat untuk mencegah "data swamp". • Membutuhkan keahlian khusus untuk mengakses dan menganalisis data. • Fleksibilitas dalam menyimpan berbagai jenis data. • Skalabilitas untuk menangani volume data yang besar. • Biaya penyimpanan yang relatif rendah. • Menyimpan data mentah dalam format aslinya. • Skema data ditentukan saat data akan dianalisis (schema-on-read). • Cocok untuk eksplorasi data, analisis prediktif, dan machine learning. • Data Lake adalah repositori penyimpanan terpusat yang menyimpan data mentah dalam berbagai format, baik terstruktur, semi- terstruktur, maupun tidak terstruktur. • Tujuannya adalah untuk menyimpan semua data organisasi di satu tempat, sehingga dapat diakses dan dianalisis kapan saja
  • 10. Arsitektur dan infrastruktur big data Data Warehouse Kekurangan Keunggulan Karakteristik Konsep • Kurang fleksibel dalam menangani data tidak terstruktur. • Biaya pembangunan dan pemeliharaan yang relatif tinggi. • Proses untuk memasukan data membutuhkan waktu yang relatif lama. • Kinerja kueri yang cepat dan andal. • Data yang konsisten dan terpercaya. • Mudah digunakan untuk analisis bisnis. • Menyimpan data terstruktur yang telah dibersihkan dan diintegrasikan. • Skema data tetap dan terdefinisi dengan baik. • Cocok untuk pelaporan bisnis, analisis OLAP (Online Analytical Processing), dan dashboard. • Data Warehouse adalah repositori penyimpanan terstruktur yang menyimpan data yang telah diproses dan dioptimalkan untuk analisis bisnis. • Tujuannya adalah untuk menyediakan sumber data yang konsisten dan andal untuk pengambilan Keputusan.
  • 11. 11 Arsitektur dan infrastruktur big data NoSQL (Not Only SQL) Kekurangan Keunggulan Karakteristik Konsep • Kurang cocok untuk transaksi kompleks yang membutuhkan ACID compliance. • Membutuhkan keahlian khusus untuk mengelola dan mengoptimalkan. • Skalabilitas horizontal yang mudah. • Fleksibilitas dalam menangani berbagai jenis data. • Kinerja tinggi untuk aplikasi yang membutuhkan kecepatan akses data yang cepat. • Menyimpan data dalam berbagai format, seperti dokumen, key- value, kolom lebar, dan grafik. • Skema data dinamis dan fleksibel. • Cocok untuk aplikasi web, aplikasi seluler, dan aplikasi Big Data yang membutuhkan skalabilitas tinggi. • NoSQL (Not Only SQL) adalah jenis database yang dirancang untuk menangani data tidak terstruktur dan semi-terstruktur dalam skala besar. • NoSQL tidak menggunakan skema data relasional seperti database SQL tradisional.
  • 12. 12 Arsitektur dan infrastruktur big data Google BigQuery Apache Spark Hadoop Platform • Gudang data tanpa server yang dikelola sepenuhnya yang memungkinkan kueri SQL cepat atas kumpulan data skala petabyte. • Solusi berbasis cloud yang menghilangkan kebutuhan manajemen infrastruktur. • Sistem pemrosesan terdistribusi sumber terbuka yang unggul dalam kecepatan dan keserbagunaan. • Memproses data dalam memori, yang secara signifikan mempercepat pemrosesan dibandingkan dengan MapReduce Hadoop. • Kerangka kerja sumber terbuka yang memungkinkan penyimpanan dan pemrosesan terdistribusi dari kumpulan data besar di seluruh klaster perangkat keras komoditas. • Komponen utama termasuk HDFS (Hadoop Distributed File System) untuk penyimpanan dan MapReduce untuk pemrosesan. Gambaran Umum • Tanpa server: Tidak diperlukan manajemen infrastruktur. • Skalabilitas: Dapat menangani kumpulan data besar. • Kinerja kueri cepat: Dioptimalkan untuk kueri analitis. • Kecepatan: Pemrosesan dalam memori untuk analitik cepat. • Keserbagunaan: Mendukung berbagai beban kerja pemrosesan data. • Kemudahan penggunaan: Menyediakan API untuk berbagai bahasa pemrograman. • Skalabilitas: Dapat menangani petabyte data. • Toleransi kesalahan: Data direplikasi di seluruh node, memastikan keandalan. Kekuatan Utama • Gudang data dan kecerdasan bisnis. • Analisis kueri ad-hoc. • Analitik prediktif. • Analitik streaming waktu nyata. • Pembelajaran mesin. • Analisis data interaktif. • Pemrosesan batch kumpulan Big Data. • Gudang Data • Analisis Log Kasus Penggunaan
  • 13. 13 PERAN SISTEM INFORMASIDALAM PENGELOLAAN BIG DATA Sistem informasi memainkan peran penting dalam pengelolaan Big Data, yang ditandai dengan volume, kecepatan, dan variasi data yang besar. Berikut adalah beberapa peran utama sistem informasi dalam konteks Big Data: - Sistem informasi bertanggung jawab untuk mengumpulkan data dari berbagai sumber, baik internal maupun eksternal. - Ini melibatkan penggunaan teknologi seperti sensor, aplikasi web, dan platform media sosial. Pengumpulan dan Penyimpanan Data - Sistem informasi memungkinkan pemrosesan data yang efisien, termasuk pembersihan, transformasi, dan integrasi data. - Ini memfasilitasi analisis data yang mendalam menggunakan teknik seperti data mining, machine learning, dan analisis prediktif. - Hasil analisis ini memberikan wawasan berharga untuk pengambilan keputusan bisnis. Pemrosesan dan Analisis Data - Sistem informasi menyediakan alat untuk memvisualisasikan data dalam bentuk grafik, diagram, dan dasbor. - Visualisasi ini membantu pengguna memahami pola dan tren dalam data dengan lebih mudah. - Ini memungkinkan komunikasi yang efektif dari wawasan yang diperoleh dari analisis Big Data. Visualisasi Data
  • 14. 14 - Sistem informasi mendukung pengambilan keputusan berdasarkan data dengan menyediakan informasi yang relevan dan akurat. - Ini memungkinkan organisasi untuk membuat keputusan yang lebih baik dan lebih cepat, berdasarkan wawasan yang diperoleh dari analisis Big Data. - Sistem informasi mendukung manajemen informasi yang lebih lengkap dan akurat secara real time. Informasi ini dapat digunakan untuk pengambilan suatu keputusan yang lebih baik dan lebih efektif untuk mencapai suatu tujuan. Pengambilan Keputusan - Sistem informasi memastikan keamanan data dengan menerapkan kontrol akses dan enkripsi. - Ini juga mengatur tata kelola data, termasuk kualitas data, privasi, dan kepatuhan terhadap peraturan - Sistem Informasi Bisnis yang terintegrasi dengan analisis Big Data dapat meningkatkan keamanan perusahaan. Dengan memonitor aktivitas jaringan dan menganalisis pola keamanan, perusahaan dapat mendeteksi ancaman potensial lebih awal. Keamanan dan Manajemen Data PERAN SISTEM INFORMASIDALAM PENGELOLAAN BIG DATA
  • 15. 15 1 Data Integration Menggabungkan data dari berbagai sumber, seperti database, API, dan sensor IoT 2 Data Processing Menggunakan teknologi seperti Hadoop dan Spark untuk memproses data dalam skala besar. 3 Data Analysis Menerapkan algoritma machine learning dan statistik untuk menganalisis data. 4 Decision Making Menggunakan hasil analisis untuk mendukung pengambilan keputusan bisnis. INTEGRASI SISTEM INFORMASI dalam analisisbig data Integrasi sistem informasi dalam analisis big data merupakan proses menggabungkan dan mengelola data dari berbagai sumber dan sistem yang berbeda untuk menghasilkan informasi yang lebih berguna dan akurat. Integrasi antara sistem informasi dan big data analytics melibatkan beberapa langkah.
  • 16. 16 E-commerce Sektor Transportasi: Optimasi Rute dan Prediksi Keterlambatan Sektor Keuangan : Deteksi Fraud dan Manajemen Risiko • Perusahaan e-commerce seperti Amazon dan Netflix menggunakan Big Data untuk merekomendasikan produk dan konten yang relevan kepada pelanggan. • Perusahaan logistik dan transportasi umum menggunakan Big Data untuk menganalisis data GPS, data lalu lintas, dan data cuaca. • Bank dan perusahaan asuransi menggunakan Big Data untuk menganalisis data transaksi, data perilaku nasabah, dan data media sosial. Kasus • Mereka menganalisis data riwayat pembelian, data penelusuran, dan data peringkat untuk memahami preferensi pelanggan. • Dengan wawasan ini, mereka dapat mempersonalisasi pengalaman pelanggan dan meningkatkan penjualan. • Mereka menggunakan analisis ini untuk mengoptimalkan rute pengiriman, memprediksi keterlambatan, dan meningkatkan efisiensi operasional. • Big data juga digunakan untuk mengembangkan sistem transportasi cerdas yang dapat mengurangi kemacetan dan meningkatkan keselamatan. • Mereka menggunakan analisis ini untuk mendeteksi transaksi mencurigakan, mengidentifikasi pola penipuan, dan menilai risiko kredit. • Big data juga digunakan untuk mengembangkan model risiko yang lebih akurat dan untuk mengoptimalkan strategi investasi. Penerapan • Peningkatan penjualan, peningkatan keterlibatan pelanggan, dan peningkatan loyalitas pelanggan. • Pengurangan biaya operasional, peningkatan ketepatan waktu pengiriman, dan peningkatan keselamatan jalan. • Pengurangan kerugian akibat penipuan, peningkatan akurasi penilaian risiko, dan peningkatan profitabilitas. Hasil Studi kasus penerapan sistem informasi berbasis Big Data
  • 17. TeknikPengumpulanDatadalamBigData Pengumpulan data merupakan langkah pertama dalam pengelolaan big data. Ada tiga jenis sumber data, yaitu : 1. Data Terstruktur Data yang disimpan dalam format terorganisir, seperti database SQL atau spreadsheet. 3. Data Tidak Terstruktur Data yang tidak memiliki format tertentu, seperti teks, gambar, dan video. 17 2. Data Semi-Terstruktur Data yang memiliki struktur tetapi tidak seformal data terstruktur, seperti JSON atau XML.
  • 18. Web Scraping Mengambil data dari situs web yang biasanya bersifat terstruktur dalam halaman web. Contohnya, berita, harga produk, data sosial. Metode Pengumpulan Data Sensor IoT Mengumpulkan data secara real-time dari perangkat IoT seperti sensor suhu, GPS, atau kamera 18 API (Application Programming Interface) Mengakses data dari platform yang biasanya terstruktur dan dalam format yang terorganisir. Metode pengumpulan data sangat penting dalam proses analisis big data karena mereka memungkinkan pengumpulan data yang relevan dan bermanfaat dari berbagai sumber. Berikut 3 metode pengumpulan data yang sering digunakan dalam konteks big data:
  • 19. Teknologi penyimpanan: HDFS, MongoDB, Cassandra 19 MongoDB Hadoop Distributed File System • MongoDB adalah database NoSQL berbasis dokumen yang dirancang untuk fleksibilitas dan skalabilitas. • Cocok untuk aplikasi web dan mobile yang membutuhkan skema data dinamis dan akses data cepat. • HDFS dirancang untuk menyimpan dan memproses data berukuran sangat besar (Big Data) dalam lingkungan terdistribusi. • Ideal untuk aplikasi yang membutuhkan pemrosesan batch data besar, seperti analisis log, data warehousing, dan machine learning. Tujuan Utama • Database NoSQL: Tidak menggunakan skema tabel relasional tradisional. • Berbasis Dokumen: Data disimpan dalam dokumen mirip JSON, yang fleksibel dan mudah diubah. • Skalabilitas Horizontal: Dapat diskalakan dengan menambahkan lebih banyak server (sharding). • Fleksibilitas Skema: Tidak memerlukan skema tetap, yang memungkinkan pengembang untuk dengan mudah mengubah struktur data. • Terdistribusi: Data dibagi dan disimpan di banyak komputer (node) dalam kluster. • Toleransi Kesalahan: Data direplikasi di beberapa node untuk memastikan ketersediaan data jika terjadi kegagalan node. • Skalabilitas Tinggi: Dapat menangani petabyte data dengan menambahkan lebih banyak node ke kluster. • Pemrosesan Batch: Dioptimalkan untuk pemrosesan batch data besar, bukan untuk akses data real-time. Karakteristik • Aplikasi Web, Manajemen Konten, IoT (Internet Of Things) dan Aplikasi Real Time • Analisis Big Data, Data warehousing ,Pemrosesan log dan Machine learning Penggunaan
  • 20. Teknologi penyimpanan: HDFS, MongoDB, Cassandra 20 Cassandra • Cassandra adalah database NoSQL kolom lebar yang dirancang untuk ketersediaan tinggi dan skalabilitas linear. • Ideal untuk aplikasi yang membutuhkan penanganan data tulis yang sangat besar dan ketersediaan 24/7, seperti aplikasi IoT, keuangan, dan media sosial. Tujuan Utama • Database NoSQL Kolom Lebar: Data disimpan dalam tabel dengan kolom yang dapat bervariasi untuk setiap baris.. • Ketersediaan Tinggi: Dirancang untuk toleransi kesalahan dan ketersediaan 24/7. • Skalabilitas Linear: Kinerja meningkat secara linier dengan menambahkan lebih banyak node. • Desentralisasi: Tidak ada titik kegagalan tunggal. Karakteristik • IoT, Aplikasi keuangan,Media sosial, Analisis data deret waktu Penggunaan
  • 21. Konsep Batch processing Konsep Batch processing Apache Hadoop adalah framework open source yang memungkinkan penyimpanan dan pemrosesan set data besar secara terdistribusi di berbagai cluster komputer menggunakan model pemrograman sederhana. modul terdiri dari framework Hadoop utama dan bekerja secara kolektif untuk membentuk ekosistem Hadoop: Batch Processing adalah metode pemrosesan data di mana data dikumpulkan dalam batch dan diproses dalam satu kali operasi. Cocok untuk pemrosesan data skala besar yang tidak memerlukan respons waktu nyata. MapReduce Hadoop YARN Hadoop Schedulers
  • 22. Konsep Batch processing Konsep Batch processing Hadoop YARN generasi berikutnya dari Hadoop. Memisahkan mesin pemrosesan (MapReduce) dari komponen manajemen sumber daya. Hadoop YARN
  • 23. Konsep Batch processing Konsep Batch processing Komponen utama YARN dijelaskan sebagai berikut: • Resource Manager (RM) • Application Master (AM) • Node Manager (NM) • Kontainer Hadoop YARN
  • 24. Konsep Batch processing Konsep Batch processing Hadoop Schedulers Hadoop schedulers merupakan Komponen yang memungkinkan Hadoop mendukung berbagai algoritma penjadwalan. Kerangka kerja penjadwal yang dapat dicolokkan memberikan fleksibilitas untuk mendukung berbagai beban kerja dengan prioritas dan kendala kinerja yang berbeda-beda. Algoritma penjadwalan Hadoop dijelaskan sebagai berikut: • FIFO • Fair Scheduler • Capacity Scheduler Kegunaan Hadoop: • Analisis dan big data • Penyimpanan dan pengarsipan data • Data lake • Analisis pemasaran • Pengelolaan risiko • AI dan machine learning
  • 25. Konsep Real-time processing Konsep Real-time processing Real time processing yang mana digunakan untuk menganalisis data yang terus menerus terupdate setiap waktu (data in motion). Kemampuan untuk memproses data secara real time seperti yang diterima dan mendeteksi kondisi dalam waktu singkat setelah mendapatkan data dimungkinkan berkat streaming processing. Beberapa teknologi yang umum digunakan untuk stream processing meliputi: • Apache Kafka • Apache Flink
  • 26. Konsep Real-time processing Konsep Real-time processing Apache Kafka merupakan sistem pesan distribusi yang di desain khusus untuk mengelola aliran data dalam lingkup yang sangat besar. Kafka memungkinkan pengiriman dan pemrosesan data dalam bentuk streams (alur data) yang real-time, sehingga dapat digunakan dalam berbagai aplikasi yang membutuhkan pemrosesan data secara cepat dan terus-menerus, seperti pemantauan sistem, analisis data real-time, dan pengelolaan log aplikasi. Beberapa alasan mengapa Apache Kafka sangat populer dalam pengolahan big data antara lain: • Skalabilitas yang Tinggi • Keandalan dan Tahan Gangguan • Kecepatan Pemrosesan Data • Kompatibilitas dengan Ekosistem Big Data
  • 27. Konsep Real-time processing Konsep Real-time processing Apache Kafka memiliki beberapa komponen utama yang berfungsi dalam pemrosesan dan pengelolaan data besar secara efisien: • Topic • Producer • Customer • Partisi • Broker • Cluster • Offset • Replikasi
  • 28. Konsep Real-time processing Konsep Real-time processing Apache Flink adalah kerangka kerja pemrosesan aliran data (stream processing) sumber terbuka yang terdistribusi. Ini berarti Flink dirancang untuk memproses aliran data yang terus menerus dan tidak terbatas, dengan fokus pada kecepatan, ketahanan, dan ketepatan. Flink telah dikembangkan untuk mengutamakan streaming, dan menawarkan antarmuka pemrograman terpadu untuk pemrosesan aliran dan batch. Apache Flink Beberapa jenis aplikasi umum yang didukung oleh Apache Flink adalah: • Aplikasi berbasis peristiwa • Aplikasi Analitik Data • Aplikasi pipeline data
  • 29. Konsep Real-time processing Konsep Real-time processing Apache Flink memiliki beberapa konsep inti yang mendasarinya, yang memungkinkan pemrosesan data aliran dan batch yang efisien dan andal. Apache Flink Pemrosesan Aliran Data (Stream Processing) Pemrosesan Batch sebagai Kasus Khusus Aliran Data Pemrosesan Batch sebagai Kasus Khusus Aliran Data Toleransi Kesalahan (Fault Tolerance) Windows Tepat Satu Kali (Exactly-Once) Arsitektur Terdistribusi
  • 30. Konsep Real-time processing Konsep Real-time processing Beberapa skenario spesifik di mana Apache Flink sangat berguna: Apache Flink Analisis Data Real-time • Deteksi Penipuan • Pemantauan Aplikasi dan Infrastruktur • Analisis Perilaku Pengguna Pemrosesan Peristiwa Kompleks (CEP) • Deteksi Pola • Peringatan Real-time Aplikasi Berbasis Peristiwa (Event-Driven Applications) • Pemrosesan Aliran Data Skala Besar • Transformasi Data Real-time Pemrosesan Batch
  • 31. Data Cleaning dalam analitik big data Data Cleaning dalam analitik big data Data cleaning adalah proses menambahkan data yang hilang, memperbaiki, mengoreksi, atau menghapus data yang salah dan tidak relevan dari kumpulan data. Data cleaning merupakan salah satu teknik preprocessing data yang paling penting karena pada teknik ini data akan dipastikan siap untuk digunakan. Data cleaning akan memperbaiki semua data yang hilang dengan mengganti data hilang tersebut dengan nilai mean, median, atau modus, tergantung dari jenis data yang digunakan. Tujuan utama dari data cleaning adalah untuk meningkatkan akurasi dan konsistensi data. Dengan data yang bersih, Anda dapat mengurangi risiko kesalahan dalam analisis dan pengambilan keputusan. Data cleaning juga membantu Anda menghilangkan data duplikat dan tidak relevan, sehingga dataset Anda lebih efisien dan mudah dikelola.
  • 32. Data Cleaning dalam analitik big data Data Cleaning dalam analitik big data Pentingnya Data Cleaning Dampak Data yang Tidak Bersih Kesalahan dalam analisis data Data yang tidak bersih dapat menyebabkan kesalahan dalam analisis. Kemungkinan menemukan hasil yang tidak akurat karena data yang digunakan mengandung kesalahan atau inkonsistensi. Pengambilan keputusan yang salah. Data yang tidak akurat dapat membuat kelirumengambil keputusan penting.
  • 33. Data Cleaning dalam analitik big data Data Cleaning dalam analitik big data HANDLING MISSING VALUES Missing values, atau nilai yang hilang, merujuk pada keadaan di mana suatu entitas data tidak memiliki nilai untuk atribut tertentu. Terdapat beberapa jenis missing values yaitu: MCAR (Missing Completely at Random) Terjadi secara acak, tanpa keterkaitan dengan variabel lain. MAR (Missing at Random) Keterkaitan dengan variabel yang teramati, meskipun tidak langsung terkait dengan variabel yang hilang. MNAR (Missing Not at Random) Ketergantungan pada nilai yang tidak teramati, sulit untuk kita identifikasi tanpa informasi tambahan.
  • 34. Data Cleaning dalam analitik big data Data Cleaning dalam analitik big data HANDLING MISSING VALUES Penghapusan Data Menghilangkan baris atau kolom yang mengandung missing values. Pendekatan ini dapat efektif jika jumlah missing values relatif kecil dan penghapusan tidak merusak signifikansi data. Imputasi Data Menggantikan missing values dengan nilai rata-rata atau median dari variabel terkait. Metode ini sederhana namun dapat efektif jika distribusi data tidak terlalu condong. Kemudian menggunakan metode interpolasi (memprediksi nilai yang hilang berdasarkan nilai yang diamati) atau ekstrapolasi (memprediksi nilai yang hilang berdasarkan tren yang ada). Model Berbasis Imputasi Menggunakan model machine learning seperti regresi atau algoritma pembelajaran mesin lainnya untuk memprediksi nilai yang hilang berdasarkan atribut lain dalam dataset. Penanganan Domain-Specific Dalam beberapa kasus, nilai tetap atau kategori khusus dapat diberikan kepada missing values berdasarkan pengetahuan domain khusus.
  • 35. Data Cleaning dalam analitik big data Data Cleaning dalam analitik big data TEKNIK IDENTIFIKASI MISSING VALUES Statistik Deskriptif Analisis statistik sederhana seperti mean, median, dan deviasi standar dapat memberikan gambaran awal terhadap adanya missing values. Pemeriksaan Spesifik Kolom Fokus pada pemeriksaan khusus pada kolom- kolom tertentu dapat mengungkapkan pola keberadaan missing values yang berkaitan dengan variabel tersebut. Visualisasi Data Grafik seperti histogram atau heatmap dapat membantu secara intuitif mengidentifikasi pola keberadaan missing values. Analisis Korelasi Menilai korelasi antar variabel dapat membantu mengidentifikasi pola keberadaan missing values yang terkait dengan variabel lain. Analisis Temporal atau Spasial Jika data bersifat temporal atau spasial, analisis terhadap distribusi missing values dapat mengungkapkan pola yang berguna untuk pemahaman konteks data.
  • 36. Data Cleaning dalam analitik big data Data Cleaning dalam analitik big data Normalization Biasanya dalam preprocessing, proses normalisasi untuk memodifikasi nilai dalam varabel sehingga kita dapat mengukurnya dalam skala umum. Beberapa bentuk normalisasi yang paling umum bertujuan untuk mengubah nilai-nilai sehingga jumlahnya menjadi 1. Normalisasi L1 (di library scikit-learn), yang mengacu pada Penyimpangan Absolut Terkecil, bekerja dengan memastikan bahwa jumlah nilai absolut adalah 1 dalam setiap baris. Normalisasi L2, yang mengacu pada kuadrat terkecil, bekerja dengan memastikan bahwa jumlah kuadrat adalah 1 x_normalized = x / ||x||_1 x_normalized = x / ||x||_2 Rumus L1 Rumus L2
  • 37. Data Cleaning dalam analitik big data Data Cleaning dalam analitik big data Encoding
  • 38. Data Cleaning dalam analitik big data Data Cleaning dalam analitik big data Tools data cleanin Python (Pandas) Langkah 1: Impor library Langkah 2: Memuat Data Langkah 3: Inspkesi Awal Data Langkah 4: Pembersihan Data • Handling Missing Values
  • 39. Data Cleaning dalam analitik big data Data Cleaning dalam analitik big data Tools data cleanin Python (Pandas) Langkah 4: Handling Missing Values • Removing duplicate values • Outlier removal • Changing data type Setelah proses pembersihan selesai, sangat penting untuk menyimpan data yang telah dibersihkan agar siap untuk analisis lebih lanjut atau penggunaan selanjutnya.
  • 40. Data Cleaning dalam analitik big data Data Cleaning dalam analitik big data Tools data cleaning OpenRefine Impor data Identifikasi dan pemisahan keywords Pembersihan data keywords Mengatasi duplikat keywords
  • 41. Data Cleaning dalam analitik big data Data Cleaning dalam analitik big data Tools data cleaning OpenRefine Ekspor data yang telah dicleaning
  • 42. Types of analysis on big data 42 Descriptive Analitics Diagnostic Analytics - Untuk menjawab pertanyaan “What Happened?” - Tujuan : Memberikan gambaran jelas tentang pola dan tren - Contoh : Berdasarkan analisis atas laporan penjualan bulanan, penjualan perusahaan mengalami penurunan di Bulan Januari - Untuk menjawab pertanyaan “Why it Happened?” - Tujuan : Menemukan pola tersembunyi yang mungkin tidak terlihat secara langsung - Contoh : Perusahaan menganalisis bahwa penurunan terjadi karena adanya iklan yang kurang efektif Predictive Analytics - Untuk menjawab pertanyaan “What Will Happen?” - Tujuan : Membantu Perusahaan mempersiapkan diri untuk menghadapi peristiwa yang mungkin terjadi - Contoh : Penjualan perusahaan diprediksi akan naik di Bulan Maret Prescriptive Analytics - Untuk menjawab pertanyaan “What will we do?” - Tujuan : Menyediakan solusi / langkah yang harus diambil berdasarkan hasil analsis data - Contoh : Perusahaan harus mengoptimalkan sumber daya untuk menghadapi penjualan yang diprediksi akan mengalami peningkatan
  • 43. Examples of implementing analysis on big data Examples of implementing analysis on big data Source : https://www.mentionlytics.com
  • 44. Machine learning for big data 44 Mengelompokkan data ke dalam grup yang memiliki kesamaan / pola serupa. Contoh : Segmentasi pelanggan berdasarkan perilaku pembelian. Penggunaan algoritma dan data input untuk menganalisis dan memprediksi big data. Clustering Mengkategorian data ke dalam label / kelas tertentu berdasarkan fitur yang ada. Contoh : Mengklasifikasi apakah suatu email termasuk spam / tidak. Classification Memprediksi nilai kontinu berdasarkan variable input tertentu. Contoh : Memprediksi harga rumah berdasarkan fitur seperti lokasi & ukuran. Regression 1 2 3
  • 45. Tools analysis for big data 1. Python (Skicit-learn) Pilihan terbaik bagi user yang membutuhkan fleksibilitas dan kemampuan untuk menangani Big Data dengan pustaka yang sangat kuat untuk machine learning dan analitik. 2. R Pilihan terbaik untuk analitik statistik mendalam dan visualisasi data, terutama di kalangan akademisi dan peneliti. 3. RapidMiner Sangat cocok bagi pengguna yang ingin melakukan analitik tanpa menulis kode dan lebih fokus pada eksplorasi dan pembuatan model prediktif dengan antarmuka grafis yang mudah digunakan.
  • 46. 46 1 3 5 6 4 2 Mempermudah Pemahaman Data yang Kompleks Mempercepat Pengambilan Keputusan Meningkatkan Kolaborasi Antara Tim Mengidentifikasi Pola dan Tren Mengurangi Kompleksitas dan Meningkatkan Efisiensi Membantu Komunikasi Hasil kepada Pemangku Kepentingan Pentingnya visualisasidata
  • 47. 47
  • 48. Tools visualisasi dalam big data Tools visualisasi dalam big data Tableau dan Power BI lebih cocok untuk pengguna non-teknis yang membutuhkan visualisasi interaktif dan pembuatan laporan bisnis, dengan Tableau lebih unggul dalam hal interaktivitas dan Power BI lebih terjangkau. Matplotlib dan Seaborn adalah alat berbasis Python yang ideal untuk data scientist dan analis data yang membutuhkan fleksibilitas tinggi, kustomisasi penuh, dan visualisasi statistik. Seaborn lebih mudah digunakan untuk visualisasi statistik, sementara Matplotlib menawarkan lebih banyak kontrol untuk visualisasi yang lebih kompleks.
  • 49. 49 Contoh Tampilan Tools Visualisasi Tableau Power BI Seaborn Matplotlib
  • 50. 50 Penerapan Visualisasi Interaktif “ “ Source : https://www.luzmo.com
  • 51. 1. Keamanan  Ahli IT harus mampu memilah dan mengolah data dengan pengetahuan serta kebijaksanaan.  Data bisa berasal dari berbagai sumber, termasuk dunia nyata, virtual, cyber, hingga supranatural.  Salah satu metode keamanan utama adalah enkripsi (encryption algorithm), yang dapat melindungi data dari peretas jika tidak memiliki kunci untuk membukanya. 2. Privasi Dunia TI saat ini menghadapi tantangan besar dalam menjaga privasi. Privasi dalam data sering mengacu pada PII (Personally Identifiable Information), yaitu informasi pribadi yang dapat mengidentifikasi individu secara langsung dan bersifat sensitif. Non-PII adalah informasi non-pribadi yang tidak dapat digunakan untuk identifikasi individu secara langsung.
  • 52. 2 Jenis Privasi 52 Privasi Offline  Hak individu untuk menjaga informasi pribadi dan aktivitasnya dari pengawasan, intervensi, atau gangguan dalam kehidupan nyata.  Melibatkan perlindungan data pribadi dalam bentuk fisik seperti catatan medis, laporan keuangan, dan dokumen identitas.  Tujuan utamanya adalah melindungi individu dari penyalahgunaan, pencurian identitas, dan diskriminasi.  Perlindungan ini tetap penting meskipun dunia semakin digital, untuk menjaga kebebasan individu dan mencegah penyalahgunaan informasi pribadi. Privasi Online  Hak individu untuk mengontrol informasi pribadi saat menggunakaninternet dan layanan digital.  Meliputi perlindungan data dari pengumpulan, penggunaan, dan penyebaran ilegal oleh pihak ketiga seperti perusahaan teknologi, pengiklan, dan peretas.  Data pribadi seperti nama, alamat, nomor telepon, dan informasi keuangan sering dikumpulkan oleh layanan online.  Perlindungan privasi online bertujuan memastikan data tetap di bawah kendali pemiliknya dan tidak disalahgunakan.  Menurut Pew Research Center (2019), mayoritas orang khawatir tentang bagaimana data mereka digunakan oleh perusahaan teknologi dan pemerintah.
  • 53. Tantangan keamanan dalam pengelolaan data skalabesar TANTANGAN UTAMA BIG DATA • Volume data yang sangat besar (hingga zettabyte) membuat sulit untuk memproses, menyimpan, dan melindungi data secara efektif. • Diperlukan infrastruktur komputasi yang kuat dan solusi penyimpanan yang andal untuk menangani data dalam jumlah besar. KERAGAMAN DATA • Data Big Data berasal dari berbagai sumber seperti sensor, media sosial, dan perangkat IoT, dengan format yang bervariasi dari terstruktur hingga tidak terstruktur. • Hal ini menyebabkan tantangan dalam integrasi, normalisasi, dan analisis data, sehingga memerlukan teknik khusus. ANCAMAN KEAMANAN • Data dalam jumlah besar yang tersimpan dapat menjadi target serangan siber, termasuk pencurian data, perusakan sistem, dan penyalahgunaan informasi. • Organisasi harus menerapkan langkah-langkah keamanan siber yang komprehensif, termasuk deteksi ancaman, pemulihan pasca serangan, dan kebijakankeamanan yang ketat.
  • 54. Teknik perlindungan data : Enkripsi, Tokenisasi, anonimisasi 1) Enkripsi Data Enkripsi mengubah data menjadi format yang tidak dapat dibaca oleh pihak tidak berwenang. Dapat diterapkan saat data disimpan (at-rest) dan ditransmisikan (in-transit). Algoritma enkripsi umum: AES, RSA, PGP, dengan tingkat keamanan dan kompleksitas yang bervariasi. Kunci enkripsi harus disimpan dengan aman untuk menjaga kerahasiaan data. Enkripsi end-to-end digunakan untuk melindungi data sensitif sepanjang siklus hidupnya.c 2) Manajemen Akses Membatasi akses ke data sensitif hanya untuk pengguna yang memiliki otoritas. Menggunakan autentikasi kuat, seperti username & password, two-factor authentication, dan biometrik. Kontrol akses berbasis peran (RBAC) dan atribut (ABAC) untuk mengatur hak akses. Audit dan pemantauan aktivitas untuk mendeteksi penyalahgunaan. Prinsip least privilege (hak akses minimum) untuk membatasi akses hanya pada informasi yang diperlukan.Menetapkan prosedur pemberian, peninjauan, dan pencabutan hak akses yang terdokumentasi dengan baik.
  • 55. Anonimisasi& pseudonimisasi 1. Anonimisasi menghapus informasi identitas pribadi agar tidak dapat dikaitkan kembali dengan individu. 2. Pseudonimisasi mengganti informasi identitas pribadi dengan pseudonim atau identifikasi alternatif untuk menjaga privasi saat data dianalisis, diproses, atau dibagikan. Kedua teknik ini memungkinkan pemanfaatan data sensitif secara lebih aman sesuai dengan peraturan privasi. 55 BACKUP DAN PEMULIHAN DATA 1. Membuat cadangan data secara rutin untuk mencegah kehilangan akibat kerusakan, kesalahan, atau serangan siber. 2. Menyimpan backup di lokasi aman yang terpisah dari lokasi penyimpanan utama. 3. Menggunakan strategi backup terdiversifikasi, seperti media penyimpanan berbeda, cloud storage, atau replikasi data. 4. Melakukan pengujian berkala terhadap proses pemulihan data untuk menjaga keandalan dan integritas. 5. Menetapkan prosedur pemulihan terdokumentasi yang dapat diimplementasikan dengan cepat saat dibutuhkan.
  • 56. Pemantauan dan peringatan dini 56  Menerapkan sistem pemantauan aktivitas data dan jaringan untuk mendeteksi aktivitas mencurigakan.  Menggunakan alat analitik dan deteksi anomali untuk mengidentifikasi potensi ancaman atau pelanggaran.  Mengkonfigurasi sistem agar memberikan peringatan dini terhadap aktivitas mencurigakan.  Menyiapkan prosedur tanggap darurat untuk menangani insiden keamanan data.  Melakukan analisis forensik pada insiden keamanan untuk mengidentifikasi penyebab dan mengembangkan solusi perbaikan. 1. Memberikan pelatihan komprehensif tentang praktik keamanan data. 2. Meningkatkan kesadaran pengguna terhadap ancaman keamanan dan praktik terbaik. 3. Mendorong budaya keamanan di seluruh organisasi melalui komunikasi efektif dan contoh yang baik. 4. Melakukan pengujian & evaluasi berkala untuk memastikan pemahaman dan kepatuhan pengguna. 5. Memperbarui materi pelatihan secara rutin untuk mengakomodasi perubahan teknologi dan ancaman baru. PELATIHAN DAN KESADARAN PENGGUNA
  • 57. 57 KEBIJAKAN & PROSEDUR  Mengembangkan dan menerapkan kebijakan keamanan yang terdokumentasi dengan baik.  Menetapkan prosedur dan panduan untuk pengelolaan serta perlindungan data sensitif.  Memastikan kebijakan selaras dengan peraturan dan undang-undang yang berlaku.  Melakukan peninjauan dan pembaruan berkala untuk mengakomodasi perubahan kebutuhan dan ancaman.  Mempromosikan kepatuhan terhadap kebijakan melalui komunikasi efektif dan pengawasan yang konsisten. KLASIFIKASI DATA  Mengklasifikasikan data berdasarkan sensitivitas dan kepentingannya bagi organisasi.  Menerapkan kontrol keamanan sesuai tingkat klasifikasi seperti enkripsi, pembatasan akses, dan pemantauan ketat.  Menyesuaikan kontrol keamanan secara dinamis dengan perubahan klasifikasi data.  Mendokumentasikan skema klasifikasi dan mengkomunikasikannya kepada seluruh pengguna.
  • 58. Regulasi terkait data : gdpr, uu perlindungan data pribadi Regulasi terkait data : gdpr, uu perlindungan data pribadi  Pentingnya kepatuhan terhadap regulasi dalam pengelolaan big data, termasuk perlindungan privasi.  Regulasi utama seperti GDPR (Eropa) dan CPA (Amerika Serikat) mengatur kewajiban organisasi dalam mengumpulkan, menyimpan, mengolah, dan menggunakan data pribadi.  Prinsip perlindungan privasi mencakup transparansi, pembatasan pengumpulan, keamanan data, dan hak individu.  Organisasi harus memiliki kebijakan dan prosedur yang jelas untuk memastikan kepatuhan regulasi, termasuk penilaian dampak privasi, penetapan tanggung jawab, pemantauan, dan audit berkala.  Evaluasi risiko privasi diperlukan untuk mengidentifikasi dan memitigasi risiko, serta menetapkan peran dan tanggung jawab dalam pengelolaan data.  Pentingnya kepatuhan terhadap regulasi dalam pengelolaan big data, termasuk perlindungan privasi.  Regulasi utama seperti GDPR (Eropa) dan CPA (Amerika Serikat) mengatur kewajiban organisasi dalam mengumpulkan, menyimpan, mengolah, dan menggunakan data pribadi.  Prinsip perlindungan privasi mencakup transparansi, pembatasan pengumpulan, keamanan data, dan hak individu.  Organisasi harus memiliki kebijakan dan prosedur yang jelas untuk memastikan kepatuhan regulasi, termasuk penilaian dampak privasi, penetapan tanggung jawab, pemantauan, dan audit berkala.  Evaluasi risiko privasi diperlukan untuk mengidentifikasi dan memitigasi risiko, serta menetapkan peran dan tanggung jawab dalam pengelolaan data.
  • 59. Gambaran umum tentang regulasi global Gambaran umum tentang regulasi global CCPA (California Consumer Privacy Act) di Amerika Serikat GDPR (General Data Protection Regulation) di Uni Eropa UU PDP No. 27 Tahun 2022 (Undang – Undang Pelindungan Data Pribadi) di Indonesia CCPA berlaku di negara bagian California dan memberikan perlindungan kepada konsumen atas penggunaan data pribadi mereka. Perusahaan yang beroperasi di California diwajibkan memberikan informasi kepada konsumen tentang bagaimana data mereka digunakan dan memungkinkan konsumen untuk menolak penjualan data pribadi mereka. GDPR dianggap sebagai standar emas dalam regulasi data. Diberlakukan sejak 2018, GDPR mengatur tentang perlindungan data pribadi di seluruh negara anggota Uni Eropa. Aturan ini mengharuskan perusahaan untuk transparan dalam pengelolaan data serta memberikan hak kepada individu untuk mengakses, mengubah, atau menghapus data mereka. UU ini menetapkan aturan mengenai pengumpulan, pengolahan, penyimpanan, dan distribusi data pribadi, serta mewajibkan perusahaan untuk melindungi privasi individu dan memperoleh persetujuan eksplisit dari pemilik data sebelum data digunakan.
  • 60. Perbedaan dan persamaan antara berbagai regulasi 60 HIGH VALUE 1 Persetujuan Pengguna UU PDP, GDPR, dan CCPA sama-sama mengharuskan adanya persetujuan eksplisit dari individu sebelum data pribadi mereka dapat dikumpulkan atau diproses. Ini berarti bahwa perusahaan harus transparan mengenai tujuan penggunaan data serta mendapatkan izin dari pengguna untuk melakukan aktivitas tersebut. Hak Akses dan Penghapusan Data Salah satu persamaan yang menonjol antara UU PDP, GDPR, dan CCPA adalah hak individu untuk mengakses data pribadi mereka dan menghapusnya jika diinginkan. Individu berhak mengetahui data apa saja yang dikumpulkan tentang mereka, bagaimana data tersebut digunakan, serta memiliki hak untuk meminta penghapusan data dalam kondisi tertentu. Sanksi dan Penalti Setiap regulasi menetapkan sanksi bagi perusahaan yang melanggar aturan kepatuhan data. GDPR memiliki denda yang paling ketat, di mana perusahaan dapat dikenai sanksi hingga 4% dari pendapatan global tahunan mereka. Sementara itu, CCPA dan UU PDP juga menetapkan denda besar bagi pelanggaran, meskipun dengan batasan yang berbeda. Keterlibatan Konsumen GDPR dan CCPA mengutamakan keterlibatan konsumen dalam pengelolaan data pribadi. GDPR memberikan hak penuh kepada pengguna untuk mengatur bagaimana data mereka diproses, sementara CCPA lebih fokus pada memberikan opsi kepada konsumen untuk memilih keluar dari penjualan data.
  • 61. Tren dan masa depan big data analytics Tren dan masa depan big data analytics  Artificial Intelligence (AI): AI akan berperan penting dalam analisis data besar dengan kecepatan tinggi dan kemampuan mengenali pola rumit untuk menghasilkan wawasan mendalam.  Cloud Computing: Memungkinkan pemrosesan data secara efisien tanpa perlu infrastruktur fisik sendiri.  Penggunaan Jaringan: Big Data Analytics akan semakin terintegrasi dengan perangkat IoT, sensor, dan platform digital lainnya.  Implementasi AI dalam Big Data :  Sektor kesehatan: AI digunakan dalam analisis catatan medis, tes laboratorium, dan citra medis untuk diagnosa penyakit lebih akurat.  E-commerce: AI menganalisis perilaku konsumen untuk rekomendasi produk yang dipersonalisasi.  Kolaborasi AI dan Big Data: Memberikan nilai tambah besar di berbagai industri..
  • 62. Peran artificial intelligence (ai) dalam big data Peran artificial intelligence (ai) dalam big data Manfaat AI dalam Big Data : Pemrosesan data lebih cepat dan efisien. Penyaringan dan pembersihan data (Data Cleansing). Analitik prediktif dan pengambilan keputusan. Deteksi pola dan anomali. Peningkatan pengalaman pelanggan. Optimasi proses bisnis. Visualisasi data canggih. NLP untuk analisis teks. Peningkatan akurasi dan pengurangan bias. AI memiliki peran penting dalam Big Data Analytics dengan memberikan kemampuan analisis, pemrosesan, dan interpretasi data dalam jumlah besar secara cepat dan akurat. AI dapat:  Mengidentifikasi pola tersembunyi dan meramalkan hasil masa depan.  Mengotomatiskan proses analitik untuk pengambilan keputusan lebih cerdas.  Meningkatkan efisiensi serta keunggulan kompetitif di berbagai industri.
  • 63. Integrasi big data dengan teknologi blockchain dan iot Pencatatan Data IoT di Blockchain  Data dari perangkat IoT dicatat aman dan transparan di blockchain, mengurangi risiko manipulasi dan meningkatkan integritas. Contoh: Sensor suhu dan kelembaban mencatat data langsung ke blockchain untuk verifikasi kondisi gudang. Analisis Big Data untuk IoT  Data IoT dalam blockchain dapat diolah dengan Big Data untuk mendapatkan wawasan. Contoh: Analisis penggunaan energi perangkat IoT dapat memberikan rekomendasi efisiensi energi. Automatisasi dengan Smart  ContractsSmart contracts di blockchain memungkinkan otomatisasi transaksi berbasis data IoT. Contoh: Jika sensor mendeteksi suhu di bawah batas tertentu, smart contract dapat menyalakan pemanas atau memberi peringatan ke operator. Manajemen Rantai Pasokan  IoT memantau kondisi dan pergerakan barang dalam rantai pasokan.  Data dicatat di blockchain untuk visibilitas lokasi dan status barang, lalu dianalisis untuk meningkatkan efisiensi pengiriman.
  • 64. Big Data berperan penting dalam pengambilan keputusan strategis, terutama di era digital dengan volume data yang terus berkembang. Penggunaannya memungkinkan organisasi membuat keputusan lebih tepat, berbasis data, dan efisien. Cara Big Data mendukung keputusan strategis:  Memberikan wawasan lebih mendalam (insight).  Prediksi dan peramalan tren.  Peningkatan efisiensi operasional.  Segmentasi pasar dan personalisasi.  Pengambilan keputusan secara real-time.  Analisis sentimen dan media sosial.  Deteksi risiko dan pengelolaan krisis.  Meningkatkan keunggulan kompetitif.  Pengelolaan dan optimalisasi sumber daya.  Kolaborasi antar-departemen. Big Data membantu keputusan strategis dengan menyediakan informasi akurat dan berbasis data. Dengan analitik Big Data, perusahaan dapat membuat keputusan lebih tepat, meramalkan tren, meningkatkan efisiensi, serta mendapatkan keunggulan kompetitif. Teknologi ini memungkinkan keputusan yang lebih proaktif dan responsif terhadap perubahan pasar, yang penting untuk keberhasilan jangka panjang.
  • 65. 65