PPT Big Data and Analytic sistem informasi

Learning objectives
Pengenalan Big Data Dan Karakteristiknya
Arsitektur dan Infrastruktur Big Data
Sistem Informasi Berbasis Big Data
Teknik Pengumpulan dan Penyimpanan Data dalam Big Data
Big Data Processing: Batch Processing vs Real-Time Processing
Data Cleaning dan Preprocessing dalam Big Data
Big Data Analytics: Teknik dan Metode
Visualisasi Data dalam Big Data Analytics
Keamanan dan Privasi dalam Big Data
Tren dan Masa Depan Big Data Analytics

Pengenalan Big data dan karakteristiknya
3
Big Data didefinisikan sebagai kumpulan set data yang volumenya,
kecepatannya, atau varietasnya sangat besar sehingga sulit untuk
menyimpan, mengelola, memproses, dan menganalisis data
menggunakan basis data tradisional dan alat pemrosesan data.
Big Data mengacu pada kumpulan data yang sangat besar dan
kompleks, yang tumbuh dengan cepat dari waktu ke waktu. Saking
besarnya, data ini tidak dapat diproses secara efektif dengan aplikasi
pemrosesan data tradisional. Big Data mencakup data terstruktur, semi-
terstruktur, dan tidak terstruktur, yang berasal dari berbagai sumber
seperti :
- Media Sosial
- Transaksi Online
- Log Server`
Big Data

4
Menurut perkiraan International Bisnis Machine ada 2,5 kuintiliun byte data dibuat
setiap hari. Laporan terbaru dari DOMO (Platform yang menyediakan Bussiness
Intellegence) memperkirakan jumlah data yang dihasilkan setiap menit di platform
online popular. Berikut adalah beberapa bagian data penting dari laporan tersebut
Pengguna Facebook membagikan hampir 4,16 juta konten
Pengguna Twitter mengirim hampir 300.000 tweet
Pengguna Instagram menyukai hampir 1,73 juta foto
Pengguna YouTube mengunggah 300 jam konten video baru
Amazon menerima 4.300 pengunjung baru
Pelanggan Netflix melakukan streaming hampir 77.000 jam video

5
Analitik Big Data berkaitan dengan pengumpulan, penyimpanan, pemrosesan,
dan analisis data berskala besar. Alat dan kerangka kerja khusus diperlukan
untuk analisis big data ketika :
Kecepatan data sangat tinggi
dan data perlu dianalisis
secara waktu nyata
3. Ada keragaman data yang
terlibat, yang dapat terstruktur,
tidak terstruktur, atau semi-
terstruktur, dan dikumpulkan dari
berbagai sumber data
4. Berbagai jenis analitik perlu
dilakukan untuk mengekstrak
nilai dari data seperti analitik
deskriptif, diagnostik, prediktif,
dan preskriptif
Volume data yang terlibat sangat
besar sehingga sulit untuk
menyimpan, memproses, dan
menganalisis data pada satu mesin
1.
2.
3.
4.

6
Karakteristik Big Data
Value
Veracity
Variety
Velocity
Volume
Nilai data mengacu pada
kegunaan data untuk tujuan
yang dimaksudkan. Tujuan
akhir dari setiap sistem
analitik data besar adalah
untuk mengekstrak nilai
dari data. Nilai data juga
terkait dengan keakuratan
atau ketepatan data. Untuk
beberapa aplikasi, nilai
juga bergantung pada
seberapa cepat kita dapat
memproses data
Keakuratan mengacu pada
seberapa akurat data
tersebut. Untuk
mengekstrak nilai dari data,
data perlu dibersihkan
untuk menghilangkan
gangguan. Aplikasi
berbasis data hanya dapat
menuai manfaat dari data
besar ketika data tersebut
bermakna dan akurat. Oleh
karena itu, pembersihan
data penting agar data
yang salah dan cacat dapat
disaring.
Varietas mengacu pada
bentuk-bentuk data. Data
besar datang dalam
berbagai bentuk seperti
terstruktur, tidak terstruktur,
atau semi-terstruktur,
termasuk data teks,
gambar, audio, video, dan
data sensor. Sistem data
besar perlu cukup fleksibel
untuk menangani varietas
data semacam itu
Kecepatan data mengacu
pada seberapa cepat data
dihasilkan. Data yang
dihasilkan oleh sumber
tertentu dapat tiba dengan
kecepatan yang sangat
tinggi, misalnya, data
media sosial atau data
sensor. Kecepatan adalah
karakteristik penting
lainnya dari data besar dan
alasan utama pertumbuhan
data secara eksponensial.
Big Data adalah bentuk
data yang volumenya
sangat besar sehingga
tidak akan muat pada satu
mesin, oleh karena itu alat
dan kerangka kerja khusus
diperlukan untuk
menyimpan, memproses,
dan menganalisis data
tersebut,
Sebagai contoh, aplikasi
media sosial memproses
miliaran pesan setiap hari,
sistem industri dan energi
dapat menghasilkan
terabyte data sensor setiap
hari, aplikasi agregasi taksi
dapat memproses jutaan
transaksi dalam sehari, dll.

7
Perbedaan Big Data dengan Data Tradisional
Big Data
Data Tradisional
Aspek
Memahami perbedaan antara data terstruktur dan tidak
terstruktur sangat penting. Data tradisional sangat terstruktur,
sementara data besar dapat berkisar dari format terstruktur
hingga tidak terstruktur, termasuk teks, gambar, dan video.
Sangat terstruktur; diorganisasikan
dalam bidang yang telah ditentukan
sebelumnya seperti tabel dan baris
Struktur
Set data besar (petabyte hingga zettabyte) yang memerlukan
penyimpanan dan pemrosesan terdistribusi
Set data yang lebih kecil dan mudah
dikelola (gigabyte hingga terabyte) yang
cocok untuk basis data relasional.
Volume
Dihasilkan secara terus-menerus dan seringkali secara waktu
nyata, misalnya, oleh perangkat yang menangkap data
langsung.
Dihasilkan dan diperbarui secara
berkala, seperti harian atau mingguan.
Kecepatan
Memerlukan kerangka kerja canggih seperti Hadoop dan
Spark untuk pemrosesan berskala tinggi dan berkecepatan
tinggi
Dikelola dengan alat konvensional
seperti SQL, yang dirancang untuk data
terstruktur
Processing Tools
Analitik waktu nyata, pembelajaran mesin, dan pemodelan
prediktif di bidang-bidang seperti media sosial, e-commerce,
dan IoT
Catatan pelanggan, transaksi
keuangan, dan manajemen inventaris
Case
Penggunaan
Umum
Sebuah platform e-commerce global menganalisis jutaan
transaksi, klik, dan interaksi media sosial secara waktu nyata
untuk mengoptimalkan personalisasi dan alur inventaris
Sebuah toko ritel lokal menggunakan
SQL untuk melacak penjualan bulanan
dan informasi kontak pelanggan.
Contoh

8
Arsitektur dan infrastruktur big data
 Arsitektur Big Data dirancang untuk
menangani volume data yang besar,
beragam, dan bergerak cepat. Arsitektur
ini terdiri dari beberapa komponen utama
yang bekerja sama untuk
mengumpulkan, menyimpan,
memproses, dan memvisualisasikan
data. Berikut adalah komponen-
komponen utama tersebut :
1. Data Sources (Sumber Data)
• Database relasional (misalnya, MySQL,
PostgreSQL)
• File log dari server web
• Sensor IoT (Internet of Things)
• Media sosial
• Data streaming (misalnya, dari aplikasi
keuangan atau sensor)
• Dan sumber data lainya.z
2. Data Storage (Penyimpanan Data)
 Hadoop Distributed File System (HDFS): Sistem file yang dirancang untuk
menyimpan data dalam jumlah besar di klaster computer.
 NoSQL databases (misalnya, Cassandra, MongoDB): Database yang
dirancang untuk menangani data tidak terstruktur dan semi-terstruktur.
 Cloud storage (misalnya, Amazon S3, Azure Blob Storage): Layanan
penyimpanan berbasis cloud yang skalabel dan terjangkau.
3. Data Processing (Pemrosesan Data)
 Pemrosesan Batch: Memproses data dalam jumlah besar dalam batch,
biasanya untuk analisis historis. Contohnya adalah MapReduce di Hadoop.
 Pemrosesan Streaming: Memproses data secara real-time saat data
tersebut tiba. Ini berguna untuk aplikasi yang membutuhkan respons
cepat, seperti deteksi penipuan. Contohnya adalah Apache Spark
Streaming atau Apache Kafka Streams.
4. Visualitation (Data Visualization)
 Komponen ini menyajikan hasil pemrosesan data dalam format yang
mudah dipahami, seperti grafik, diagram, dan dasbor.
 Alat visualisasi data populer termasuk : Tableau, Power BI dan Grafana

9
Dalam era Big Data, organisasi menghadapi tantangan untuk menyimpan dan
mengelola volume data yang besar, beragam, dan terus berkembang. Untuk
mengatasi tantangan ini, berbagai teknologi penyimpanan telah dikembangkan,
termasuk Data Lake, Data Warehouse, dan NoSQL.
Data Lake
Kekurangan
Keunggulan
Karakteristik
Konsep
• Membutuhkan tata
kelola data yang kuat
untuk mencegah "data
swamp".
• Membutuhkan keahlian
khusus untuk
mengakses dan
menganalisis data.
• Fleksibilitas dalam
menyimpan berbagai
jenis data.
• Skalabilitas untuk
menangani volume data
yang besar.
• Biaya penyimpanan yang
relatif rendah.
• Menyimpan data mentah
dalam format aslinya.
• Skema data ditentukan
saat data akan dianalisis
(schema-on-read).
• Cocok untuk eksplorasi
data, analisis prediktif,
dan machine learning.
• Data Lake adalah
repositori penyimpanan
terpusat yang menyimpan
data mentah dalam
berbagai format, baik
terstruktur, semi-
terstruktur, maupun tidak
terstruktur.
• Tujuannya adalah untuk
menyimpan semua data
organisasi di satu tempat,
sehingga dapat diakses
dan dianalisis kapan saja

Data Warehouse
Kekurangan
Keunggulan
Karakteristik
Konsep
• Kurang fleksibel
dalam menangani
data tidak
terstruktur.
• Biaya pembangunan
dan pemeliharaan
yang relatif tinggi.
• Proses untuk
memasukan data
membutuhkan waktu
yang relatif lama.
• Kinerja kueri yang
cepat dan andal.
• Data yang konsisten
dan terpercaya.
• Mudah digunakan
untuk analisis bisnis.
• Menyimpan data
terstruktur yang telah
dibersihkan dan
diintegrasikan.
• Skema data tetap
dan terdefinisi
dengan baik.
• Cocok untuk
pelaporan bisnis,
analisis OLAP
(Online Analytical
Processing), dan
dashboard.
• Data Warehouse
adalah repositori
penyimpanan
terstruktur yang
menyimpan data
yang telah diproses
dan dioptimalkan
untuk analisis bisnis.
• Tujuannya adalah
untuk menyediakan
sumber data yang
konsisten dan andal
untuk pengambilan
Keputusan.

11
NoSQL (Not Only SQL)
Kekurangan
Keunggulan
Karakteristik
Konsep
• Kurang cocok
untuk transaksi
kompleks yang
membutuhkan
ACID compliance.
• Membutuhkan
keahlian khusus
untuk mengelola
dan
mengoptimalkan.
• Skalabilitas
horizontal yang
mudah.
• Fleksibilitas dalam
menangani berbagai
jenis data.
• Kinerja tinggi untuk
aplikasi yang
membutuhkan
kecepatan akses
data yang cepat.
• Menyimpan data
dalam berbagai
format, seperti
dokumen, key-
value, kolom lebar,
dan grafik.
• Skema data dinamis
dan fleksibel.
• Cocok untuk
aplikasi web,
aplikasi seluler, dan
aplikasi Big Data
yang membutuhkan
skalabilitas tinggi.
• NoSQL (Not Only
SQL) adalah jenis
database yang
dirancang untuk
menangani data
tidak terstruktur dan
semi-terstruktur
dalam skala besar.
• NoSQL tidak
menggunakan
skema data
relasional seperti
database SQL
tradisional.

12
Google BigQuery
Apache Spark
Hadoop
Platform
• Gudang data tanpa server
yang dikelola sepenuhnya
yang memungkinkan kueri
SQL cepat atas kumpulan
data skala petabyte.
• Solusi berbasis cloud yang
menghilangkan kebutuhan
manajemen infrastruktur.
• Sistem pemrosesan terdistribusi
sumber terbuka yang unggul dalam
kecepatan dan keserbagunaan.
• Memproses data dalam memori, yang
secara signifikan mempercepat
pemrosesan dibandingkan dengan
MapReduce Hadoop.
• Kerangka kerja sumber terbuka yang
memungkinkan penyimpanan dan pemrosesan
terdistribusi dari kumpulan data besar di seluruh
klaster perangkat keras komoditas.
• Komponen utama termasuk HDFS (Hadoop
Distributed File System) untuk penyimpanan dan
MapReduce untuk pemrosesan.
Gambaran
Umum
• Tanpa server: Tidak
diperlukan manajemen
infrastruktur.
• Skalabilitas: Dapat
menangani kumpulan data
besar.
• Kinerja kueri cepat:
Dioptimalkan untuk kueri
analitis.
• Kecepatan: Pemrosesan dalam
memori untuk analitik cepat.
• Keserbagunaan: Mendukung
berbagai beban kerja pemrosesan
data.
• Kemudahan penggunaan:
Menyediakan API untuk berbagai
bahasa pemrograman.
• Skalabilitas: Dapat menangani petabyte data.
• Toleransi kesalahan: Data direplikasi di seluruh
node, memastikan keandalan.
Kekuatan
Utama
• Gudang data dan
kecerdasan bisnis.
• Analisis kueri ad-hoc.
• Analitik prediktif.
• Analitik streaming waktu nyata.
• Pembelajaran mesin.
• Analisis data interaktif.
• Pemrosesan batch kumpulan Big Data.
• Gudang Data
• Analisis Log
Kasus
Penggunaan

13
PERAN SISTEM INFORMASIDALAM PENGELOLAAN BIG DATA
Sistem informasi memainkan peran penting dalam pengelolaan Big Data, yang
ditandai dengan volume, kecepatan, dan variasi data yang besar. Berikut adalah
beberapa peran utama sistem informasi dalam konteks Big Data:
- Sistem informasi bertanggung jawab untuk
mengumpulkan data dari berbagai sumber, baik
internal maupun eksternal.
- Ini melibatkan penggunaan teknologi seperti
sensor, aplikasi web, dan platform media sosial.
Pengumpulan dan Penyimpanan Data
- Sistem informasi memungkinkan pemrosesan
data yang efisien, termasuk pembersihan,
transformasi, dan integrasi data.
- Ini memfasilitasi analisis data yang mendalam
menggunakan teknik seperti data mining,
machine learning, dan analisis prediktif.
- Hasil analisis ini memberikan wawasan
berharga untuk pengambilan keputusan bisnis.
Pemrosesan dan Analisis Data
- Sistem informasi menyediakan alat untuk memvisualisasikan
data dalam bentuk grafik, diagram, dan dasbor.
- Visualisasi ini membantu pengguna memahami pola dan tren
dalam data dengan lebih mudah.
- Ini memungkinkan komunikasi yang efektif dari wawasan
yang diperoleh dari analisis Big Data.
Visualisasi Data

14
- Sistem informasi mendukung pengambilan
keputusan berdasarkan data dengan
menyediakan informasi yang relevan dan akurat.
- Ini memungkinkan organisasi untuk membuat
keputusan yang lebih baik dan lebih cepat,
berdasarkan wawasan yang diperoleh dari
analisis Big Data.
- Sistem informasi mendukung manajemen
informasi yang lebih lengkap dan akurat secara
real time. Informasi ini dapat digunakan untuk
pengambilan suatu keputusan yang lebih baik
dan lebih efektif untuk mencapai suatu tujuan.
Pengambilan Keputusan
- Sistem informasi memastikan keamanan data
dengan menerapkan kontrol akses dan enkripsi.
- Ini juga mengatur tata kelola data, termasuk
kualitas data, privasi, dan kepatuhan terhadap
peraturan
- Sistem Informasi Bisnis yang terintegrasi dengan
analisis Big Data dapat meningkatkan keamanan
perusahaan. Dengan memonitor aktivitas jaringan
dan menganalisis pola keamanan, perusahaan
dapat mendeteksi ancaman potensial lebih awal.
Keamanan dan Manajemen Data
PERAN SISTEM INFORMASIDALAM PENGELOLAAN BIG DATA

15
1
Data Integration
Menggabungkan data dari berbagai
sumber, seperti database, API, dan
sensor IoT
2
Data Processing
Menggunakan teknologi seperti
Hadoop dan Spark untuk
memproses data dalam skala besar.
3
Data Analysis
Menerapkan algoritma machine
learning dan statistik untuk
menganalisis data.
4
Decision Making
Menggunakan hasil analisis untuk
mendukung pengambilan
keputusan bisnis.
INTEGRASI SISTEM INFORMASI dalam analisisbig data
Integrasi sistem informasi dalam analisis big data merupakan proses menggabungkan dan
mengelola data dari berbagai sumber dan sistem yang berbeda untuk menghasilkan informasi
yang lebih berguna dan akurat. Integrasi antara sistem informasi dan big data analytics
melibatkan beberapa langkah.

16
E-commerce
Sektor Transportasi: Optimasi Rute
dan Prediksi Keterlambatan
Sektor Keuangan : Deteksi Fraud dan
Manajemen Risiko
• Perusahaan e-commerce
seperti Amazon dan Netflix
menggunakan Big Data
untuk merekomendasikan
produk dan konten yang
relevan kepada pelanggan.
• Perusahaan logistik dan
transportasi umum
menggunakan Big Data untuk
menganalisis data GPS, data
lalu lintas, dan data cuaca.
• Bank dan perusahaan asuransi
menggunakan Big Data untuk
menganalisis data transaksi, data
perilaku nasabah, dan data media
sosial.
Kasus
• Mereka menganalisis data
riwayat pembelian, data
penelusuran, dan data
peringkat untuk memahami
preferensi pelanggan.
• Dengan wawasan ini,
mereka dapat
mempersonalisasi
pengalaman pelanggan dan
meningkatkan penjualan.
• Mereka menggunakan analisis
ini untuk mengoptimalkan rute
pengiriman, memprediksi
keterlambatan, dan
meningkatkan efisiensi
operasional.
• Big data juga digunakan untuk
mengembangkan sistem
transportasi cerdas yang dapat
mengurangi kemacetan dan
meningkatkan keselamatan.
• Mereka menggunakan analisis ini
untuk mendeteksi transaksi
mencurigakan, mengidentifikasi pola
penipuan, dan menilai risiko kredit.
• Big data juga digunakan untuk
mengembangkan model risiko yang
lebih akurat dan untuk
mengoptimalkan strategi investasi.
Penerapan
• Peningkatan penjualan,
peningkatan keterlibatan
pelanggan, dan peningkatan
loyalitas pelanggan.
• Pengurangan biaya operasional,
peningkatan ketepatan waktu
pengiriman, dan peningkatan
keselamatan jalan.
• Pengurangan kerugian akibat penipuan,
peningkatan akurasi penilaian risiko, dan
peningkatan profitabilitas.
Hasil
Studi kasus penerapan sistem informasi berbasis Big Data

TeknikPengumpulanDatadalamBigData
Pengumpulan data merupakan langkah pertama dalam pengelolaan big
data. Ada tiga jenis sumber data, yaitu :
1. Data Terstruktur
Data yang disimpan dalam
format terorganisir, seperti
database SQL atau spreadsheet.
3. Data Tidak Terstruktur
Data yang tidak memiliki
format tertentu, seperti teks,
gambar, dan video.
17
2. Data Semi-Terstruktur
Data yang memiliki struktur
tetapi tidak seformal data
terstruktur, seperti JSON
atau XML.

Web Scraping
Mengambil data dari situs
web yang biasanya bersifat
terstruktur dalam halaman
web. Contohnya, berita, harga
produk, data sosial.
Metode Pengumpulan Data
Sensor IoT
Mengumpulkan data secara real-time dari
perangkat IoT seperti sensor suhu, GPS,
atau kamera
18
API (Application
Programming Interface)
Mengakses data dari
platform yang biasanya
terstruktur dan dalam
format yang terorganisir.
Metode pengumpulan data sangat penting dalam proses analisis big data karena
mereka memungkinkan pengumpulan data yang relevan dan bermanfaat dari berbagai
sumber. Berikut 3 metode pengumpulan data yang sering digunakan dalam konteks
big data:

Teknologi penyimpanan: HDFS, MongoDB, Cassandra
19
MongoDB
Hadoop Distributed File System
• MongoDB adalah database NoSQL
berbasis dokumen yang dirancang untuk
fleksibilitas dan skalabilitas.
• Cocok untuk aplikasi web dan mobile
yang membutuhkan skema data dinamis
dan akses data cepat.
• HDFS dirancang untuk menyimpan dan memproses data
berukuran sangat besar (Big Data) dalam lingkungan
terdistribusi.
• Ideal untuk aplikasi yang membutuhkan pemrosesan batch
data besar, seperti analisis log, data warehousing, dan
machine learning.
Tujuan Utama
• Database NoSQL: Tidak menggunakan
skema tabel relasional tradisional.
• Berbasis Dokumen: Data disimpan dalam
dokumen mirip JSON, yang fleksibel dan
mudah diubah.
• Skalabilitas Horizontal: Dapat diskalakan
dengan menambahkan lebih banyak
server (sharding).
• Fleksibilitas Skema: Tidak memerlukan
skema tetap, yang memungkinkan
pengembang untuk dengan mudah
mengubah struktur data.
• Terdistribusi: Data dibagi dan disimpan di banyak komputer
(node) dalam kluster.
• Toleransi Kesalahan: Data direplikasi di beberapa node untuk
memastikan ketersediaan data jika terjadi kegagalan node.
• Skalabilitas Tinggi: Dapat menangani petabyte data dengan
menambahkan lebih banyak node ke kluster.
• Pemrosesan Batch: Dioptimalkan untuk pemrosesan batch data
besar, bukan untuk akses data real-time.
Karakteristik
• Aplikasi Web, Manajemen Konten, IoT
(Internet Of Things) dan Aplikasi Real
Time
• Analisis Big Data, Data warehousing ,Pemrosesan log dan
Machine learning
Penggunaan

Teknologi penyimpanan: HDFS, MongoDB, Cassandra
20
Cassandra
• Cassandra adalah database NoSQL kolom lebar yang dirancang
untuk ketersediaan tinggi dan skalabilitas linear.
• Ideal untuk aplikasi yang membutuhkan penanganan data tulis yang
sangat besar dan ketersediaan 24/7, seperti aplikasi IoT, keuangan,
dan media sosial.
Tujuan Utama
• Database NoSQL Kolom Lebar: Data disimpan dalam tabel dengan
kolom yang dapat bervariasi untuk setiap baris..
• Ketersediaan Tinggi: Dirancang untuk toleransi kesalahan dan
ketersediaan 24/7.
• Skalabilitas Linear: Kinerja meningkat secara linier dengan
menambahkan lebih banyak node.
• Desentralisasi: Tidak ada titik kegagalan tunggal.
Karakteristik
• IoT, Aplikasi keuangan,Media sosial, Analisis data deret waktu
Penggunaan

Konsep Batch processing
Apache Hadoop adalah framework open source yang memungkinkan
penyimpanan dan pemrosesan set data besar secara terdistribusi di
berbagai cluster komputer menggunakan model pemrograman
sederhana. modul terdiri dari framework Hadoop utama dan bekerja
secara kolektif untuk membentuk ekosistem Hadoop:
Batch Processing adalah metode pemrosesan data di mana data dikumpulkan dalam batch dan diproses
dalam satu kali operasi. Cocok untuk pemrosesan data skala besar yang tidak memerlukan respons
waktu nyata.
MapReduce
Hadoop YARN
Hadoop Schedulers

Hadoop YARN generasi berikutnya dari Hadoop. Memisahkan mesin pemrosesan (MapReduce) dari
komponen manajemen sumber daya.
Hadoop YARN

Komponen utama YARN dijelaskan sebagai berikut:
• Resource Manager (RM)
• Application Master (AM)
• Node Manager (NM)
• Kontainer
Hadoop YARN

Hadoop Schedulers
Hadoop schedulers merupakan Komponen yang
memungkinkan Hadoop mendukung berbagai algoritma
penjadwalan. Kerangka kerja penjadwal yang dapat
dicolokkan memberikan fleksibilitas untuk mendukung
berbagai beban kerja dengan prioritas dan kendala
kinerja yang berbeda-beda. Algoritma penjadwalan
Hadoop dijelaskan sebagai berikut:
• FIFO
• Fair Scheduler
• Capacity Scheduler
Kegunaan Hadoop:
• Analisis dan big data
• Penyimpanan dan pengarsipan data
• Data lake
• Analisis pemasaran
• Pengelolaan risiko
• AI dan machine learning

Konsep Real-time processing
Real time processing yang mana digunakan untuk menganalisis data yang terus menerus terupdate
setiap waktu (data in motion). Kemampuan untuk memproses data secara real time seperti yang
diterima dan mendeteksi kondisi dalam waktu singkat setelah mendapatkan data dimungkinkan
berkat streaming processing. Beberapa teknologi yang umum digunakan untuk stream processing
meliputi:
• Apache Kafka
• Apache Flink

Apache Kafka merupakan sistem pesan distribusi
yang di desain khusus untuk mengelola aliran data
dalam lingkup yang sangat besar. Kafka
memungkinkan pengiriman dan pemrosesan data
dalam bentuk streams (alur data) yang real-time,
sehingga dapat digunakan dalam berbagai aplikasi
yang membutuhkan pemrosesan data secara cepat
dan terus-menerus, seperti pemantauan sistem,
analisis data real-time, dan pengelolaan log aplikasi.
Beberapa alasan mengapa Apache Kafka sangat
populer dalam pengolahan big data antara lain:
• Skalabilitas yang Tinggi
• Keandalan dan Tahan Gangguan
• Kecepatan Pemrosesan Data
• Kompatibilitas dengan Ekosistem Big Data

Apache Kafka memiliki beberapa komponen utama yang berfungsi dalam pemrosesan dan pengelolaan
data besar secara efisien:
• Topic
• Producer
• Customer
• Partisi
• Broker
• Cluster
• Offset
• Replikasi

Apache Flink adalah kerangka kerja pemrosesan
aliran data (stream processing) sumber terbuka
yang terdistribusi. Ini berarti Flink dirancang untuk
memproses aliran data yang terus menerus dan
tidak terbatas, dengan fokus pada kecepatan,
ketahanan, dan ketepatan. Flink telah
dikembangkan untuk mengutamakan streaming,
dan menawarkan antarmuka pemrograman
terpadu untuk pemrosesan aliran dan batch.
Apache Flink
Beberapa jenis aplikasi umum yang didukung
oleh Apache Flink adalah:
• Aplikasi berbasis peristiwa
• Aplikasi Analitik Data
• Aplikasi pipeline data

Apache Flink memiliki beberapa konsep inti yang mendasarinya, yang memungkinkan
pemrosesan data aliran dan batch yang efisien dan andal.
Apache Flink
Pemrosesan Aliran Data
(Stream Processing)
Pemrosesan Batch sebagai
Kasus Khusus Aliran Data
Pemrosesan Batch sebagai
Kasus Khusus Aliran Data
Toleransi Kesalahan
(Fault Tolerance)
Windows
Tepat Satu Kali
(Exactly-Once)
Arsitektur Terdistribusi

Beberapa skenario spesifik di mana Apache Flink sangat berguna:
Apache Flink
Analisis Data Real-time
• Deteksi Penipuan
• Pemantauan
Aplikasi dan
Infrastruktur
• Analisis Perilaku
Pengguna
Pemrosesan Peristiwa
Kompleks (CEP)
• Deteksi Pola
• Peringatan Real-time
Aplikasi Berbasis Peristiwa
(Event-Driven Applications)
• Pemrosesan Aliran
Data Skala Besar
• Transformasi Data
Real-time
Pemrosesan Batch

Data Cleaning dalam analitik big data
Data cleaning adalah proses menambahkan data
yang hilang, memperbaiki, mengoreksi, atau
menghapus data yang salah dan tidak relevan
dari kumpulan data. Data cleaning merupakan
salah satu teknik preprocessing data yang paling
penting karena pada teknik ini data akan
dipastikan siap untuk digunakan. Data cleaning
akan memperbaiki semua data yang hilang
dengan mengganti data hilang tersebut dengan
nilai mean, median, atau modus, tergantung dari
jenis data yang digunakan.
Tujuan utama dari data cleaning adalah untuk
meningkatkan akurasi dan konsistensi data.
Dengan data yang bersih, Anda dapat mengurangi
risiko kesalahan dalam analisis dan pengambilan
keputusan. Data cleaning juga membantu Anda
menghilangkan data duplikat dan tidak relevan,
sehingga dataset Anda lebih efisien dan mudah
dikelola.

Pentingnya Data Cleaning
Dampak Data yang Tidak Bersih
Kesalahan dalam
analisis data
Data yang tidak bersih
dapat menyebabkan
kesalahan dalam
analisis. Kemungkinan
menemukan hasil yang
tidak akurat karena data
yang digunakan
mengandung kesalahan
atau inkonsistensi.
Pengambilan
keputusan yang salah.
Data yang tidak akurat
dapat membuat
kelirumengambil
keputusan penting.

HANDLING MISSING VALUES
Missing values, atau nilai yang hilang, merujuk pada keadaan di
mana suatu entitas data tidak memiliki nilai untuk atribut tertentu.
Terdapat beberapa jenis missing values yaitu:
MCAR (Missing
Completely at Random)
Terjadi secara acak,
tanpa keterkaitan
dengan variabel lain.
MAR (Missing at
Random)
Keterkaitan dengan
variabel yang teramati,
meskipun tidak langsung
terkait dengan variabel
yang hilang.
MNAR (Missing Not at
Random)
Ketergantungan pada nilai
yang tidak teramati, sulit
untuk kita identifikasi tanpa
informasi tambahan.

HANDLING MISSING VALUES
Penghapusan Data
Menghilangkan baris atau kolom yang
mengandung missing values.
Pendekatan ini dapat efektif jika jumlah
missing values relatif kecil dan
penghapusan tidak merusak
signifikansi data.
Imputasi Data
Menggantikan missing values dengan nilai rata-rata
atau median dari variabel terkait. Metode ini sederhana
namun dapat efektif jika distribusi data tidak terlalu
condong. Kemudian menggunakan metode interpolasi
(memprediksi nilai yang hilang berdasarkan nilai yang
diamati) atau ekstrapolasi (memprediksi nilai yang
hilang berdasarkan tren yang ada).
Model Berbasis Imputasi
Menggunakan model machine learning
seperti regresi atau algoritma
pembelajaran mesin lainnya untuk
memprediksi nilai yang hilang
berdasarkan atribut lain dalam dataset.
Penanganan Domain-Specific
Dalam beberapa kasus, nilai tetap atau
kategori khusus dapat diberikan kepada
missing values berdasarkan pengetahuan
domain khusus.

TEKNIK IDENTIFIKASI MISSING VALUES
Statistik Deskriptif
Analisis statistik
sederhana seperti mean,
median, dan deviasi
standar dapat
memberikan gambaran
awal terhadap adanya
missing values.
Pemeriksaan Spesifik
Kolom
Fokus pada pemeriksaan
khusus pada kolom-
kolom tertentu dapat
mengungkapkan pola
keberadaan missing
values yang berkaitan
dengan variabel tersebut.
Visualisasi Data
Grafik seperti histogram
atau heatmap dapat
membantu secara intuitif
mengidentifikasi pola
keberadaan missing
values.
Analisis Korelasi
Menilai korelasi antar
variabel dapat membantu
mengidentifikasi pola
keberadaan missing
values yang terkait
dengan variabel lain.
Analisis Temporal atau
Spasial
Jika data bersifat temporal
atau spasial, analisis
terhadap distribusi missing
values dapat
mengungkapkan pola yang
berguna untuk pemahaman
konteks data.

Normalization
Biasanya dalam preprocessing, proses normalisasi untuk
memodifikasi nilai dalam varabel sehingga kita dapat
mengukurnya dalam skala umum. Beberapa bentuk
normalisasi yang paling umum bertujuan untuk mengubah
nilai-nilai sehingga jumlahnya menjadi 1. Normalisasi L1 (di
library scikit-learn), yang mengacu pada Penyimpangan
Absolut Terkecil, bekerja dengan memastikan bahwa jumlah
nilai absolut adalah 1 dalam setiap baris. Normalisasi L2,
yang mengacu pada kuadrat terkecil, bekerja dengan
memastikan bahwa jumlah kuadrat adalah 1
x_normalized = x / ||x||_1 x_normalized = x / ||x||_2
Rumus L1 Rumus L2

Encoding

Tools data cleanin Python (Pandas)
Langkah 1: Impor library
Langkah 2: Memuat Data
Langkah 3: Inspkesi Awal Data
Langkah 4: Pembersihan Data
• Handling Missing Values

Tools data cleanin Python (Pandas)
Langkah 4: Handling Missing Values
• Removing duplicate values
• Outlier removal
• Changing data type
Setelah proses pembersihan selesai, sangat penting untuk menyimpan data yang telah
dibersihkan agar siap untuk analisis lebih lanjut atau penggunaan selanjutnya.

Tools data cleaning OpenRefine
Impor data Identifikasi dan pemisahan keywords
Pembersihan data keywords
Mengatasi duplikat keywords

Tools data cleaning OpenRefine
Ekspor data yang telah dicleaning

Types of analysis on big data
42
Descriptive Analitics Diagnostic Analytics
- Untuk menjawab pertanyaan “What Happened?”
- Tujuan : Memberikan gambaran jelas tentang pola dan tren
- Contoh : Berdasarkan analisis atas laporan penjualan
bulanan, penjualan perusahaan mengalami penurunan di
Bulan Januari
- Untuk menjawab pertanyaan “Why it Happened?”
- Tujuan : Menemukan pola tersembunyi yang mungkin
tidak terlihat secara langsung
- Contoh : Perusahaan menganalisis bahwa penurunan
terjadi karena adanya iklan yang kurang efektif
Predictive Analytics
- Untuk menjawab pertanyaan “What Will Happen?”
- Tujuan : Membantu Perusahaan mempersiapkan diri
untuk menghadapi peristiwa yang mungkin terjadi
- Contoh : Penjualan perusahaan diprediksi akan naik di
Bulan Maret
Prescriptive Analytics
- Untuk menjawab pertanyaan “What will we do?”
- Tujuan : Menyediakan solusi / langkah yang harus diambil
berdasarkan hasil analsis data
- Contoh : Perusahaan harus mengoptimalkan sumber daya
untuk menghadapi penjualan yang diprediksi akan
mengalami peningkatan

Examples of implementing analysis on big data
Examples of implementing analysis on big data
Source : https://www.mentionlytics.com

Machine learning for big data
44
Mengelompokkan data ke
dalam grup yang memiliki
kesamaan / pola serupa.
Contoh : Segmentasi
pelanggan berdasarkan
perilaku pembelian.
Penggunaan algoritma dan data input untuk menganalisis dan memprediksi big data.
Clustering
Mengkategorian data ke
dalam label / kelas tertentu
berdasarkan fitur yang ada.
Contoh : Mengklasifikasi
apakah suatu email
termasuk spam / tidak.
Classification
Memprediksi nilai kontinu
berdasarkan variable input
tertentu.
Contoh : Memprediksi harga
rumah berdasarkan fitur
seperti lokasi & ukuran.
Regression
1 2 3

Tools analysis for big data
1. Python (Skicit-learn)
Pilihan terbaik bagi user yang membutuhkan
fleksibilitas dan kemampuan untuk menangani
Big Data dengan pustaka yang sangat kuat untuk
machine learning dan analitik.
2. R
Pilihan terbaik untuk analitik statistik
mendalam dan visualisasi data,
terutama di kalangan akademisi dan
peneliti.
3. RapidMiner
Sangat cocok bagi pengguna
yang ingin melakukan analitik
tanpa menulis kode dan lebih
fokus pada eksplorasi dan
pembuatan model prediktif
dengan antarmuka grafis yang
mudah digunakan.

46
1 3 5
6
4
2
Mempermudah
Pemahaman Data
yang Kompleks
Mempercepat
Pengambilan
Keputusan
Meningkatkan
Kolaborasi Antara
Tim
Mengidentifikasi
Pola dan Tren
Mengurangi
Kompleksitas dan
Meningkatkan
Efisiensi
Membantu
Komunikasi Hasil
kepada Pemangku
Kepentingan
Pentingnya visualisasidata

Tools visualisasi dalam big data
Tools visualisasi dalam big data
Tableau dan Power BI lebih cocok untuk pengguna
non-teknis yang membutuhkan visualisasi interaktif
dan pembuatan laporan bisnis, dengan Tableau
lebih unggul dalam hal interaktivitas dan Power BI
lebih terjangkau.
Matplotlib dan Seaborn adalah alat berbasis Python yang ideal untuk data scientist
dan analis data yang membutuhkan fleksibilitas tinggi, kustomisasi penuh, dan
visualisasi statistik. Seaborn lebih mudah digunakan untuk visualisasi statistik,
sementara Matplotlib menawarkan lebih banyak kontrol untuk visualisasi yang lebih
kompleks.

49
Contoh Tampilan Tools Visualisasi
Tableau
Power BI
Seaborn
Matplotlib

50
Penerapan Visualisasi Interaktif
“ “
Source : https://www.luzmo.com

1. Keamanan
 Ahli IT harus mampu memilah dan mengolah data dengan pengetahuan serta
kebijaksanaan.
 Data bisa berasal dari berbagai sumber, termasuk dunia nyata, virtual, cyber, hingga
supranatural.
 Salah satu metode keamanan utama adalah enkripsi (encryption algorithm), yang
dapat melindungi data dari peretas jika tidak memiliki kunci untuk membukanya.
2. Privasi
Dunia TI saat ini menghadapi tantangan besar dalam menjaga privasi.
Privasi dalam data sering mengacu pada PII (Personally Identifiable
Information), yaitu informasi pribadi yang dapat mengidentifikasi individu
secara langsung dan bersifat sensitif.
Non-PII adalah informasi non-pribadi yang tidak dapat digunakan untuk
identifikasi individu secara langsung.

2 Jenis Privasi
52
Privasi Offline
 Hak individu untuk menjaga informasi pribadi dan aktivitasnya
dari pengawasan, intervensi, atau gangguan dalam kehidupan
nyata.
 Melibatkan perlindungan data pribadi dalam bentuk fisik seperti
catatan medis, laporan keuangan, dan dokumen identitas.
 Tujuan utamanya adalah melindungi individu dari
penyalahgunaan, pencurian identitas, dan diskriminasi.
 Perlindungan ini tetap penting meskipun dunia semakin digital,
untuk menjaga kebebasan individu dan mencegah
penyalahgunaan informasi pribadi.
Privasi Online
 Hak individu untuk mengontrol informasi pribadi saat
menggunakaninternet dan layanan digital.
 Meliputi perlindungan data dari pengumpulan, penggunaan, dan
penyebaran ilegal oleh pihak ketiga seperti perusahaan
teknologi, pengiklan, dan peretas.
 Data pribadi seperti nama, alamat, nomor telepon, dan
informasi keuangan sering dikumpulkan oleh layanan online.
 Perlindungan privasi online bertujuan memastikan data tetap di
bawah kendali pemiliknya dan tidak disalahgunakan.
 Menurut Pew Research Center (2019), mayoritas orang khawatir
tentang bagaimana data mereka digunakan oleh perusahaan
teknologi dan pemerintah.

Tantangan keamanan dalam pengelolaan data skalabesar
TANTANGAN UTAMA BIG DATA
• Volume data yang sangat besar (hingga zettabyte)
membuat sulit untuk memproses, menyimpan, dan
melindungi data secara efektif.
• Diperlukan infrastruktur komputasi yang kuat dan
solusi penyimpanan yang andal untuk menangani
data dalam jumlah besar.
KERAGAMAN DATA
• Data Big Data berasal dari berbagai sumber seperti
sensor, media sosial, dan perangkat IoT, dengan
format yang bervariasi dari terstruktur hingga tidak
terstruktur.
• Hal ini menyebabkan tantangan dalam integrasi,
normalisasi, dan analisis data, sehingga memerlukan
teknik khusus.
ANCAMAN KEAMANAN
• Data dalam jumlah besar yang tersimpan dapat menjadi target serangan siber, termasuk pencurian data, perusakan sistem,
dan penyalahgunaan informasi.
• Organisasi harus menerapkan langkah-langkah keamanan siber yang komprehensif, termasuk deteksi ancaman, pemulihan
pasca serangan, dan kebijakankeamanan yang ketat.

Teknik perlindungan data : Enkripsi, Tokenisasi,
anonimisasi
1) Enkripsi Data
Enkripsi mengubah data menjadi format yang
tidak dapat dibaca oleh pihak tidak berwenang.
Dapat diterapkan saat data disimpan (at-rest) dan
ditransmisikan (in-transit).
Algoritma enkripsi umum: AES, RSA, PGP, dengan
tingkat keamanan dan kompleksitas yang bervariasi.
Kunci enkripsi harus disimpan dengan aman
untuk menjaga kerahasiaan data.
Enkripsi end-to-end digunakan untuk melindungi
data sensitif sepanjang siklus hidupnya.c
2) Manajemen Akses
Membatasi akses ke data sensitif hanya untuk pengguna yang
memiliki otoritas.
Menggunakan autentikasi kuat, seperti username & password,
two-factor authentication, dan biometrik.
Kontrol akses berbasis peran (RBAC) dan atribut (ABAC) untuk
mengatur hak akses.
Audit dan pemantauan aktivitas untuk mendeteksi
penyalahgunaan.
Prinsip least privilege (hak akses minimum) untuk membatasi
akses hanya pada informasi yang diperlukan.Menetapkan
prosedur pemberian, peninjauan, dan pencabutan hak akses yang
terdokumentasi dengan baik.

Anonimisasi& pseudonimisasi
1. Anonimisasi menghapus informasi identitas
pribadi agar tidak dapat dikaitkan kembali
dengan individu.
2. Pseudonimisasi mengganti informasi identitas
pribadi dengan pseudonim atau identifikasi
alternatif untuk menjaga privasi saat data
dianalisis, diproses, atau dibagikan.
Kedua teknik ini memungkinkan pemanfaatan data
sensitif secara lebih aman sesuai dengan peraturan
privasi.
55
BACKUP DAN PEMULIHAN DATA
1. Membuat cadangan data secara rutin untuk
mencegah kehilangan akibat kerusakan,
kesalahan, atau serangan siber.
2. Menyimpan backup di lokasi aman yang
terpisah dari lokasi penyimpanan utama.
3. Menggunakan strategi backup terdiversifikasi,
seperti media penyimpanan berbeda, cloud
storage, atau replikasi data.
4. Melakukan pengujian berkala terhadap proses
pemulihan data untuk menjaga keandalan dan
integritas.
5. Menetapkan prosedur pemulihan
terdokumentasi yang dapat diimplementasikan
dengan cepat saat dibutuhkan.

Pemantauan dan peringatan dini
56
 Menerapkan sistem pemantauan aktivitas data dan
jaringan untuk mendeteksi aktivitas mencurigakan.
 Menggunakan alat analitik dan deteksi anomali untuk
mengidentifikasi potensi ancaman atau pelanggaran.
 Mengkonfigurasi sistem agar memberikan peringatan dini
terhadap aktivitas mencurigakan.
 Menyiapkan prosedur tanggap darurat untuk menangani
insiden keamanan data.
 Melakukan analisis forensik pada insiden keamanan
untuk mengidentifikasi penyebab dan mengembangkan
solusi perbaikan.
1. Memberikan pelatihan
komprehensif tentang praktik
keamanan data.
2. Meningkatkan kesadaran
pengguna terhadap ancaman
keamanan dan praktik terbaik.
3. Mendorong budaya keamanan di
seluruh organisasi melalui
komunikasi efektif dan contoh
yang baik.
4. Melakukan pengujian & evaluasi
berkala untuk memastikan
pemahaman dan kepatuhan
pengguna.
5. Memperbarui materi pelatihan
secara rutin untuk
mengakomodasi perubahan
teknologi dan ancaman baru.
PELATIHAN DAN KESADARAN PENGGUNA

57
KEBIJAKAN & PROSEDUR
 Mengembangkan dan menerapkan kebijakan
keamanan yang terdokumentasi dengan baik.
 Menetapkan prosedur dan panduan untuk
pengelolaan serta perlindungan data sensitif.
 Memastikan kebijakan selaras dengan
peraturan dan undang-undang yang berlaku.
 Melakukan peninjauan dan pembaruan berkala
untuk mengakomodasi perubahan kebutuhan
dan ancaman.
 Mempromosikan kepatuhan terhadap kebijakan
melalui komunikasi efektif dan pengawasan
yang konsisten.
KLASIFIKASI DATA
 Mengklasifikasikan data berdasarkan
sensitivitas dan kepentingannya bagi
organisasi.
 Menerapkan kontrol keamanan sesuai tingkat
klasifikasi seperti enkripsi, pembatasan
akses, dan pemantauan ketat.
 Menyesuaikan kontrol keamanan secara
dinamis dengan perubahan klasifikasi data.
 Mendokumentasikan skema klasifikasi dan
mengkomunikasikannya kepada seluruh
pengguna.

Regulasi terkait data : gdpr, uu perlindungan data pribadi
Regulasi terkait data : gdpr, uu perlindungan data pribadi
 Pentingnya kepatuhan terhadap regulasi dalam pengelolaan big data, termasuk perlindungan
privasi.
 Regulasi utama seperti GDPR (Eropa) dan CPA (Amerika Serikat) mengatur kewajiban organisasi
dalam mengumpulkan, menyimpan, mengolah, dan menggunakan data pribadi.
 Prinsip perlindungan privasi mencakup transparansi, pembatasan pengumpulan, keamanan
data, dan hak individu.
 Organisasi harus memiliki kebijakan dan prosedur yang jelas untuk memastikan kepatuhan
regulasi, termasuk penilaian dampak privasi, penetapan tanggung jawab, pemantauan, dan
audit berkala.
 Evaluasi risiko privasi diperlukan untuk mengidentifikasi dan memitigasi risiko, serta
menetapkan peran dan tanggung jawab dalam pengelolaan data.
 Pentingnya kepatuhan terhadap regulasi dalam pengelolaan big data, termasuk perlindungan
privasi.
 Regulasi utama seperti GDPR (Eropa) dan CPA (Amerika Serikat) mengatur kewajiban organisasi
dalam mengumpulkan, menyimpan, mengolah, dan menggunakan data pribadi.
 Prinsip perlindungan privasi mencakup transparansi, pembatasan pengumpulan, keamanan
data, dan hak individu.
 Organisasi harus memiliki kebijakan dan prosedur yang jelas untuk memastikan kepatuhan
regulasi, termasuk penilaian dampak privasi, penetapan tanggung jawab, pemantauan, dan
audit berkala.
 Evaluasi risiko privasi diperlukan untuk mengidentifikasi dan memitigasi risiko, serta
menetapkan peran dan tanggung jawab dalam pengelolaan data.

Gambaran umum tentang regulasi global
Gambaran umum tentang regulasi global
CCPA (California Consumer
Privacy Act) di Amerika Serikat
GDPR (General Data Protection
Regulation) di Uni Eropa
UU PDP No. 27 Tahun 2022
(Undang – Undang Pelindungan
Data Pribadi) di Indonesia
CCPA berlaku di negara bagian
California dan memberikan
perlindungan kepada konsumen
atas penggunaan data pribadi
mereka. Perusahaan yang
beroperasi di California
diwajibkan memberikan
informasi kepada konsumen
tentang bagaimana data
mereka digunakan dan
memungkinkan konsumen
untuk menolak penjualan data
pribadi mereka.
GDPR dianggap sebagai standar
emas dalam regulasi data.
Diberlakukan sejak 2018, GDPR
mengatur tentang perlindungan
data pribadi di seluruh negara
anggota Uni Eropa. Aturan ini
mengharuskan perusahaan
untuk transparan dalam
pengelolaan data serta
memberikan hak kepada
individu untuk mengakses,
mengubah, atau menghapus
data mereka.
UU ini menetapkan aturan
mengenai pengumpulan,
pengolahan, penyimpanan, dan
distribusi data pribadi, serta
mewajibkan perusahaan untuk
melindungi privasi individu dan
memperoleh persetujuan
eksplisit dari pemilik data
sebelum data digunakan.

Perbedaan dan persamaan antara berbagai regulasi
60
HIGH
VALUE
1
Persetujuan Pengguna
UU PDP, GDPR, dan CCPA sama-sama mengharuskan
adanya persetujuan eksplisit dari individu sebelum
data pribadi mereka dapat dikumpulkan atau
diproses. Ini berarti bahwa perusahaan harus
transparan mengenai tujuan penggunaan data serta
mendapatkan izin dari pengguna untuk melakukan
aktivitas tersebut.
Hak Akses dan Penghapusan Data
Salah satu persamaan yang menonjol antara UU PDP,
GDPR, dan CCPA adalah hak individu untuk
mengakses data pribadi mereka dan menghapusnya
jika diinginkan. Individu berhak mengetahui data apa
saja yang dikumpulkan tentang mereka, bagaimana
data tersebut digunakan, serta memiliki hak untuk
meminta penghapusan data dalam kondisi tertentu.
Sanksi dan Penalti
Setiap regulasi menetapkan sanksi bagi perusahaan
yang melanggar aturan kepatuhan data. GDPR
memiliki denda yang paling ketat, di mana
perusahaan dapat dikenai sanksi hingga 4% dari
pendapatan global tahunan mereka. Sementara itu,
CCPA dan UU PDP juga menetapkan denda besar bagi
pelanggaran, meskipun dengan batasan yang
berbeda.
Keterlibatan Konsumen
GDPR dan CCPA mengutamakan keterlibatan
konsumen dalam pengelolaan data pribadi. GDPR
memberikan hak penuh kepada pengguna untuk
mengatur bagaimana data mereka diproses,
sementara CCPA lebih fokus pada memberikan opsi
kepada konsumen untuk memilih keluar dari
penjualan data.

Tren dan masa depan big data analytics
Tren dan masa depan big data analytics
 Artificial Intelligence (AI): AI akan berperan penting dalam analisis data besar dengan kecepatan
tinggi dan kemampuan mengenali pola rumit untuk menghasilkan wawasan mendalam.
 Cloud Computing: Memungkinkan pemrosesan data secara efisien tanpa perlu infrastruktur
fisik sendiri.
 Penggunaan Jaringan: Big Data Analytics akan semakin terintegrasi dengan perangkat IoT,
sensor, dan platform digital lainnya.
 Implementasi AI dalam Big Data :
 Sektor kesehatan: AI digunakan dalam analisis catatan medis, tes laboratorium, dan citra
medis untuk diagnosa penyakit lebih akurat.
 E-commerce: AI menganalisis perilaku konsumen untuk rekomendasi produk yang
dipersonalisasi.
 Kolaborasi AI dan Big Data: Memberikan nilai tambah besar di berbagai industri..

Peran artificial intelligence (ai) dalam big data
Peran artificial intelligence (ai) dalam big data
Manfaat AI dalam Big Data :
Pemrosesan data lebih cepat dan efisien.
Penyaringan dan pembersihan data (Data Cleansing).
Analitik prediktif dan pengambilan keputusan.
Deteksi pola dan anomali.
Peningkatan pengalaman pelanggan.
Optimasi proses bisnis.
Visualisasi data canggih.
NLP untuk analisis teks.
Peningkatan akurasi dan pengurangan bias.
AI memiliki peran penting dalam Big Data Analytics dengan memberikan kemampuan analisis,
pemrosesan, dan interpretasi data dalam jumlah besar secara cepat dan akurat. AI dapat:
 Mengidentifikasi pola tersembunyi dan meramalkan hasil masa depan.
 Mengotomatiskan proses analitik untuk pengambilan keputusan lebih cerdas.
 Meningkatkan efisiensi serta keunggulan kompetitif di berbagai industri.

Integrasi big data dengan teknologi blockchain dan iot
Pencatatan Data IoT di Blockchain
 Data dari perangkat IoT dicatat aman dan transparan di blockchain, mengurangi risiko manipulasi
dan meningkatkan integritas.
Contoh: Sensor suhu dan kelembaban mencatat data langsung ke blockchain untuk verifikasi kondisi
gudang.
Analisis Big Data untuk IoT
 Data IoT dalam blockchain dapat diolah dengan Big Data untuk mendapatkan wawasan.
Contoh: Analisis penggunaan energi perangkat IoT dapat memberikan rekomendasi efisiensi energi.
Automatisasi dengan Smart
 ContractsSmart contracts di blockchain memungkinkan otomatisasi transaksi berbasis data IoT.
Contoh: Jika sensor mendeteksi suhu di bawah batas tertentu, smart contract dapat menyalakan
pemanas atau memberi peringatan ke operator.
Manajemen Rantai Pasokan
 IoT memantau kondisi dan pergerakan barang dalam rantai pasokan.
 Data dicatat di blockchain untuk visibilitas lokasi dan status barang, lalu dianalisis untuk
meningkatkan efisiensi pengiriman.

Big Data berperan penting dalam pengambilan keputusan strategis, terutama di era digital
dengan volume data yang terus berkembang. Penggunaannya memungkinkan organisasi
membuat keputusan lebih tepat, berbasis data, dan efisien.
Cara Big Data mendukung keputusan strategis:
 Memberikan wawasan lebih mendalam (insight).
 Prediksi dan peramalan tren.
 Peningkatan efisiensi operasional.
 Segmentasi pasar dan personalisasi.
 Pengambilan keputusan secara real-time.
 Analisis sentimen dan media sosial.
 Deteksi risiko dan pengelolaan krisis.
 Meningkatkan keunggulan kompetitif.
 Pengelolaan dan optimalisasi sumber daya.
 Kolaborasi antar-departemen.
Big Data membantu keputusan strategis dengan menyediakan informasi akurat dan berbasis
data. Dengan analitik Big Data, perusahaan dapat membuat keputusan lebih tepat, meramalkan
tren, meningkatkan efisiensi, serta mendapatkan keunggulan kompetitif. Teknologi ini
memungkinkan keputusan yang lebih proaktif dan responsif terhadap perubahan pasar, yang
penting untuk keberhasilan jangka panjang.

PPT Big Data and Analytic sistem informasi

More Related Content

Similar to PPT Big Data and Analytic sistem informasi (20)

Recently uploaded (9)

PPT Big Data and Analytic sistem informasi