SlideShare a Scribd company logo
PRAPROSES
DATA
Ade Chandra Saputra S.Kom.M.Cs
KEMAMPUAN AKHIR
YANG DIHARAPKAN
Mahasiswa mengetahui
preprocessing data , melakukan
proses cleaning data, mampu
menjelaskan konsep data
integras, transformasi, reduksi, dan
diskritisasi
LATAR BELAKANG PRAPROSES DATA
Tidak komplit
Terdapat artribut
yang kosong
dikarenakan
atribut tersebut
tidak dapat
diaplikasikan
untuk semua
kasus
Human/Hardware/
Software problems
Noisy
Data mengandung
error atau outlier
karena terdapat
kesalahan dalam
penggunaan alat,
kesalahan
manusia atau
komputer pada
saat memasukkan
data, eror dalam
transmisi data
Tidak
konsisten
Format data
berubah-ubah
dikarenakan
berasal dari
sumber data yang
berbeda. Contoh:
Format tanggal
TUJUAN PRAPROSES
• Menghasilkan hasil mining
yang berkualitas
• Data warehouse
membutuhkan integrasi yang
konsisten
• Data extraction, cleaning, and
transformation merupakan
salah satu tahapan untuk
membangun gudang data Sumber: www.syncsort.com/Syncsort/media/images/data-quality-hero-mobile.png
TAHAPAN PRAPROSES
DATA
Pembersihan
Data
Integrasi
Data
Transformasi
Data
Reduksi
Data
Diskritisasi
Data
ILUSTRASI PRAPROSES DATA
PEMBERSIHAN DATA
Mengisi missing value
Meminimumkan Noise
Membetulkan data yang tidak
konsisten
Mengindentifikasi/membuang outlier
https://developer.salesforce.com/resource/im
ages/trailhead/badges/modules/trailhead_mo
dule_data_quality.png
MENGISI MISSING VALUE
• Mengabaikan record
• Menggunakan mean/median/modus dari atribut yang
mengandung missing value
• Menggunakan nilai termungkin (Menerapkan regresi)
NOISY DATA
Binning
• Smoothing menggunakan Bin Means
• Smoothing menggunakan Bin Medians
• Smoothing menggunakan Bin Boundaries
Cara mengetahui outlier : Clustering, Regresi Linear
MENDETEKSI OUTLIER DENGAN CLUSTERING
MENDETEKSI OUTLIER DENGAN
REGRESI LINEAR
METODE BINING
Metode yang dilakukan untuk mengelompokkan data
Salah satu pendekatan diskritisasi
Urutan proses:
1. Urutkan data dari kecil ke besar (ascending)
2. Melakukan partisi data dalam bins
menggunakan equal-width atau equal-depth
(frekuensi)
3. Dapat di-smoothing menggunakan rata-rata,
median, batasan, dsb.
METODE BINING
Partisi Equal-
Width
Langkah-langkah membagi data ke
dalam k interval ukuran yang sama.
Lebar interval adalah
w= (max-min)/k
Partisi Equal-
depth
Membagi data ke dalam k kelompok
dimana tiap k kelompok berisi jumlah
yang sama
CONTOH PARTISI BINNING
Data: 0, 4, 12, 16 16, 18, 24, 26, 28
▪ Equal Width
BIN 1= 0,4
BIN 2= 12,16,16,18
BIN 3= 24,26,28
▪ Equal Depth
BIN 1= 0, 4, 12
BIN 2= 16,16,18
BIN 3= 24,26,28
Smoothing berdasarkan rata-rata:
Semua nilai tiap bin diganti dengan
rata-rata nilai tiap bin
Smoothing berdasarkan batasan:
Setiap nilai bin diganti dengan nilai
yang paling dekat dari batasan
nilai. Batasan nilai terbentuk dari
[min, max] tiap bin
INTEGRASI DATA
• Data dapat bersumber dari beberapa sumber
• Teknik-teknik:
ANALISIS
KORELASI
ATRIBUT
REDUDAN
DUPLIKASI
MENGATASI REDUNDASI PADA
INTEGRASI DATA
PENYEBAB REDUNDANSI
• Atribut yang sama mempunyai nama
yang berbeda pada database yang
berbeda
• Satu atribut merupakan turunan dari
atribut lainnya
Dapat dideteksi
menggunakan
analisis korelasi
Berhati-hati dalam
menggabungkan data
dari berbagai sumber
untuk mengurangi
redundasi
MENGATASI REDUNDASI PADA
INTEGRASI DATA
Redudancy/ Duplicate :
Hubungan korelasi antar variabel dapat dilihat
menggunakan rumus korelasi. Jika data numerik, hubungan
korelasinya seperti dibawah ini:
Semakin besar hasil perhitungan tersebut, semakin tinggi
korelasi. Jika hasil perhitungan tersebut =0 berarti independen.
Jika kurang dari nol tidak independen
MENGATASI REDUNDASI PADA
INTEGRASI DATA
Jika data kategorik, hubungan korelasinya seperti
dibawah ini menggunakan chi-square:
Semakin besar chi-square, semakin tinggi korelasi. Jika
hasil perhitungan tersebut =0 berarti independen. Jika kurang
dari nol tidak independen
CONTOH SOAL MENGGUNAKAN CHI-SQUARE
TRANSFORMASI DATA
• Tujuan diadakan transformasi data agar data lebih efisien dlm
proses data mining dan mungkin jg agar pola yg dihasilkan lebih
mudah dipahami
• Hal – hal yg termasuk transformasi data :
– Smoothing : menghapus noise dari data
– Agregation : ringkasan, kontruksi data cube
– Normalization : Min-max, Z-Score, Decimal Scaling
TRANSFORMASI DATA
Normalization
a. Min-max normalization: menghasilkan [new_min,new_max]
TRANSFORMASI DATA
Normalization
b. Min-max Z-score normalization : μ: mean, σ: standard deviation
TRANSFORMASI DATA
Normalization
c. Normalisasi pada skala desimal
Dimana j adalah bilangan bulat terkecil sehingga Max(|ν’|) < 1
REDUKSI DATA
Memperkecil volume tapi menghasilkan analasis
data yang sama. Strategi- strategi data reduksi: Data cube
aggregation, reduksi dimensi (menghapus atribut yang
tidak penting), kompresi data, dsb.
DATA CUBE
AGGREGATION
Mengurangi
ukuran data
Menggunakan
representasi
yang singkat
REDUKSI DATA
DATA CUBE
AGGREGATION
DISKRITISASI DATA
Terdapat tiga tipe atribut:
• Nominal = Nilai dari sekumpulan data yang tidak beraturan.
Contoh: Warna, Profesi
• Ordinal = Nilai dari sekumpulan data yang terurut..
Contoh: Ip, nomor antrian
• Kontinu = Nilai real seperti integer atau real number
Diskritisasi
Metode disktritisasi bisa dilakukan pada data kontinu.Tahap
pertama, kita mengelompokkan nilai ke dalam interval. Setelah itu kita
menggantikan nilai atribut dengan label atau interval.
Contoh:
Dataset (age, salary): (26;56,000),(28;70,000),(89;99,000)
TERIMA KASIH ☺

More Related Content

PPTX
PPT-Data Mining-Pertemuan 3 pra processing data .pptx
PPTX
Data Preprocessing
PPTX
DM_P5_Pra-Pemrosesan Data (v2021) [Autosaved].pptx
PPTX
Presentasi_Data_Mining.pptx
PDF
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
PDF
APPLIED DATABASE III - Modul Data Preprocessing
PDF
2700 3 data preprocessing
PPT
3_ Data processing.ppt
PPT-Data Mining-Pertemuan 3 pra processing data .pptx
Data Preprocessing
DM_P5_Pra-Pemrosesan Data (v2021) [Autosaved].pptx
Presentasi_Data_Mining.pptx
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
APPLIED DATABASE III - Modul Data Preprocessing
2700 3 data preprocessing
3_ Data processing.ppt

More from ssuseref80a11 (6)

PPTX
3 Bahan tayangpptx sd ssrwr gd zfa dfv dfd
PPT
PERTEMUAN 3 ppt sd d d dsd ad da sada da
PPT
Logika dppt sd adsd dad s dad dad a d da
PPTX
MATSI-Pertemuan-1-Pendahuluan.adadadapptx
PPTX
MATSI-Pertemuan-2-Logika-Matematika.pptx
PPTX
AKUISISI DAN VALIDASI.pptx
3 Bahan tayangpptx sd ssrwr gd zfa dfv dfd
PERTEMUAN 3 ppt sd d d dsd ad da sada da
Logika dppt sd adsd dad s dad dad a d da
MATSI-Pertemuan-1-Pendahuluan.adadadapptx
MATSI-Pertemuan-2-Logika-Matematika.pptx
AKUISISI DAN VALIDASI.pptx
Ad

Recently uploaded (6)

PPTX
Modul_Pelaporan-1.pptx jabatan fungsional
PPTX
msoffice-ms.word.ms.office lengkap-.pptx
PPTX
Leadership (Kepemimpinan) dalam Konsep Islam.
PPTX
Apa sih arti dari Filosofi Teras itu dan dari mana awalnya
PPTX
BASIC PEOPLE PRACTISE SKILL 11pptx.pptx
PDF
PRINSIP PENCEGAHAN INFEKSI DALAM PRAKTIK KEBIDANAN.pdf
Modul_Pelaporan-1.pptx jabatan fungsional
msoffice-ms.word.ms.office lengkap-.pptx
Leadership (Kepemimpinan) dalam Konsep Islam.
Apa sih arti dari Filosofi Teras itu dan dari mana awalnya
BASIC PEOPLE PRACTISE SKILL 11pptx.pptx
PRINSIP PENCEGAHAN INFEKSI DALAM PRAKTIK KEBIDANAN.pdf
Ad

Praproses data yang digunakan dalam data mining

  • 2. KEMAMPUAN AKHIR YANG DIHARAPKAN Mahasiswa mengetahui preprocessing data , melakukan proses cleaning data, mampu menjelaskan konsep data integras, transformasi, reduksi, dan diskritisasi
  • 3. LATAR BELAKANG PRAPROSES DATA Tidak komplit Terdapat artribut yang kosong dikarenakan atribut tersebut tidak dapat diaplikasikan untuk semua kasus Human/Hardware/ Software problems Noisy Data mengandung error atau outlier karena terdapat kesalahan dalam penggunaan alat, kesalahan manusia atau komputer pada saat memasukkan data, eror dalam transmisi data Tidak konsisten Format data berubah-ubah dikarenakan berasal dari sumber data yang berbeda. Contoh: Format tanggal
  • 4. TUJUAN PRAPROSES • Menghasilkan hasil mining yang berkualitas • Data warehouse membutuhkan integrasi yang konsisten • Data extraction, cleaning, and transformation merupakan salah satu tahapan untuk membangun gudang data Sumber: www.syncsort.com/Syncsort/media/images/data-quality-hero-mobile.png
  • 7. PEMBERSIHAN DATA Mengisi missing value Meminimumkan Noise Membetulkan data yang tidak konsisten Mengindentifikasi/membuang outlier https://developer.salesforce.com/resource/im ages/trailhead/badges/modules/trailhead_mo dule_data_quality.png
  • 8. MENGISI MISSING VALUE • Mengabaikan record • Menggunakan mean/median/modus dari atribut yang mengandung missing value • Menggunakan nilai termungkin (Menerapkan regresi)
  • 9. NOISY DATA Binning • Smoothing menggunakan Bin Means • Smoothing menggunakan Bin Medians • Smoothing menggunakan Bin Boundaries Cara mengetahui outlier : Clustering, Regresi Linear
  • 12. METODE BINING Metode yang dilakukan untuk mengelompokkan data Salah satu pendekatan diskritisasi Urutan proses: 1. Urutkan data dari kecil ke besar (ascending) 2. Melakukan partisi data dalam bins menggunakan equal-width atau equal-depth (frekuensi) 3. Dapat di-smoothing menggunakan rata-rata, median, batasan, dsb.
  • 13. METODE BINING Partisi Equal- Width Langkah-langkah membagi data ke dalam k interval ukuran yang sama. Lebar interval adalah w= (max-min)/k Partisi Equal- depth Membagi data ke dalam k kelompok dimana tiap k kelompok berisi jumlah yang sama
  • 14. CONTOH PARTISI BINNING Data: 0, 4, 12, 16 16, 18, 24, 26, 28 ▪ Equal Width BIN 1= 0,4 BIN 2= 12,16,16,18 BIN 3= 24,26,28 ▪ Equal Depth BIN 1= 0, 4, 12 BIN 2= 16,16,18 BIN 3= 24,26,28 Smoothing berdasarkan rata-rata: Semua nilai tiap bin diganti dengan rata-rata nilai tiap bin Smoothing berdasarkan batasan: Setiap nilai bin diganti dengan nilai yang paling dekat dari batasan nilai. Batasan nilai terbentuk dari [min, max] tiap bin
  • 15. INTEGRASI DATA • Data dapat bersumber dari beberapa sumber • Teknik-teknik: ANALISIS KORELASI ATRIBUT REDUDAN DUPLIKASI
  • 16. MENGATASI REDUNDASI PADA INTEGRASI DATA PENYEBAB REDUNDANSI • Atribut yang sama mempunyai nama yang berbeda pada database yang berbeda • Satu atribut merupakan turunan dari atribut lainnya Dapat dideteksi menggunakan analisis korelasi Berhati-hati dalam menggabungkan data dari berbagai sumber untuk mengurangi redundasi
  • 17. MENGATASI REDUNDASI PADA INTEGRASI DATA Redudancy/ Duplicate : Hubungan korelasi antar variabel dapat dilihat menggunakan rumus korelasi. Jika data numerik, hubungan korelasinya seperti dibawah ini: Semakin besar hasil perhitungan tersebut, semakin tinggi korelasi. Jika hasil perhitungan tersebut =0 berarti independen. Jika kurang dari nol tidak independen
  • 18. MENGATASI REDUNDASI PADA INTEGRASI DATA Jika data kategorik, hubungan korelasinya seperti dibawah ini menggunakan chi-square: Semakin besar chi-square, semakin tinggi korelasi. Jika hasil perhitungan tersebut =0 berarti independen. Jika kurang dari nol tidak independen
  • 20. TRANSFORMASI DATA • Tujuan diadakan transformasi data agar data lebih efisien dlm proses data mining dan mungkin jg agar pola yg dihasilkan lebih mudah dipahami • Hal – hal yg termasuk transformasi data : – Smoothing : menghapus noise dari data – Agregation : ringkasan, kontruksi data cube – Normalization : Min-max, Z-Score, Decimal Scaling
  • 21. TRANSFORMASI DATA Normalization a. Min-max normalization: menghasilkan [new_min,new_max]
  • 22. TRANSFORMASI DATA Normalization b. Min-max Z-score normalization : μ: mean, σ: standard deviation
  • 23. TRANSFORMASI DATA Normalization c. Normalisasi pada skala desimal Dimana j adalah bilangan bulat terkecil sehingga Max(|ν’|) < 1
  • 24. REDUKSI DATA Memperkecil volume tapi menghasilkan analasis data yang sama. Strategi- strategi data reduksi: Data cube aggregation, reduksi dimensi (menghapus atribut yang tidak penting), kompresi data, dsb. DATA CUBE AGGREGATION Mengurangi ukuran data Menggunakan representasi yang singkat
  • 26. DISKRITISASI DATA Terdapat tiga tipe atribut: • Nominal = Nilai dari sekumpulan data yang tidak beraturan. Contoh: Warna, Profesi • Ordinal = Nilai dari sekumpulan data yang terurut.. Contoh: Ip, nomor antrian • Kontinu = Nilai real seperti integer atau real number Diskritisasi Metode disktritisasi bisa dilakukan pada data kontinu.Tahap pertama, kita mengelompokkan nilai ke dalam interval. Setelah itu kita menggantikan nilai atribut dengan label atau interval. Contoh: Dataset (age, salary): (26;56,000),(28;70,000),(89;99,000)