SlideShare a Scribd company logo
Edward Purba Data Preprocessing 1/74
Konsep dan Teknik Data Mining
Edward Purba Data Preprocessing 2/74
Data Preprocessing
Pembersihan data
Diskritisasi dan pembuatan
konsep hierarki
Integrasi dan transformasi data
Reduksi data
Mengapa data di proses awal?
Edward Purba Data Preprocessing 3/74
Mengapa Data Diproses Awal?
• Data dalam dunia nyata kotor
– Tak-lengkap: nilai-nilai atribut kurang, atribut
tertentu yang dipentingkan tidak disertakan, atau
hanya memuat data agregasi
• Misal, pekerjaan=“”
– Noisy: memuat error atau memuat outliers (data
yang secara nyata berbeda dengan data-data yang
lain)
• Misal, Salary=“-10”
Edward Purba Data Preprocessing 4/74
Mengapa Data Diproses Awal?
– Tak-konsisten: memuat perbedaan dalam kode atau
nama
• Misal, Age=“42” Birthday=“03/07/1997”
• Misal, rating sebelumnya “1,2,3”, sekarang
rating “A, B, C”
• Misal, perbedaan antara duplikasi record
• Data yang lebih baik akan menghasilkan data mining
yang lebih baik
• Data preprocessing membantu didalam memperbaiki
presisi dan kinerja data mining dan mencegah
kesalahan didalam data mining.
Edward Purba Data Preprocessing 5/74
Mengapa Data Kotor?
• Ketaklengkapan data datang dari
– Nilai data tidak tersedia saat dikumpulkan
– Perbedaan pertimbangan waktu antara saat data
dikumpulkan dan saat data dianalisa.
– Masalah manusia, hardware, dan software
• Noisy data datang dari proses data
– Pengumpulan
– Pemasukan (entry)
– Transmisi
Edward Purba Data Preprocessing 6/74
Mengapa Data Kotor?
• Ketak-konsistenan data datang dari
– Sumber data yang berbeda
– Pelanggaran kebergantungan fungsional
Edward Purba Data Preprocessing 7/74
Mengapa
Pemrosesan Awal Data Penting?
• Kualitas data tidak ada, kualitas hasil mining tidak
ada!
– Kualitas keputusan harus didasarkan kepada
kualitas data
• Misal, duplikasi data atau data hilang bisa
menyebabkan ketidak-benaran atau bahkan
statistik yang menyesatkan.
– Data warehouse memerlukan kualitas integrasi data
yang konsisten
• Ekstraksi data, pembersihan, dan transformasi
merupakan kerja utama dari pembuatan suatu data
warehouse. — Bill Inmon
Edward Purba Data Preprocessing 8/74
Pengukuran Kualitas Data
Multidimesi
• Kualitas data dapat diakses dalam bentuk:
– Akurasi
– Kelengkapan
– Konsistensi
– Ketepatan waktu
– Kepercayaan
– Nilai tambah
– Penafsiran
– Kemudahan diakses
• Kategori luas:
– Hakekat, kontekstual, bisa direpresentasikan,
dan mudah diakses
Edward Purba Data Preprocessing 9/74
Tugas Utama
Pemrosesan Awal Data
• Pembersihan data (data yang kotor)
– Mengisi nilai-nilai yang hilang,
menghaluskan noisy data, mengenali atau
menghilangkan outlier, dan memecahkan
ketak-konsistenan
• Integrasi data (data heterogen)
– Integrasi banyak database, banyak kubus
data, atau banyak file
• Transformasi data (data detail)
– Normalisasi dan agregasi
Edward Purba Data Preprocessing 10/74
Tugas Utama
Pemrosesan Awal Data
• Reduksi data (jumlah data yang besar)
– Mendapatkan representasi yang direduksi
dalam volume tetapi menghasilkan hasil
analitikal yang sama atau mirip
• Diskritisasi data (kesinambungan atribut)
– Bagian dari reduksi data tetapi dengan
kepentingan khusus, terutama data
numerik
Edward Purba Data Preprocessing 11/74
Bentuk-Bentuk Dari
Pemrosesan Awal Data
Pembersihan Data
Integrasi Data
Transformasi Data
Reduksi Data
Edward Purba Data Preprocessing 12/74
Pembersihan Data
– Memperbaiki ketak-konsitenan data, US=USA?
• Menggunakan rujukan eksternal
• Mendeteksi pelanggaran kendala
–Misal, kebergantungan fungsional
Edward Purba Data Preprocessing 13/74
Data Hilang
• Data tidak selalu tersedia
– Misal, banyak tuple atau record tidak memiliki nilai
yang tercatat untuk beberapa atribut, seperti
customer income dalam data sales
• Hilangnya data bisa karena
– Kegagalan pemakaian peralatan
– Ketak-konsistenan dengan data tercatat lainnya dan
karenanya dihapus
– Data tidak dimasukkan karena salah pengertian
– Data tertentu bisa tidak dipandang penting pada saat
entry
Edward Purba Data Preprocessing 14/74
Data Hilang
– Tidak mencatat history atau tidak mencatat
perubahan data
• Kehilangan data perlu disimpulkan
Edward Purba Data Preprocessing 15/74
Bagaimana Menangani Data Hilang?
• Mengabaikan tuple atau record: mudah tetapi tidak
efektif, dan merupakan metoda terakhir
– Biasanya dilakukan saat label kelas hilang
– Tidak efektif bila persentasi dari nilai-nilai yang
hilang per atribut sungguh-sungguh bervariasi.
• Mengisi nilai-nilai yang hilang secara manual:
– Paling baik
– Membosankan
– Paling mahal biayanya
– Tak mungkin dilakukan dalam banyak hal!
Edward Purba Data Preprocessing 16/74
Bagaimana Menangani Data Hilang?
• Mengisi nilai-nilai yang hilang secara otomatis
menggunakan:
– Suatu konstanta global: misal, “unknown”, “Null”,
atau suatu kelas baru?!
• Suatu pola yang memuat “unknown” atau “Null”
adalah buruk
– Gunakan rata-rata atribut
– Pengempisan data ke mean/median
– Rata-rata atribut untuk seluruh sampel yang masuk
kedalam kelas yang sama
• Lebih cerdas, dan suatu metoda yang baik
Edward Purba Data Preprocessing 17/74
Bagaimana Menangani Data Hilang?
– Nilai yang paling mungkin: berbasis inferensi
seperti regresi, rumus bayesian, atau pohon
keputusan
• Klasifikasi untuk mendapatkan nilai yang paling
mungkin
• Suatu metoda yang baik dengan beberapa
overhead
– Menggunakan suatu nilai untuk mengisi nilai yang
hilang bisa membiaskan data, nilai bisa salah
– Nilai yang paling mungkin adalah yang terbaik
– Gunakan informasi yang paling banyak dari data
yang ada untuk memprediksi
Edward Purba Data Preprocessing 18/74
Noisy Data
• Noise: error acak atau variansi dalam suatu variabel
terukur
• Nilai-nilai atribut tak benar mungkin karena
– Kegagalan instrumen pengumpulan data
– Problem pemasukan data
– Problem transmisi data
– Keterbatasan teknologi
– Ketak-konsistenan dalam konvensi penamaan
• Problem data lainnya yang memerlukan pembersihan
data
– Duplikasi record
– Data tak lengkap
– Data tidak konsisten
Edward Purba Data Preprocessing 19/74
Noisy Data: Menghilangkan Outlier
Edward Purba Data Preprocessing 20/74
Noisy Data: Penghalusan
x
y
X1
Y1
Y1’
Edward Purba Data Preprocessing 21/74
Bagaimana Menangani Noisy Data?
• Metoda Binning:
– Pertama urutkan data dan partisi kedalam (kedalaman
yang sama) bin-bin
– Kemudian noisy data itu bisa dihaluskan dengan rata-
rata bin, median bin, atau batas bin.
• Clustering
– Medeteksi dan membuang outliers
• Inspeksi kombinasi komputer dan manusia
– Mendeteksi nilai-nilai yang mencurigakan dan
memeriksa dengan manusia(misal, berurusan dengan
outlier yang mungkin)
Edward Purba Data Preprocessing 22/74
Bagaimana Menangani Noisy Data?
• Regresi
– Menghaluskan dengan memasukkan data kedalam
fungsi regresi
Edward Purba Data Preprocessing 23/74
Metoda Binning:
Diskritisasi Sederhana
• Partisi lebar yang sama (jarak):
– Membagi range kedalam N interval dengan
ukuran yang sama: grid seragam
– Jika A dan B masing-masing adalah nilai
terendah dan tertinggi dari atribut, lebar
interval akan menjadi : W = (B –A)/N.
– Kebanyakan langsung, tetapi outlier
mendominasi presentasi
– Data Outlier dan menyimpang tidak ditangani
dengan baik.
Edward Purba Data Preprocessing 24/74
Metoda Binning:
Diskritisasi Sederhana
• Partisi kedalaman sama (frekuensi):
– Membagi range kedalam N interval, masing-masing
memuat jumlah sampel yang hampir sama
– Penskalaan data yang baik
– Penanganan atribut yang bersifat kategori bisa
rumit.
Edward Purba Data Preprocessing 25/74
Metoda Binning
Untuk Penghalusan Data
• Data terurut untuk harga (dalam dollar): 4, 8, 9, 15,
21, 21, 24, 25, 26, 28, 29, 34
• Partisi kedalam bin dengan kedalaman yang sama
(misal, dalam bin-3):
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
• Haluskan dengan rata-rata bins:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
Edward Purba Data Preprocessing 26/74
Metoda Binning
Untuk Penghalusan Data
• Penghalusan dengan batas bin:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
Edward Purba Data Preprocessing 27/74
Analisis Cluster
Edward Purba Data Preprocessing 28/74
Regresi
x
y
y = x + 1
X1
Y1
Y1’
Edward Purba Data Preprocessing 29/74
Inspeksi Komputer dan Manusia—
Penghalusan
• Inspeksi kombinasi komputer dan manusia
– Suatu ambang yang diberikan user
– Komputer mendeteksi seluruh potensi outlier yang
dikaitkan dengan ambang
– Manusia menentukan outlier sesungguhnya
Edward Purba Data Preprocessing 30/74
Integrasi Data
• Integrasi data:
– Mengkombinasikan data dari banyak sumber kedalam suatu
simpanan terpadu
• Integrasi skema
– Mengintegrasikan metadata dari sumber-sumber berbeda
– Problem identifikasi entitas: mengenali entitas dunia nyata
dari banyak sumber-sumber data, misal A.cust-id  B.cust-#
• Pendeteksian dan pemecahan konflik nilai data
– Untuk entitas dunia nyata yang sama, nilai-nilai atribut dari
sumber-sumber berbeda adalah berbeda
– Alasan yang mungkin: representasi berbeda, skala berbeda,
misal berat bisa dalam pound atau kilogram
Edward Purba Data Preprocessing 31/74
Integrasi Data
• Problem: integrasi skema heterogen
• Nama-nama tribut berbeda
• Unit berbeda: Sales dalam $, sales dalam Yen,
sales dalam DM
cid name byear
1 Jones 1960
2 Smith 1974
3 Smith 1950
Customer-ID state
1 NY
2 CA
3 NY
Edward Purba Data Preprocessing 32/74
Integrasi Data
• Problem: integrasi skema heterogen
• Skala berbeda: Sales dalam dollar versus sales dalam
sen dollar
• Atribut turunan: Annual salary versus monthly salary
cid monthlySalary
1 5000
2 2400
3 3000
cid Salary
6 50,000
7 100,000
8 40,000
Edward Purba Data Preprocessing 33/74
Integrasi Data
• Problem: ketak-konsistenan karena redundansi
• Customer dengan customer-id 150 punya 3 anak dalam
relation1 dan 4 anak dalam relation2
• Komputasi annual salary dari monthly salary dalam
relation1 tak cocok dengan atribut “annual-salary”
dalam relation2
cid numChildren
1 3
cid numChildren
1 4
Edward Purba Data Preprocessing 34/74
Penanganan Redundansi
Dalam Integrasi Data
• Data redundan sering terjadi saat integrasi dari banyak
database
– Atribut yang sama bisa memiliki nama berbeda dalam
database berbeda
– Atribut yang satu bisa merupakan suatu atribut “turunan”
dalam tabel lainnya, misal, annual revenue
• Data redundan mungkin bisa dideteksi dengan analisis
korelasi
• Integrasi data hati-hati dari banyak sumber bisa
membantu mengurangi/mencegah redundansi dan
ketak-konsistenan dan memperbaiki kecepatan dan
kualitas mining
Edward Purba Data Preprocessing 35/74
Penanganan Redundansi
Dalam Integrasi Data
• Suatu atribut adalah redundan jika atribut tersebut bisa
diperoleh dari atribut lainnya
• Analisis korelasi
• Rata-rata A adalah
• Deviasi standard A adalah
• RA,B = 0: A dan B saling bebas
• RA,B > 0: A dan B berkorelasi positip AB
• RA,B < 0: A dan B berkorelasi negatif AB
Edward Purba Data Preprocessing 36/74
Transformasi Data
• Penghalusan: menghilangkan noise dari data
• Agregasi: ringkasan, konstruksi kubus data
• Generalisasi: konsep hierarchy climbing
• Normalisasi: diskalakan agar jatuh didalam suatu
range kecil yang tertentu
– Normalisasi min-max
– Normalisasi z-score
– Normalisasi dengan penskalaan desimal
• Konstruksi atribut/fitur
– Atribut-atribut baru dibangun dari atribut-atribut yang ada
Edward Purba Data Preprocessing 37/74
Transformasi Data: Normalisasi
• Normalisasi min-max
• Normalisasi z-score (saat Min, Max tak diketahui)
• Normalisasi dengan penskalaan desimal
j
v
v
10
' dimana j adalah integer terkecil sehingga Max(| |)<1
'
v
Edward Purba Data Preprocessing 38/74
Strategi Reduksi Data
• Suatu data warehouse bisa menyimpan terabytes data
– Analisis/menambang data kompleks bisa membutuhkan
waktu sangat lama untuk dijalankan pada data set komplit
(tak efisien)
• Reduksi data
– Mengurangi ukuran data set tetapi menghasilkan hasil
analitis yang sama (hampir sama)
• Strategi reduksi data
– Agregasi kubus data
– Reduksi dimensionalitas—menghilangkan atribut tak penting
– Kompresi data
– Reduksi Numerosity reduction—mencocokkan data kedalam
model
– Diskritisasi dan pembuatan konsep hierarki

More Related Content

PDF
APPLIED DATABASE III - Modul Data Preprocessing
PPTX
Data Preprocessing
PPTX
Presentasi_Data_Mining.pptx
PDF
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
PPTX
DM_P5_Pra-Pemrosesan Data (v2021) [Autosaved].pptx
PPTX
PPT-Data Mining-Pertemuan 3 pra processing data .pptx
PPT
Data mining week 1 - pengantar data mining
PPT
Slide Knowladge Discovery in Database System
APPLIED DATABASE III - Modul Data Preprocessing
Data Preprocessing
Presentasi_Data_Mining.pptx
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
DM_P5_Pra-Pemrosesan Data (v2021) [Autosaved].pptx
PPT-Data Mining-Pertemuan 3 pra processing data .pptx
Data mining week 1 - pengantar data mining
Slide Knowladge Discovery in Database System

Similar to 3_ Data processing.ppt (20)

PPTX
Praproses data yang digunakan dalam data mining
PPTX
Pertemuan 12 Manajemen Data dan Informasi.pptx
PDF
2700 3 data preprocessing
PPTX
04-05. Preparation Data before Execution.pptx
PDF
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
PPTX
Proses Big data dan data mining - pertemuan 2.pptx
PPT
file_2013-10-08_13_43_55_Khafiizh_Hastuti,_M.Kom__5_-_Manajemen_Data_dan_Info...
PDF
pengenalan dasar algoritma dan struktur data
PPTX
Siskohatkes 2020 (kompetensi ppih) d. pengolahan dan analisa data
PDF
Know Your Data Universitas Muhammadiyah Jakarta
PDF
LPR Week 1-KEMASTURA Group-2023.Data Analytics
PDF
Topik 11 Pengenalan Konsep
PPT
2-3. Pengenalan SPSS dan Deskriptif (1).ppt
PDF
02 - Preprocessing Data.pdf
PPTX
Analisis dan penyajian data
PPTX
09. Materi Klasifikasi Algoritma Naive Bayes.pptx
PPT
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
DOCX
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
PPTX
Study Jam GDSC Data #1 - GDSC Unikom.pptx
PPTX
PPT KEL 3 DAI - 007.pptx
Praproses data yang digunakan dalam data mining
Pertemuan 12 Manajemen Data dan Informasi.pptx
2700 3 data preprocessing
04-05. Preparation Data before Execution.pptx
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
Proses Big data dan data mining - pertemuan 2.pptx
file_2013-10-08_13_43_55_Khafiizh_Hastuti,_M.Kom__5_-_Manajemen_Data_dan_Info...
pengenalan dasar algoritma dan struktur data
Siskohatkes 2020 (kompetensi ppih) d. pengolahan dan analisa data
Know Your Data Universitas Muhammadiyah Jakarta
LPR Week 1-KEMASTURA Group-2023.Data Analytics
Topik 11 Pengenalan Konsep
2-3. Pengenalan SPSS dan Deskriptif (1).ppt
02 - Preprocessing Data.pdf
Analisis dan penyajian data
09. Materi Klasifikasi Algoritma Naive Bayes.pptx
DATA MINING : ESTIMASI, PREDIKSI, KLASIFIKASI, KLASTERING, DAN ASOSIASI.ppt
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Study Jam GDSC Data #1 - GDSC Unikom.pptx
PPT KEL 3 DAI - 007.pptx
Ad

Recently uploaded (11)

PPTX
tugas_geokimia_gunung_6999 gunung aa.pptx
PDF
Detektor Radiasi adalah suatu peralatan yang digunakan untuk mendeteksi, mel...
PPTX
Kelompok 1_Konsep-Konsep Dasar Termodinamika-digabungkan (1).pptx
PDF
Alterasi Hidrotermal Jdhiwnabakkanshskalalsbsjd
PPTX
URGENSI TAHSIN TILAWAH ALQURAN - Copy.pptx
PPT
PPT-Seminar-Optimalisasi-Energi-29-Februari-2016-Presentasi-Cukup-Mulyana.ppt
PPTX
URGENSI TAHSIN TILAWAH ALQURAN - Copy.pptx
PPTX
PPT SMA SOSIOLOGI KELAS 10 BAB 1 [modulguruku.com].pptx
PPT
PPT Sumber Daya Alam dan Energi Alternatif.ppt
PPTX
sumber daya alam untuk masa depan berkelanjutan
PPTX
PPT BAB 1 PENGETAHUAN DASAR GEOGRAFI.pptx
tugas_geokimia_gunung_6999 gunung aa.pptx
Detektor Radiasi adalah suatu peralatan yang digunakan untuk mendeteksi, mel...
Kelompok 1_Konsep-Konsep Dasar Termodinamika-digabungkan (1).pptx
Alterasi Hidrotermal Jdhiwnabakkanshskalalsbsjd
URGENSI TAHSIN TILAWAH ALQURAN - Copy.pptx
PPT-Seminar-Optimalisasi-Energi-29-Februari-2016-Presentasi-Cukup-Mulyana.ppt
URGENSI TAHSIN TILAWAH ALQURAN - Copy.pptx
PPT SMA SOSIOLOGI KELAS 10 BAB 1 [modulguruku.com].pptx
PPT Sumber Daya Alam dan Energi Alternatif.ppt
sumber daya alam untuk masa depan berkelanjutan
PPT BAB 1 PENGETAHUAN DASAR GEOGRAFI.pptx
Ad

3_ Data processing.ppt

  • 1. Edward Purba Data Preprocessing 1/74 Konsep dan Teknik Data Mining
  • 2. Edward Purba Data Preprocessing 2/74 Data Preprocessing Pembersihan data Diskritisasi dan pembuatan konsep hierarki Integrasi dan transformasi data Reduksi data Mengapa data di proses awal?
  • 3. Edward Purba Data Preprocessing 3/74 Mengapa Data Diproses Awal? • Data dalam dunia nyata kotor – Tak-lengkap: nilai-nilai atribut kurang, atribut tertentu yang dipentingkan tidak disertakan, atau hanya memuat data agregasi • Misal, pekerjaan=“” – Noisy: memuat error atau memuat outliers (data yang secara nyata berbeda dengan data-data yang lain) • Misal, Salary=“-10”
  • 4. Edward Purba Data Preprocessing 4/74 Mengapa Data Diproses Awal? – Tak-konsisten: memuat perbedaan dalam kode atau nama • Misal, Age=“42” Birthday=“03/07/1997” • Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C” • Misal, perbedaan antara duplikasi record • Data yang lebih baik akan menghasilkan data mining yang lebih baik • Data preprocessing membantu didalam memperbaiki presisi dan kinerja data mining dan mencegah kesalahan didalam data mining.
  • 5. Edward Purba Data Preprocessing 5/74 Mengapa Data Kotor? • Ketaklengkapan data datang dari – Nilai data tidak tersedia saat dikumpulkan – Perbedaan pertimbangan waktu antara saat data dikumpulkan dan saat data dianalisa. – Masalah manusia, hardware, dan software • Noisy data datang dari proses data – Pengumpulan – Pemasukan (entry) – Transmisi
  • 6. Edward Purba Data Preprocessing 6/74 Mengapa Data Kotor? • Ketak-konsistenan data datang dari – Sumber data yang berbeda – Pelanggaran kebergantungan fungsional
  • 7. Edward Purba Data Preprocessing 7/74 Mengapa Pemrosesan Awal Data Penting? • Kualitas data tidak ada, kualitas hasil mining tidak ada! – Kualitas keputusan harus didasarkan kepada kualitas data • Misal, duplikasi data atau data hilang bisa menyebabkan ketidak-benaran atau bahkan statistik yang menyesatkan. – Data warehouse memerlukan kualitas integrasi data yang konsisten • Ekstraksi data, pembersihan, dan transformasi merupakan kerja utama dari pembuatan suatu data warehouse. — Bill Inmon
  • 8. Edward Purba Data Preprocessing 8/74 Pengukuran Kualitas Data Multidimesi • Kualitas data dapat diakses dalam bentuk: – Akurasi – Kelengkapan – Konsistensi – Ketepatan waktu – Kepercayaan – Nilai tambah – Penafsiran – Kemudahan diakses • Kategori luas: – Hakekat, kontekstual, bisa direpresentasikan, dan mudah diakses
  • 9. Edward Purba Data Preprocessing 9/74 Tugas Utama Pemrosesan Awal Data • Pembersihan data (data yang kotor) – Mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengenali atau menghilangkan outlier, dan memecahkan ketak-konsistenan • Integrasi data (data heterogen) – Integrasi banyak database, banyak kubus data, atau banyak file • Transformasi data (data detail) – Normalisasi dan agregasi
  • 10. Edward Purba Data Preprocessing 10/74 Tugas Utama Pemrosesan Awal Data • Reduksi data (jumlah data yang besar) – Mendapatkan representasi yang direduksi dalam volume tetapi menghasilkan hasil analitikal yang sama atau mirip • Diskritisasi data (kesinambungan atribut) – Bagian dari reduksi data tetapi dengan kepentingan khusus, terutama data numerik
  • 11. Edward Purba Data Preprocessing 11/74 Bentuk-Bentuk Dari Pemrosesan Awal Data Pembersihan Data Integrasi Data Transformasi Data Reduksi Data
  • 12. Edward Purba Data Preprocessing 12/74 Pembersihan Data – Memperbaiki ketak-konsitenan data, US=USA? • Menggunakan rujukan eksternal • Mendeteksi pelanggaran kendala –Misal, kebergantungan fungsional
  • 13. Edward Purba Data Preprocessing 13/74 Data Hilang • Data tidak selalu tersedia – Misal, banyak tuple atau record tidak memiliki nilai yang tercatat untuk beberapa atribut, seperti customer income dalam data sales • Hilangnya data bisa karena – Kegagalan pemakaian peralatan – Ketak-konsistenan dengan data tercatat lainnya dan karenanya dihapus – Data tidak dimasukkan karena salah pengertian – Data tertentu bisa tidak dipandang penting pada saat entry
  • 14. Edward Purba Data Preprocessing 14/74 Data Hilang – Tidak mencatat history atau tidak mencatat perubahan data • Kehilangan data perlu disimpulkan
  • 15. Edward Purba Data Preprocessing 15/74 Bagaimana Menangani Data Hilang? • Mengabaikan tuple atau record: mudah tetapi tidak efektif, dan merupakan metoda terakhir – Biasanya dilakukan saat label kelas hilang – Tidak efektif bila persentasi dari nilai-nilai yang hilang per atribut sungguh-sungguh bervariasi. • Mengisi nilai-nilai yang hilang secara manual: – Paling baik – Membosankan – Paling mahal biayanya – Tak mungkin dilakukan dalam banyak hal!
  • 16. Edward Purba Data Preprocessing 16/74 Bagaimana Menangani Data Hilang? • Mengisi nilai-nilai yang hilang secara otomatis menggunakan: – Suatu konstanta global: misal, “unknown”, “Null”, atau suatu kelas baru?! • Suatu pola yang memuat “unknown” atau “Null” adalah buruk – Gunakan rata-rata atribut – Pengempisan data ke mean/median – Rata-rata atribut untuk seluruh sampel yang masuk kedalam kelas yang sama • Lebih cerdas, dan suatu metoda yang baik
  • 17. Edward Purba Data Preprocessing 17/74 Bagaimana Menangani Data Hilang? – Nilai yang paling mungkin: berbasis inferensi seperti regresi, rumus bayesian, atau pohon keputusan • Klasifikasi untuk mendapatkan nilai yang paling mungkin • Suatu metoda yang baik dengan beberapa overhead – Menggunakan suatu nilai untuk mengisi nilai yang hilang bisa membiaskan data, nilai bisa salah – Nilai yang paling mungkin adalah yang terbaik – Gunakan informasi yang paling banyak dari data yang ada untuk memprediksi
  • 18. Edward Purba Data Preprocessing 18/74 Noisy Data • Noise: error acak atau variansi dalam suatu variabel terukur • Nilai-nilai atribut tak benar mungkin karena – Kegagalan instrumen pengumpulan data – Problem pemasukan data – Problem transmisi data – Keterbatasan teknologi – Ketak-konsistenan dalam konvensi penamaan • Problem data lainnya yang memerlukan pembersihan data – Duplikasi record – Data tak lengkap – Data tidak konsisten
  • 19. Edward Purba Data Preprocessing 19/74 Noisy Data: Menghilangkan Outlier
  • 20. Edward Purba Data Preprocessing 20/74 Noisy Data: Penghalusan x y X1 Y1 Y1’
  • 21. Edward Purba Data Preprocessing 21/74 Bagaimana Menangani Noisy Data? • Metoda Binning: – Pertama urutkan data dan partisi kedalam (kedalaman yang sama) bin-bin – Kemudian noisy data itu bisa dihaluskan dengan rata- rata bin, median bin, atau batas bin. • Clustering – Medeteksi dan membuang outliers • Inspeksi kombinasi komputer dan manusia – Mendeteksi nilai-nilai yang mencurigakan dan memeriksa dengan manusia(misal, berurusan dengan outlier yang mungkin)
  • 22. Edward Purba Data Preprocessing 22/74 Bagaimana Menangani Noisy Data? • Regresi – Menghaluskan dengan memasukkan data kedalam fungsi regresi
  • 23. Edward Purba Data Preprocessing 23/74 Metoda Binning: Diskritisasi Sederhana • Partisi lebar yang sama (jarak): – Membagi range kedalam N interval dengan ukuran yang sama: grid seragam – Jika A dan B masing-masing adalah nilai terendah dan tertinggi dari atribut, lebar interval akan menjadi : W = (B –A)/N. – Kebanyakan langsung, tetapi outlier mendominasi presentasi – Data Outlier dan menyimpang tidak ditangani dengan baik.
  • 24. Edward Purba Data Preprocessing 24/74 Metoda Binning: Diskritisasi Sederhana • Partisi kedalaman sama (frekuensi): – Membagi range kedalam N interval, masing-masing memuat jumlah sampel yang hampir sama – Penskalaan data yang baik – Penanganan atribut yang bersifat kategori bisa rumit.
  • 25. Edward Purba Data Preprocessing 25/74 Metoda Binning Untuk Penghalusan Data • Data terurut untuk harga (dalam dollar): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 • Partisi kedalam bin dengan kedalaman yang sama (misal, dalam bin-3): - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 • Haluskan dengan rata-rata bins: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29
  • 26. Edward Purba Data Preprocessing 26/74 Metoda Binning Untuk Penghalusan Data • Penghalusan dengan batas bin: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34
  • 27. Edward Purba Data Preprocessing 27/74 Analisis Cluster
  • 28. Edward Purba Data Preprocessing 28/74 Regresi x y y = x + 1 X1 Y1 Y1’
  • 29. Edward Purba Data Preprocessing 29/74 Inspeksi Komputer dan Manusia— Penghalusan • Inspeksi kombinasi komputer dan manusia – Suatu ambang yang diberikan user – Komputer mendeteksi seluruh potensi outlier yang dikaitkan dengan ambang – Manusia menentukan outlier sesungguhnya
  • 30. Edward Purba Data Preprocessing 30/74 Integrasi Data • Integrasi data: – Mengkombinasikan data dari banyak sumber kedalam suatu simpanan terpadu • Integrasi skema – Mengintegrasikan metadata dari sumber-sumber berbeda – Problem identifikasi entitas: mengenali entitas dunia nyata dari banyak sumber-sumber data, misal A.cust-id  B.cust-# • Pendeteksian dan pemecahan konflik nilai data – Untuk entitas dunia nyata yang sama, nilai-nilai atribut dari sumber-sumber berbeda adalah berbeda – Alasan yang mungkin: representasi berbeda, skala berbeda, misal berat bisa dalam pound atau kilogram
  • 31. Edward Purba Data Preprocessing 31/74 Integrasi Data • Problem: integrasi skema heterogen • Nama-nama tribut berbeda • Unit berbeda: Sales dalam $, sales dalam Yen, sales dalam DM cid name byear 1 Jones 1960 2 Smith 1974 3 Smith 1950 Customer-ID state 1 NY 2 CA 3 NY
  • 32. Edward Purba Data Preprocessing 32/74 Integrasi Data • Problem: integrasi skema heterogen • Skala berbeda: Sales dalam dollar versus sales dalam sen dollar • Atribut turunan: Annual salary versus monthly salary cid monthlySalary 1 5000 2 2400 3 3000 cid Salary 6 50,000 7 100,000 8 40,000
  • 33. Edward Purba Data Preprocessing 33/74 Integrasi Data • Problem: ketak-konsistenan karena redundansi • Customer dengan customer-id 150 punya 3 anak dalam relation1 dan 4 anak dalam relation2 • Komputasi annual salary dari monthly salary dalam relation1 tak cocok dengan atribut “annual-salary” dalam relation2 cid numChildren 1 3 cid numChildren 1 4
  • 34. Edward Purba Data Preprocessing 34/74 Penanganan Redundansi Dalam Integrasi Data • Data redundan sering terjadi saat integrasi dari banyak database – Atribut yang sama bisa memiliki nama berbeda dalam database berbeda – Atribut yang satu bisa merupakan suatu atribut “turunan” dalam tabel lainnya, misal, annual revenue • Data redundan mungkin bisa dideteksi dengan analisis korelasi • Integrasi data hati-hati dari banyak sumber bisa membantu mengurangi/mencegah redundansi dan ketak-konsistenan dan memperbaiki kecepatan dan kualitas mining
  • 35. Edward Purba Data Preprocessing 35/74 Penanganan Redundansi Dalam Integrasi Data • Suatu atribut adalah redundan jika atribut tersebut bisa diperoleh dari atribut lainnya • Analisis korelasi • Rata-rata A adalah • Deviasi standard A adalah • RA,B = 0: A dan B saling bebas • RA,B > 0: A dan B berkorelasi positip AB • RA,B < 0: A dan B berkorelasi negatif AB
  • 36. Edward Purba Data Preprocessing 36/74 Transformasi Data • Penghalusan: menghilangkan noise dari data • Agregasi: ringkasan, konstruksi kubus data • Generalisasi: konsep hierarchy climbing • Normalisasi: diskalakan agar jatuh didalam suatu range kecil yang tertentu – Normalisasi min-max – Normalisasi z-score – Normalisasi dengan penskalaan desimal • Konstruksi atribut/fitur – Atribut-atribut baru dibangun dari atribut-atribut yang ada
  • 37. Edward Purba Data Preprocessing 37/74 Transformasi Data: Normalisasi • Normalisasi min-max • Normalisasi z-score (saat Min, Max tak diketahui) • Normalisasi dengan penskalaan desimal j v v 10 ' dimana j adalah integer terkecil sehingga Max(| |)<1 ' v
  • 38. Edward Purba Data Preprocessing 38/74 Strategi Reduksi Data • Suatu data warehouse bisa menyimpan terabytes data – Analisis/menambang data kompleks bisa membutuhkan waktu sangat lama untuk dijalankan pada data set komplit (tak efisien) • Reduksi data – Mengurangi ukuran data set tetapi menghasilkan hasil analitis yang sama (hampir sama) • Strategi reduksi data – Agregasi kubus data – Reduksi dimensionalitas—menghilangkan atribut tak penting – Kompresi data – Reduksi Numerosity reduction—mencocokkan data kedalam model – Diskritisasi dan pembuatan konsep hierarki