SlideShare a Scribd company logo
2
Most read
4
Most read
9
Most read
2700 3 data preprocessing
DATA
 Data yang ada pada umumnya:
 Banyak noise (error)
 Ukuran yang besar
 Dapat merupakan campuran dari berbagai sumber
 Memahami data sangat penting untuk preprocessing
DATA PREPROCESSING
 Data preprocessing menerangkan tipe-tipe proses
yang melaksanakan data mentah untuk
mempersiapkan proses prosedur yang lainnya
 Tujuannya adalah menstrasformasi data ke suatu
format yang prosesnya lebih mudah dan efektif untuk
kebutuhan pemakai
MENGAPA DATA PREPROCESSING?
 Data dalam dunia nyata “Kotor”
 Tidak lengkap: berisi data yang kosong/hilang
cth: pekerjaan = “ ”
 Banyak “noise”: berisi data yang mengandung kesalahan
cth: gaji =“-10”
 Tidak konsisten: berisi nilai yang berbeda dalam suatu
kode atau nama
cth: Umur =“40” tgl_lhr =“03/07/1997”
MENGAPA DATA KOTOR?
 Data yang tidak lengkap dapat disebabkan oleh:
 Tidak tersedia saat pengumpulan
 Tadinya dianggap tidak penting
 Masalah: Manusia/Soft/Hardware
 Data salah:
 Kesalahan alat pengumpul data
 Kesalahan manusia/komputer saat entri data
 Kesalahan saat pengiriman data
 Data yang tidak konsisten:
 Sumber data yang berbeda
 Duplikasi data juga perlu dibersihkan
MENGAPA DATA PREPROCESSING
PENTING?
 Data yang tidak berkualitas akan menghasilkan
kualitas mining yang tidak baik pula.
 Data Preprocessing, cleaning, dan transformasi
merupakan pekerjaan mayoritas dalam aplikasi data
mining (90%).
UKURAN KUALITAS DATA
 Accuracy
 Completeness
 Consistency
 Timeliness
 Believability
 Value added
 Interpretability
 Accessibility
MANFAAT DATA PREPROCESSING
 Mendapatkan hasil yang lebih akurat
 ƒPengurangan waktu komputasi untuk large scale
problem.
 Membuat nilai data menjadi lebih kecil tanpa
merubah informasi yang dikandungnya.
TEKNIK DATA PREPROESSING
 DATA CLEANING
 DATA INTEGRATION
 DATA REDUCTION
 DATA TRANSFORMATION
DATA CLEANING
 Proses untuk membersihkan data
 Teknik data cleaning:
 Memperkecil noise
 Membetulkan data yang tidak konsisten
 Mengisi nilai atribut yang kosong
 Mengidentifikasi atau membuang data yang tidak sesuai
DATA INTEGRATION
 Data yang sudah di cleaning, kemudian di integrasikan
dalam satu database datawarehouse.
 Data dapat bersumber dari beberapa sumber
 Teknik:
 Analisis korelasi
 Atribut redudansi
 Duplikasi
DATA REDUCTION/SELECTION
 Data yang ada dalam database datawarehouse
kemudian diseleksi untuk mendapatkan hasil yang
akurat.
 Teknik:
 Dimensionality reduction
 Numerosity reduction
 Data compression
DATA TRANSFORMATION
 Tujuannya: diharapkan lebih efisien dalam proses data
mining dan mungkin juga agar pola yang dihasilkan
lebih mudah dipahami.
 Strategi:
 Smoothing
 Attribute (feature) construction
 Aggregation
 Normalization
 Discretization
2700 3 data preprocessing
FUNGSI-FUNGSI DATA MINING
 Assosiation, adalah proses untuk menemukan aturan
assosiatif antara suatu kombinasi item dalam suatu waktu
 Sequence, proses untuk menemukan aturan assosiatif
antara suatu kombinasi item dalam suatu waktu dan
diterapkan lebih dari satu periode
 Clustering, adalah proses pengelompokan seumlah
data/obyek ke dalam kelompok data sehingga setiap
kelompok berisi data yang mirip
 Classification, proses penemuan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data,
dengan tujuan untuk dapat memperkirakan kelas dari
suatu objek yang labelnya tidak diketahui.
FUNGSI-FUNGSI DATA MINING
 Regretion, adalah proses pemetaan data dalam suatu
nilai prediksi
 Forecasting, adalah proses pengestimasian nilai
prediksi berdasarkan pola-pola di dalam sekumpulan
data.
 Solution, adalah proses penemuan akar masalah dan
problem solving dari persoalan bisnis yang dihadapkai
atau paling tidak sebagai informasi dalam
pengambilan keputusan.
METODE DATA MINING
1. Classification
2. Predictive Modeling
3. Association
4. Regression
5. Clustering
6. Forecasting
7. Sequence Analysis
8. Anomaly Detection

More Related Content

PPTX
Data Preprocessing
PDF
Klasifikasi - Algoritma Naive Bayes
PPT
Materi Struktur Data Tree
PPTX
Graph dalam Struktur Data
PPT
Notasi prefix infix-postifx- expression tree
PDF
Kamus data (data dictionary) - (Bambang Sugianto - Politeknik Sawunggalih Aji...
PPT
Struktur data 05 (bs avl tree)
PDF
5. Doubly Linked List (Struktur Data)
Data Preprocessing
Klasifikasi - Algoritma Naive Bayes
Materi Struktur Data Tree
Graph dalam Struktur Data
Notasi prefix infix-postifx- expression tree
Kamus data (data dictionary) - (Bambang Sugianto - Politeknik Sawunggalih Aji...
Struktur data 05 (bs avl tree)
5. Doubly Linked List (Struktur Data)

What's hot (20)

PDF
Data Mining - Naive Bayes
PDF
02 - Preprocessing Data.pdf
PPTX
PENGENALAN DATA SCIENCE.pptx
PDF
Pertemuan 11 Kualitas Data
PPTX
Pertemuan 1 Sistem Basis Data.pptx
PPT
Struktur Data Tree
PPT
Sistem Basis Data(PPT)
PDF
Pengertian dan Representasi Graph
PPTX
Kelompok 8 - Implementasi Role & Privilege pada database Oracle & my SQL
PPTX
Metode knn
PDF
Proses Data Mining
PDF
Konsep Data Mining
PPTX
Data mining 2 exploratory data analysis
PDF
Data Management (Basis Data Berbasis Dokumen)
PDF
7 Metode Pencarian Data Array
PPTX
Normalisasi Basis Data
PDF
Pertemuan 10 Metadata Datawarehouse
PPT
Modul 8 - Jaringan Syaraf Tiruan (JST)
PPTX
Data mining 1 pengantar
DOC
Data Mining: Data Preprocessing
Data Mining - Naive Bayes
02 - Preprocessing Data.pdf
PENGENALAN DATA SCIENCE.pptx
Pertemuan 11 Kualitas Data
Pertemuan 1 Sistem Basis Data.pptx
Struktur Data Tree
Sistem Basis Data(PPT)
Pengertian dan Representasi Graph
Kelompok 8 - Implementasi Role & Privilege pada database Oracle & my SQL
Metode knn
Proses Data Mining
Konsep Data Mining
Data mining 2 exploratory data analysis
Data Management (Basis Data Berbasis Dokumen)
7 Metode Pencarian Data Array
Normalisasi Basis Data
Pertemuan 10 Metadata Datawarehouse
Modul 8 - Jaringan Syaraf Tiruan (JST)
Data mining 1 pengantar
Data Mining: Data Preprocessing
Ad

Similar to 2700 3 data preprocessing (20)

PPTX
Presentasi_Data_Mining.pptx
PPTX
Praproses data yang digunakan dalam data mining
PPTX
PPT-Data Mining-Pertemuan 3 pra processing data .pptx
PPTX
SISTEM PENGOLAH DATA. KOMPUTER TERBAIK SEPANJANG MASA
PPTX
file_2013-10-18_13_34_06_Suciani_Ghadatti,_M.Kom__PTI-05.pptx
PPTX
Data Warehouse (data quality & matching information)
PPT
8 pengantar pengolahan data
PPT
Basis data (_database_)
PPTX
04-05. Preparation Data before Execution.pptx
PDF
LPR Week 1-KEMASTURA Group-2023.Data Analytics
PPTX
Tik 11 materi 4 basis data
PPTX
PPTX
DM_P5_Pra-Pemrosesan Data (v2021) [Autosaved].pptx
PPTX
Mengelola Sumber Data (Pertemuan 6).pptx
PPTX
RPL Perancangan Basis Data arie octa 0617104018 dandi ardiansyah 0617104031 ...
PPTX
MENGELOLA SUMBER DAYA DATA PERUSAHAAN.pptx
PDF
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
PDF
Data Quality
PDF
APPLIED DATABASE III - Modul Data Preprocessing
PPTX
Menjelaskan dasar-dasar intelijen bisnis : database dan manajemen informasi
Presentasi_Data_Mining.pptx
Praproses data yang digunakan dalam data mining
PPT-Data Mining-Pertemuan 3 pra processing data .pptx
SISTEM PENGOLAH DATA. KOMPUTER TERBAIK SEPANJANG MASA
file_2013-10-18_13_34_06_Suciani_Ghadatti,_M.Kom__PTI-05.pptx
Data Warehouse (data quality & matching information)
8 pengantar pengolahan data
Basis data (_database_)
04-05. Preparation Data before Execution.pptx
LPR Week 1-KEMASTURA Group-2023.Data Analytics
Tik 11 materi 4 basis data
DM_P5_Pra-Pemrosesan Data (v2021) [Autosaved].pptx
Mengelola Sumber Data (Pertemuan 6).pptx
RPL Perancangan Basis Data arie octa 0617104018 dandi ardiansyah 0617104031 ...
MENGELOLA SUMBER DAYA DATA PERUSAHAAN.pptx
Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis...
Data Quality
APPLIED DATABASE III - Modul Data Preprocessing
Menjelaskan dasar-dasar intelijen bisnis : database dan manajemen informasi
Ad

More from Universitas Bina Darma Palembang (20)

PPT
29510 pertemuan18(form method-get-post-dan-session(1))
PPT
28501 pertemuan14(php)
PPT
28500 pertemuan22(header dokumen html dgn tag title)
DOC
25437 pertemuan25(hitcounter)
DOC
PPT
18759 pertemuan20(web html editor)
PPT
18040 pertemuan13(css)
PPT
16406 pertemuan17(konsep basis-data-di-web)
DOC
15294 pertemuan9(eksplorasi &defenisi masalah0
PPT
12738 pertemuan 15(php lanjutan)
PPT
6346 pertemuan21(web statis dengan struktur html)
DOC
5623 pertemuan11(html1)
DOC
4740 pertemuan8(komponen dalam web)
DOC
4075 pertemuan10 (analisa kebutuhan)
PPT
2670 pertemuan12(html lanjut)
DOC
2190 pertemuan24(polling)
29510 pertemuan18(form method-get-post-dan-session(1))
28501 pertemuan14(php)
28500 pertemuan22(header dokumen html dgn tag title)
25437 pertemuan25(hitcounter)
18759 pertemuan20(web html editor)
18040 pertemuan13(css)
16406 pertemuan17(konsep basis-data-di-web)
15294 pertemuan9(eksplorasi &defenisi masalah0
12738 pertemuan 15(php lanjutan)
6346 pertemuan21(web statis dengan struktur html)
5623 pertemuan11(html1)
4740 pertemuan8(komponen dalam web)
4075 pertemuan10 (analisa kebutuhan)
2670 pertemuan12(html lanjut)
2190 pertemuan24(polling)

Recently uploaded (11)

PPTX
Flowchart Pengaplikasian Sistem Arduino.pptx
PPTX
Introduction FastAPI for Professional and Student
PDF
LK - SIMULASI SIKLUS INKUIRI KOLABORATIF.pdf
PDF
6754aa176b39b (1).pdf data analisis acara
PDF
GERUDUK MJKN aplikasi mobile JKN persentation
PPTX
EFEKTIVITAS EKSTRAK DAUN INDIGOFERA.pptx
PDF
Llama Implementations from Scratch - Avalon AI.pdf
PPTX
Paper sirosis hepatis dr siti taqwa.jdusp
PPTX
Gagal Ginjal Akut GHINA SELVIRA .pptx
PPTX
Dokter):6:’syaksudysnnwysydyejeushx bshske ueie
PPTX
PRESNTASI pembangunan perumahan komersil dua lantai
Flowchart Pengaplikasian Sistem Arduino.pptx
Introduction FastAPI for Professional and Student
LK - SIMULASI SIKLUS INKUIRI KOLABORATIF.pdf
6754aa176b39b (1).pdf data analisis acara
GERUDUK MJKN aplikasi mobile JKN persentation
EFEKTIVITAS EKSTRAK DAUN INDIGOFERA.pptx
Llama Implementations from Scratch - Avalon AI.pdf
Paper sirosis hepatis dr siti taqwa.jdusp
Gagal Ginjal Akut GHINA SELVIRA .pptx
Dokter):6:’syaksudysnnwysydyejeushx bshske ueie
PRESNTASI pembangunan perumahan komersil dua lantai

2700 3 data preprocessing

  • 2. DATA  Data yang ada pada umumnya:  Banyak noise (error)  Ukuran yang besar  Dapat merupakan campuran dari berbagai sumber  Memahami data sangat penting untuk preprocessing
  • 3. DATA PREPROCESSING  Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan proses prosedur yang lainnya  Tujuannya adalah menstrasformasi data ke suatu format yang prosesnya lebih mudah dan efektif untuk kebutuhan pemakai
  • 4. MENGAPA DATA PREPROCESSING?  Data dalam dunia nyata “Kotor”  Tidak lengkap: berisi data yang kosong/hilang cth: pekerjaan = “ ”  Banyak “noise”: berisi data yang mengandung kesalahan cth: gaji =“-10”  Tidak konsisten: berisi nilai yang berbeda dalam suatu kode atau nama cth: Umur =“40” tgl_lhr =“03/07/1997”
  • 5. MENGAPA DATA KOTOR?  Data yang tidak lengkap dapat disebabkan oleh:  Tidak tersedia saat pengumpulan  Tadinya dianggap tidak penting  Masalah: Manusia/Soft/Hardware  Data salah:  Kesalahan alat pengumpul data  Kesalahan manusia/komputer saat entri data  Kesalahan saat pengiriman data  Data yang tidak konsisten:  Sumber data yang berbeda  Duplikasi data juga perlu dibersihkan
  • 6. MENGAPA DATA PREPROCESSING PENTING?  Data yang tidak berkualitas akan menghasilkan kualitas mining yang tidak baik pula.  Data Preprocessing, cleaning, dan transformasi merupakan pekerjaan mayoritas dalam aplikasi data mining (90%).
  • 7. UKURAN KUALITAS DATA  Accuracy  Completeness  Consistency  Timeliness  Believability  Value added  Interpretability  Accessibility
  • 8. MANFAAT DATA PREPROCESSING  Mendapatkan hasil yang lebih akurat  ƒPengurangan waktu komputasi untuk large scale problem.  Membuat nilai data menjadi lebih kecil tanpa merubah informasi yang dikandungnya.
  • 9. TEKNIK DATA PREPROESSING  DATA CLEANING  DATA INTEGRATION  DATA REDUCTION  DATA TRANSFORMATION
  • 10. DATA CLEANING  Proses untuk membersihkan data  Teknik data cleaning:  Memperkecil noise  Membetulkan data yang tidak konsisten  Mengisi nilai atribut yang kosong  Mengidentifikasi atau membuang data yang tidak sesuai
  • 11. DATA INTEGRATION  Data yang sudah di cleaning, kemudian di integrasikan dalam satu database datawarehouse.  Data dapat bersumber dari beberapa sumber  Teknik:  Analisis korelasi  Atribut redudansi  Duplikasi
  • 12. DATA REDUCTION/SELECTION  Data yang ada dalam database datawarehouse kemudian diseleksi untuk mendapatkan hasil yang akurat.  Teknik:  Dimensionality reduction  Numerosity reduction  Data compression
  • 13. DATA TRANSFORMATION  Tujuannya: diharapkan lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami.  Strategi:  Smoothing  Attribute (feature) construction  Aggregation  Normalization  Discretization
  • 15. FUNGSI-FUNGSI DATA MINING  Assosiation, adalah proses untuk menemukan aturan assosiatif antara suatu kombinasi item dalam suatu waktu  Sequence, proses untuk menemukan aturan assosiatif antara suatu kombinasi item dalam suatu waktu dan diterapkan lebih dari satu periode  Clustering, adalah proses pengelompokan seumlah data/obyek ke dalam kelompok data sehingga setiap kelompok berisi data yang mirip  Classification, proses penemuan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.
  • 16. FUNGSI-FUNGSI DATA MINING  Regretion, adalah proses pemetaan data dalam suatu nilai prediksi  Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan pola-pola di dalam sekumpulan data.  Solution, adalah proses penemuan akar masalah dan problem solving dari persoalan bisnis yang dihadapkai atau paling tidak sebagai informasi dalam pengambilan keputusan.
  • 17. METODE DATA MINING 1. Classification 2. Predictive Modeling 3. Association 4. Regression 5. Clustering 6. Forecasting 7. Sequence Analysis 8. Anomaly Detection