SlideShare a Scribd company logo
Klasifikasi
Elvi Rahmi, S.T., M.Kom.
elvizasri@gmail.com
Data Mining
Klasifikasi
Carolus Linnaeus.
Dikenal sebagai bapak klasifikasi.
Orang yang pertama kali
mengklasifikasikan spesies
berdasarkan karakteristik fisik.
Carolus von Linne
(Carolus Linnaeus)
Mempelajari sekumpulan data sehingga dihasilkan aturan
yang bisa mengklasifikasi atau mengenali data-data baru
yang belum pernah dipelajari.
Proses untuk menyatakan suatu objek data sebagai salah
satu kategori (kelas) yang telah didefinisikan sebelumnya
(Zaki et al. 2013).
Klasifikasi
Definisi
Klasifikasi banyak digunakan dalam berbagai aplikasi, misal:
klasifikasi profil pelanggan, deteksi kecurangan (fraud
detection), diagnosis medis, prediksi penjualan, dan
sebagainya.
Komponen Utama
Proses Klasifikasi
Variabel bebas suatu model berdasarkan dari karakteristik
atribut data yang diklasifikasi.
Misal: merokok, minum-minuman beralkohol, tekanan
darah, status perkawinan.
Prediktor
Variabel tidak bebas yang merupakan label dari hasil
klasifikasi.
Misal: kelas loyalitas pelanggan.
Kelas
Sekumpulan data lengkap yang berisi kelas dan prediktor
untuk dilatih agar model dapat mengelompokkan ke dalam
kelas yang tepat.
Misal: grup pasien yang telah ditest terhadap serangan
jantung, grup pelanggan di suatu supermarket.
Set Data Pelatihan
Berisi data-data baru yang akan dikelompokkan oleh model
guna mengetahui akurasi dari model yang telah dibuat.
Set Data Uji
1
2
3
4
Teknik Klasifikasi
Teknik Klasifikasi Lokal
Hanya memperhitungkan sebagian
data latih.
Teknik Klasifikasi Global
Memperhitungkan semua data
latih.
Berdasarkan pengetahuan seorang pakar
(ahli).
Menggunakan teknik pembelajaran dalam
bidang machine learning.
Bagaimana cara
membangun model
klasifikasi (classifier)?
Pembelajaran Terpandu (supervised learning)
Memprediksi keluaran dari masukan tertentu.
Pembelajaran tak Terpandu (supervised learning)
Mengelompokkan kelas-kelas
dalam pola-pola tertentu
Bagaimana menentukan suatu
model baik atau buruk?
Akurasi Prediksi, menentukan seberapa akurat suatu model dalam
memprediksi keluaran.
Kecepatan, menentukan seberapa cepat suatu model dalam memproses
data masukan.
Robustness, menggambarkan kemampuan suatu model melakukan
prediksi yang akurat walau dalam kondisi ekstrim dan banyak gangguan
yang terjadi.
Skalabilitas, kemampuan suatu model memproses data baik dalam
ukuran yang lebih besar maupun data dari bidang lain yang berbeda.
Interpretability, menggambarkan kemudahan suatu model untuk
dipahami dan diinterpretasikan.
Kesederhanaan, merupakan sifat yang cenderung dipilih untuk
menyelesaikan suatu permasalahan.
Pohon Keputusan
Pengklasifikasi Bayes /Naive Bayes
Jaringan Syaraf Tiruan
Analisis Statistik
Algoritma Genetik
Metode/Model untuk Menyelesaikan Kasus Klasifikasi
(Sumathi, 2006)
Rough Sets
Pengklasifikasi KNN
Mode Berbasis Aturan
Memory Based Reasoning
Support Vector Machine
Pohon keputusan tool yang populer untuk
klasifikasi dan prediksi. Pohon keputusan
adalah struktur pohon seperti diagram alur,
di mana setiap simpul internal
menunjukkan pengujian pada atribut, setiap
cabang mewakili hasil pengujian, dan setiap
simpul daun (simpul terminal) memegang
label kelas.
Pohon Keputusan untuk konsep bermain tenis
Pohon Keputusan (Decision Tree)
Pohon Keputusan untuk konsep bermain tenis
Konstruksi Pohon Keputusan
Sebuah pohon dapat "dipelajari" dengan membagi set sumber menjadi subset berdasarkan tes
nilai atribut. Proses ini diulang pada setiap subset turunan secara rekursif yang disebut partisi
rekursif (recursive partitioning).
Rekursi selesai ketika subset pada node semua memiliki nilai variabel target yang sama, atau
ketika dilakukan pemisahan tidak lagi menambah nilai prediksi.
Konstruksi pengklasifikasi pohon keputusan tidak memerlukan pengetahuan domain atau
pengaturan parameter, dan oleh karena itu sesuai untuk penemuan pengetahuan eksplorasi.
Pohon keputusan dapat menangani data berdimensi tinggi.
Secara umum pengklasifikasi pohon keputusan memiliki akurasi yang baik. Induksi pohon
keputusan adalah pendekatan induktif yang khas untuk mempelajari pengetahuan tentang
klasifikasi.
Pohon Keputusan untuk konsep bermain tenis
Pohon keputusan pada gambar di
samping mengklasifikasikan pagi
tertentu berdasarkan cuaca apakah
cocok untuk bermain tenis dan
mengembalikan klasifikasi yang
terkait dengan daun tertentu. (dalam
hal ini Ya atau Tidak).
Representasi
Pohon Keputusan
Instance
(Outlook = Sunny, Temperature = Hot, Humidity = High,
Wind = Strong )
diurutkan ke bawah cabang paling kiri dari pohon
keputusan dan diklasifikasikan sebagai negative
instance (tidak mencukung pada data).
Pohon Keputusan untuk konsep bermain tenis
(Outlook = Sunny ^ Humidity = Normal) v (Outlook = Overcast) v (Outlook = Rain ^ Wind = Weak)
Gini Index
Indeks Gini adalah skor yang mengevaluasi seberapa akurat pemisahan di antara
kelompok yang diklasifikasikan. Indeks Gini mengevaluasi skor dalam kisaran antara 0
dan 1, di mana 0 adalah ketika semua pengamatan termasuk dalam satu kelas, dan 1
adalah distribusi acak dari elemen-elemen dalam kelas.
Indeks Gini adalah metrik evaluasi yang akan kita gunakan untuk mengevaluasi Model
Pohon Keputusan kita.
Kekuatan Pendekatan Pohon Keputusan
Pohon keputusan mampu menghasilkan aturan yang
dapat dimengerti.
Pohon keputusan melakukan klasifikasi tanpa
memerlukan banyak perhitungan.
Pohon keputusan mampu menangani variabel kontinu
dan kategorikal.
Pohon keputusan memberikan indikasi yang jelas tentang
bidang mana yang paling penting untuk prediksi atau
klasifikasi.
Kelemahan Pendekatan Pohon Keputusan
Pohon keputusan kurang tepat untuk tugas estimasi di
mana tujuannya adalah untuk memprediksi nilai atribut
kontinu.
Pohon keputusan rentan terhadap kesalahan dalam
masalah klasifikasi dengan banyak kelas dan jumlah
contoh pelatihan yang relatif kecil.
Proses menumbuhkan pohon keputusan secara
komputasi mahal. Algoritma pemangkasan (pruning
algorithm) juga bisa mahal karena banyak kandidat
subpohon harus dibentuk dan dibandingkan.
Do you have
any questions?
Naive Bayes
Classifier
Klasifikasi
D A T A M I N I N G - 2 0 2 2
Alur Kerja Klasifikasi
Classifier melatih
modelnya pada
dataset yang diberikan
Fase Pembelajaran
Menguji kinerja classifier
Fase Evaluasi
Kinerja dievaluasi berdasarkan berbagai parameter seperti:
akurasi, kesalahan, presisi, dan ingatan.
Alur Kerja Klasifikasi
Naive Bayes Classifier
01
02
03
Teknik klasifikasi statistik berdasarkan Teorema Bayes.
Salah satu algoritma supervised yang paling sederhana.
PresentaNaive Bayes adalah algoritma klasifikasi yang paling mudah dan
cepat, yang cocok untuk sejumlah besar data.
Pengklasifikasi Naive Bayes berhasil digunakan di berbagai aplikasi seperti
penyaringan spam, klasifikasi teks, analisis sentimen, dan sistem pemberi
rekomendasi.
Pengklasifikasi Naive Bayes mengasumsikan bahwa efek dari fitur tertentu
dalam sebuah kelas tidak bergantung pada fitur lainnya.
Misalnya, seorang pemohon pinjaman yang diinginkan atau tidak tergantung pada
pendapatannya, pinjaman sebelumnya dan riwayat transaksi, usia, dan lokasi. Sekalipun
fitur-fitur ini saling bergantung, fitur-fitur ini tetap dianggap independen. Asumsi ini
menyederhanakan perhitungan, dan karena itu dianggap naif.
Naive Bayes Classifier
Cara Naïve Bayes
Classifier Bekerja
Diberikan contoh kondisi cuaca dan
berolahraga. Anda perlu menghitung
probabilitas berolahraga. Sekarang,
Anda perlu mengklasifikasikan apakah
pemain akan bermain atau tidak
berdasarkan kondisi cuaca.
Menghitung probabilitas bermain saat
cuaca mendung.
Hitung prior probability untuk label kelas yang diberikan.
Temukan probabilitas Kemungkinan dengan setiap atribut untuk setiap kelas.
Masukkan nilai ini ke dalam Formula Bayes dan hitung probabilitas posterior.
Lihat kelas mana yang memiliki probabilitas lebih tinggi, mengingat inputnya milik
kelas probabilitas lebih tinggi.
Pendekatan Pertama
(Dalam hal fitur tunggal)
1. Hitung prior probability
2. Hitung probabilitas posterior
3. Masukkan probabilitas Prior dan Posterior dalam persamaan
Kemungkinan bermain:
P(Yes|Overcast)=P(Overcast|Yes)P(Yes)/P(Overcast)
P (Overcast) = 4/14 = 0,29
P (Yes) = 9/14 = 0,64
P (Overcast | Yes) = 4/9 = 0,44
P (Yes | Overcast) = 0.44 * 0.64 / 0.29 = 0.97
Pendekatan Pertama
(Dalam hal fitur tunggal)
1. Hitung prior probability
2. Hitung probabilitas posterior
3. Masukkan probabilitas Prior dan Posterior dalam persamaan
Kemungkinan tidak bermain:
P(No|Overcast)=P(Overcast|No)P(No)/P(Overcast)
P (Overcast) = 4/14 = 0,29
P (No) = 5/14 = 0.36
P (Overcast | No) = 0/9 = 0
P (No | Overcast) = 0 * 0.36/ 0.29 = 0
Probabilitas kelas 'Ya' lebihtinggi. Jadi Anda bisa menentukan di sini
jika cuaca mendung maka pemain akan memainkan olahraga tersebut.
Pendekatan Kedua
(Dalam hal
beberapa fitur)
Menghitung probabilitas bermain saat
cuaca mendung, dan suhu sedang.
Pendekatan Kedua
(Dalam hal beberapa fitur)
Kemungkinan bermain:
P(Play= Yes | Weather=Overcast, Temp=Mild) = P(Weather=Overcast, Temp=Mild |
Play=Yes)P(Play=Yes)..........(1)
P(Weather=Overcast,Temp=Mild|Play=Yes)=P(Overcast|Yes)P(Mild|Yes)………..(2)
1. Hitung prior probability
P (Yes) = 9/14 = 0.64
2. Hitung probabilitas posterior
P (Overcast | Yes) = 4/9 = 0.44 P(Mild |Yes) = 4/9 = 0.44
3. Masukkan probabilitas Prior dan Posterior dalam persamaan 2
P(Weather=Overcast, Temp=Mild | Play= Yes) = 0.44 * 0.44 = 0.1936
4. Masukkan probabilitas Prior dan Posterior dalam persamaan 1
P(Play= Yes | Weather=Overcast, Temp=Mild) = 0.1936*0.64 = 0.124
Pendekatan Kedua
(Dalam hal beberapa fitur)
Kemungkinantidakbermain?
Pendekatan Kedua -(Dalam hal beberapa fitur)
Kemungkinantidakbermain:
P(Play= No | Weather=Overcast, Temp=Mild) = P(Weather=Overcast, Temp=Mild | Play=
No)P(Play=No) ..........(3)
P(Weather=Overcast, Temp=Mild | Play= No)= P(Weather=Overcast |Play=No) P(Temp=Mild |
Play=No) ………..(4)
1. Hitung prior probability
P (No) = 5/14 = 0.36
2. Hitung probabilitas posterior
P (Overcast | No) = 0/9 = 0 P(Temp=Mild | Play=No)=2/5=0.4
3. Masukkan probabilitas Prior dan Posterior dalam persamaan 4
P(Weather=Overcast, Temp=Mild | Play= No) = 0 * 0.4= 0
4. Masukkan probabilitas Prior dan Posterior dalam persamaan 3
P(Play= No | Weather=Overcast, Temp=Mild) = 0*0.36=0
Dataset
Terdapat data baru:
X =(umur<=30, Pendapatan = sedang,
Mhs = ya, Rating kredit = Fair)
Apakah dia harus membeli komputer
atau tidak?
Dataset
P(Yes) = 9/14 = 0.64
P(No) = 5/14 = 0.36
X =(umur<=30, Pendapatan = sedang, Mhs = ya, Rating kredit = Fair)
Dataset
P(umur<=30 | beli_komputer=ya) = 2/9
= 0.22
P(umur<=30| beli_komputer=tdk)= 3/5
= 0.6
X =(umur<=30, Pendapatan = sedang, Mhs = ya, Rating kredit = Fair)
Dataset
P(pendapatan=sedang|
beli_komputer=ya) = 4/9= 0.44
P(pendapatan=sedang|
beli_komputer=tdk) = 2/5=0.4
X =(umur<=30, Pendapatan = sedang, Mhs = ya, Rating kredit = Fair)
Dataset
P(mhs=ya | beli_komputer=ya) = 6/9 =
0.67
P(mhs=ya | beli_komputer=tdk) = 1/5 =
0.2
X =(umur<=30, Pendapatan = sedang, Mhs = ya, Rating kredit = Fair)
Dataset
P(rating kredit=fair | beli_komputer=ya)
= 6/9 = 0.67
P(rating kredit=fair | beli_komputer=tdk)
=2/5 = 0.4
X =(umur<=30, Pendapatan = sedang, Mhs = ya, Rating kredit = Fair)
Dataset
P(X|beli_computer = “ya”) = 0.222 X 0.444 X 0.667 X 0.667 = 0.044
P(X|beli_computer = “tdk”) = 0.600 x 0.400 x 0.200 x 0.400 = 0.019
Dataset
P(X|beli_computer = “ya”) = 0.222 X 0.444 X 0.667 X 0.667 = 0.044
P(X|beli_computer = “tdk”) = 0.600 x 0.400 x 0.200 x 0.400 = 0.019
P(X|beli_computer=“ya”) * P(beli_computer=“ya”) 0.044 * (9/14) = 0.028
P(X|beli_computer=“tdk”) * P(beli_computer=“tdk”) 0.019 * (5/14) = 0.007
Dataset
P(X|beli_computer=“ya”) * P(beli_computer=“ya”) 0.044 * (9/14) = 0.028
P(X|beli_computer=“tdk”) * P(beli_computer=“tdk”) 0.019 * (5/14) = 0.007

More Related Content

PDF
02 - Preprocessing Data.pdf
PDF
Klasterisasi - Algoritma K-Means Clustering.pdf
PPT
Bab 1 vektor fisika i
PDF
Data Mining - Naive Bayes
PDF
Konsep Data Mining
PPTX
romi-dm-aug2020.pptx
PDF
04 - Teori Peluang.pdf
PDF
Project Charter Aplikasi Tracking Barang
02 - Preprocessing Data.pdf
Klasterisasi - Algoritma K-Means Clustering.pdf
Bab 1 vektor fisika i
Data Mining - Naive Bayes
Konsep Data Mining
romi-dm-aug2020.pptx
04 - Teori Peluang.pdf
Project Charter Aplikasi Tracking Barang

What's hot (20)

PDF
Klasterisasi - AHC (Agglomerative Hierarchical Clustering).pdf
PDF
01 - Introduction to Data Mining - Original.pdf
PDF
13 - 14 Regresi Linear Sederhana & Berganda.pdf
PDF
Algoritma Support Vector Machine.pdf
PDF
06 - Machine Learning .pdf
PDF
2700 3 data preprocessing
PPTX
Data mining
PDF
20731 21 visualisasi data
PPTX
Pert 04 clustering data mining
PDF
03 - Teknik Dasar AI - Reasoning.pdf
PDF
Machine Learning dengan R
PDF
05 - Teknik Dasar AI - Planning.pdf
PDF
Kuliah SPK : Metode TOPSIS
PPTX
Pembuatan uml pada toko belanja online
PDF
Teknik Sampling
PPT
Sistem Pendukung Keputusan
PDF
01 - AI - Pengantar AI.pdf
PDF
Mi 07.-praktikum-pemrograman-basis-data
PPTX
K-MEANS CLUSTERING.pptx
PDF
Data Management (Basis Data Berbasis Dokumen)
Klasterisasi - AHC (Agglomerative Hierarchical Clustering).pdf
01 - Introduction to Data Mining - Original.pdf
13 - 14 Regresi Linear Sederhana & Berganda.pdf
Algoritma Support Vector Machine.pdf
06 - Machine Learning .pdf
2700 3 data preprocessing
Data mining
20731 21 visualisasi data
Pert 04 clustering data mining
03 - Teknik Dasar AI - Reasoning.pdf
Machine Learning dengan R
05 - Teknik Dasar AI - Planning.pdf
Kuliah SPK : Metode TOPSIS
Pembuatan uml pada toko belanja online
Teknik Sampling
Sistem Pendukung Keputusan
01 - AI - Pengantar AI.pdf
Mi 07.-praktikum-pemrograman-basis-data
K-MEANS CLUSTERING.pptx
Data Management (Basis Data Berbasis Dokumen)
Ad

Similar to Klasifikasi - Algoritma Naive Bayes (20)

PPTX
PPT KEL 3 DAI - 007.pptx
PPTX
02. Algoritma Klasifikasi dan Regresi.pptx
DOC
Modul klasifikasi decission tree modul klasifikasi
PPTX
fuzzyShp
PPTX
Analisis dan penyajian data
PPTX
Materi Data Mining.pptx
PPTX
PPT penelitian kelompok 5 bimbingan konseling.pptx
PPTX
Pengantar spss
PPTX
Klasifikasi Data Mining.pptx
DOCX
Aplikasi spss dan anates
PPTX
Implementasi Machine Learning menggunakan Google Collab
PPT
Pemodelan Simulasi untuk Klasifikiasi Pohon Keputusan.ppt
PDF
Pertemuan 2_Menentukan Objek_Membersihkan_Memvalidasi_Data.pdf
PDF
1. klasifikasi dan evaluasi
DOCX
analisis-dan-interpretasi-data-kuantitatif
PPTX
tgsdm3_ kelompok 7
PPTX
MLbb kedua dan sudah ada dikota anda segera
PPT
Pertemuan 5 optimasi_dengan_alternatif_terbatas_-_lengkap
PPTX
Proses, Teori dan Kerangka Keputusan .pptx
PDF
Data Mining Diskusi 2.pdf
PPT KEL 3 DAI - 007.pptx
02. Algoritma Klasifikasi dan Regresi.pptx
Modul klasifikasi decission tree modul klasifikasi
fuzzyShp
Analisis dan penyajian data
Materi Data Mining.pptx
PPT penelitian kelompok 5 bimbingan konseling.pptx
Pengantar spss
Klasifikasi Data Mining.pptx
Aplikasi spss dan anates
Implementasi Machine Learning menggunakan Google Collab
Pemodelan Simulasi untuk Klasifikiasi Pohon Keputusan.ppt
Pertemuan 2_Menentukan Objek_Membersihkan_Memvalidasi_Data.pdf
1. klasifikasi dan evaluasi
analisis-dan-interpretasi-data-kuantitatif
tgsdm3_ kelompok 7
MLbb kedua dan sudah ada dikota anda segera
Pertemuan 5 optimasi_dengan_alternatif_terbatas_-_lengkap
Proses, Teori dan Kerangka Keputusan .pptx
Data Mining Diskusi 2.pdf
Ad

More from Elvi Rahmi (14)

PPTX
03 - Teknik Dasar AI - Reasoning - 2025.pptx
PDF
Teknik Dasar Kecerdasan Buatan: Planning - 2025
PDF
03 - Ukuran Lokasi dan Dispersi - September 2024.pdf
PDF
Kepemimpinan dalam Konteks Keamanan Sistem Informasi
PDF
02 - Teknik Dasar AI - Searching.pdf
PDF
07 - Pengujian Hipotesis.pdf
PDF
05 - Variabel Random dan Distribusi Peluang.pdf
PDF
Quiz - Statistika dan Probabilitas.pdf
PDF
03 - Ukuran Lokasi dan Dispersi.pdf
PDF
02 - Penyajian Data (Distribusi Frekuensi).pdf
PDF
01 - Pengantar Statistika.pdf
PPT
Mastering the master of ceremony
PPSX
Implementasi Algoritma FP - Growth Menentukan Asosiasi Antar Produk
PPSX
Identifikasi dan Pencegahan Keylogging Pada Android Menggunakan Customized Vi...
03 - Teknik Dasar AI - Reasoning - 2025.pptx
Teknik Dasar Kecerdasan Buatan: Planning - 2025
03 - Ukuran Lokasi dan Dispersi - September 2024.pdf
Kepemimpinan dalam Konteks Keamanan Sistem Informasi
02 - Teknik Dasar AI - Searching.pdf
07 - Pengujian Hipotesis.pdf
05 - Variabel Random dan Distribusi Peluang.pdf
Quiz - Statistika dan Probabilitas.pdf
03 - Ukuran Lokasi dan Dispersi.pdf
02 - Penyajian Data (Distribusi Frekuensi).pdf
01 - Pengantar Statistika.pdf
Mastering the master of ceremony
Implementasi Algoritma FP - Growth Menentukan Asosiasi Antar Produk
Identifikasi dan Pencegahan Keylogging Pada Android Menggunakan Customized Vi...

Recently uploaded (11)

PPTX
Flowchart Pengaplikasian Sistem Arduino.pptx
PPTX
Paper sirosis hepatis dr siti taqwa.jdusp
PDF
6754aa176b39b (1).pdf data analisis acara
PPTX
Dokter):6:’syaksudysnnwysydyejeushx bshske ueie
PDF
GERUDUK MJKN aplikasi mobile JKN persentation
PDF
LK - SIMULASI SIKLUS INKUIRI KOLABORATIF.pdf
PPTX
Gagal Ginjal Akut GHINA SELVIRA .pptx
PPTX
EFEKTIVITAS EKSTRAK DAUN INDIGOFERA.pptx
PPTX
PRESNTASI pembangunan perumahan komersil dua lantai
PDF
Llama Implementations from Scratch - Avalon AI.pdf
PPTX
Introduction FastAPI for Professional and Student
Flowchart Pengaplikasian Sistem Arduino.pptx
Paper sirosis hepatis dr siti taqwa.jdusp
6754aa176b39b (1).pdf data analisis acara
Dokter):6:’syaksudysnnwysydyejeushx bshske ueie
GERUDUK MJKN aplikasi mobile JKN persentation
LK - SIMULASI SIKLUS INKUIRI KOLABORATIF.pdf
Gagal Ginjal Akut GHINA SELVIRA .pptx
EFEKTIVITAS EKSTRAK DAUN INDIGOFERA.pptx
PRESNTASI pembangunan perumahan komersil dua lantai
Llama Implementations from Scratch - Avalon AI.pdf
Introduction FastAPI for Professional and Student

Klasifikasi - Algoritma Naive Bayes

  • 1. Klasifikasi Elvi Rahmi, S.T., M.Kom. elvizasri@gmail.com Data Mining
  • 2. Klasifikasi Carolus Linnaeus. Dikenal sebagai bapak klasifikasi. Orang yang pertama kali mengklasifikasikan spesies berdasarkan karakteristik fisik. Carolus von Linne (Carolus Linnaeus)
  • 3. Mempelajari sekumpulan data sehingga dihasilkan aturan yang bisa mengklasifikasi atau mengenali data-data baru yang belum pernah dipelajari. Proses untuk menyatakan suatu objek data sebagai salah satu kategori (kelas) yang telah didefinisikan sebelumnya (Zaki et al. 2013). Klasifikasi Definisi Klasifikasi banyak digunakan dalam berbagai aplikasi, misal: klasifikasi profil pelanggan, deteksi kecurangan (fraud detection), diagnosis medis, prediksi penjualan, dan sebagainya.
  • 4. Komponen Utama Proses Klasifikasi Variabel bebas suatu model berdasarkan dari karakteristik atribut data yang diklasifikasi. Misal: merokok, minum-minuman beralkohol, tekanan darah, status perkawinan. Prediktor Variabel tidak bebas yang merupakan label dari hasil klasifikasi. Misal: kelas loyalitas pelanggan. Kelas Sekumpulan data lengkap yang berisi kelas dan prediktor untuk dilatih agar model dapat mengelompokkan ke dalam kelas yang tepat. Misal: grup pasien yang telah ditest terhadap serangan jantung, grup pelanggan di suatu supermarket. Set Data Pelatihan Berisi data-data baru yang akan dikelompokkan oleh model guna mengetahui akurasi dari model yang telah dibuat. Set Data Uji 1 2 3 4
  • 5. Teknik Klasifikasi Teknik Klasifikasi Lokal Hanya memperhitungkan sebagian data latih. Teknik Klasifikasi Global Memperhitungkan semua data latih.
  • 6. Berdasarkan pengetahuan seorang pakar (ahli). Menggunakan teknik pembelajaran dalam bidang machine learning. Bagaimana cara membangun model klasifikasi (classifier)?
  • 7. Pembelajaran Terpandu (supervised learning) Memprediksi keluaran dari masukan tertentu. Pembelajaran tak Terpandu (supervised learning) Mengelompokkan kelas-kelas dalam pola-pola tertentu
  • 8. Bagaimana menentukan suatu model baik atau buruk? Akurasi Prediksi, menentukan seberapa akurat suatu model dalam memprediksi keluaran. Kecepatan, menentukan seberapa cepat suatu model dalam memproses data masukan. Robustness, menggambarkan kemampuan suatu model melakukan prediksi yang akurat walau dalam kondisi ekstrim dan banyak gangguan yang terjadi. Skalabilitas, kemampuan suatu model memproses data baik dalam ukuran yang lebih besar maupun data dari bidang lain yang berbeda. Interpretability, menggambarkan kemudahan suatu model untuk dipahami dan diinterpretasikan. Kesederhanaan, merupakan sifat yang cenderung dipilih untuk menyelesaikan suatu permasalahan.
  • 9. Pohon Keputusan Pengklasifikasi Bayes /Naive Bayes Jaringan Syaraf Tiruan Analisis Statistik Algoritma Genetik Metode/Model untuk Menyelesaikan Kasus Klasifikasi (Sumathi, 2006) Rough Sets Pengklasifikasi KNN Mode Berbasis Aturan Memory Based Reasoning Support Vector Machine
  • 10. Pohon keputusan tool yang populer untuk klasifikasi dan prediksi. Pohon keputusan adalah struktur pohon seperti diagram alur, di mana setiap simpul internal menunjukkan pengujian pada atribut, setiap cabang mewakili hasil pengujian, dan setiap simpul daun (simpul terminal) memegang label kelas. Pohon Keputusan untuk konsep bermain tenis Pohon Keputusan (Decision Tree)
  • 11. Pohon Keputusan untuk konsep bermain tenis
  • 12. Konstruksi Pohon Keputusan Sebuah pohon dapat "dipelajari" dengan membagi set sumber menjadi subset berdasarkan tes nilai atribut. Proses ini diulang pada setiap subset turunan secara rekursif yang disebut partisi rekursif (recursive partitioning). Rekursi selesai ketika subset pada node semua memiliki nilai variabel target yang sama, atau ketika dilakukan pemisahan tidak lagi menambah nilai prediksi. Konstruksi pengklasifikasi pohon keputusan tidak memerlukan pengetahuan domain atau pengaturan parameter, dan oleh karena itu sesuai untuk penemuan pengetahuan eksplorasi. Pohon keputusan dapat menangani data berdimensi tinggi. Secara umum pengklasifikasi pohon keputusan memiliki akurasi yang baik. Induksi pohon keputusan adalah pendekatan induktif yang khas untuk mempelajari pengetahuan tentang klasifikasi.
  • 13. Pohon Keputusan untuk konsep bermain tenis Pohon keputusan pada gambar di samping mengklasifikasikan pagi tertentu berdasarkan cuaca apakah cocok untuk bermain tenis dan mengembalikan klasifikasi yang terkait dengan daun tertentu. (dalam hal ini Ya atau Tidak).
  • 14. Representasi Pohon Keputusan Instance (Outlook = Sunny, Temperature = Hot, Humidity = High, Wind = Strong ) diurutkan ke bawah cabang paling kiri dari pohon keputusan dan diklasifikasikan sebagai negative instance (tidak mencukung pada data).
  • 15. Pohon Keputusan untuk konsep bermain tenis (Outlook = Sunny ^ Humidity = Normal) v (Outlook = Overcast) v (Outlook = Rain ^ Wind = Weak)
  • 16. Gini Index Indeks Gini adalah skor yang mengevaluasi seberapa akurat pemisahan di antara kelompok yang diklasifikasikan. Indeks Gini mengevaluasi skor dalam kisaran antara 0 dan 1, di mana 0 adalah ketika semua pengamatan termasuk dalam satu kelas, dan 1 adalah distribusi acak dari elemen-elemen dalam kelas. Indeks Gini adalah metrik evaluasi yang akan kita gunakan untuk mengevaluasi Model Pohon Keputusan kita.
  • 17. Kekuatan Pendekatan Pohon Keputusan Pohon keputusan mampu menghasilkan aturan yang dapat dimengerti. Pohon keputusan melakukan klasifikasi tanpa memerlukan banyak perhitungan. Pohon keputusan mampu menangani variabel kontinu dan kategorikal. Pohon keputusan memberikan indikasi yang jelas tentang bidang mana yang paling penting untuk prediksi atau klasifikasi.
  • 18. Kelemahan Pendekatan Pohon Keputusan Pohon keputusan kurang tepat untuk tugas estimasi di mana tujuannya adalah untuk memprediksi nilai atribut kontinu. Pohon keputusan rentan terhadap kesalahan dalam masalah klasifikasi dengan banyak kelas dan jumlah contoh pelatihan yang relatif kecil. Proses menumbuhkan pohon keputusan secara komputasi mahal. Algoritma pemangkasan (pruning algorithm) juga bisa mahal karena banyak kandidat subpohon harus dibentuk dan dibandingkan.
  • 19. Do you have any questions?
  • 20. Naive Bayes Classifier Klasifikasi D A T A M I N I N G - 2 0 2 2
  • 21. Alur Kerja Klasifikasi Classifier melatih modelnya pada dataset yang diberikan Fase Pembelajaran Menguji kinerja classifier Fase Evaluasi Kinerja dievaluasi berdasarkan berbagai parameter seperti: akurasi, kesalahan, presisi, dan ingatan.
  • 23. Naive Bayes Classifier 01 02 03 Teknik klasifikasi statistik berdasarkan Teorema Bayes. Salah satu algoritma supervised yang paling sederhana. PresentaNaive Bayes adalah algoritma klasifikasi yang paling mudah dan cepat, yang cocok untuk sejumlah besar data. Pengklasifikasi Naive Bayes berhasil digunakan di berbagai aplikasi seperti penyaringan spam, klasifikasi teks, analisis sentimen, dan sistem pemberi rekomendasi. Pengklasifikasi Naive Bayes mengasumsikan bahwa efek dari fitur tertentu dalam sebuah kelas tidak bergantung pada fitur lainnya. Misalnya, seorang pemohon pinjaman yang diinginkan atau tidak tergantung pada pendapatannya, pinjaman sebelumnya dan riwayat transaksi, usia, dan lokasi. Sekalipun fitur-fitur ini saling bergantung, fitur-fitur ini tetap dianggap independen. Asumsi ini menyederhanakan perhitungan, dan karena itu dianggap naif.
  • 25. Cara Naïve Bayes Classifier Bekerja Diberikan contoh kondisi cuaca dan berolahraga. Anda perlu menghitung probabilitas berolahraga. Sekarang, Anda perlu mengklasifikasikan apakah pemain akan bermain atau tidak berdasarkan kondisi cuaca.
  • 26. Menghitung probabilitas bermain saat cuaca mendung. Hitung prior probability untuk label kelas yang diberikan. Temukan probabilitas Kemungkinan dengan setiap atribut untuk setiap kelas. Masukkan nilai ini ke dalam Formula Bayes dan hitung probabilitas posterior. Lihat kelas mana yang memiliki probabilitas lebih tinggi, mengingat inputnya milik kelas probabilitas lebih tinggi.
  • 27. Pendekatan Pertama (Dalam hal fitur tunggal) 1. Hitung prior probability 2. Hitung probabilitas posterior 3. Masukkan probabilitas Prior dan Posterior dalam persamaan Kemungkinan bermain: P(Yes|Overcast)=P(Overcast|Yes)P(Yes)/P(Overcast) P (Overcast) = 4/14 = 0,29 P (Yes) = 9/14 = 0,64 P (Overcast | Yes) = 4/9 = 0,44 P (Yes | Overcast) = 0.44 * 0.64 / 0.29 = 0.97
  • 28. Pendekatan Pertama (Dalam hal fitur tunggal) 1. Hitung prior probability 2. Hitung probabilitas posterior 3. Masukkan probabilitas Prior dan Posterior dalam persamaan Kemungkinan tidak bermain: P(No|Overcast)=P(Overcast|No)P(No)/P(Overcast) P (Overcast) = 4/14 = 0,29 P (No) = 5/14 = 0.36 P (Overcast | No) = 0/9 = 0 P (No | Overcast) = 0 * 0.36/ 0.29 = 0 Probabilitas kelas 'Ya' lebihtinggi. Jadi Anda bisa menentukan di sini jika cuaca mendung maka pemain akan memainkan olahraga tersebut.
  • 29. Pendekatan Kedua (Dalam hal beberapa fitur) Menghitung probabilitas bermain saat cuaca mendung, dan suhu sedang.
  • 30. Pendekatan Kedua (Dalam hal beberapa fitur) Kemungkinan bermain: P(Play= Yes | Weather=Overcast, Temp=Mild) = P(Weather=Overcast, Temp=Mild | Play=Yes)P(Play=Yes)..........(1) P(Weather=Overcast,Temp=Mild|Play=Yes)=P(Overcast|Yes)P(Mild|Yes)………..(2) 1. Hitung prior probability P (Yes) = 9/14 = 0.64 2. Hitung probabilitas posterior P (Overcast | Yes) = 4/9 = 0.44 P(Mild |Yes) = 4/9 = 0.44 3. Masukkan probabilitas Prior dan Posterior dalam persamaan 2 P(Weather=Overcast, Temp=Mild | Play= Yes) = 0.44 * 0.44 = 0.1936 4. Masukkan probabilitas Prior dan Posterior dalam persamaan 1 P(Play= Yes | Weather=Overcast, Temp=Mild) = 0.1936*0.64 = 0.124
  • 31. Pendekatan Kedua (Dalam hal beberapa fitur) Kemungkinantidakbermain?
  • 32. Pendekatan Kedua -(Dalam hal beberapa fitur) Kemungkinantidakbermain: P(Play= No | Weather=Overcast, Temp=Mild) = P(Weather=Overcast, Temp=Mild | Play= No)P(Play=No) ..........(3) P(Weather=Overcast, Temp=Mild | Play= No)= P(Weather=Overcast |Play=No) P(Temp=Mild | Play=No) ………..(4) 1. Hitung prior probability P (No) = 5/14 = 0.36 2. Hitung probabilitas posterior P (Overcast | No) = 0/9 = 0 P(Temp=Mild | Play=No)=2/5=0.4 3. Masukkan probabilitas Prior dan Posterior dalam persamaan 4 P(Weather=Overcast, Temp=Mild | Play= No) = 0 * 0.4= 0 4. Masukkan probabilitas Prior dan Posterior dalam persamaan 3 P(Play= No | Weather=Overcast, Temp=Mild) = 0*0.36=0
  • 33. Dataset Terdapat data baru: X =(umur<=30, Pendapatan = sedang, Mhs = ya, Rating kredit = Fair) Apakah dia harus membeli komputer atau tidak?
  • 34. Dataset P(Yes) = 9/14 = 0.64 P(No) = 5/14 = 0.36 X =(umur<=30, Pendapatan = sedang, Mhs = ya, Rating kredit = Fair)
  • 35. Dataset P(umur<=30 | beli_komputer=ya) = 2/9 = 0.22 P(umur<=30| beli_komputer=tdk)= 3/5 = 0.6 X =(umur<=30, Pendapatan = sedang, Mhs = ya, Rating kredit = Fair)
  • 36. Dataset P(pendapatan=sedang| beli_komputer=ya) = 4/9= 0.44 P(pendapatan=sedang| beli_komputer=tdk) = 2/5=0.4 X =(umur<=30, Pendapatan = sedang, Mhs = ya, Rating kredit = Fair)
  • 37. Dataset P(mhs=ya | beli_komputer=ya) = 6/9 = 0.67 P(mhs=ya | beli_komputer=tdk) = 1/5 = 0.2 X =(umur<=30, Pendapatan = sedang, Mhs = ya, Rating kredit = Fair)
  • 38. Dataset P(rating kredit=fair | beli_komputer=ya) = 6/9 = 0.67 P(rating kredit=fair | beli_komputer=tdk) =2/5 = 0.4 X =(umur<=30, Pendapatan = sedang, Mhs = ya, Rating kredit = Fair)
  • 39. Dataset P(X|beli_computer = “ya”) = 0.222 X 0.444 X 0.667 X 0.667 = 0.044 P(X|beli_computer = “tdk”) = 0.600 x 0.400 x 0.200 x 0.400 = 0.019
  • 40. Dataset P(X|beli_computer = “ya”) = 0.222 X 0.444 X 0.667 X 0.667 = 0.044 P(X|beli_computer = “tdk”) = 0.600 x 0.400 x 0.200 x 0.400 = 0.019 P(X|beli_computer=“ya”) * P(beli_computer=“ya”) 0.044 * (9/14) = 0.028 P(X|beli_computer=“tdk”) * P(beli_computer=“tdk”) 0.019 * (5/14) = 0.007
  • 41. Dataset P(X|beli_computer=“ya”) * P(beli_computer=“ya”) 0.044 * (9/14) = 0.028 P(X|beli_computer=“tdk”) * P(beli_computer=“tdk”) 0.019 * (5/14) = 0.007