Klasifikasi - Algoritma Naive Bayes

Klasifikasi
Elvi Rahmi, S.T., M.Kom.
elvizasri@gmail.com
Data Mining

Klasifikasi
Carolus Linnaeus.
Dikenal sebagai bapak klasifikasi.
Orang yang pertama kali
mengklasifikasikan spesies
berdasarkan karakteristik fisik.
Carolus von Linne
(Carolus Linnaeus)

Mempelajari sekumpulan data sehingga dihasilkan aturan
yang bisa mengklasifikasi atau mengenali data-data baru
yang belum pernah dipelajari.
Proses untuk menyatakan suatu objek data sebagai salah
satu kategori (kelas) yang telah didefinisikan sebelumnya
(Zaki et al. 2013).
Klasifikasi
Definisi
Klasifikasi banyak digunakan dalam berbagai aplikasi, misal:
klasifikasi profil pelanggan, deteksi kecurangan (fraud
detection), diagnosis medis, prediksi penjualan, dan
sebagainya.

Komponen Utama
Proses Klasifikasi
Variabel bebas suatu model berdasarkan dari karakteristik
atribut data yang diklasifikasi.
Misal: merokok, minum-minuman beralkohol, tekanan
darah, status perkawinan.
Prediktor
Variabel tidak bebas yang merupakan label dari hasil
klasifikasi.
Misal: kelas loyalitas pelanggan.
Kelas
Sekumpulan data lengkap yang berisi kelas dan prediktor
untuk dilatih agar model dapat mengelompokkan ke dalam
kelas yang tepat.
Misal: grup pasien yang telah ditest terhadap serangan
jantung, grup pelanggan di suatu supermarket.
Set Data Pelatihan
Berisi data-data baru yang akan dikelompokkan oleh model
guna mengetahui akurasi dari model yang telah dibuat.
Set Data Uji
1
2
3
4

Teknik Klasifikasi
Teknik Klasifikasi Lokal
Hanya memperhitungkan sebagian
data latih.
Teknik Klasifikasi Global
Memperhitungkan semua data
latih.

Berdasarkan pengetahuan seorang pakar
(ahli).
Menggunakan teknik pembelajaran dalam
bidang machine learning.
Bagaimana cara
membangun model
klasifikasi (classifier)?

Pembelajaran Terpandu (supervised learning)
Memprediksi keluaran dari masukan tertentu.
Pembelajaran tak Terpandu (supervised learning)
Mengelompokkan kelas-kelas
dalam pola-pola tertentu

Bagaimana menentukan suatu
model baik atau buruk?
Akurasi Prediksi, menentukan seberapa akurat suatu model dalam
memprediksi keluaran.
Kecepatan, menentukan seberapa cepat suatu model dalam memproses
data masukan.
Robustness, menggambarkan kemampuan suatu model melakukan
prediksi yang akurat walau dalam kondisi ekstrim dan banyak gangguan
yang terjadi.
Skalabilitas, kemampuan suatu model memproses data baik dalam
ukuran yang lebih besar maupun data dari bidang lain yang berbeda.
Interpretability, menggambarkan kemudahan suatu model untuk
dipahami dan diinterpretasikan.
Kesederhanaan, merupakan sifat yang cenderung dipilih untuk
menyelesaikan suatu permasalahan.

Pohon Keputusan
Pengklasifikasi Bayes /Naive Bayes
Jaringan Syaraf Tiruan
Analisis Statistik
Algoritma Genetik
Metode/Model untuk Menyelesaikan Kasus Klasifikasi
(Sumathi, 2006)
Rough Sets
Pengklasifikasi KNN
Mode Berbasis Aturan
Memory Based Reasoning
Support Vector Machine

Pohon keputusan tool yang populer untuk
klasifikasi dan prediksi. Pohon keputusan
adalah struktur pohon seperti diagram alur,
di mana setiap simpul internal
menunjukkan pengujian pada atribut, setiap
cabang mewakili hasil pengujian, dan setiap
simpul daun (simpul terminal) memegang
label kelas.
Pohon Keputusan untuk konsep bermain tenis
Pohon Keputusan (Decision Tree)

Konstruksi Pohon Keputusan
Sebuah pohon dapat "dipelajari" dengan membagi set sumber menjadi subset berdasarkan tes
nilai atribut. Proses ini diulang pada setiap subset turunan secara rekursif yang disebut partisi
rekursif (recursive partitioning).
Rekursi selesai ketika subset pada node semua memiliki nilai variabel target yang sama, atau
ketika dilakukan pemisahan tidak lagi menambah nilai prediksi.
Konstruksi pengklasifikasi pohon keputusan tidak memerlukan pengetahuan domain atau
pengaturan parameter, dan oleh karena itu sesuai untuk penemuan pengetahuan eksplorasi.
Pohon keputusan dapat menangani data berdimensi tinggi.
Secara umum pengklasifikasi pohon keputusan memiliki akurasi yang baik. Induksi pohon
keputusan adalah pendekatan induktif yang khas untuk mempelajari pengetahuan tentang
klasifikasi.

Pohon keputusan pada gambar di
samping mengklasifikasikan pagi
tertentu berdasarkan cuaca apakah
cocok untuk bermain tenis dan
mengembalikan klasifikasi yang
terkait dengan daun tertentu. (dalam
hal ini Ya atau Tidak).

Representasi
Pohon Keputusan
Instance
(Outlook = Sunny, Temperature = Hot, Humidity = High,
Wind = Strong )
diurutkan ke bawah cabang paling kiri dari pohon
keputusan dan diklasifikasikan sebagai negative
instance (tidak mencukung pada data).

(Outlook = Sunny ^ Humidity = Normal) v (Outlook = Overcast) v (Outlook = Rain ^ Wind = Weak)

Gini Index
Indeks Gini adalah skor yang mengevaluasi seberapa akurat pemisahan di antara
kelompok yang diklasifikasikan. Indeks Gini mengevaluasi skor dalam kisaran antara 0
dan 1, di mana 0 adalah ketika semua pengamatan termasuk dalam satu kelas, dan 1
adalah distribusi acak dari elemen-elemen dalam kelas.
Indeks Gini adalah metrik evaluasi yang akan kita gunakan untuk mengevaluasi Model
Pohon Keputusan kita.

Kekuatan Pendekatan Pohon Keputusan
Pohon keputusan mampu menghasilkan aturan yang
dapat dimengerti.
Pohon keputusan melakukan klasifikasi tanpa
memerlukan banyak perhitungan.
Pohon keputusan mampu menangani variabel kontinu
dan kategorikal.
Pohon keputusan memberikan indikasi yang jelas tentang
bidang mana yang paling penting untuk prediksi atau
klasifikasi.

Kelemahan Pendekatan Pohon Keputusan
Pohon keputusan kurang tepat untuk tugas estimasi di
mana tujuannya adalah untuk memprediksi nilai atribut
kontinu.
Pohon keputusan rentan terhadap kesalahan dalam
masalah klasifikasi dengan banyak kelas dan jumlah
contoh pelatihan yang relatif kecil.
Proses menumbuhkan pohon keputusan secara
komputasi mahal. Algoritma pemangkasan (pruning
algorithm) juga bisa mahal karena banyak kandidat
subpohon harus dibentuk dan dibandingkan.

Naive Bayes
Classifier
Klasifikasi
D A T A M I N I N G - 2 0 2 2

Alur Kerja Klasifikasi
Classifier melatih
modelnya pada
dataset yang diberikan
Fase Pembelajaran
Menguji kinerja classifier
Fase Evaluasi
Kinerja dievaluasi berdasarkan berbagai parameter seperti:
akurasi, kesalahan, presisi, dan ingatan.

Naive Bayes Classifier
01
02
03
Teknik klasifikasi statistik berdasarkan Teorema Bayes.
Salah satu algoritma supervised yang paling sederhana.
PresentaNaive Bayes adalah algoritma klasifikasi yang paling mudah dan
cepat, yang cocok untuk sejumlah besar data.
Pengklasifikasi Naive Bayes berhasil digunakan di berbagai aplikasi seperti
penyaringan spam, klasifikasi teks, analisis sentimen, dan sistem pemberi
rekomendasi.
Pengklasifikasi Naive Bayes mengasumsikan bahwa efek dari fitur tertentu
dalam sebuah kelas tidak bergantung pada fitur lainnya.
Misalnya, seorang pemohon pinjaman yang diinginkan atau tidak tergantung pada
pendapatannya, pinjaman sebelumnya dan riwayat transaksi, usia, dan lokasi. Sekalipun
fitur-fitur ini saling bergantung, fitur-fitur ini tetap dianggap independen. Asumsi ini
menyederhanakan perhitungan, dan karena itu dianggap naif.

Cara Naïve Bayes
Classifier Bekerja
Diberikan contoh kondisi cuaca dan
berolahraga. Anda perlu menghitung
probabilitas berolahraga. Sekarang,
Anda perlu mengklasifikasikan apakah
pemain akan bermain atau tidak
berdasarkan kondisi cuaca.

Menghitung probabilitas bermain saat
cuaca mendung.
Hitung prior probability untuk label kelas yang diberikan.
Temukan probabilitas Kemungkinan dengan setiap atribut untuk setiap kelas.
Masukkan nilai ini ke dalam Formula Bayes dan hitung probabilitas posterior.
Lihat kelas mana yang memiliki probabilitas lebih tinggi, mengingat inputnya milik
kelas probabilitas lebih tinggi.

Pendekatan Pertama
(Dalam hal fitur tunggal)
1. Hitung prior probability
2. Hitung probabilitas posterior
3. Masukkan probabilitas Prior dan Posterior dalam persamaan
Kemungkinan bermain:
P(Yes|Overcast)=P(Overcast|Yes)P(Yes)/P(Overcast)
P (Overcast) = 4/14 = 0,29
P (Yes) = 9/14 = 0,64
P (Overcast | Yes) = 4/9 = 0,44
P (Yes | Overcast) = 0.44 * 0.64 / 0.29 = 0.97

Pendekatan Pertama
(Dalam hal fitur tunggal)
3. Masukkan probabilitas Prior dan Posterior dalam persamaan
Kemungkinan tidak bermain:
P(No|Overcast)=P(Overcast|No)P(No)/P(Overcast)
P (Overcast) = 4/14 = 0,29
P (No) = 5/14 = 0.36
P (Overcast | No) = 0/9 = 0
P (No | Overcast) = 0 * 0.36/ 0.29 = 0
Probabilitas kelas 'Ya' lebihtinggi. Jadi Anda bisa menentukan di sini
jika cuaca mendung maka pemain akan memainkan olahraga tersebut.

Pendekatan Kedua
(Dalam hal
beberapa fitur)
Menghitung probabilitas bermain saat
cuaca mendung, dan suhu sedang.

Pendekatan Kedua
(Dalam hal beberapa fitur)
Kemungkinan bermain:
P(Play= Yes | Weather=Overcast, Temp=Mild) = P(Weather=Overcast, Temp=Mild |
Play=Yes)P(Play=Yes)..........(1)
P(Weather=Overcast,Temp=Mild|Play=Yes)=P(Overcast|Yes)P(Mild|Yes)………..(2)
P (Yes) = 9/14 = 0.64
P (Overcast | Yes) = 4/9 = 0.44 P(Mild |Yes) = 4/9 = 0.44
3. Masukkan probabilitas Prior dan Posterior dalam persamaan 2
P(Weather=Overcast, Temp=Mild | Play= Yes) = 0.44 * 0.44 = 0.1936
P(Play= Yes | Weather=Overcast, Temp=Mild) = 0.1936*0.64 = 0.124

Pendekatan Kedua
(Dalam hal beberapa fitur)
Kemungkinantidakbermain?

Pendekatan Kedua -(Dalam hal beberapa fitur)
Kemungkinantidakbermain:
P(Play= No | Weather=Overcast, Temp=Mild) = P(Weather=Overcast, Temp=Mild | Play=
No)P(Play=No) ..........(3)
P(Weather=Overcast, Temp=Mild | Play= No)= P(Weather=Overcast |Play=No) P(Temp=Mild |
Play=No) ………..(4)
P (No) = 5/14 = 0.36
P (Overcast | No) = 0/9 = 0 P(Temp=Mild | Play=No)=2/5=0.4
P(Weather=Overcast, Temp=Mild | Play= No) = 0 * 0.4= 0
P(Play= No | Weather=Overcast, Temp=Mild) = 0*0.36=0

Dataset
Terdapat data baru:
X =(umur<=30, Pendapatan = sedang,
Mhs = ya, Rating kredit = Fair)
Apakah dia harus membeli komputer
atau tidak?

Dataset
P(Yes) = 9/14 = 0.64
P(No) = 5/14 = 0.36
X =(umur<=30, Pendapatan = sedang, Mhs = ya, Rating kredit = Fair)

Dataset
P(umur<=30 | beli_komputer=ya) = 2/9
= 0.22
P(umur<=30| beli_komputer=tdk)= 3/5
= 0.6

Dataset
P(pendapatan=sedang|
beli_komputer=ya) = 4/9= 0.44
P(pendapatan=sedang|
beli_komputer=tdk) = 2/5=0.4

Dataset
P(mhs=ya | beli_komputer=ya) = 6/9 =
0.67
P(mhs=ya | beli_komputer=tdk) = 1/5 =
0.2

Dataset
P(rating kredit=fair | beli_komputer=ya)
= 6/9 = 0.67
P(rating kredit=fair | beli_komputer=tdk)
=2/5 = 0.4

Dataset
P(X|beli_computer = “ya”) = 0.222 X 0.444 X 0.667 X 0.667 = 0.044
P(X|beli_computer = “tdk”) = 0.600 x 0.400 x 0.200 x 0.400 = 0.019

Dataset
P(X|beli_computer = “ya”) = 0.222 X 0.444 X 0.667 X 0.667 = 0.044
P(X|beli_computer = “tdk”) = 0.600 x 0.400 x 0.200 x 0.400 = 0.019
P(X|beli_computer=“ya”) * P(beli_computer=“ya”) 0.044 * (9/14) = 0.028
P(X|beli_computer=“tdk”) * P(beli_computer=“tdk”) 0.019 * (5/14) = 0.007

Dataset
P(X|beli_computer=“ya”) * P(beli_computer=“ya”) 0.044 * (9/14) = 0.028
P(X|beli_computer=“tdk”) * P(beli_computer=“tdk”) 0.019 * (5/14) = 0.007

Klasifikasi - Algoritma Naive Bayes

More Related Content

What's hot (20)

Similar to Klasifikasi - Algoritma Naive Bayes (20)

More from Elvi Rahmi (14)

Recently uploaded (11)

Klasifikasi - Algoritma Naive Bayes