KEBAIKAN METODE KLASIFIKASI
MULTICLASS MENGGUNAKAN
HOLD-OUT METHOD DAN CROSS
VALIDATION
MUTHIA PANDAN SARI
06211540000122
DATA M INING A| KS 184645
OUTLINE
PENDAHULUAN
METODOLOGI
PENELITIAN
ANALISIS
DAN
PEMBAHASAN
KESIMPULAN
DAN
SARAN
OUTLINE
PENDAHULUAN
PENDAHULUAN
KAMA
CANADIAN
ROSA
PENDAHULUAN
METODOLOGI
PENELITIAN
METODOLOGI PENELITIAN
Sumber Data
Variabel Penelitian
Struktur Data
Langkah Analisis
Sumber Data
Sumber data pada penelitian ini merupakan data sekunder.
Data sekunder yang digunakan adalah Seeds Data Set UCI
Machine Learning sebanyak 210 data. Data diambil pada hari
Selasa 4 Desember 2018.
Variabel Penelitian
Variabel independen yang digunakan pada penelitian ini
sebanyak 7 variabel dan 1 variabel dependen. Variabel
penelitian yang akan digunakan ditampilkan pada Tabel 2.1.
Variabel Nama Keterangan
X1 Area Numerik
X2 Perimeter Numerik
X3 Compactness Numerik
X4 Length of kernel Numerik
X5 Width of kernel Numerik
X6 Asymmetry Coefficient Numerik
X7 Length of kernel groove Numerik
Y Class Kategorik
Tabel 2.1 Variabel Penelitian
Struktur Data
Tabel 2.2 Struktur Data
No.
area
(A)
perimet
er (P)
Compactne
ss
C=4*pi*A/P
^2
length
of
kernel
width
of
kernel
asymmet
ry
coefficien
t
length
of
kernel
groove
class
1 1 X1,1 X1,2 X1,3 X1,4 X1,5 X1,6 X1,7
2 2 X2,1 X2,2 X2,3 X2,4 X2,5 X2,6 X2,7
3 3 X3,1 X3,2 X3,3 X3,4 X3,5 X3,6 X3,7
⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞
209 209 X209,1 X209,2 X209,3 X209,4 X209,5 X209,6 X209,7
210 210 X210,1 X210,2 X210,3 X210,4 X210,5 X210,6 X210,7
Langkah Analisis
1. Import libraries
2. Fetching the dataset
3. Extracing features dan 0utput
4. Feature Scaling
5. Deteksi outlier
6. Menganalisis statistika deskriptif
7. Membagi data berdasarkan data training dan testing
8. Feature Importance
9. Melakukan klasifikasi dengan berbagai metode
10. Memilih metode klasifikasi terbaik
METODOLOGI
PENELITIAN ANALISIS
DAN
PEMBAHASAN
ANALISIS DAN PEMBAHASAN
Preprocessing Data
Eksplorasi Data
Feature Engineering
Feature Selection
Metode Klasifikasi Terbaik (Hold-Out Method
& Cross Validation)
Preprocessing Data (1/3)
1) Deteksi dan Mengimputasi Missing Value
syntax : data.isnull().any() didapatkan hasil pada Tabel
3.1
Variabel Output
area (A) False
perimeter (P) False
Compactness C=4*pi*A/P^2 False
length of kernel False
width of kernel False
asymmetry coefficient False
length of kernel groove False
Tabel 3.1 Hasil Output Deteksi Missing Value
Preprocessing Data (2/3)
2) Transformasi Data
Menggunakan normalisasi data, yang hasilnya akan di
sajikan pada Tabel 3.2
Tabel 3.2 Hasil Normalisasi Data
No. area (A)
perimeter
(P)
Compactness
C=4*pi*A/P^2
length of
kernel
width of
kernel
asymmetry
coefficient
length of
kernel
groove
class
1 0.663193 0.038481 0.871 0.075674 0.10044 0.116085 0.125965 1
2 0.664621 0.039699 0.8811 0.080599 0.109032 0.130193 0.132817 1
3
0.657453 0.040111 0.905 0.078508 0.101278 0.118052 0.134921 1
⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞
209 0.601162 0.038168 0.8521 0.070086 0.588453 0.50306 0.361622 3
210 0.598054 0.036259 0.8684 0.061651 0.314149 0.261853 0.334589 3
Preprocessing Data (3/3)
3) Deteksi dan Mengatasi Outlier
Gambar 1. Hasil Box-Plot
Gambar 2. Hasil Pengujian Outlier
Eksplorasi Data (1/2)
area (A)
perimeter
(P)
length of
kernel
width of
kernel
asymmetry
coefficient
length of
kernel
groove
count 210 210 210 210 210 210
mean 0.644492 0.037266 0.870999 0.069221 0.579524 0.524116
std 0.045464 0.001711 0.023629 0.006519 0.212518 0.210799
min 0.552308 0.032966 0.8081 0.050529 0 0
25% 0.604459 0.03617 0.8569 0.065028 0.426682 0.377491
50% 0.65053 0.037128 0.87345 0.069304 0.587317 0.523231
75% 0.681539 0.038596 0.887775 0.074206 0.739336 0.684705
max 0.716325 0.041044 0.9183 0.083519 1 1
Tabel 3.3 Statistika Deskriptif
Eksplorasi Data (2/2)
Feature Selection (1/3)
Gambar 3. Scatterplot Setiap Variabel
Pada Gambar 3 dapat
dilihat bahwa pada variabel
area (A) dan perimeter (P)
terdapat hubungan yang
berbanding lurus dan
memiliki nilai yang cukup
tinggi, hal ini ditandai
dengan plot yang terbentuk
cenderung mengikuti garis
linear.
Feature Selection (2/3)
Gambar 4. Nilai Korelasi Setiap Variabel
Berdasarkan Gambar
4 dapat dilihat bahwa
beberapa variabel
memiliki korelasi
diatas 0.9 sehingga
perlu dihilangkan
variabel yang memiliki
nilai korelasi diatas
0.9. Untuk memilih
variabel yang
dihilangkan
menggunakan feature
importance.
Feature Selection (3/3)
Variabel Nilai
perimeter (P) 0.320051
area (A) 0.221799
length of kernel groove 0.141619
width of kernel 0.116546
asymmetry coefficient 0.075706
length of kernel 0.067588
Compactness C=4*pi*A/P^2 0.056691
Tabel 3.4 Nilai Feature Importance
Batasan jika variabel memiliki nilai feature importance lebih dari 0.05
maka variabel tersebut tidak dihilangkan. Namun dikarenakan nilai
compactness merupakan operasi matematika dari area (A) dan perimeter
(P), maka variabel compactness dihilangkan dari variabel prediktor.
Metode Klasifikasi Terbaik (1/2)
1) Hold-Out Method
Kebaikan metode klasifikasi dengan menggunakan Hold-Out
Method akan disajikan pada Tabel 3.5
Tabel 3.5 Hasil Hold-Out Method
No. Metode Akurasi Presisi Recall
F1
score
1 Decision Tree 0.952381 0.948718 0.968254 0.955556
2 Linear SVC 0.952381 0.948718 0.968254 0.955556
3 Ridge Classifier 0.952381 0.948718 0.968254 0.955556
4 Logistic Regression Multiclass 0.928571 0.932051 0.934921 0.930288
5 Random Forest 0.904762 0.90641 0.904618 0.90251
6 Gaussian Process Classifier 0.904762 0.90641 0.904618 0.90251
7 Naive Bayes 0.880952 0.888095 0.871284 0.871906
8 KNN Classifier 0.880952 0.887218 0.888745 0.882456
Metode Klasifikasi Terbaik (2/2)
2) Cross Validation
Untuk menentukan mana klasifikasi yang terbaik dapat juga
menggunakan nilai cross validation yang akan disajikan pada Tabel 3.6
Tabel 3.6 Hasil Cross Validation
No. Metode
Cross
Validation
1 Ridge Classifier 0.966667
2 Linear SVC 0.952381
3 Logistic Regression Multiclass 0.92381
4 Random Forest 0.904762
5 KNN Classifier 0.904762
6 Gaussian Process Classifier 0.9
7 Naive Bayes 0.895238
8 Decision Tree 0.895238
Hasil Metode Klasifikasi Terbaik
Ridge Classifier, Linear SVC, dan Decision Tree
Gambar 4. Hasil Klasifikasi
Hyperparameter Tuning
param = {
'C': [0.1,0.8,0.9,1,1.1,1.2,1.3,1.4]
}
gridsvc = GridSearchCV(SVC, param_grid=param, scoring='accuracy', cv=10)
gridsvc.fit(X_train, y_train)
gridsvc.best_params_
ANALISIS
DAN
PEMBAHASAN
KESIMPULAN
DAN
SARAN
Kesimpulan
1. Variabel yang dihilangkan adalah compactness karena variabel
tersebut memiliki hubungan dengan area (A) dan perimeter (P)
2. Metode pengklasifikasian terbaik untuk seeds data set adalah
Ridge Classifier, Linear SVC, dan Decision Tree dengan nilai cross
validation yang membedakan. Masing-masing nilai cross
validation untuk ketiga metode adalah 0.966667, 0.952381,
0.895238
3. Hasil klasifikasi pada metode memiliki hasil yang sama dalam
pengklasifikasian jenis gandum, yaitu ada sebanyak 11 observasi
yang tepat diklasifikasikan pada jenis gandum Kama, jenis
gandum Rosa sebanyak 10 observasi, dan untuk jenis gandum
Canadian ada sebanyak 19 observasi. Terdapat 2 observasi
pada jenis gandum Canadian yang salah diklasifikasikan dan
masuk kedalam jenis gandum Kama
Saran
Berdasarkan hasil analisis terdapat hubungan yang tinggi antar
variabel prediktor, sehingga perlu di lakukan feature extraction
daripada menggunakan feature selection. Karna jika menggunakan
feature extraction variabel prediktor tidak dihapus melainkan di
lebur menjadi satu kedalam variabel yang baru, sehingga nilai
akurasi dan presisi dapat meningkat. Salahs satu feature extraction
yang mungkin dapat dilakukan untuk penelitian selanjutnya adalah
dengan Principal Component Analysis (PCA).
Daftar Pustaka
T. Nurmala, Sumber Karbohidrat Utama, Jakarta: Rineka Cipta, 1998.
S. Wallace, "World Wheat Production to Drop 0.9 % in 2010-11," BloombergBusinessWeek, 2010.
B. Blog, "Data Preparation - Pengertian, Alasan dan Langkah-Langkah yang Dilakukan," 17 09 2012. [Online].
Available: http://bow-masbow.blogspot.com/2010/11/data-preparation-pengertian-alasan-dan.html.
R. Agarwal, "Multiclass Classification using Random Forest on Scikit-Learn Library," 2018. [Online]. Available:
https://www.codementor.io/agarrahul01/multiclass-classification-using-random-forest-on-scikit-learn-
library-hkk4lwawu. [Accessed 6 12 2018].
J. Read, B. Pfahringer, G. Holmes and E. Frank, "Classifier Chains for Multi-label Classification," 2009. [Online].
Available: https://scikit-learn.org/stable/modules/multiclass.html. [Accessed 6 12 2018].
s. learn, "Decision Tree Classifier," 2018. [Online]. Available: https://scikit-
learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTre
eClassifier. [Accessed 6 12 2018].
s. learn, "Feature Selection," 2018. [Online]. Available: https://scikit-
learn.org/stable/modules/feature_selection.html. [Accessed 6 12 2018].
s. learn, "Preprocessing Data," 2018. [Online]. Available: https://scikit-
learn.org/stable/modules/preprocessing.html. [Accessed 6 12 2018].
S. Overflow, "sklearn metrics for multiclass classification," 18 9 2017. [Online]. Available:
https://stackoverflow.com/questions/45890328/sklearn-metrics-for-multiclass-classification.
U. M. L. Repository, "seeds data set," 29 09 2012. [Online]. Available:
https://archive.ics.uci.edu/ml/datasets/seeds#.

More Related Content

PPTX
PPT Analisis Regresi.pptx
DOCX
Distribusi binomial, poisson dan normal
PPTX
Uji normalitas dan homogenitas
PPTX
PPT UJI NORMALITAS
PPTX
Sampling
PDF
Beberapa distribusi peluang diskrit (1)
PPT
Statistika Probabilitas
PPTX
Teori pendugaan statistik presentasi
PPT Analisis Regresi.pptx
Distribusi binomial, poisson dan normal
Uji normalitas dan homogenitas
PPT UJI NORMALITAS
Sampling
Beberapa distribusi peluang diskrit (1)
Statistika Probabilitas
Teori pendugaan statistik presentasi

What's hot (20)

PPT
Mata Kuliah Metode Penelitian I.ppt
PPT
Analisis jalur kel 4
PDF
Distribusi poisson
PDF
Materi P3_Distribusi Normal
PDF
Manajemen sumber daya manusia
PPT
Distribusi sampling
PPTX
ITP UNS SEMESTER 2 Integer programming
PPT
LKMM-TD: AKL (Analisis Kondisi Lingkungan) by Mudafiq
PDF
Klasifikasi Data dan Tipe/Skala Pengukuran Data
DOCX
Taraf signifikan
PPT
Cluster & multi satge random sampling
DOCX
Peubah acak diskrit dan kontinu
PDF
Algoritma flowchart
PPTX
Teknik pengambilan sampel
PPTX
Ppt korelasi sederhana
PPT
Game theory teori permainan
PPT
relasi himpunan
DOC
Dasar dasar matematika teknik optimasi (matrix hessian)
PDF
Minggu 10_Teknik Analisis Regresi
DOCX
Distribusi Peluang Binomial
Mata Kuliah Metode Penelitian I.ppt
Analisis jalur kel 4
Distribusi poisson
Materi P3_Distribusi Normal
Manajemen sumber daya manusia
Distribusi sampling
ITP UNS SEMESTER 2 Integer programming
LKMM-TD: AKL (Analisis Kondisi Lingkungan) by Mudafiq
Klasifikasi Data dan Tipe/Skala Pengukuran Data
Taraf signifikan
Cluster & multi satge random sampling
Peubah acak diskrit dan kontinu
Algoritma flowchart
Teknik pengambilan sampel
Ppt korelasi sederhana
Game theory teori permainan
relasi himpunan
Dasar dasar matematika teknik optimasi (matrix hessian)
Minggu 10_Teknik Analisis Regresi
Distribusi Peluang Binomial
Ad

Similar to Kebaikan Metode Klasifikasi Multiclass Menggunakan Hold-Out Method dan Cross Validation (20)

PPTX
Klasifikasi pada Prediksi Risiko Penyakit Kardiovaskular Menggunakan Metode D...
PPTX
Klasifikasi pada Prediksi Risiko Penyakit Kardiovaskular Menggunakan Metode D...
PPTX
Power point statistik anava
PPTX
Diagram-Kendali-X-Bar-R-Dan-X-Bar-S.pptx
PDF
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf
PDF
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf
PDF
Laporan Metode Statistikia II
PDF
PPTX
4_Aminullah Assagaf_IMPLEMENTASI SOFTWARE STATISTIK & ANALISIS_27 Juni 2020.pptx
PPTX
Aminullah assagaf revisi implementasi software statistik & analisis 27 ju...
DOCX
Pengendalian Kualitas Statistik #2
PDF
FP DATA MINING A 06211540000082
PDF
Laporan praktikum teori peluang 3
DOC
Aplikasi jaringan syaraf tiruan dengan program matlab (bp, ga, dan som)
PPTX
Presentasi progress rabu 22022016
PPT
Modul Tutorial Arima
PDF
Analisis data sumur dengan sistem clustering menggunakan pearsons r
PPT
Pengendalian-Kualitas-Pertemuan-9 (1).ppt
PPT
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
PPT
peta kendali variabel
Klasifikasi pada Prediksi Risiko Penyakit Kardiovaskular Menggunakan Metode D...
Klasifikasi pada Prediksi Risiko Penyakit Kardiovaskular Menggunakan Metode D...
Power point statistik anava
Diagram-Kendali-X-Bar-R-Dan-X-Bar-S.pptx
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf
04a_Analisis Komponen Utama untuk Hubungan Genetik.pdf
Laporan Metode Statistikia II
4_Aminullah Assagaf_IMPLEMENTASI SOFTWARE STATISTIK & ANALISIS_27 Juni 2020.pptx
Aminullah assagaf revisi implementasi software statistik & analisis 27 ju...
Pengendalian Kualitas Statistik #2
FP DATA MINING A 06211540000082
Laporan praktikum teori peluang 3
Aplikasi jaringan syaraf tiruan dengan program matlab (bp, ga, dan som)
Presentasi progress rabu 22022016
Modul Tutorial Arima
Analisis data sumur dengan sistem clustering menggunakan pearsons r
Pengendalian-Kualitas-Pertemuan-9 (1).ppt
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
peta kendali variabel
Ad

Recently uploaded (19)

PPTX
Materi Kesiapan Tahapan Pemungutan dan Penghitungan Suara Pemilihan Ulang Tah...
PDF
pengenalan_Iot perangkatcerdasmasdepan.pdf
PPT
Modul-Projek-JAJANAN-PASAR-YANG-MENGHASILKAN-RUPIAH-Fase-C.ppt
PPTX
Introduction FastAPI for Professional and Student
PPTX
PERENCANAAN MEP PERUM.MULTI CIPTA PERMAI_Type 36.pptx
PPTX
Presentasi Pengenalan Sel smp kelas VII semester I.pptx
PPTX
EFEKTIVITAS EKSTRAK DAUN INDIGOFERA.pptx
PPTX
Flowchart Pengaplikasian Sistem Arduino.pptx
DOCX
proposal nurul 2.docx Fix dokumen yang penting
DOCX
PROPOSAL PENGARUH PEMBERIAN MIKRONUTRIEN TERHADAP PENINGKATAN INDEKS MASA TUB...
PPTX
materi abimtek aplikasi ehdw bagi kader pembangunan manusia tahun 2025
PPTX
Pelatihan_Model_Pembinaan_Gen_Z_Dasar_Menengah.pptx
PDF
c3oYi7NNpW3omVenymVtXLtqfSi2hzugUlVYbGlQ.pdf
PPTX
Bahan bacaan Informatika pola pikir bertumbuh.pptx
PDF
811848831-PPT-TES-DESKRIPShhhhhhhhhI.pdf
PPTX
PRESNTASI pembangunan perumahan komersil dua lantai
PPTX
ANALISIS DATA FUNGSI INFORMATIKA SMP.pptx
PDF
6754aa176b39b (1).pdf data analisis acara
PPTX
Gagal Ginjal Akut GHINA SELVIRA .pptx
Materi Kesiapan Tahapan Pemungutan dan Penghitungan Suara Pemilihan Ulang Tah...
pengenalan_Iot perangkatcerdasmasdepan.pdf
Modul-Projek-JAJANAN-PASAR-YANG-MENGHASILKAN-RUPIAH-Fase-C.ppt
Introduction FastAPI for Professional and Student
PERENCANAAN MEP PERUM.MULTI CIPTA PERMAI_Type 36.pptx
Presentasi Pengenalan Sel smp kelas VII semester I.pptx
EFEKTIVITAS EKSTRAK DAUN INDIGOFERA.pptx
Flowchart Pengaplikasian Sistem Arduino.pptx
proposal nurul 2.docx Fix dokumen yang penting
PROPOSAL PENGARUH PEMBERIAN MIKRONUTRIEN TERHADAP PENINGKATAN INDEKS MASA TUB...
materi abimtek aplikasi ehdw bagi kader pembangunan manusia tahun 2025
Pelatihan_Model_Pembinaan_Gen_Z_Dasar_Menengah.pptx
c3oYi7NNpW3omVenymVtXLtqfSi2hzugUlVYbGlQ.pdf
Bahan bacaan Informatika pola pikir bertumbuh.pptx
811848831-PPT-TES-DESKRIPShhhhhhhhhI.pdf
PRESNTASI pembangunan perumahan komersil dua lantai
ANALISIS DATA FUNGSI INFORMATIKA SMP.pptx
6754aa176b39b (1).pdf data analisis acara
Gagal Ginjal Akut GHINA SELVIRA .pptx

Kebaikan Metode Klasifikasi Multiclass Menggunakan Hold-Out Method dan Cross Validation

  • 1. KEBAIKAN METODE KLASIFIKASI MULTICLASS MENGGUNAKAN HOLD-OUT METHOD DAN CROSS VALIDATION MUTHIA PANDAN SARI 06211540000122 DATA M INING A| KS 184645
  • 6. METODOLOGI PENELITIAN Sumber Data Variabel Penelitian Struktur Data Langkah Analisis
  • 7. Sumber Data Sumber data pada penelitian ini merupakan data sekunder. Data sekunder yang digunakan adalah Seeds Data Set UCI Machine Learning sebanyak 210 data. Data diambil pada hari Selasa 4 Desember 2018.
  • 8. Variabel Penelitian Variabel independen yang digunakan pada penelitian ini sebanyak 7 variabel dan 1 variabel dependen. Variabel penelitian yang akan digunakan ditampilkan pada Tabel 2.1. Variabel Nama Keterangan X1 Area Numerik X2 Perimeter Numerik X3 Compactness Numerik X4 Length of kernel Numerik X5 Width of kernel Numerik X6 Asymmetry Coefficient Numerik X7 Length of kernel groove Numerik Y Class Kategorik Tabel 2.1 Variabel Penelitian
  • 9. Struktur Data Tabel 2.2 Struktur Data No. area (A) perimet er (P) Compactne ss C=4*pi*A/P ^2 length of kernel width of kernel asymmet ry coefficien t length of kernel groove class 1 1 X1,1 X1,2 X1,3 X1,4 X1,5 X1,6 X1,7 2 2 X2,1 X2,2 X2,3 X2,4 X2,5 X2,6 X2,7 3 3 X3,1 X3,2 X3,3 X3,4 X3,5 X3,6 X3,7 ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ 209 209 X209,1 X209,2 X209,3 X209,4 X209,5 X209,6 X209,7 210 210 X210,1 X210,2 X210,3 X210,4 X210,5 X210,6 X210,7
  • 10. Langkah Analisis 1. Import libraries 2. Fetching the dataset 3. Extracing features dan 0utput 4. Feature Scaling 5. Deteksi outlier 6. Menganalisis statistika deskriptif 7. Membagi data berdasarkan data training dan testing 8. Feature Importance 9. Melakukan klasifikasi dengan berbagai metode 10. Memilih metode klasifikasi terbaik
  • 12. ANALISIS DAN PEMBAHASAN Preprocessing Data Eksplorasi Data Feature Engineering Feature Selection Metode Klasifikasi Terbaik (Hold-Out Method & Cross Validation)
  • 13. Preprocessing Data (1/3) 1) Deteksi dan Mengimputasi Missing Value syntax : data.isnull().any() didapatkan hasil pada Tabel 3.1 Variabel Output area (A) False perimeter (P) False Compactness C=4*pi*A/P^2 False length of kernel False width of kernel False asymmetry coefficient False length of kernel groove False Tabel 3.1 Hasil Output Deteksi Missing Value
  • 14. Preprocessing Data (2/3) 2) Transformasi Data Menggunakan normalisasi data, yang hasilnya akan di sajikan pada Tabel 3.2 Tabel 3.2 Hasil Normalisasi Data No. area (A) perimeter (P) Compactness C=4*pi*A/P^2 length of kernel width of kernel asymmetry coefficient length of kernel groove class 1 0.663193 0.038481 0.871 0.075674 0.10044 0.116085 0.125965 1 2 0.664621 0.039699 0.8811 0.080599 0.109032 0.130193 0.132817 1 3 0.657453 0.040111 0.905 0.078508 0.101278 0.118052 0.134921 1 ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ 209 0.601162 0.038168 0.8521 0.070086 0.588453 0.50306 0.361622 3 210 0.598054 0.036259 0.8684 0.061651 0.314149 0.261853 0.334589 3
  • 15. Preprocessing Data (3/3) 3) Deteksi dan Mengatasi Outlier Gambar 1. Hasil Box-Plot Gambar 2. Hasil Pengujian Outlier
  • 16. Eksplorasi Data (1/2) area (A) perimeter (P) length of kernel width of kernel asymmetry coefficient length of kernel groove count 210 210 210 210 210 210 mean 0.644492 0.037266 0.870999 0.069221 0.579524 0.524116 std 0.045464 0.001711 0.023629 0.006519 0.212518 0.210799 min 0.552308 0.032966 0.8081 0.050529 0 0 25% 0.604459 0.03617 0.8569 0.065028 0.426682 0.377491 50% 0.65053 0.037128 0.87345 0.069304 0.587317 0.523231 75% 0.681539 0.038596 0.887775 0.074206 0.739336 0.684705 max 0.716325 0.041044 0.9183 0.083519 1 1 Tabel 3.3 Statistika Deskriptif
  • 18. Feature Selection (1/3) Gambar 3. Scatterplot Setiap Variabel Pada Gambar 3 dapat dilihat bahwa pada variabel area (A) dan perimeter (P) terdapat hubungan yang berbanding lurus dan memiliki nilai yang cukup tinggi, hal ini ditandai dengan plot yang terbentuk cenderung mengikuti garis linear.
  • 19. Feature Selection (2/3) Gambar 4. Nilai Korelasi Setiap Variabel Berdasarkan Gambar 4 dapat dilihat bahwa beberapa variabel memiliki korelasi diatas 0.9 sehingga perlu dihilangkan variabel yang memiliki nilai korelasi diatas 0.9. Untuk memilih variabel yang dihilangkan menggunakan feature importance.
  • 20. Feature Selection (3/3) Variabel Nilai perimeter (P) 0.320051 area (A) 0.221799 length of kernel groove 0.141619 width of kernel 0.116546 asymmetry coefficient 0.075706 length of kernel 0.067588 Compactness C=4*pi*A/P^2 0.056691 Tabel 3.4 Nilai Feature Importance Batasan jika variabel memiliki nilai feature importance lebih dari 0.05 maka variabel tersebut tidak dihilangkan. Namun dikarenakan nilai compactness merupakan operasi matematika dari area (A) dan perimeter (P), maka variabel compactness dihilangkan dari variabel prediktor.
  • 21. Metode Klasifikasi Terbaik (1/2) 1) Hold-Out Method Kebaikan metode klasifikasi dengan menggunakan Hold-Out Method akan disajikan pada Tabel 3.5 Tabel 3.5 Hasil Hold-Out Method No. Metode Akurasi Presisi Recall F1 score 1 Decision Tree 0.952381 0.948718 0.968254 0.955556 2 Linear SVC 0.952381 0.948718 0.968254 0.955556 3 Ridge Classifier 0.952381 0.948718 0.968254 0.955556 4 Logistic Regression Multiclass 0.928571 0.932051 0.934921 0.930288 5 Random Forest 0.904762 0.90641 0.904618 0.90251 6 Gaussian Process Classifier 0.904762 0.90641 0.904618 0.90251 7 Naive Bayes 0.880952 0.888095 0.871284 0.871906 8 KNN Classifier 0.880952 0.887218 0.888745 0.882456
  • 22. Metode Klasifikasi Terbaik (2/2) 2) Cross Validation Untuk menentukan mana klasifikasi yang terbaik dapat juga menggunakan nilai cross validation yang akan disajikan pada Tabel 3.6 Tabel 3.6 Hasil Cross Validation No. Metode Cross Validation 1 Ridge Classifier 0.966667 2 Linear SVC 0.952381 3 Logistic Regression Multiclass 0.92381 4 Random Forest 0.904762 5 KNN Classifier 0.904762 6 Gaussian Process Classifier 0.9 7 Naive Bayes 0.895238 8 Decision Tree 0.895238
  • 23. Hasil Metode Klasifikasi Terbaik Ridge Classifier, Linear SVC, dan Decision Tree Gambar 4. Hasil Klasifikasi
  • 24. Hyperparameter Tuning param = { 'C': [0.1,0.8,0.9,1,1.1,1.2,1.3,1.4] } gridsvc = GridSearchCV(SVC, param_grid=param, scoring='accuracy', cv=10) gridsvc.fit(X_train, y_train) gridsvc.best_params_
  • 26. Kesimpulan 1. Variabel yang dihilangkan adalah compactness karena variabel tersebut memiliki hubungan dengan area (A) dan perimeter (P) 2. Metode pengklasifikasian terbaik untuk seeds data set adalah Ridge Classifier, Linear SVC, dan Decision Tree dengan nilai cross validation yang membedakan. Masing-masing nilai cross validation untuk ketiga metode adalah 0.966667, 0.952381, 0.895238 3. Hasil klasifikasi pada metode memiliki hasil yang sama dalam pengklasifikasian jenis gandum, yaitu ada sebanyak 11 observasi yang tepat diklasifikasikan pada jenis gandum Kama, jenis gandum Rosa sebanyak 10 observasi, dan untuk jenis gandum Canadian ada sebanyak 19 observasi. Terdapat 2 observasi pada jenis gandum Canadian yang salah diklasifikasikan dan masuk kedalam jenis gandum Kama
  • 27. Saran Berdasarkan hasil analisis terdapat hubungan yang tinggi antar variabel prediktor, sehingga perlu di lakukan feature extraction daripada menggunakan feature selection. Karna jika menggunakan feature extraction variabel prediktor tidak dihapus melainkan di lebur menjadi satu kedalam variabel yang baru, sehingga nilai akurasi dan presisi dapat meningkat. Salahs satu feature extraction yang mungkin dapat dilakukan untuk penelitian selanjutnya adalah dengan Principal Component Analysis (PCA).
  • 28. Daftar Pustaka T. Nurmala, Sumber Karbohidrat Utama, Jakarta: Rineka Cipta, 1998. S. Wallace, "World Wheat Production to Drop 0.9 % in 2010-11," BloombergBusinessWeek, 2010. B. Blog, "Data Preparation - Pengertian, Alasan dan Langkah-Langkah yang Dilakukan," 17 09 2012. [Online]. Available: http://bow-masbow.blogspot.com/2010/11/data-preparation-pengertian-alasan-dan.html. R. Agarwal, "Multiclass Classification using Random Forest on Scikit-Learn Library," 2018. [Online]. Available: https://www.codementor.io/agarrahul01/multiclass-classification-using-random-forest-on-scikit-learn- library-hkk4lwawu. [Accessed 6 12 2018]. J. Read, B. Pfahringer, G. Holmes and E. Frank, "Classifier Chains for Multi-label Classification," 2009. [Online]. Available: https://scikit-learn.org/stable/modules/multiclass.html. [Accessed 6 12 2018]. s. learn, "Decision Tree Classifier," 2018. [Online]. Available: https://scikit- learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTre eClassifier. [Accessed 6 12 2018]. s. learn, "Feature Selection," 2018. [Online]. Available: https://scikit- learn.org/stable/modules/feature_selection.html. [Accessed 6 12 2018]. s. learn, "Preprocessing Data," 2018. [Online]. Available: https://scikit- learn.org/stable/modules/preprocessing.html. [Accessed 6 12 2018]. S. Overflow, "sklearn metrics for multiclass classification," 18 9 2017. [Online]. Available: https://stackoverflow.com/questions/45890328/sklearn-metrics-for-multiclass-classification. U. M. L. Repository, "seeds data set," 29 09 2012. [Online]. Available: https://archive.ics.uci.edu/ml/datasets/seeds#.