SlideShare a Scribd company logo
5
Most read
6
Most read
13
Most read
Similarity and
Disimilarity
Irwansyah Saputra, S.Kom., M.Kom., MTA
Founder of Multinity Indonesia
Tentang Saya
• Irwansyah Saputra
• Dosen Ilmu Komputer
• Mahasiswa S3 Ilmu Komputer IPB University
• Bidang Kajian: Computational Intelligence &
Optimization (Data mining, machine
learning, artificial intelligence)
Halo semuanya, saya suka belajar tentang
segala hal dan suka berbagi pengetahuan. Saya
juga sering menjadi pembicara di berbagai
seminar.
Kontak yang bisa dihubungi:
WhatsApp: 0895323302241
Instagram: @irwansight_
Web: https://irw.one
Disclaimer
Materi ini digunakan sebagai bahan ajar Program Data Mining di
Multinity.id
Silakan gunakan, mohon untuk tidak mengubah template.
Jika Anda memiliki kesulitan dalam memahami materi pada slide
ini, silakan belajar di Multinity.id
Referensi
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques Third
Edition, Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning
Tools and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and
Business Analytics Applications, CRC Press Taylor & Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data Mining,
John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT Press, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer,
2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Handbook
Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances in Data Mining
of Enterprise Data: Algorithms and Applications, World Scientific, 2007
9. Suyanto, DATA MINING: Untuk klasifikasi dan klasterisasi data, Penerbit
Informatika, 2017
Euclidian Distance
• Teknik pengukuran jarak Euclidian Distance merupakan teknik yang
sangat populer digunakan untuk atribut dengan tipe data numerik.
• Rumus:
𝑑 𝑃, 𝑄 = 𝑃𝑖 − 𝑄𝑖 0 =
𝑖=1
𝑛
𝑝𝑖 − 𝑞𝑖
2
= 𝑝1 − 𝑞1
2 + 𝑝2 − 𝑞2
2 + ⋯ + 𝑝𝑛 − 𝑞𝑛
2
Keterangan:
P, Q : Tupel dari tiap atribut yang akan dihitung
Euclidian Distance
• Teknik euclidian distance memiliki cara kerja dengan mencari jarak
terpendek antar dua objek tanpa melihat rintangan pada jalur yang
dilaluinya.
• Euclidian distance tidak dapat memberi informasi jarak terpendek
dalam dunia penerbangan karena (dunia penerbangan) mengikuti
kelengkungan bumi.
Manhattan Distance
• Teknik ini sedikit kalah populer dengan euclidian distance, namun penting
untuk dibahas karena memiliki pendekatan yang berbeda.
• Secara fungsi, manhattan distance juga dapat digunakan untuk tugas
klasifikasi, klaster, pengolahan citra dan kasus lainnya.
• Cara kerja manhattan berbeda dengan teknik sebelumnya, karena ia berjalan
pada grid, tidak menerobos rintangan seperti euclidian.
• Rumusnya
𝑑 𝑃, 𝑄 = 𝑃𝑖 − 𝑄𝑖 0 = 𝑝𝑖 − 𝑞𝑖
2
Keterangan:
P, Q : Tupel dari tiap atribut yang akan dihitung
Manhattan Distance
• Manhattan lebih cepat dalam proses komputasi dan dapat digunakan untuk
menghitung jarak antar lokasi titik pada peta, karena jalan raya memiliki
jalurnya tersendiri dan terdapat penghalang seperti gedung atau objek lain.
• Sehingga, sangat tidak mungkin jika perhitungan jarak antar lokasi nyata ini
menggunakan euclidian distance.
Chebyshev Distance
• Berbeda dengan kedua teknik pengukuran jarak sebelumnya, Chebyshev
distance didefinisikan sebagai perbedaan terbesar antara dua vektor di
sepanjang dimensi koordinat apa pun.
• Maksudnya, teknik ini hanyalah jarak maksimum dari suatu sumbu.
𝑑 𝑃, 𝑄 = max 𝑃 − 𝑄 = 𝑚𝑎𝑥 𝑝𝑖 − 𝑞𝑖
• Pada rumus tersebut kita bisa melihat bahwa cara kerja Chebyshev distance
adalah mencari selisih maksimum di antara kedua vektor.
• Selisih tersebut kemudian diabsolutkan untuk mencegah terjadinya minus.
Karena tidak mungkin ada jarak yang minus dalam kehidupan nyata.
Chebyshev Distance
• Agar lebih memahami tentang ini, kita bisa
gunakan gerakan raja pada permainan catur.
• Misalnya raja ingin berjalan mencapai titik
lingkaran.
• Ada berbagai kemungkinan cara
melangkahnya, namun di sini kita gunakan dua
pilihan saja agar lebih mudah dipahami, yaitu
jalur kanan dan jalur kiri.
• Jika kita melihat dengan baik, jalur kanan
memiliki langkah lebih cepat dari yang kiri
karena hanya 4 langkah saja, raja sudah
sampai tujuan.
• Berbeda dengan yang kiri, raja membutuhkan
6 langkah untuk menuju ke tujuan.
4
2
Cosine Similarity
• Teknik cosine similarity biasanya digunakan untuk mengatasi data yang
berdimensi tinggi seperti data teks.
• cosine similarity mengabaikan nilai dari suatu vektor, yang akan dihitung
adalah arahnya saja.
• Misalnya pada kata “baik” dan “jahat”. Kedua kata tersebut akan dinilai 1 oleh
cosine similarity.
• Rumus:
𝐷 𝑥, 𝑦 = cos 𝜃 =
𝑥. 𝑦
𝑥 𝑦
Cosine Similarity
• Untuk memahami lebih dalam terkait teknik cosine similarity, kita akan
menggunakan contoh dua dokumen sebagai berikut:
• D1 : “Kerja Kerja Kerja Typus”
• D2 : “Typus Typus Kerja Kerja”
• Kita anggap “Kerja” menjadi sumbu x, sedangkan “Typus” menjadi sumbu y. Maka
kita akan mendapatkan vektor A (3,1), vektor B (2,2). Langkah perhitungannya
menjadi:
cos 𝜃 =
𝑥. 𝑦
𝑥 𝑦
=
𝑥1𝑦1 + 𝑥2𝑦2
𝑥1
2
+ 𝑥2
2
. 𝑦1
2
+ 𝑦2
2
=
3.2 + 1.2
32 + 12 . 22 + 22
=
8
10 . 8
= 0.894
Cosine Similarity
• Berdasarkan hasil tersebut berarti dokumen A dan dokumen B memiliki
kemiripan yang dekat.
• Namun nilai tersebut tidak bisa kita ubah ke dalam persen, misalnya menjadi
89,4% dan mengatakan bahwa kemiripan dua dokumen tersebut adalah
sebesar 89,4%.
• Jika kita ingin melihat seberapa dekat kedua dokumen tersebut dalam bentuk
visual, maka ubah saja hasil 0,894 ke bentuk sudut cosinus, maka akan
didapatkan sudut sebesar 26.619729544329°. Hasilnya:
A
B
26°

More Related Content

PDF
Pertemuan 1 Data dan Struktur Data
PPTX
Data mining 4 konsep dasar klasifikasi
PDF
Data Mining - Naive Bayes
PPT
Interaksi manusia dan komputer
PPTX
Klasifikasi Data Mining.pptx
PDF
Kriptografi - Stream Cipher
PPTX
Kriptografi
PPTX
Algoritma Greedy (contoh soal)
Pertemuan 1 Data dan Struktur Data
Data mining 4 konsep dasar klasifikasi
Data Mining - Naive Bayes
Interaksi manusia dan komputer
Klasifikasi Data Mining.pptx
Kriptografi - Stream Cipher
Kriptografi
Algoritma Greedy (contoh soal)

What's hot (20)

PPT
Modul 8 - Jaringan Syaraf Tiruan (JST)
PDF
Analisis Algoritma - Pengantar Kompleksitas Algoritma
PPTX
01_PENGANTAR DATA DATA SCIENCE.pptx
PPTX
Denormalisasi data1-basisdata
PPTX
12 metode greedy
PPT
Algoritma penjadwalan proses
PPT
Jawaban Struktur data soal-latihan
PPTX
Data mining 2 exploratory data analysis
DOCX
System Request
PDF
32 metodologi penelitian pada ilmu komputer
PDF
Pertemuan 05 Teknik Pencarian (Search) -lanjutan
PPTX
Statistik deskriptif
PDF
Kuliah SPK: Metode AHP (Analytical Hierarchy Process)
PDF
[RPL2] Class Diagram dan Relasinya (2)
DOCX
Laporan praktikum basis data my sql
DOCX
Fuzzy logic (Logika Fuzzy)
PDF
[RPL2] Class Diagram dan Konsep Object Oriented (1)
PPTX
Materi 3 Finite State Automata
PPTX
Stack tumpukan
PDF
Algoritma Apriori
Modul 8 - Jaringan Syaraf Tiruan (JST)
Analisis Algoritma - Pengantar Kompleksitas Algoritma
01_PENGANTAR DATA DATA SCIENCE.pptx
Denormalisasi data1-basisdata
12 metode greedy
Algoritma penjadwalan proses
Jawaban Struktur data soal-latihan
Data mining 2 exploratory data analysis
System Request
32 metodologi penelitian pada ilmu komputer
Pertemuan 05 Teknik Pencarian (Search) -lanjutan
Statistik deskriptif
Kuliah SPK: Metode AHP (Analytical Hierarchy Process)
[RPL2] Class Diagram dan Relasinya (2)
Laporan praktikum basis data my sql
Fuzzy logic (Logika Fuzzy)
[RPL2] Class Diagram dan Konsep Object Oriented (1)
Materi 3 Finite State Automata
Stack tumpukan
Algoritma Apriori
Ad

Similar to Data mining 3 similarity and disimilarity (20)

PDF
Use Of Bearings And Its Impact On Society
PDF
Additional mathematics project 2014
PDF
DAA Notes.pdf
PDF
Tda presentation
PDF
Search problems in Artificial Intelligence
PPTX
Dimensions
PPT
chapter3part1.ppt
PPTX
DAA-Week-9-1dsad;jglrjglkdfjglfdkfsada0.pptx
PPTX
Engineering mathematics presentation
PPT
Kinematics-linear-motion.ppt
PPT
Kinematics-linear-motion.ppt
PPT
Kinematics-linear-motion.ppttttttttttttt
PPT
Kinematics-linear-motionaasaasaaasasawsde.ppt
PPT
Kinematics-linear-motion.ppt
PPT
Kinematics-linear-motion equation and derivation
PPTX
PPT_SCIENCE_G4_Q3_W5.pptx...............
PPTX
PPT_SCIENCE_G4_Q3_W5.pptx...............
PDF
1.1 1.4-introduction
PPTX
Data mining 8 estimasi linear regression
PPTX
Data mining 7 klasifikasi k nearest neighbor and pseudo k nn
Use Of Bearings And Its Impact On Society
Additional mathematics project 2014
DAA Notes.pdf
Tda presentation
Search problems in Artificial Intelligence
Dimensions
chapter3part1.ppt
DAA-Week-9-1dsad;jglrjglkdfjglfdkfsada0.pptx
Engineering mathematics presentation
Kinematics-linear-motion.ppt
Kinematics-linear-motion.ppt
Kinematics-linear-motion.ppttttttttttttt
Kinematics-linear-motionaasaasaaasasawsde.ppt
Kinematics-linear-motion.ppt
Kinematics-linear-motion equation and derivation
PPT_SCIENCE_G4_Q3_W5.pptx...............
PPT_SCIENCE_G4_Q3_W5.pptx...............
1.1 1.4-introduction
Data mining 8 estimasi linear regression
Data mining 7 klasifikasi k nearest neighbor and pseudo k nn
Ad

Recently uploaded (20)

PPTX
AI Strategy room jwfjksfksfjsjsjsjsjfsjfsj
PPTX
Introduction to Knowledge Engineering Part 1
PPTX
iec ppt-1 pptx icmr ppt on rehabilitation.pptx
PPTX
Qualitative Qantitative and Mixed Methods.pptx
PPTX
STUDY DESIGN details- Lt Col Maksud (21).pptx
PPTX
Introduction-to-Cloud-ComputingFinal.pptx
PPT
ISS -ESG Data flows What is ESG and HowHow
PPTX
Database Infoormation System (DBIS).pptx
PPT
Reliability_Chapter_ presentation 1221.5784
PPTX
01_intro xxxxxxxxxxfffffffffffaaaaaaaaaaafg
PPTX
Introduction to Basics of Ethical Hacking and Penetration Testing -Unit No. 1...
PPTX
ALIMENTARY AND BILIARY CONDITIONS 3-1.pptx
PDF
annual-report-2024-2025 original latest.
PPTX
Business Ppt On Nestle.pptx huunnnhhgfvu
PPTX
IBA_Chapter_11_Slides_Final_Accessible.pptx
PDF
22.Patil - Early prediction of Alzheimer’s disease using convolutional neural...
PDF
Clinical guidelines as a resource for EBP(1).pdf
PDF
Galatica Smart Energy Infrastructure Startup Pitch Deck
PPTX
1_Introduction to advance data techniques.pptx
PPTX
climate analysis of Dhaka ,Banglades.pptx
AI Strategy room jwfjksfksfjsjsjsjsjfsjfsj
Introduction to Knowledge Engineering Part 1
iec ppt-1 pptx icmr ppt on rehabilitation.pptx
Qualitative Qantitative and Mixed Methods.pptx
STUDY DESIGN details- Lt Col Maksud (21).pptx
Introduction-to-Cloud-ComputingFinal.pptx
ISS -ESG Data flows What is ESG and HowHow
Database Infoormation System (DBIS).pptx
Reliability_Chapter_ presentation 1221.5784
01_intro xxxxxxxxxxfffffffffffaaaaaaaaaaafg
Introduction to Basics of Ethical Hacking and Penetration Testing -Unit No. 1...
ALIMENTARY AND BILIARY CONDITIONS 3-1.pptx
annual-report-2024-2025 original latest.
Business Ppt On Nestle.pptx huunnnhhgfvu
IBA_Chapter_11_Slides_Final_Accessible.pptx
22.Patil - Early prediction of Alzheimer’s disease using convolutional neural...
Clinical guidelines as a resource for EBP(1).pdf
Galatica Smart Energy Infrastructure Startup Pitch Deck
1_Introduction to advance data techniques.pptx
climate analysis of Dhaka ,Banglades.pptx

Data mining 3 similarity and disimilarity

  • 1. Similarity and Disimilarity Irwansyah Saputra, S.Kom., M.Kom., MTA Founder of Multinity Indonesia
  • 2. Tentang Saya • Irwansyah Saputra • Dosen Ilmu Komputer • Mahasiswa S3 Ilmu Komputer IPB University • Bidang Kajian: Computational Intelligence & Optimization (Data mining, machine learning, artificial intelligence) Halo semuanya, saya suka belajar tentang segala hal dan suka berbagi pengetahuan. Saya juga sering menjadi pembicara di berbagai seminar. Kontak yang bisa dihubungi: WhatsApp: 0895323302241 Instagram: @irwansight_ Web: https://irw.one
  • 3. Disclaimer Materi ini digunakan sebagai bahan ajar Program Data Mining di Multinity.id Silakan gunakan, mohon untuk tidak mengubah template. Jika Anda memiliki kesulitan dalam memahami materi pada slide ini, silakan belajar di Multinity.id
  • 4. Referensi 1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques Third Edition, Elsevier, 2012 2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning Tools and Techniques 3rd Edition, Elsevier, 2011 3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and Business Analytics Applications, CRC Press Taylor & Francis Group, 2014 4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data Mining, John Wiley & Sons, 2005 5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT Press, 2014 6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer, 2011 7. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Handbook Second Edition, Springer, 2010 8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances in Data Mining of Enterprise Data: Algorithms and Applications, World Scientific, 2007 9. Suyanto, DATA MINING: Untuk klasifikasi dan klasterisasi data, Penerbit Informatika, 2017
  • 5. Euclidian Distance • Teknik pengukuran jarak Euclidian Distance merupakan teknik yang sangat populer digunakan untuk atribut dengan tipe data numerik. • Rumus: 𝑑 𝑃, 𝑄 = 𝑃𝑖 − 𝑄𝑖 0 = 𝑖=1 𝑛 𝑝𝑖 − 𝑞𝑖 2 = 𝑝1 − 𝑞1 2 + 𝑝2 − 𝑞2 2 + ⋯ + 𝑝𝑛 − 𝑞𝑛 2 Keterangan: P, Q : Tupel dari tiap atribut yang akan dihitung
  • 6. Euclidian Distance • Teknik euclidian distance memiliki cara kerja dengan mencari jarak terpendek antar dua objek tanpa melihat rintangan pada jalur yang dilaluinya. • Euclidian distance tidak dapat memberi informasi jarak terpendek dalam dunia penerbangan karena (dunia penerbangan) mengikuti kelengkungan bumi.
  • 7. Manhattan Distance • Teknik ini sedikit kalah populer dengan euclidian distance, namun penting untuk dibahas karena memiliki pendekatan yang berbeda. • Secara fungsi, manhattan distance juga dapat digunakan untuk tugas klasifikasi, klaster, pengolahan citra dan kasus lainnya. • Cara kerja manhattan berbeda dengan teknik sebelumnya, karena ia berjalan pada grid, tidak menerobos rintangan seperti euclidian. • Rumusnya 𝑑 𝑃, 𝑄 = 𝑃𝑖 − 𝑄𝑖 0 = 𝑝𝑖 − 𝑞𝑖 2 Keterangan: P, Q : Tupel dari tiap atribut yang akan dihitung
  • 8. Manhattan Distance • Manhattan lebih cepat dalam proses komputasi dan dapat digunakan untuk menghitung jarak antar lokasi titik pada peta, karena jalan raya memiliki jalurnya tersendiri dan terdapat penghalang seperti gedung atau objek lain. • Sehingga, sangat tidak mungkin jika perhitungan jarak antar lokasi nyata ini menggunakan euclidian distance.
  • 9. Chebyshev Distance • Berbeda dengan kedua teknik pengukuran jarak sebelumnya, Chebyshev distance didefinisikan sebagai perbedaan terbesar antara dua vektor di sepanjang dimensi koordinat apa pun. • Maksudnya, teknik ini hanyalah jarak maksimum dari suatu sumbu. 𝑑 𝑃, 𝑄 = max 𝑃 − 𝑄 = 𝑚𝑎𝑥 𝑝𝑖 − 𝑞𝑖 • Pada rumus tersebut kita bisa melihat bahwa cara kerja Chebyshev distance adalah mencari selisih maksimum di antara kedua vektor. • Selisih tersebut kemudian diabsolutkan untuk mencegah terjadinya minus. Karena tidak mungkin ada jarak yang minus dalam kehidupan nyata.
  • 10. Chebyshev Distance • Agar lebih memahami tentang ini, kita bisa gunakan gerakan raja pada permainan catur. • Misalnya raja ingin berjalan mencapai titik lingkaran. • Ada berbagai kemungkinan cara melangkahnya, namun di sini kita gunakan dua pilihan saja agar lebih mudah dipahami, yaitu jalur kanan dan jalur kiri. • Jika kita melihat dengan baik, jalur kanan memiliki langkah lebih cepat dari yang kiri karena hanya 4 langkah saja, raja sudah sampai tujuan. • Berbeda dengan yang kiri, raja membutuhkan 6 langkah untuk menuju ke tujuan. 4 2
  • 11. Cosine Similarity • Teknik cosine similarity biasanya digunakan untuk mengatasi data yang berdimensi tinggi seperti data teks. • cosine similarity mengabaikan nilai dari suatu vektor, yang akan dihitung adalah arahnya saja. • Misalnya pada kata “baik” dan “jahat”. Kedua kata tersebut akan dinilai 1 oleh cosine similarity. • Rumus: 𝐷 𝑥, 𝑦 = cos 𝜃 = 𝑥. 𝑦 𝑥 𝑦
  • 12. Cosine Similarity • Untuk memahami lebih dalam terkait teknik cosine similarity, kita akan menggunakan contoh dua dokumen sebagai berikut: • D1 : “Kerja Kerja Kerja Typus” • D2 : “Typus Typus Kerja Kerja” • Kita anggap “Kerja” menjadi sumbu x, sedangkan “Typus” menjadi sumbu y. Maka kita akan mendapatkan vektor A (3,1), vektor B (2,2). Langkah perhitungannya menjadi: cos 𝜃 = 𝑥. 𝑦 𝑥 𝑦 = 𝑥1𝑦1 + 𝑥2𝑦2 𝑥1 2 + 𝑥2 2 . 𝑦1 2 + 𝑦2 2 = 3.2 + 1.2 32 + 12 . 22 + 22 = 8 10 . 8 = 0.894
  • 13. Cosine Similarity • Berdasarkan hasil tersebut berarti dokumen A dan dokumen B memiliki kemiripan yang dekat. • Namun nilai tersebut tidak bisa kita ubah ke dalam persen, misalnya menjadi 89,4% dan mengatakan bahwa kemiripan dua dokumen tersebut adalah sebesar 89,4%. • Jika kita ingin melihat seberapa dekat kedua dokumen tersebut dalam bentuk visual, maka ubah saja hasil 0,894 ke bentuk sudut cosinus, maka akan didapatkan sudut sebesar 26.619729544329°. Hasilnya: A B 26°