2. Kullanım Amaçlarına Göre Veri
Madenciliği Yöntemleri
• Öngörüsel Yöntemler
• Birliktelik Kuralları ve Ardışık Zamanlı
Örüntüler
• Kümeleme Yöntemleri
• Aykırı Değer Analizi
3. Alan Yön Tanımı
• Bir değişkenin yönü modelleme işlemcileri için önemlidir. 5 tip
yön vardır.
• In: değişkenin bir modelleme tekniğinde girdi ya da tahmin edici
olarak kullanılacağını gösterir.
• Out: değişkenin bir modelleme tekniğinde çıktı ya da hedef
olarak kullanılacağını gösterir.
• Both: Apriori, GRI ve Sequence modelleme işlemcilerinde
kullanılır.değişkenin hem girdi hem de çıktı olarak kullanılacağını
gösterir. Diğer modelleme teknikleri bu değişkeni kullanmaz.
• None: değişkenin modellemede kullanılmayacağını gösterir.
• Partition: değişkenin veriyi örneklemlere ayırdığımız zaman
kullanacağımızı gösterir.
4. Veri Madenciliği Algoritmaları
• Veri madenciliği
algoritmaları 3
ana sınıf altında
toplanır:
• Öngörü
• Birliktelik Tespiti
• Kümeleme
Cluster
What events occur
together? Given a series
part failures, which parts
are likely to fail in the
future?
Group cases that
exhibit similar
characteristics.
Which parts tend
to fail most often?
Data
Mining
Predict
Associate
Predict or Classify behavior and
characteristics. What are the
characteristics of parts that
perform well versus parts that
fail often?
4
5. Veri Madenciliği Modelleme Yöntemleri
Öngörü ve Sınıflandırma
C&R Tree
QUEST
CHAID
C 5.0
Decision List
Neural Net
Bayes Net
Feature Selection
Discriminant
Regression
Logistic
GenLin
Cox
SVM (Support Vector Machine)
SLRM (Self L earning Response
Model)
7. Danışmanlı Öğrenme Teknikleri
“Supervised Learning” olarak da adlandırılır.
Bir dizi “input” (girdi verisi) ile bir dizi “output”
değerini tahmin etme veya öğrenmeye çalışma
amacıyla kullanılır.
Sinir Ağları (Neural Networks),
• Dört farklı karar ağacı (Decision Tree) yöntemi,
• Regresyon analizi
• Lojistik regresyon analizi
• Decision List
• SVM
• Bayes Ağları
8. Danışmansız Öğrenme
Teknikleri
“Unsupervised Learning” olarak da adlandırılır.
Sadece “input” (girdi verisi) ile tahmin etme veya
öğrenmeye çalışma amacıyla kullanılır.Bir output alanı
kavramı yoktur.
• Üç farklı kümeleme yöntemi ,
• İki farklı birliktelik tespiti yöntemi,
• Ardışıklık tespiti yöntemi,
• Faktör analizi
9. Makine Öğrenimi
• Arthur Samuel (1959). Machine Learning: Field of
study that gives computers the ability to learn
without being explicitly programmed.
• Tom Mitchell (1998) Well-posed Learning
Problem: A computer program is said to learn
from experience E with respect to some task T
and some performance measure P, if its
performance on T, as measured by P, improves
with experience E.
10. Makine Öğrenimi
• Tom Mitchell (1998) Well-posed Learning
Problem: A computer program is said to learn
from experience E with respect to some task T
and some performance measure P, if its
performance on T, as measured by P, improves
with experience E.
• Dama oyununu düşündüğümüzde;
• E: ?
• T: ?
• P: ?
15. Birliktelik Kuralları
• Birliktelik kuralları yöntemi tipik olarak birlikte oluşan
iki ya da daha çok kaydı bulmaya çalışır. Birliktelik
kuralı algoritmaları web işlemcisi gibi görsel teknikler
kullanılarak bulunmaya çalışılan karışık ilişkileri daha
çabuk ve otomatik olarak bulur.
• Bu algoritmalar öncelikle çok basit kurallar oluştururlar.
Bu kurallar daha sonra çeşitli koşullar eklenip
özelleştirilerek daha ilginç ve karışık kurallar kaydedilir.
16. Apriori İşlemcisi
• Algoritmanın ismi, sık geçen nesnelerin önsel
bilgilerini kullanmasından yani bilgileri bir önceki
adımdan almasından “önceki (prior)” anlamında
aprioridir. En basit anlamda bir kural;
• A ⇒ B şeklinde tanımlanır.
• Birliktelik kurallarında sıklıkla kullanılan birkaç önemli
terim vardır. Bunlar; kuralın sol tarafını ifade eden
önce (antecedent), kuralın sağ tarafını ifade eden
sonuç (consequent), destek değeri (support), güven
değeri (confidence)’dir.
17. Veri Tipi
• Birliktelik kurallarında kullanılan veri tipi
1. Transactional Format
2. Tabular Format
tipinde olabilir.
19. • Beer & cannedveg ⇒ frozenmeal kuralı için;
Rule Support (Destek) = %14,6 ve
Confidence (Güven) = %87,425’dir.
• Bunan göre; bira, konserve sebze ve donmuş gıdanın
bütün fiş hareketlerinde beraber görülme olasılığı
%14,6’dır. Bira ve konserve sebze alan bir müşterinin
arkasından %87,425 olasılıkla donmuş gıda da alacağı
söylenebilir.
21. Her ürünün
sayısı için
D’yi tara
C1
Ürün
Ürün sayılarını
min_destek=2
sayısı ile
karşılaştır
Destek Sayısı
L1
Ürün
Destek Sayısı
{I1}
6
{I2}
7
6
{I3}
6
{I4}
2
{I4}
2
{I5}
2
{I5}
2
7
{I3}
L1’den C2
ürünlerini
oluştur
6
{I2}
C2
{I1}
Ürün
C2
Her ürünün
sayısı için
D’yi tara
Ürün
Destek Sayısı
{I1, I2}
4
{I1, I3}
4
{I1, I4}
1
{I1, I5}
{I1, I5}
2
{I2, I3}
{I2, I3}
4
{I2, I4}
{I2, I4}
{I2, I5}
{I1, I2}
{I1, I3}
{I1, I4}
L2
Ürün sayılarını
min_destek=2 Ürün
sayısı ile
{I1, I2}
karşılaştır
Destek Sayısı
4
{I1, I3}
4
{I1, I5}
2
{I2, I3}
4
2
{I2, I4}
2
{I2, I5}
2
{I2, I5}
2
{I3, I4}
{I3, I4}
0
{I3, I5}
{I3, I5}
1
{I4, I5}
{I4, I5}
0
22. L2’den C3
ürünlerini
oluştur
C3
Ürün
Her ürünün
sayısı için
D’yi tara
{I1, I2, I3}
{I1, I2, I5}
Not: Bu aşamada {I2, I3, I4},
{I2, I3, I5}, {I2, I4, I5} in alt
kümeleri sık geçen
olmadığından budanır.
L3’den C4
ürünlerini
oluştur
C3
Destek Sayısı
Ürün
{I1, I2, I3}
2
{I1, I2, I5}
2
Ürün sayılarını
min_destek=2
sayısı ile
karşılaştır
C4
Ürün
{I1, I2, I3, I5}
Ancak bu nesnekümenin alt kümesi olan {I2, I3, I5} sık
geçen nesneküme olmadığı için bu nesneküme budanır
ve C4 kümesi boş küme olur. Apriori bütün sık geçen
nesneleri bulduğundan algoritma sonlanmış olur.
L3
Ürün
Destek Sayısı
{I1, I2, I3}
2
{I1, I2, I5}
2
23. • Sık geçen nesnekümeler bulunduktan sonra, sıra birliktelik kurallarını
oluşturmaya gelir. Örneğin sık geçen bir nesne olan I={I1, I2, I5} için boş
olmayan bütün alt kümeler şunlardır : {I1, I2} , {I1, I5} , {I2, I5} , {I1} , {I2}
ve {I5}. Bu durumda şu birliktelik kuralları çıkarılabilir:
• I1 & I2 ⇒I5 güven (I1&I2 ⇒ I5)=Destek (I1&I2 ⇒ I5)/Destek(I1 & I2)
={I1.I2. I5 / D }/{I1.I2 / D }
=2/4=%50
• I1 & I5 ⇒I2 güven= 2/2=%100
• I2 & I5 ⇒I1
güven=2/2=%100
• I1 ⇒I2 & I5
güven=2/6=%33
• I2 ⇒I1 & I5
güven=2/7=%29
• I5 ⇒I1 & I2
güven=2/2=%100
Eğer, örneğin minimum
güven değeri %70 olarak
alınmışsa, ikinci, üçüncü
ve sonuncu kurallar
dikkate alınır.
Editor's Notes
#5:Veri madenciliği algoritmaları 3 ana sınıf altında toplanabilir:
Öngörü– Sınıflandırma veya segmantasyon diye de bilinir. Bu gruptaki algoritmalar tahmin edilecek bir hedef değişken ve tahmin edici “prediktör” değişkenler söz konusu olduğunda kullanılır. Bir davranışı irdeleme, belirgin bir karekteristiği çıkarmaya yarar.
Birliktelik Tespiti algoritmaları ardışıklık tespitinide içerir.
Kümeleme algoritmaları benzer karekteristikleri içeren durumların gruplanmasını sağlar.
#11:E: Oynanan binlerce oyun; T: Oyunu kimin kazanacağı; P: Oyunu kazanma olayını tahmin etme yüzdesi
#12:E: Oynanan binlerce oyun; T: Oyunu kimin kazanacağı; P: Oyunu kazanma olayını tahmin etme yüzdesi