Slayt_4

HAM VERİNİN NİTELİKLİ
BİLGİYE
DÖNÜŞTÜRÜLME SÜRECİ
25.03.2013

Kullanım Amaçlarına Göre Veri
Madenciliği Yöntemleri
• Öngörüsel Yöntemler
• Birliktelik Kuralları ve Ardışık Zamanlı
Örüntüler
• Kümeleme Yöntemleri
• Aykırı Değer Analizi

Alan Yön Tanımı

• Bir değişkenin yönü modelleme işlemcileri için önemlidir. 5 tip
yön vardır.
• In: değişkenin bir modelleme tekniğinde girdi ya da tahmin edici
olarak kullanılacağını gösterir.
• Out: değişkenin bir modelleme tekniğinde çıktı ya da hedef
olarak kullanılacağını gösterir.
• Both: Apriori, GRI ve Sequence modelleme işlemcilerinde
kullanılır.değişkenin hem girdi hem de çıktı olarak kullanılacağını
gösterir. Diğer modelleme teknikleri bu değişkeni kullanmaz.
• None: değişkenin modellemede kullanılmayacağını gösterir.
• Partition: değişkenin veriyi örneklemlere ayırdığımız zaman
kullanacağımızı gösterir.

Veri Madenciliği Algoritmaları
• Veri madenciliği
algoritmaları 3
ana sınıf altında
toplanır:
• Öngörü
• Birliktelik Tespiti
• Kümeleme

Cluster

What events occur
together? Given a series
part failures, which parts
are likely to fail in the
future?

Group cases that
exhibit similar
characteristics.
Which parts tend
to fail most often?

Data
Mining
Predict

Associate

Predict or Classify behavior and
characteristics. What are the
characteristics of parts that
perform well versus parts that
fail often?

4

Veri Madenciliği Modelleme Yöntemleri

Öngörü ve Sınıflandırma
 C&R Tree
 QUEST
 CHAID
 C 5.0
 Decision List
 Neural Net
 Bayes Net



Feature Selection



Discriminant



Regression



Logistic



GenLin



Cox



SVM (Support Vector Machine)



SLRM (Self L earning Response
Model)

Kümeleme,
Segmantasyo
n • K-Means
• Kohonen
• Two Step
• Anomally

Birliktelik Tespiti


GRI



Apriori



Carma



Sequence

Danışmanlı Öğrenme Teknikleri
“Supervised Learning” olarak da adlandırılır.

Bir dizi “input” (girdi verisi) ile bir dizi “output”
değerini tahmin etme veya öğrenmeye çalışma
amacıyla kullanılır.
Sinir Ağları (Neural Networks),
• Dört farklı karar ağacı (Decision Tree) yöntemi,
• Regresyon analizi
• Lojistik regresyon analizi
• Decision List
• SVM
• Bayes Ağları

Danışmansız Öğrenme
Teknikleri
“Unsupervised Learning” olarak da adlandırılır.
Sadece “input” (girdi verisi) ile tahmin etme veya
öğrenmeye çalışma amacıyla kullanılır.Bir output alanı
kavramı yoktur.
• Üç farklı kümeleme yöntemi ,
• İki farklı birliktelik tespiti yöntemi,
• Ardışıklık tespiti yöntemi,
• Faktör analizi

Makine Öğrenimi
• Arthur Samuel (1959). Machine Learning: Field of
study that gives computers the ability to learn
without being explicitly programmed.
• Tom Mitchell (1998) Well-posed Learning
Problem: A computer program is said to learn
from experience E with respect to some task T
and some performance measure P, if its
performance on T, as measured by P, improves
with experience E.

Makine Öğrenimi
• Tom Mitchell (1998) Well-posed Learning
Problem: A computer program is said to learn
from experience E with respect to some task T
and some performance measure P, if its
performance on T, as measured by P, improves
with experience E.
• Dama oyununu düşündüğümüzde;
• E: ?
• T: ?
• P: ?

Bazı Tanımlar
Root Node and Parent
Node

Child Node
and Parent
Node
Child Node and
Terminal Node

Child Node and
Terminal Node

Birliktelik Kuralları
• Birliktelik kuralları yöntemi tipik olarak birlikte oluşan
iki ya da daha çok kaydı bulmaya çalışır. Birliktelik
kuralı algoritmaları web işlemcisi gibi görsel teknikler
kullanılarak bulunmaya çalışılan karışık ilişkileri daha
çabuk ve otomatik olarak bulur.
• Bu algoritmalar öncelikle çok basit kurallar oluştururlar.
Bu kurallar daha sonra çeşitli koşullar eklenip
özelleştirilerek daha ilginç ve karışık kurallar kaydedilir.

Apriori İşlemcisi
• Algoritmanın ismi, sık geçen nesnelerin önsel
bilgilerini kullanmasından yani bilgileri bir önceki
adımdan almasından “önceki (prior)” anlamında
aprioridir. En basit anlamda bir kural;
• A ⇒ B şeklinde tanımlanır.
• Birliktelik kurallarında sıklıkla kullanılan birkaç önemli
terim vardır. Bunlar; kuralın sol tarafını ifade eden
önce (antecedent), kuralın sağ tarafını ifade eden
sonuç (consequent), destek değeri (support), güven
değeri (confidence)’dir.

Veri Tipi
• Birliktelik kurallarında kullanılan veri tipi
1. Transactional Format
2. Tabular Format
tipinde olabilir.

• Beer & cannedveg ⇒ frozenmeal kuralı için;
Rule Support (Destek) = %14,6 ve
Confidence (Güven) = %87,425’dir.
• Bunan göre; bira, konserve sebze ve donmuş gıdanın
bütün fiş hareketlerinde beraber görülme olasılığı
%14,6’dır. Bira ve konserve sebze alan bir müşterinin
arkasından %87,425 olasılıkla donmuş gıda da alacağı
söylenebilir.

Apriori Algoritması Örnek
D veritabanı
ANO:

Ürün NO:

A100

I1, I2, I5

A200

I2, I4

A300

I2, I3

A400

I1, I2, I4

A500

I1, I3

A600

I2, I3

A700

I1, I3

A800

I1, I2, I3, I5

A900

I1, I2, I3

Her ürünün
sayısı için
D’yi tara

C1
Ürün

Ürün sayılarını
min_destek=2
sayısı ile
karşılaştır

Destek Sayısı

L1
Ürün

Destek Sayısı

{I1}

6

{I2}

7

6

{I3}

6

{I4}

2

{I4}

2

{I5}

2

{I5}

2

7

{I3}

L1’den C2
ürünlerini
oluştur

6

{I2}

C2

{I1}

Ürün

C2
Her ürünün
sayısı için
D’yi tara

Ürün

Destek Sayısı

{I1, I2}

4

{I1, I3}

4

{I1, I4}

1

{I1, I5}

{I1, I5}

2

{I2, I3}

{I2, I3}

4

{I2, I4}

{I2, I4}

{I2, I5}

{I1, I2}
{I1, I3}
{I1, I4}

L2

min_destek=2 Ürün
sayısı ile
{I1, I2}
karşılaştır

Destek Sayısı
4

{I1, I3}

4

{I1, I5}

2

{I2, I3}

4

2

{I2, I4}

2

{I2, I5}

2

{I2, I5}

2

{I3, I4}

{I3, I4}

0

{I3, I5}

{I3, I5}

1

{I4, I5}

{I4, I5}

0

L2’den C3
ürünlerini
oluştur

C3
Ürün

Her ürünün
sayısı için
D’yi tara

{I1, I2, I3}
{I1, I2, I5}

Not: Bu aşamada {I2, I3, I4},
{I2, I3, I5}, {I2, I4, I5} in alt
kümeleri sık geçen
olmadığından budanır.

L3’den C4
ürünlerini
oluştur

C3
Destek Sayısı

Ürün
{I1, I2, I3}

2

{I1, I2, I5}

2

min_destek=2
sayısı ile
karşılaştır

C4
Ürün
{I1, I2, I3, I5}

Ancak bu nesnekümenin alt kümesi olan {I2, I3, I5} sık
geçen nesneküme olmadığı için bu nesneküme budanır
ve C4 kümesi boş küme olur. Apriori bütün sık geçen
nesneleri bulduğundan algoritma sonlanmış olur.

L3
Ürün

Destek Sayısı

{I1, I2, I3}

2

{I1, I2, I5}

2

• Sık geçen nesnekümeler bulunduktan sonra, sıra birliktelik kurallarını
oluşturmaya gelir. Örneğin sık geçen bir nesne olan I={I1, I2, I5} için boş
olmayan bütün alt kümeler şunlardır : {I1, I2} , {I1, I5} , {I2, I5} , {I1} , {I2}
ve {I5}. Bu durumda şu birliktelik kuralları çıkarılabilir:
• I1 & I2 ⇒I5 güven (I1&I2 ⇒ I5)=Destek (I1&I2 ⇒ I5)/Destek(I1 & I2)
={I1.I2. I5 / D }/{I1.I2 / D }
=2/4=%50
• I1 & I5 ⇒I2 güven= 2/2=%100
• I2 & I5 ⇒I1

güven=2/2=%100

• I1 ⇒I2 & I5

güven=2/6=%33

• I2 ⇒I1 & I5

güven=2/7=%29

• I5 ⇒I1 & I2

güven=2/2=%100

Eğer, örneğin minimum
güven değeri %70 olarak
alınmışsa, ikinci, üçüncü
ve sonuncu kurallar
dikkate alınır.

Slayt_4

More Related Content

Similar to Slayt_4 (9)

Slayt_4

Editor's Notes