SlideShare a Scribd company logo
HAM VERİNİN NİTELİKLİ
BİLGİYE
DÖNÜŞTÜRÜLME SÜRECİ
25.03.2013
Kullanım Amaçlarına Göre Veri
Madenciliği Yöntemleri
• Öngörüsel Yöntemler
• Birliktelik Kuralları ve Ardışık Zamanlı
Örüntüler
• Kümeleme Yöntemleri
• Aykırı Değer Analizi
Alan Yön Tanımı

• Bir değişkenin yönü modelleme işlemcileri için önemlidir. 5 tip
yön vardır.
• In: değişkenin bir modelleme tekniğinde girdi ya da tahmin edici
olarak kullanılacağını gösterir.
• Out: değişkenin bir modelleme tekniğinde çıktı ya da hedef
olarak kullanılacağını gösterir.
• Both: Apriori, GRI ve Sequence modelleme işlemcilerinde
kullanılır.değişkenin hem girdi hem de çıktı olarak kullanılacağını
gösterir. Diğer modelleme teknikleri bu değişkeni kullanmaz.
• None: değişkenin modellemede kullanılmayacağını gösterir.
• Partition: değişkenin veriyi örneklemlere ayırdığımız zaman
kullanacağımızı gösterir.
Veri Madenciliği Algoritmaları
• Veri madenciliği
algoritmaları 3
ana sınıf altında
toplanır:
• Öngörü
• Birliktelik Tespiti
• Kümeleme

Cluster

What events occur
together? Given a series
part failures, which parts
are likely to fail in the
future?

Group cases that
exhibit similar
characteristics.
Which parts tend
to fail most often?

Data
Mining
Predict

Associate

Predict or Classify behavior and
characteristics. What are the
characteristics of parts that
perform well versus parts that
fail often?

4
Veri Madenciliği Modelleme Yöntemleri

Öngörü ve Sınıflandırma
 C&R Tree
 QUEST
 CHAID
 C 5.0
 Decision List
 Neural Net
 Bayes Net



Feature Selection



Discriminant



Regression



Logistic



GenLin



Cox



SVM (Support Vector Machine)



SLRM (Self L earning Response
Model)
Kümeleme,
Segmantasyo
n • K-Means
• Kohonen
• Two Step
• Anomally

Birliktelik Tespiti


GRI



Apriori



Carma



Sequence
Danışmanlı Öğrenme Teknikleri
“Supervised Learning” olarak da adlandırılır.

Bir dizi “input” (girdi verisi) ile bir dizi “output”
değerini tahmin etme veya öğrenmeye çalışma
amacıyla kullanılır.
Sinir Ağları (Neural Networks),
• Dört farklı karar ağacı (Decision Tree) yöntemi,
• Regresyon analizi
• Lojistik regresyon analizi
• Decision List
• SVM
• Bayes Ağları
Danışmansız Öğrenme
Teknikleri
“Unsupervised Learning” olarak da adlandırılır.
Sadece “input” (girdi verisi) ile tahmin etme veya
öğrenmeye çalışma amacıyla kullanılır.Bir output alanı
kavramı yoktur.
• Üç farklı kümeleme yöntemi ,
• İki farklı birliktelik tespiti yöntemi,
• Ardışıklık tespiti yöntemi,
• Faktör analizi
Makine Öğrenimi
• Arthur Samuel (1959). Machine Learning: Field of
study that gives computers the ability to learn
without being explicitly programmed.
• Tom Mitchell (1998) Well-posed Learning
Problem: A computer program is said to learn
from experience E with respect to some task T
and some performance measure P, if its
performance on T, as measured by P, improves
with experience E.
Makine Öğrenimi
• Tom Mitchell (1998) Well-posed Learning
Problem: A computer program is said to learn
from experience E with respect to some task T
and some performance measure P, if its
performance on T, as measured by P, improves
with experience E.
• Dama oyununu düşündüğümüzde;
• E: ?
• T: ?
• P: ?
Makine Öğrenimi
Bazı Tanımlar
Root Node and Parent
Node

Child Node
and Parent
Node
Child Node and
Terminal Node

Child Node and
Terminal Node
Karar Ağacı Sonucu
Slayt_4
Birliktelik Kuralları
• Birliktelik kuralları yöntemi tipik olarak birlikte oluşan
iki ya da daha çok kaydı bulmaya çalışır. Birliktelik
kuralı algoritmaları web işlemcisi gibi görsel teknikler
kullanılarak bulunmaya çalışılan karışık ilişkileri daha
çabuk ve otomatik olarak bulur.
• Bu algoritmalar öncelikle çok basit kurallar oluştururlar.
Bu kurallar daha sonra çeşitli koşullar eklenip
özelleştirilerek daha ilginç ve karışık kurallar kaydedilir.
Apriori İşlemcisi
• Algoritmanın ismi, sık geçen nesnelerin önsel
bilgilerini kullanmasından yani bilgileri bir önceki
adımdan almasından “önceki (prior)” anlamında
aprioridir. En basit anlamda bir kural;
• A ⇒ B şeklinde tanımlanır.
• Birliktelik kurallarında sıklıkla kullanılan birkaç önemli
terim vardır. Bunlar; kuralın sol tarafını ifade eden
önce (antecedent), kuralın sağ tarafını ifade eden
sonuç (consequent), destek değeri (support), güven
değeri (confidence)’dir.
Veri Tipi
• Birliktelik kurallarında kullanılan veri tipi
1. Transactional Format
2. Tabular Format
tipinde olabilir.
Birliktelik Analizi Örnek
• Beer & cannedveg ⇒ frozenmeal kuralı için;
Rule Support (Destek) = %14,6 ve
Confidence (Güven) = %87,425’dir.
• Bunan göre; bira, konserve sebze ve donmuş gıdanın
bütün fiş hareketlerinde beraber görülme olasılığı
%14,6’dır. Bira ve konserve sebze alan bir müşterinin
arkasından %87,425 olasılıkla donmuş gıda da alacağı
söylenebilir.
Apriori Algoritması Örnek
D veritabanı
ANO:

Ürün NO:

A100

I1, I2, I5

A200

I2, I4

A300

I2, I3

A400

I1, I2, I4

A500

I1, I3

A600

I2, I3

A700

I1, I3

A800

I1, I2, I3, I5

A900

I1, I2, I3
Her ürünün
sayısı için
D’yi tara

C1
Ürün

Ürün sayılarını
min_destek=2
sayısı ile
karşılaştır

Destek Sayısı

L1
Ürün

Destek Sayısı

{I1}

6

{I2}

7

6

{I3}

6

{I4}

2

{I4}

2

{I5}

2

{I5}

2

7

{I3}

L1’den C2
ürünlerini
oluştur

6

{I2}

C2

{I1}

Ürün

C2
Her ürünün
sayısı için
D’yi tara

Ürün

Destek Sayısı

{I1, I2}

4

{I1, I3}

4

{I1, I4}

1

{I1, I5}

{I1, I5}

2

{I2, I3}

{I2, I3}

4

{I2, I4}

{I2, I4}

{I2, I5}

{I1, I2}
{I1, I3}
{I1, I4}

L2

Ürün sayılarını
min_destek=2 Ürün
sayısı ile
{I1, I2}
karşılaştır

Destek Sayısı
4

{I1, I3}

4

{I1, I5}

2

{I2, I3}

4

2

{I2, I4}

2

{I2, I5}

2

{I2, I5}

2

{I3, I4}

{I3, I4}

0

{I3, I5}

{I3, I5}

1

{I4, I5}

{I4, I5}

0
L2’den C3
ürünlerini
oluştur

C3
Ürün

Her ürünün
sayısı için
D’yi tara

{I1, I2, I3}
{I1, I2, I5}

Not: Bu aşamada {I2, I3, I4},
{I2, I3, I5}, {I2, I4, I5} in alt
kümeleri sık geçen
olmadığından budanır.

L3’den C4
ürünlerini
oluştur

C3
Destek Sayısı

Ürün
{I1, I2, I3}

2

{I1, I2, I5}

2

Ürün sayılarını
min_destek=2
sayısı ile
karşılaştır

C4
Ürün
{I1, I2, I3, I5}

Ancak bu nesnekümenin alt kümesi olan {I2, I3, I5} sık
geçen nesneküme olmadığı için bu nesneküme budanır
ve C4 kümesi boş küme olur. Apriori bütün sık geçen
nesneleri bulduğundan algoritma sonlanmış olur.

L3
Ürün

Destek Sayısı

{I1, I2, I3}

2

{I1, I2, I5}

2
• Sık geçen nesnekümeler bulunduktan sonra, sıra birliktelik kurallarını
oluşturmaya gelir. Örneğin sık geçen bir nesne olan I={I1, I2, I5} için boş
olmayan bütün alt kümeler şunlardır : {I1, I2} , {I1, I5} , {I2, I5} , {I1} , {I2}
ve {I5}. Bu durumda şu birliktelik kuralları çıkarılabilir:
• I1 & I2 ⇒I5 güven (I1&I2 ⇒ I5)=Destek (I1&I2 ⇒ I5)/Destek(I1 & I2)
={I1.I2. I5 / D }/{I1.I2 / D }
=2/4=%50
• I1 & I5 ⇒I2 güven= 2/2=%100
• I2 & I5 ⇒I1

güven=2/2=%100

• I1 ⇒I2 & I5

güven=2/6=%33

• I2 ⇒I1 & I5

güven=2/7=%29

• I5 ⇒I1 & I2

güven=2/2=%100

Eğer, örneğin minimum
güven değeri %70 olarak
alınmışsa, ikinci, üçüncü
ve sonuncu kurallar
dikkate alınır.

More Related Content

PPT
Slayt_2
PPT
Slayt_3
PPT
Ders_1
PPTX
Apriori algoritması
PPT
Veri madenciliği ve ids
PDF
Safak EBESEK Veri Madenciligi Sunum
PPTX
Birliktelik Kuralları Kullanılarak Pazar Sepeti Analizi (Market Basket Analys...
PDF
Veri Madenciliği (Data Mining)
Slayt_2
Slayt_3
Ders_1
Apriori algoritması
Veri madenciliği ve ids
Safak EBESEK Veri Madenciligi Sunum
Birliktelik Kuralları Kullanılarak Pazar Sepeti Analizi (Market Basket Analys...
Veri Madenciliği (Data Mining)

Similar to Slayt_4 (9)

PPTX
Algoritma
PPTX
Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx
PDF
Benzetim ve Modelleme dersine giriss.pdf
DOC
Algoritma
PDF
Programlama ornekleri
PPTX
Yzm 2116 - Bölüm 2 (Algoritma Analizi)
PPT
başlıkk 11111
PPTX
Gizem Başak Berk - Yüksek Lisans Tez Sunumu
PPTX
Yazilim projeleri maliyet tahmini ve cocomo modeli
Algoritma
Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx
Benzetim ve Modelleme dersine giriss.pdf
Algoritma
Programlama ornekleri
Yzm 2116 - Bölüm 2 (Algoritma Analizi)
başlıkk 11111
Gizem Başak Berk - Yüksek Lisans Tez Sunumu
Yazilim projeleri maliyet tahmini ve cocomo modeli
Ad

Slayt_4

  • 2. Kullanım Amaçlarına Göre Veri Madenciliği Yöntemleri • Öngörüsel Yöntemler • Birliktelik Kuralları ve Ardışık Zamanlı Örüntüler • Kümeleme Yöntemleri • Aykırı Değer Analizi
  • 3. Alan Yön Tanımı • Bir değişkenin yönü modelleme işlemcileri için önemlidir. 5 tip yön vardır. • In: değişkenin bir modelleme tekniğinde girdi ya da tahmin edici olarak kullanılacağını gösterir. • Out: değişkenin bir modelleme tekniğinde çıktı ya da hedef olarak kullanılacağını gösterir. • Both: Apriori, GRI ve Sequence modelleme işlemcilerinde kullanılır.değişkenin hem girdi hem de çıktı olarak kullanılacağını gösterir. Diğer modelleme teknikleri bu değişkeni kullanmaz. • None: değişkenin modellemede kullanılmayacağını gösterir. • Partition: değişkenin veriyi örneklemlere ayırdığımız zaman kullanacağımızı gösterir.
  • 4. Veri Madenciliği Algoritmaları • Veri madenciliği algoritmaları 3 ana sınıf altında toplanır: • Öngörü • Birliktelik Tespiti • Kümeleme Cluster What events occur together? Given a series part failures, which parts are likely to fail in the future? Group cases that exhibit similar characteristics. Which parts tend to fail most often? Data Mining Predict Associate Predict or Classify behavior and characteristics. What are the characteristics of parts that perform well versus parts that fail often? 4
  • 5. Veri Madenciliği Modelleme Yöntemleri Öngörü ve Sınıflandırma  C&R Tree  QUEST  CHAID  C 5.0  Decision List  Neural Net  Bayes Net  Feature Selection  Discriminant  Regression  Logistic  GenLin  Cox  SVM (Support Vector Machine)  SLRM (Self L earning Response Model)
  • 6. Kümeleme, Segmantasyo n • K-Means • Kohonen • Two Step • Anomally Birliktelik Tespiti  GRI  Apriori  Carma  Sequence
  • 7. Danışmanlı Öğrenme Teknikleri “Supervised Learning” olarak da adlandırılır. Bir dizi “input” (girdi verisi) ile bir dizi “output” değerini tahmin etme veya öğrenmeye çalışma amacıyla kullanılır. Sinir Ağları (Neural Networks), • Dört farklı karar ağacı (Decision Tree) yöntemi, • Regresyon analizi • Lojistik regresyon analizi • Decision List • SVM • Bayes Ağları
  • 8. Danışmansız Öğrenme Teknikleri “Unsupervised Learning” olarak da adlandırılır. Sadece “input” (girdi verisi) ile tahmin etme veya öğrenmeye çalışma amacıyla kullanılır.Bir output alanı kavramı yoktur. • Üç farklı kümeleme yöntemi , • İki farklı birliktelik tespiti yöntemi, • Ardışıklık tespiti yöntemi, • Faktör analizi
  • 9. Makine Öğrenimi • Arthur Samuel (1959). Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed. • Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
  • 10. Makine Öğrenimi • Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. • Dama oyununu düşündüğümüzde; • E: ? • T: ? • P: ?
  • 12. Bazı Tanımlar Root Node and Parent Node Child Node and Parent Node Child Node and Terminal Node Child Node and Terminal Node
  • 15. Birliktelik Kuralları • Birliktelik kuralları yöntemi tipik olarak birlikte oluşan iki ya da daha çok kaydı bulmaya çalışır. Birliktelik kuralı algoritmaları web işlemcisi gibi görsel teknikler kullanılarak bulunmaya çalışılan karışık ilişkileri daha çabuk ve otomatik olarak bulur. • Bu algoritmalar öncelikle çok basit kurallar oluştururlar. Bu kurallar daha sonra çeşitli koşullar eklenip özelleştirilerek daha ilginç ve karışık kurallar kaydedilir.
  • 16. Apriori İşlemcisi • Algoritmanın ismi, sık geçen nesnelerin önsel bilgilerini kullanmasından yani bilgileri bir önceki adımdan almasından “önceki (prior)” anlamında aprioridir. En basit anlamda bir kural; • A ⇒ B şeklinde tanımlanır. • Birliktelik kurallarında sıklıkla kullanılan birkaç önemli terim vardır. Bunlar; kuralın sol tarafını ifade eden önce (antecedent), kuralın sağ tarafını ifade eden sonuç (consequent), destek değeri (support), güven değeri (confidence)’dir.
  • 17. Veri Tipi • Birliktelik kurallarında kullanılan veri tipi 1. Transactional Format 2. Tabular Format tipinde olabilir.
  • 19. • Beer & cannedveg ⇒ frozenmeal kuralı için; Rule Support (Destek) = %14,6 ve Confidence (Güven) = %87,425’dir. • Bunan göre; bira, konserve sebze ve donmuş gıdanın bütün fiş hareketlerinde beraber görülme olasılığı %14,6’dır. Bira ve konserve sebze alan bir müşterinin arkasından %87,425 olasılıkla donmuş gıda da alacağı söylenebilir.
  • 20. Apriori Algoritması Örnek D veritabanı ANO: Ürün NO: A100 I1, I2, I5 A200 I2, I4 A300 I2, I3 A400 I1, I2, I4 A500 I1, I3 A600 I2, I3 A700 I1, I3 A800 I1, I2, I3, I5 A900 I1, I2, I3
  • 21. Her ürünün sayısı için D’yi tara C1 Ürün Ürün sayılarını min_destek=2 sayısı ile karşılaştır Destek Sayısı L1 Ürün Destek Sayısı {I1} 6 {I2} 7 6 {I3} 6 {I4} 2 {I4} 2 {I5} 2 {I5} 2 7 {I3} L1’den C2 ürünlerini oluştur 6 {I2} C2 {I1} Ürün C2 Her ürünün sayısı için D’yi tara Ürün Destek Sayısı {I1, I2} 4 {I1, I3} 4 {I1, I4} 1 {I1, I5} {I1, I5} 2 {I2, I3} {I2, I3} 4 {I2, I4} {I2, I4} {I2, I5} {I1, I2} {I1, I3} {I1, I4} L2 Ürün sayılarını min_destek=2 Ürün sayısı ile {I1, I2} karşılaştır Destek Sayısı 4 {I1, I3} 4 {I1, I5} 2 {I2, I3} 4 2 {I2, I4} 2 {I2, I5} 2 {I2, I5} 2 {I3, I4} {I3, I4} 0 {I3, I5} {I3, I5} 1 {I4, I5} {I4, I5} 0
  • 22. L2’den C3 ürünlerini oluştur C3 Ürün Her ürünün sayısı için D’yi tara {I1, I2, I3} {I1, I2, I5} Not: Bu aşamada {I2, I3, I4}, {I2, I3, I5}, {I2, I4, I5} in alt kümeleri sık geçen olmadığından budanır. L3’den C4 ürünlerini oluştur C3 Destek Sayısı Ürün {I1, I2, I3} 2 {I1, I2, I5} 2 Ürün sayılarını min_destek=2 sayısı ile karşılaştır C4 Ürün {I1, I2, I3, I5} Ancak bu nesnekümenin alt kümesi olan {I2, I3, I5} sık geçen nesneküme olmadığı için bu nesneküme budanır ve C4 kümesi boş küme olur. Apriori bütün sık geçen nesneleri bulduğundan algoritma sonlanmış olur. L3 Ürün Destek Sayısı {I1, I2, I3} 2 {I1, I2, I5} 2
  • 23. • Sık geçen nesnekümeler bulunduktan sonra, sıra birliktelik kurallarını oluşturmaya gelir. Örneğin sık geçen bir nesne olan I={I1, I2, I5} için boş olmayan bütün alt kümeler şunlardır : {I1, I2} , {I1, I5} , {I2, I5} , {I1} , {I2} ve {I5}. Bu durumda şu birliktelik kuralları çıkarılabilir: • I1 & I2 ⇒I5 güven (I1&I2 ⇒ I5)=Destek (I1&I2 ⇒ I5)/Destek(I1 & I2) ={I1.I2. I5 / D }/{I1.I2 / D } =2/4=%50 • I1 & I5 ⇒I2 güven= 2/2=%100 • I2 & I5 ⇒I1 güven=2/2=%100 • I1 ⇒I2 & I5 güven=2/6=%33 • I2 ⇒I1 & I5 güven=2/7=%29 • I5 ⇒I1 & I2 güven=2/2=%100 Eğer, örneğin minimum güven değeri %70 olarak alınmışsa, ikinci, üçüncü ve sonuncu kurallar dikkate alınır.

Editor's Notes

  • #5: Veri madenciliği algoritmaları 3 ana sınıf altında toplanabilir: Öngörü– Sınıflandırma veya segmantasyon diye de bilinir. Bu gruptaki algoritmalar tahmin edilecek bir hedef değişken ve tahmin edici “prediktör” değişkenler söz konusu olduğunda kullanılır. Bir davranışı irdeleme, belirgin bir karekteristiği çıkarmaya yarar. Birliktelik Tespiti algoritmaları ardışıklık tespitinide içerir. Kümeleme algoritmaları benzer karekteristikleri içeren durumların gruplanmasını sağlar.
  • #11: E: Oynanan binlerce oyun; T: Oyunu kimin kazanacağı; P: Oyunu kazanma olayını tahmin etme yüzdesi
  • #12: E: Oynanan binlerce oyun; T: Oyunu kimin kazanacağı; P: Oyunu kazanma olayını tahmin etme yüzdesi