Veri patlaması veya seli: Otomatik veri toplama araçları, olgun veri tabanı ve bilgi teknolojileri, yaygın bilgi teknolojileri kullanımı, veri tabanları, veri anbarları ve diğer veri depolarında çok büyük miktarlarda veri ve bilgilerin toplanmasını sağlamakta ve veri miktarı sürekli artmaktadır.
Mağazalardaki satış/alış işlemleri
Banka ve Kredi kartı işlemleri
Bir çok sektördeki veri ve işlemler
Bilimsel veriler, uydu ve radarlardaki algılayıcılar gelen veriler
Bilgi sistemleri birçok açık olmayan ve geleneksel yöntemlerle anlaşılamayan bilgileri içermektedir.
Veri Madenciliği Nedir?
Veriler arasında boğuluyoruz, ancak gerçek bilgi için açlık çekiyoruz.
Data (Veri) Information (bilgi) Knowledge (bilgi) Wisdom (Bilgelik) Vision (uzgörüş)
Çözüm: Veri Madenciliği (Gereksinim buluşların temel nedenidir.)
Veri Madenciliği: verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilgi ve örüntülerin çıkarılması olarak tanımlanmaktadır.
Diğer eşdeğer isimler: Veri tabanlarında bilgi madenciliği (knowledge mining from databases), Bilgi çıkarımı (knowledge extraction), data/pattern anaysis (veri ve örüntü analizi), veri arkeolojisi, …
Genel olarak veri madenciliği yöntemleri iki sınıfa ayrılabilir:
Öngörü Yöntemleri (Prediction Methods)
Öngörü amacı ile var olan verilerden yorum çıkarılması
Tanımlayıcı Yöntemler (Description Methods)
Veriyi tanımlayan yorumlanabilir örüntülerin bulunması
Veri Madenciliği Yöntemleri
Sınıflandırma
Girdi: Kayıtlar kümesi (Öğrenme Kümesi )
Her bir kayıt özellikler (Attribute-Bir tablodaki sütunlar) içerir. Bu özelliklerden bir tanesi sınıftır (Class).
Diğer özelliklerden sınıf özelliğini öngörebilecek bir model fonksiyon geliştirilir.
Amaç: Yeni bir kayıt geldiğinde, bu kayıt geliştirilen model kullanılarak mümkün olduğunca doğru bir sınıfa atanır.
Bir deneme kümesi modelin doğruluğunu belirlemek için kullanılır. Genellikle verilen veri kümesi öğrenme ve deneme kümesi olarak ikiye ayrılır. Öğrenme kümesi modeli oluşturulmasında, deneme kümesi modelin doğrulanmasında kullanılır.
Sınıflandırma Süreci: (1) Model Oluştırma
Sınıflandırma Süreci: (2) Modelin Öngörü için kullanılması
Karar Ağacı
Karar Ağacı
Yaygın kullanılan öngörü yöntemlerinden bir tanesidir
Ağaçtaki her düğüm bir özellikteki testi gösterir.
Düğüm dalları testin sonucunu belirtir.
Ağaç yaprakları sınıf etiketlerini içerir.
Karar ağacı çıkarımı iki aşamadan oluşur
Ağaç inşası
Başlangıçta bütün öğrenme örnekleri kök düğümdedir.
Örnekler seçilmiş özelliklere tekrarlamalı olarak göre bölünür.
Ağaç Temizleme (Tree pruning)
Gürültü ve istisna kararları içeren dallar belirlenir ve kaldırılır.
Karar ağacı kullanımı: Yeni bilinmeyen örneğin sınıflandırılması
Bilinmeyen örneğin özellikleri karar ağacında test edilerek sınıfı bulunur.
Bir Kredi Kartı Kampanyasında Yeni Bir Örneğin Sınıflandırılması
Bayes Sınıflandırması
İstatistiksel bir sınıflandırıcıdır. Sınıf üyelik olasılıklarını öngörür.
Birliktelik analizi büyük veri kümeleri arasında birliktelik ilişkilerini bulur. Market-Basket analizi ve işlem (transaction) veri analizi olarakta adlandırılır.
Birliktelik analizi, belirli bir veri kümesinde yüksek sıklıkta birlikte görülen özellik değerlerine ait ilişkisel kuralların keşfidir.
Sonuclar birliktelik kuralları (A B) olarak sunulur.
Birliktelik kurallarının kullanıldıgı en yaygın örnek market sepeti uygulamasıdır.
Market sepet analizi, müsterilerin yaptıkları alısverislerdeki ürünler arasındaki birliktelikleri bularak müsterilerin satın alma alıskanlıklarını belirlemeye çalışır .
Basket veri analizi
Marketlerde Birliktelik Kuralı Keşfi
Örnek
İstisna Analizi (Outlier Analizi)
Normal davranışlardan ve eğilimlerden çok farklı sapmaları belirlemede kullanılır.
Uygulamalar:
Kredi Kartı Yolsuzluğu Tesbiti
Ağ Saldırı (Intrusion) Tesbiti
Referans Kitaplar (kaynak: Han & Kamber)
S. Chakrabarti. Mining the Web: Statistical Analysis of Hypertex and Semi-Structured Data. Morgan Kaufmann, 2002
R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, 2ed., Wiley-Interscience, 2000
T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley & Sons, 2003
U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996
U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Morgan Kaufmann, 2001
J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2nd ed., 2006