Özellik seçim yöntemleri ve yeni bir yaklaşım

Budak, Hüseyin

Mimar Sinan Güzel Sanatlar Üniversitesi Açık Bilim, Sanat Arşivi

Açık Bilim, Sanat Arşivi, Mimar Sinan Güzel Sanatlar Üniversitesi tarafından doğrudan ve dolaylı olarak yayınlanan; kitap, makale, tez, bildiri, rapor gibi tüm akademik kaynakları uluslararası standartlarda dijital ortamda depolar, Üniversitenin akademik performansını izlemeye aracılık eder, kaynakları uzun süreli saklar ve yayınların etkisini artırmak için telif haklarına uygun olarak Açık Erişime sunar.

MSGSÜ'de Ara

Gelişmiş Arama

Erişim

info:eu-repo/semantics/openAccess

Tarih

2015

Yazar/Editör

Budak, Hüseyin

Üst veri

Tüm öğe kaydını göster

Özet

Günümüzde bilişim teknolojilerinin geldiği nokta, birçok alanda büyük veri tabanlarının oluşturulmasına ve bu veri tabanlarında depolanan veri miktarının katlanarak artmasına imkan tanımaktadır. Veri miktarlarındaki bu artış uygulamacıların beklentilerini de arttırmaktadır. Uygulamacıların beklentilerini karşılamak için, veri tabanlarında depolanan bu veri yığınlarının analiz edilmesinde geleneksel yöntemler yeterli olmadığından veri madenciliği yöntemleri ön plana çıkmaktadır. Veri madenciliği, yalnızca hazır verilerin analiz edilmesini değil, verilerin elde edilmesini, bu verilerden anlamlı bilginin çıkarılmasını ve bu bilginin eylem planına dönüştürülmesini kapsayan bir süreçtir. Bu sürecin aşamalarında biri de özellik seçim işlemidir. Veri tabanlarının kapasiteleri sayesinde, birçok gerçek hayat probleminin çözümü için kullanılan verilerde yüzlerce hatta binlerce özellik bulunmaktadır. Bu ölçekteki verilerin analizinde, uygulama için harcanacak zaman, veri depolama maliyeti, veri madenciliği algoritma performansının azalması gibi sorunlarla karşılaşıldığından çok boyutlu verilerde analiz öncesinde özellik seçimi yapmak önemli bir konu haline gelmiştir. Bu çalışmada, özellik seçim yöntemleri içerisinde yer alan t-skor yöntemine alternatif olarak yeni bir yöntem önerilmiş ve bu iki yöntemin karşılaştırılmasına yönelik çeşitli analizler gerçekleştirilmiştir. Yöntemleri karşılaştırmada veri madenciliğine ilişkin çalışmalarda sıklıkla tercih edilen, Arcene, Gisette ve Madelon isimli veri setlerinden yararlanılmıştır. Bu amaçla ele alınan tüm veri setleri için ilk 50, ilk 100, ilk 150 ve ilk 200 özellik seçilerek toplam 24 adet veri kümesi oluşturulmuştur. Bu veri kümeleri kullanılmak suretiyle t-skor ile önerilen yöntemin sınıflandırma doğruluk yüzdeleri karşılaştırılmıştır. Sınıflandırma doğruluk yüzdelerinin hesaplanmasında literatürde oldukça yaygın bir kullanıma sahip olan Yapay Sinir Ağları (YSA) ve Destek Vektör Makineleri (DVM) yöntemleri tercih edilmiştir. Elde edilen bulgulardan önerilen özellik seçim yönteminin t-skor yöntemine göre istatistiksel açıdan daha başarılı sonuçlar verdiği gözlemlenmiştir.

Bağlantı

https://hdl.handle.net/20.500.14124/1120

Koleksiyonlar

Doktora Tezleri [866]

Mimar Sinan Güzel Sanatlar Üniversitesi Açık Bilim, Sanat Arşivi