Özet
Günümüzde bilişim teknolojilerinin geldiği nokta, birçok alanda büyük veri tabanlarının oluşturulmasına ve bu veri tabanlarında depolanan veri miktarının katlanarak artmasına imkan tanımaktadır. Veri miktarlarındaki bu artış uygulamacıların beklentilerini de arttırmaktadır. Uygulamacıların beklentilerini karşılamak için, veri tabanlarında depolanan bu veri yığınlarının analiz edilmesinde geleneksel yöntemler yeterli olmadığından veri madenciliği yöntemleri ön plana çıkmaktadır. Veri madenciliği, yalnızca hazır verilerin analiz edilmesini değil, verilerin elde edilmesini, bu verilerden anlamlı bilginin çıkarılmasını ve bu bilginin eylem planına dönüştürülmesini kapsayan bir süreçtir. Bu sürecin aşamalarında biri de özellik seçim işlemidir. Veri tabanlarının kapasiteleri sayesinde, birçok gerçek hayat probleminin çözümü için kullanılan verilerde yüzlerce hatta binlerce özellik bulunmaktadır. Bu ölçekteki verilerin analizinde, uygulama için harcanacak zaman, veri depolama maliyeti, veri madenciliği algoritma performansının azalması gibi sorunlarla karşılaşıldığından çok boyutlu verilerde analiz öncesinde özellik seçimi yapmak önemli bir konu haline gelmiştir. Bu çalışmada, özellik seçim yöntemleri içerisinde yer alan t-skor yöntemine alternatif olarak yeni bir yöntem önerilmiş ve bu iki yöntemin karşılaştırılmasına yönelik çeşitli analizler gerçekleştirilmiştir. Yöntemleri karşılaştırmada veri madenciliğine ilişkin çalışmalarda sıklıkla tercih edilen, Arcene, Gisette ve Madelon isimli veri setlerinden yararlanılmıştır. Bu amaçla ele alınan tüm veri setleri için ilk 50, ilk 100, ilk 150 ve ilk 200 özellik seçilerek toplam 24 adet veri kümesi oluşturulmuştur. Bu veri kümeleri kullanılmak suretiyle t-skor ile önerilen yöntemin sınıflandırma doğruluk yüzdeleri karşılaştırılmıştır. Sınıflandırma doğruluk yüzdelerinin hesaplanmasında literatürde oldukça yaygın bir kullanıma sahip olan Yapay Sinir Ağları (YSA) ve Destek Vektör Makineleri (DVM) yöntemleri tercih edilmiştir. Elde edilen bulgulardan önerilen özellik seçim yönteminin t-skor yöntemine göre istatistiksel açıdan daha başarılı sonuçlar verdiği gözlemlenmiştir.