Özet
Günümüzde, veri boyutlarındaki hızlı artış ve karmaşık veri yapılarının ortaya çıkması, makine öğrenimi modellerinin kullanımını kaçınılmaz hale getirmiş, yüksek boyutlu veriler için etkili değişken seçiminin önemini artırmıştır. Özellikle sağlık gibi kritik alanlarda, hastalık teşhisi ve tedavi süreçlerinde kullanılan makine öğrenimi yöntemleri, yüksek boyutlu ve az gözlemli veri kümeleri nedeniyle ciddi zorluklarla karşılaşmaktadır. Bu tür veri kümelerinde boyutsallık laneti, artan hesaplama maliyetleri ve düşen model performansı gibi sorunlar yaratmaktadır. Bu nedenle, değişken seçimi ve boyut azaltma yöntemleri, makine öğrenimi modellerinin etkinliğini artırmak için temel bir gereklilik haline gelmiştir. Bu çalışmada, hem bağımlı hem de bağımsız değişkenler arasındaki ilişkileri dikkate alarak mevcut yöntemlerin sınırlamalarını aşmayı hedefleyen yenilikçi bir değişken seçimi yöntemi olan Minimum Tekrarlı Aralık Tabanlı Seçim (M2RS) geliştirilmiştir. M2RS, Python programlama dili ile bir kütüphane olarak tasarlanmış ve uygulanmıştır. Yöntem, bağımsız değişkenler arasındaki gereksiz tekrarları minimuma indirirken bağımlı değişkenle olan ilişkililiği maksimize etmeyi hedefleyen aralık tabanlı bir seçim önermektedir. M2RS yöntemi, literatürde yaygın olarak kullanılan ERGS ve mRMR yöntemlerinin güçlü yönlerini bir araya getirerek karşılaştırmalı bir performans analizi ile değerlendirilmiştir. Çalışmada, altı adet kanser mikrodizi (merkezi sinir sistemi, cilt kanseri, pankreas kanseri, lösemi, yumurtalık kanseri, kolon tümörü) ve ek olarak mutajenite veri setleri kullanılmıştır. Sonuçlar, M2RS'in sınıflandırma algoritmalarının başarısını %18'e kadar artırabildiğini göstermiştir. Korelasyon ısı haritası analizleri, yöntemin gereksiz değişkenleri düşük önem sıralarına taşıyarak kritik değişkenleri ön plana çıkardığını ve böylece model performansını artırdığını doğrulamaktadır. M2RS'in genelleme potansiyeli, farklı veri türleri ve sınıflandırma algoritmaları üzerinde test edilerek ortaya konulmuştur. Sağlıkta çeşitli kanser verilerindeki etkinliğinin yanı sıra, yöntemin ilaç molekülleri ve toksikoloji gibi farklı alanlarda da uygulanabilir olduğu gözlemlenmiştir. Sonuç olarak, M2RS yöntemi, bağımsız değişkenler arasındaki ilişkileri dikkate alan yenilikçi yapısı, farklı veri kümelerine uygulanabilirliği ve elde ettiği dikkat çekici performans sonuçlarıyla, boyut azaltma ve değişken seçimi alanında hem akademik hem de pratik uygulamalar için güçlü ve etkili bir çözüm sunmaktadır.