Mimar Sinan Güzel Sanatlar Üniversitesi Açık Bilim, Sanat Arşivi
Açık Bilim, Sanat Arşivi, Mimar Sinan Güzel Sanatlar Üniversitesi tarafından doğrudan ve dolaylı olarak yayınlanan; kitap, makale, tez, bildiri, rapor gibi tüm akademik kaynakları uluslararası standartlarda dijital ortamda depolar, Üniversitenin akademik performansını izlemeye aracılık eder, kaynakları uzun süreli saklar ve yayınların etkisini artırmak için telif haklarına uygun olarak Açık Erişime sunar.MSGSÜ'de Ara
Sınıflandırma yöntemlerinin performansının üretilmiş ve gerçek veri setleri kullanılarak incelenmesi
dc.contributor.advisor | Howe, Eylem Ddeniz | |
dc.contributor.author | Yanmaz ,Çiğdem Kadaifçi | |
dc.date.accessioned | 2024-12-09T06:54:15Z | |
dc.date.available | 2024-12-09T06:54:15Z | |
dc.date.issued | 2024 | en_US |
dc.date.submitted | 2024 | |
dc.identifier.uri | https://hdl.handle.net/20.500.14124/6929 | |
dc.description.abstract | Bu çalışma kapsamında, gerçek hayatta karşılaşılan veri setlerinde sıklıkla yer alan aykırı gözlemler, gürültülü veri ve değişkenler arasında güçlü doğrusal ilişki durumlarına karşı, literatürde ve uygulamada yaygın şekilde kullanılan temel sınıflandırma yöntemlerinin nasıl performans gösterdiği incelenmiştir. Bu amaçla, çalışmanın birinci bölümünde, farklı sayıda gözlemler içeren üç adet dengeli (balanced) veri seti birbirinden bağımsız şekilde üretilmiştir. Yöntemlerin performansının, verinin değişen özelliklerine göre nasıl farklılık gösterdiğini inceleyebilmek amacıyla, üretilen her veri setindeki değişkenlerin çeşitli kombinasyonlarından oluşan 15 senaryo hazırlanmıştır. Farklı büyüklüklerdeki üç veri setinden elde edilen toplam 45 senaryo Lojistik Regresyon (Logistic Regression), Karar Ağacı (Decision Tree), Naïve Bayes ve Rassal Orman (Random Forest) yöntemleri kullanılarak incelenmiştir. Gerçek veri setlerinin dengesiz (imbalanced) olması, uygulamada sıklıkla karşılaşılan bir durumdur. Bu sebeple, üretilen veri setleri dengesiz olacak şekilde düzenlenerek, seçilen sınıflandırma yöntemlerinin performansı dengesiz veri durumunda, oluşturulan 45 senaryo üzerinden ayrıca incelenmiştir. Buna göre; veri setlerindeki gözlem sayısı az iken Lojistik Regresyon ve Naïve Bayes yöntemleri daha iyi sonuç verirken gürültü ve aykırı gözlemler sınıflandırma performansını yüksek oranda etkilemektedir. Veri setinin büyüklüğünden bağımsız olarak en iyi doğruluk performansı çoğunlukla Lojistik Regresyon ile elde edilmiştir. Tüm senaryolarda çoklu bağlantının varlığı sınıflandırma performansının yüksek olmasına yol açmıştır. Tüm değişken tiplerinin yer aldığı senaryolarda yöntemlerin doğruluk performansı daha yüksektir. Düşük örnekleme yaklaşımıyla dengesizleştirilen veri setlerinde gözlem sayısı ve veri setinin büyüklüğünden bağımsız olarak Lojistik Regresyon başarılı bir sınıflandırma yöntemi olarak öne çıkmıştır. Rassal Orman, gözlem sayısı düşükken aykırı gözlemler ve gürültü karşısında görece daha başarısız iken gözlem sayısı arttıkça bu tip değişkenler karşısında daha başarılı olmuştur. Çalışmanın ikinci bölümünde, seçilen sınıflandırma yöntemlerinin gerçek bir veri setinde nasıl performans göstereceğini inceleyebilmek amacıyla, bir elektronik ticaret şirketinden yapılan alışverişlere ait veri gerçek kullanılarak satın alınan ürünlerin iade edilip edilmeyeceği tahminlenmiştir. Gerçek veri kullanıldığında tahmin doğruluk oranları Lojistik Regresyon ile %86,74 ve Rassal Orman ile %86,34 olarak görece yüksek elde edilmiştir. Lojistik Regresyon, en yüksek doğruluk performansı gösteren yöntemdir. Fakat duyarlılık ve kesinlik değerlerine bakıldığında, ağaç temelli yöntemlerden olan Karar Ağacı yönteminin sırasıyla %52,22 duyarlılık ve %60,48 kesinlik değeri; Rassal Orman yönteminin sırasıyla %52,25 duyarlılık ve %62,66 kesinlik değeri ile daha iyi performans gösterdiği görülmektedir. İade edilmeyen ürünlerin sayısı çok yüksek olduğundan, negatif sınıfların ne kadar iyi tahmin edebildiğini gösteren özgüllük değeri tüm yöntemler için çok yüksek elde edilmiş olup en iyi sonucu veren %99,78 değeriyle Lojistik Regresyon yöntemidir. Elektronik ticaret şirketine ait gerçek satış verisi, gürültü, eksik ve aykırı gözlemler ile bağımsız değişkenler arasında çoklu doğrusal bağlantının söz konusu olduğu dengesiz bir veri setidir. Bu dengesiz veri seti, seçilen sınıflandırma yöntemleriyle incelendikten sonra aşırı örnekleme (oversampling) ve düşük örnekleme (undersampling) yaklaşımlarıyla dengeli hale getirilerek sınıflandırma yöntemlerinin performansı karşılaştırmalı olarak incelenmiştir. Dengelenen veri setlerinde ağaç temelli bir yöntem olan Rassal Orman en iyi sınıflandırma performansını sergileyen yöntem olmuştur. Doğruluk, kesinlik ve F_1-skoru için en yüksek değerler Rassal Orman yöntemiyle elde edilirken, Karar Ağacı yönteminin özgüllük performansı, Naïve Bayes yönteminin ise duyarlılık performansı daha iyidir. | en_US |
dc.language.iso | tur | en_US |
dc.publisher | Mimar Sinan Güzel Sanatlar Üniversitesi, Fen Bilimleri Enstitüsü | en_US |
dc.rights | info:eu-repo/semantics/openAccess | en_US |
dc.title | Sınıflandırma yöntemlerinin performansının üretilmiş ve gerçek veri setleri kullanılarak incelenmesi | en_US |
dc.type | masterThesis | en_US |
dc.department | Enstitüler, Fen Bilimleri Enstitüsü, İstatistik Anabilim Dalı | en_US |
dc.relation.publicationcategory | Tez | en_US |
Bu öğenin dosyaları:
Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.
-
Fen Bilimleri Enstitüsü [1728]
Institute of Science