Mimar Sinan Fine Arts University Institutional Repository
DSpace@MSGSÜ digitally stores academic resources such as books, articles, dissertations, bulletins, reports, research data published directly or indirectly by Mimar Sinan Fine Arts University in international standarts, helps track the academic performance of the university, provides long term preservation for resources and makes publications available to Open Access in accordance with their copyright to increase the effect of publications.Search MSGSÜ
XGBoost ve karar ağacı tabanlı algoritmaların diyabet veri setleri üzerine uygulaması
Abstract
Sınıflandırma, insanların her zaman ilgilendiği konulardan biri olmuştur. Bu konu ilkel çağdan günümüze kadar önemini korumaya devam etmektedir. İnsanlar, canlı ve cansız varlıkları sınıflandırmayla başlamış; fakat günümüzde ise sağlık, bankacılık, finans, enerji gibi alanlarda sınıflandırma üzerine çalışmalar yapmaktadır. Özellikle sağlık alanında yapılan sınıflandırma çalışmaları, hastalığın erken teşhisi ve tanısında, ayrıca ilaç tasarlama çalışmalarına önemli katkı sunmaktadır. Dünya Sağlık Örgütü’ne göre diyabet hastalığı en çok ölüme neden olan on hastalıktan biri olmasının yanı sıra bu hastalığa yakalanan yetişkinlerin sayısı artmaya devam etmektedir. Dünya Sağlık Örgütü’nün, 2014 verilerine göre 422 milyon insan diyabetle yaşamaktadır. Diyabet hastalığının; zaman içinde kalpte, kan damarlarında, gözlerde, böbreklerde ve sinirlerde hasara yol açtığı sonucuna ulaşılmıştır. Bu hastalığa sahip yetişkinlerin kalp krizi ve felç riski geçirmesinin sağlıklı bireylere göre daha fazla olduğu saptanmıştır. Son yıllarda makine öğrenmesi ve yapay zeka gibi teknolojik gelişmeler birçok hastalıkla mücadelede kullanılmaya başlanmıştır. Hastalığın erken teşhisi ile beraber bireyin daha uzun yaşaması sağlanmaktadır. Özellikle gen dizilim çalışmalarında makine öğrenmesi önemli bir yer tutmaktadır. Tezin amacı doğrultusunda diyabet hastalığının tahmin edilmesi için makine öğrenme yöntemleri algoritmalarından yararlanılmıştır. Bu çalışmada; karar ağaçları, Rastgele Orman, Gradient Boosting ve XGBoost algoritmaları anlatılmıştır. Bu algoritmalar iki veri setine uygulanmış ve performans ölçütlerinden doğru sınıflandırma oranı, kesinlik, duyarlılık, Kappa ve F1 sonuçları elde edilmiştir. Elde edilen sonuçlardan doğru sınıflandırma oranı kullanılan algoritmalar bakımından karşılaştırması yapılıp yorumlanmıştır. Veri setlerinden birincisi 210 gözlem ve biri sınıf değişkeni olmak üzere 15 değişkenden oluşmaktadır. Diğeri ise literatürde “PIMA INDIANS” olarak bilinen 768 gözlem ve biri sınıf değişkeni olmak üzere 8 değişkenden meydana gelmektedir. Birinci veri setindeki kayıp gözlemlere IBM SPSS 23 paket programı kullanılarak çoklu atama ile değer ataması yapılmıştır. Bu çalışmada veri setlerinin bir kısmı eğitim verisi kalan kısmı da test verisi olarak ele alınmış ve uygulamada R açık kaynak yazılımı kullanılmıştır.
Kullanılan sınıflandırma algoritmalarından elde edilen sonuçlar doğru sınıflandırma oranları bakımından incelenmiştir. Doğru sınıflandırma oranı bakımından karar ağaçları, Rastgele Orman, Gradient Boosting ve XGBoost algoritmalarının sırasıyla birinci veri setinde %56.10, %60.98, %65.85 ve %70.73 iken; “PIMA INDIANS” veri setinde ise %75.82, %81.05, %81.70 ve %82.35 sonuçlarını verdiği görülmüştür. Bu sonuçların ışığında her iki veri setinde de XGBoost algoritmasının performans bakımından daha iyi çalıştığı sonucuna varılmıştır.
Collections
- Fen Bilimleri Enstitüsü [1667]