Mimar Sinan Güzel Sanatlar Üniversitesi Açık Bilim, Sanat Arşivi

Açık Bilim, Sanat Arşivi, Mimar Sinan Güzel Sanatlar Üniversitesi tarafından doğrudan ve dolaylı olarak yayınlanan; kitap, makale, tez, bildiri, rapor gibi tüm akademik kaynakları uluslararası standartlarda dijital ortamda depolar, Üniversitenin akademik performansını izlemeye aracılık eder, kaynakları uzun süreli saklar ve yayınların etkisini artırmak için telif haklarına uygun olarak Açık Erişime sunar.

MSGSÜ'de Ara
Gelişmiş Arama

Basit öğe kaydını göster

dc.contributor.authorBirbil, S. Ilker
dc.contributor.authorMartin, Ozgur
dc.contributor.authorOnay, Gonenc
dc.contributor.authorOztoprak, Figen
dc.date.accessioned2025-01-09T20:14:25Z
dc.date.available2025-01-09T20:14:25Z
dc.date.issued2024
dc.identifier.issn1134-5764
dc.identifier.issn1863-8279
dc.identifier.urihttps://doi.org/10.1007/s11750-024-00673-z
dc.identifier.urihttps://hdl.handle.net/20.500.14124/9052
dc.description.abstractStochastic gradient descent method and its variants constitute the core optimization algorithms that achieve good convergence rates for solving machine learning problems. These rates are obtained especially when these algorithms are fine-tuned for the application at hand. Although this tuning process can require large computational costs, recent work has shown that these costs can be reduced by line search methods that iteratively adjust the step length. We propose an alternative approach to stochastic line search by using a new algorithm based on forward step model building. This model building step incorporates second-order information that allows adjusting not only the step length but also the search direction. Noting that deep learning model parameters come in groups (layers of tensors), our method builds its model and calculates a new step for each parameter group. This novel diagonalization approach makes the selected step lengths adaptive. We provide convergence rate analysis, and experimentally show that the proposed algorithm achieves faster convergence and better generalization in well-known test problems. More precisely, SMB requires less tuning, and shows comparable performance to other adaptive methods.en_US
dc.language.isoengen_US
dc.publisherSpringeren_US
dc.relation.ispartofTopen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectModel buildingen_US
dc.subjectSecond-order informationen_US
dc.subjectStochastic gradient descenten_US
dc.subjectConvergence analysisen_US
dc.titleBolstering stochastic gradient descent with model buildingen_US
dc.typearticleen_US
dc.authoridBirbil, Ilker/0000-0001-7472-7032
dc.departmentMimar Sinan Güzel Sanatlar Üniversitesien_US
dc.identifier.doi10.1007/s11750-024-00673-z
dc.identifier.volume32en_US
dc.identifier.issue3en_US
dc.identifier.startpage517en_US
dc.identifier.endpage536en_US
dc.relation.publicationcategoryMakale - Uluslararası Hakemli Dergi - Kurum Öğretim Elemanıen_US
dc.identifier.wosqualityN/A
dc.identifier.wosWOS:001204675600001
dc.identifier.scopus2-s2.0-85190403717
dc.identifier.scopusqualityQ1
dc.indekslendigikaynakWeb of Scienceen_US
dc.indekslendigikaynakScopusen_US
dc.snmzKA_20250105


Bu öğenin dosyaları:

DosyalarBoyutBiçimGöster

Bu öğe ile ilişkili dosya yok.

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster