A Comparison of Selected Optimization Methods for Neural Networks

Which numerical methods are ideal for training a neural network? In this report four different optimization methods are analysed and compared to each other. First, the most basic method Stochastic Gradient Descent that steps in the negative gradients direction. We continue with a slightly more advan...

Full description

Bibliographic Details
Main Authors: Karlsson, Ludvig, Bonde, Oskar
Format: Others
Language:English
Published: KTH, Skolan för teknikvetenskap (SCI) 2020
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-276231
Description
Summary:Which numerical methods are ideal for training a neural network? In this report four different optimization methods are analysed and compared to each other. First, the most basic method Stochastic Gradient Descent that steps in the negative gradients direction. We continue with a slightly more advanced algorithm called ADAM, often used in practice to train neural networks. Finally, we study two second order methods, the Conjugate Gradient Method which follows conjugate directions, and L-BFGS, a Quasi-Newton method which approximates the inverse of the Hessian matrix. The methods are tasked to solve a classification problem with hyperspheres acting as decision boundaries and multiple different network configurations are used. Our results indicate why first order methods are so commonly used today and that second order methods can be difficult to use effectively when the number of parameters are large. === Vilka numeriska metoder är ideala för att träna ett neuralt nätverk? I denna rapport analyseras fyra olika optimeringsmetoder och jämförs med varandra. Först den mest grundläggande metoden Stochastic Gradient Descent som hela tiden tar steg i motsatt riktning till gradienten av objektfunktionen. Vi fortsätter sedan med ADAM, en lite mer avancerad algoritm som ofta används i praktiken för att träna neurala nätverk. Slutligen studerar vi två andra ordningens metoder, Conjugate Gradient Method som följer s.k. konjugerade riktningar, och L-BFGS, en Quasi-Newton-metod som använder en approximation av Hessianen av objektfunktionen. Metoderna har fått uppgiften att lösa ett klassificeringsproblem med hypersfärer som klassificeringsgräns, där flera olika nätverksstrukturer använts. Våra resultat visar varför första ordningens metoder används så ofta idag och att andra ordningens metoder kan vara svåra att använda effektivt när antalet parametrar är stort.