A continuous-time model of stochastic gradient descent: convergence rates and complexities under Lojasiewicz inequality

Maulén Soto, Rodrigo Ignacio

dc.contributor	Peypouquet Urbaneja, Juan
dc.contributor	Garrigos, Guillaume
dc.contributor	San Martín Aristegui, Jaime
dc.creator	Maulén Soto, Rodrigo Ignacio
dc.date.accessioned	2021-08-12T23:02:14Z
dc.date.available	2021-08-12T23:02:14Z
dc.date.created	2021-08-12T23:02:14Z
dc.date.issued	2021
dc.identifier	https://repositorio.uchile.cl/handle/2250/181234
dc.description.abstract	In this thesis we study the convergence rates and complexities of a continuous model of the Stochastic Gradient Descent (SGD) under convexity, strong convexity and Łojasiewicz assumptions, the latter being a way to generalize the concept of strong convexity. In the first chapter, the concept of Łojasiewicz inequality is introduced and results of the Gradient Descent method in its discrete and continuous version are shown for this case, together with the convex and strongly convex cases. In the second chapter, the SGD method is introduced, results are shown under convex and strongly convex assumptions, and new results are obtained under the Łojasiewicz Inequality. Then it is shown how to construct a continuous-time model of SGD under a Gaussian variance assumption and, at last, the necessary concepts of Stochastic Analysis are introduced to understand this model. Finally, in the third chapter this model is analyzed and its upper bounds and complexities are obtained, where it is deduced that if the variance is sufficiently small, then the complexity of the model matches that of the Gradient Descent for the cases: convex, strongly convex and Łojasiewicz.
dc.description.abstract	En esta tesis se estudian las tasas de convergencia y complejidades de un modelo continuo del método del Gradiente Estocástico (SGD) bajo supuestos de convexidad, fuerte convexidad y Łojasiewicz, siendo este último una forma de generalizar el concepto de fuerte convexidad. En el primer capítulo se introduce el concepto de desigualdad de Łojasiewicz y se muestran resultados del método del Gradiente Descendente en su versión discreta y continua para este caso, junto con los casos convexo y fuertemente convexo. En el segundo capítulo se introduce el método de SGD, se muestran resultados bajo suposiciones de convexidad y fuerte convexidad, y se obtienen nuevos resultados bajo la desigualdad de Łojasiewicz. Luego se muestra como construir un modelo continuo de SGD bajo una suposición de varianza Gaussiana y por último se introducen los conceptos necesarios de Análisis Estocástico para comprender este modelo. Finalmente, en el tercer capítulo se analiza este modelo y se obtienen sus cotas superiores y complejidades, donde se deduce que si la varianza es suficientemente pequeña, entonces la complejidad del modelo coincide la del método del Gradiente Descendente para los casos: convexo, fuertemente convexo y Łojasiewicz.
dc.language	en
dc.publisher	Universidad de Chile
dc.rights	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Chile
dc.subject	Ecuaciones diferenciales estocásticas
dc.subject	Convergencia
dc.subject	Algoritmos - Modelos matemáticos
dc.title	A continuous-time model of stochastic gradient descent: convergence rates and complexities under Lojasiewicz inequality
dc.type	Tesis

Este ítem pertenece a la siguiente institución

Universidad de Chile