TESIS
Aprendizaje de tareas algorítmicas con máquinas de turing neuronales
Fecha
2018-05-14Registro en:
Gutiérrez De La Paz, Omar Alfonso. (2017). Aprendizaje de tareas algorítmicas con máquinas de turing neuronales (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México.
Autor
Gutiérrez De La Paz, Omar Alfonso
Institución
Resumen
RESUMEN:
Actualmente existen técnicas de aprendizaje de máquina muy exitosas modelando complicados datos, un ejemplo de ello son diferentes arquitecturas de redes neuronales que han alcanzado logros sin precedentes y que conforman el estado del arte en diversas áreas.
Pese a este alentador panorama, hay problemas que los modelos de aprendizaje de máquina y en particular las redes neuronales no han podido atacar adecuadamente debido a la limitada habilidad que poseen para representar variables, estructuras de datos y almacenar información por largos periodos de tiempo
Dotar de memoria a estos sistemas facilita poder resolver tareas algorítmicas y ataca problemas que les había sido difícil abordar. Una máquina de Turing neuronal (MTN) es un modelo Turing Completo de aprendizaje de máquina constituido por una red neuronal con una memoria externa acoplada en la que puede escribir o leer mediante un proceso de atención derivable permitiéndole ser entrenada con descenso de gradiente a través ejemplos.
A lo largo de este trabajo se estudia con detalle la MTN, se plantean propuestas en su arquitectura, diseño, funciones de activación y funciones de costo. Se realiza una implementación del modelo propuesto y se prueba su capacidad para aprender tareas algorítmicas simples con diversos experimentos. Finalmente se llevan a cabo comparaciones con otros modelos neuronales, mostrando su desempeño.
ABSTRACT:
Currently there are many successful machine learning techniques modeling complicated data; as an example, different neural network architectures have achieved unprecedented advances and compose the state of art in several areas.
Even though in this encouraging situation, exist problems that machine learning models and in particularly neural networks have not been able to attack adequately due to their limited ability to represent variables and data structures and to store data over long timescales.
Extending the capabilities of this systems by coupling them to external memory makes it easier to solve algorithmic tasks and solve problems that have been difficult. A neural Turing machine (NTM) is a Turing-complete machine learning model which consists in a neural network that can read from and write to an external memory matrix through a differentiable attentional process, allowing it to be trained with gradient descent.
This paper examines in detail the NTM, proposals are made in its architecture, design, activation functions and cost functions. An implementation of the proposed model is performed and its ability to learn simple algorithmic tasks is tested with different experiments. Finally, comparisons are made with other neural models showing their performance.