Learning by prediction and integration: human-inspired approaches for natural language understanding

Araujo Vásquez, Vladimir Giovanny

dc.contributor	Soto Arriaza, Álvaro Marcelo
dc.contributor	Moens, Marie-Francine
dc.contributor	Pontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.creator	Araujo Vásquez, Vladimir Giovanny
dc.date.accessioned	2023-10-19T15:30:24Z
dc.date.accessioned	2024-05-02T15:51:30Z
dc.date.available	2023-10-19T15:30:24Z
dc.date.available	2024-05-02T15:51:30Z
dc.date.created	2023-10-19T15:30:24Z
dc.date.issued	2023
dc.identifier	10.7764/tesisUC/ING/75136
dc.identifier	https://doi.org/10.7764/tesisUC/ING/75136
dc.identifier	https://repositorio.uc.cl/handle/11534/75136
dc.identifier.uri	https://repositorioslatinoamericanos.uchile.cl/handle/2250/9265402
dc.description.abstract	Dotar a las máquinas de las habilidades para representar y comprender el lenguaje natural para aplicaciones en el mundo real presenta un desafío importante en el área del procesamiento del lenguaje natural. Los modelos de lenguaje pre-entrenados basados en redes neuronales han logrado recientemente un rendimiento sobresaliente en varias tareas de comprensión del lenguaje natural. Aunque efectivos, estos modelos carecen de la capacidad que poseen los humanos para comprender textos. Por ejemplo, mientras leemos, podemos anticipar qué contenido vendrá a continuación o usar el conocimiento previo para comprender mejor un pasaje. Nuestra hipótesis es que los modelos de lenguaje actuales podrían beneficiarse de los mecanismos de procesamiento del lenguaje humano. En este trabajo, investigamos y proponemos diferentes enfoques para mejorar los modelos de lenguaje actuales, inspirándonos en las teorías de predicción e integración sobre comprensión de lenguaje en los seres humanos. Nuestras contribuciones muestran que los modelos de lenguaje pre-entrenados tienen algunas limitaciones y que aumentar los modelos con mecanismos humanos conduce a mejoras en la comprensión del lenguaje natural en varias tareas. En esta tesis presentamos seis aportes distribuidos en tres partes descritas a continuación. Primero, evaluamos modelos de lenguaje pre-entrenados de última generación bajo condiciones de estrés usando pruebas de competencia, distracción y ruido. Mostramos que estos modelos son algo robustos pero aún tienen dificultades cuando deben lidiar con entradas perturbadas, negaciones y razonamiento numérico. Además, evaluamos las representaciones resultantes de los modelos, mostrando que, al igual que los modelos en inglés, los modelos en español también producen representaciones de propósito general suficientemente buenas. Sin embargo, constatamos su limitado poder de representación a nivel de oración y discurso. En segundo lugar, exploramos métodos de población de memoria para modelos de lenguaje pre-entrenados bajo el paradigma de aprendizaje continuo con memoria episódica. Mostramos que la muestra aleatoria de la distribución global funciona lo suficientemente bien como para integrar el conocimiento previo y mitigar el olvido en el modelo, pero también algunas tareas se benefician más de los métodos de población basados en selección. Por otro lado, proponemos un método para enfrentar el dilema estabilidad-plasticidad que se presenta en el aprendizaje continuo. Mostramos que la entropía se puede utilizar como un factor de plasticidad para decidir cuánto se debe modificar una capa en un modelo basado en la entrada actual, mejorando su rendimiento y eficiencia. En tercer lugar, ampliamos la arquitectura de los modelos de lenguaje pre-entrenados con conocimientos de la teoría de la codificación predictiva. Demostramos que la incorporación de computación de abajo hacia arriba y de arriba hacia abajo para predecir oraciones futuras en el espacio latente en los modelos mejora las representaciones a nivel de oración y discurso. Por otro lado, proponemos un método que incorpora integración de memoria, ensayo de memoria y predicción para generar respuestas a preguntas dado una secuencia de datos. Nuestro enfoque aprovecha los mecanismos de atención cruzada para integrar la información en la memoria externa, y apoyado de anticipación y ensayo. Mostramos la efectividad de nuestro modelo tanto en secuencias basadas en texto como en video. En resumen, presentamos evaluaciones sistemáticas que demuestran la limitación de los modelos de lenguaje pre-entrenados actuales. Además, varios enfoques que mejoran dichos modelos siguen ideas del procesamiento del lenguaje humano, lo que demuestra que la inspiración humana aún plantea una forma de mejorar los modelos basados en redes neuronales. Al incluir mecanismos basados en humanos, reforzamos o agregamos algunas habilidades que los modelos de lenguaje no poseen y que son clave para obtener un procesamiento de lenguaje cercano al nivel humano.
dc.language	en
dc.rights	acceso abierto
dc.title	Learning by prediction and integration: human-inspired approaches for natural language understanding
dc.type	tesis doctoral

Este ítem pertenece a la siguiente institución

Pontificia Universidad Católica de Chile