dc.contributorSoto Arriaza, Álvaro Marcelo
dc.contributorMoens, Marie-Francine
dc.contributorPontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.creatorAraujo Vásquez, Vladimir Giovanny
dc.date.accessioned2023-10-19T15:30:24Z
dc.date.accessioned2024-05-02T15:51:30Z
dc.date.available2023-10-19T15:30:24Z
dc.date.available2024-05-02T15:51:30Z
dc.date.created2023-10-19T15:30:24Z
dc.date.issued2023
dc.identifier10.7764/tesisUC/ING/75136
dc.identifierhttps://doi.org/10.7764/tesisUC/ING/75136
dc.identifierhttps://repositorio.uc.cl/handle/11534/75136
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/9265402
dc.description.abstractDotar a las máquinas de las habilidades para representar y comprender el lenguaje natural para aplicaciones en el mundo real presenta un desafío importante en el área del procesamiento del lenguaje natural. Los modelos de lenguaje pre-entrenados basados en redes neuronales han logrado recientemente un rendimiento sobresaliente en varias tareas de comprensión del lenguaje natural. Aunque efectivos, estos modelos carecen de la capacidad que poseen los humanos para comprender textos. Por ejemplo, mientras leemos, podemos anticipar qué contenido vendrá a continuación o usar el conocimiento previo para comprender mejor un pasaje. Nuestra hipótesis es que los modelos de lenguaje actuales podrían beneficiarse de los mecanismos de procesamiento del lenguaje humano. En este trabajo, investigamos y proponemos diferentes enfoques para mejorar los modelos de lenguaje actuales, inspirándonos en las teorías de predicción e integración sobre comprensión de lenguaje en los seres humanos. Nuestras contribuciones muestran que los modelos de lenguaje pre-entrenados tienen algunas limitaciones y que aumentar los modelos con mecanismos humanos conduce a mejoras en la comprensión del lenguaje natural en varias tareas. En esta tesis presentamos seis aportes distribuidos en tres partes descritas a continuación. Primero, evaluamos modelos de lenguaje pre-entrenados de última generación bajo condiciones de estrés usando pruebas de competencia, distracción y ruido. Mostramos que estos modelos son algo robustos pero aún tienen dificultades cuando deben lidiar con entradas perturbadas, negaciones y razonamiento numérico. Además, evaluamos las representaciones resultantes de los modelos, mostrando que, al igual que los modelos en inglés, los modelos en español también producen representaciones de propósito general suficientemente buenas. Sin embargo, constatamos su limitado poder de representación a nivel de oración y discurso. En segundo lugar, exploramos métodos de población de memoria para modelos de lenguaje pre-entrenados bajo el paradigma de aprendizaje continuo con memoria episódica. Mostramos que la muestra aleatoria de la distribución global funciona lo suficientemente bien como para integrar el conocimiento previo y mitigar el olvido en el modelo, pero también algunas tareas se benefician más de los métodos de población basados en selección. Por otro lado, proponemos un método para enfrentar el dilema estabilidad-plasticidad que se presenta en el aprendizaje continuo. Mostramos que la entropía se puede utilizar como un factor de plasticidad para decidir cuánto se debe modificar una capa en un modelo basado en la entrada actual, mejorando su rendimiento y eficiencia. En tercer lugar, ampliamos la arquitectura de los modelos de lenguaje pre-entrenados con conocimientos de la teoría de la codificación predictiva. Demostramos que la incorporación de computación de abajo hacia arriba y de arriba hacia abajo para predecir oraciones futuras en el espacio latente en los modelos mejora las representaciones a nivel de oración y discurso. Por otro lado, proponemos un método que incorpora integración de memoria, ensayo de memoria y predicción para generar respuestas a preguntas dado una secuencia de datos. Nuestro enfoque aprovecha los mecanismos de atención cruzada para integrar la información en la memoria externa, y apoyado de anticipación y ensayo. Mostramos la efectividad de nuestro modelo tanto en secuencias basadas en texto como en video. En resumen, presentamos evaluaciones sistemáticas que demuestran la limitación de los modelos de lenguaje pre-entrenados actuales. Además, varios enfoques que mejoran dichos modelos siguen ideas del procesamiento del lenguaje humano, lo que demuestra que la inspiración humana aún plantea una forma de mejorar los modelos basados en redes neuronales. Al incluir mecanismos basados en humanos, reforzamos o agregamos algunas habilidades que los modelos de lenguaje no poseen y que son clave para obtener un procesamiento de lenguaje cercano al nivel humano.
dc.languageen
dc.rightsacceso abierto
dc.titleLearning by prediction and integration: human-inspired approaches for natural language understanding
dc.typetesis doctoral


Este ítem pertenece a la siguiente institución