Construcción de un corpus académico para la generación automática de respuestas a preguntas puesto a prueba en el modelo BETO

dc.contributor	Ochoa Luna, Jose Eduardo
dc.date.accessioned	2023-03-27T15:14:07Z
dc.date.accessioned	2023-05-30T23:31:52Z
dc.date.available	2023-03-27T15:14:07Z
dc.date.available	2023-05-30T23:31:52Z
dc.date.created	2023-03-27T15:14:07Z
dc.date.issued	2023
dc.identifier	1076710
dc.identifier	http://hdl.handle.net/20.500.12590/17485
dc.identifier.uri	https://repositorioslatinoamericanos.uchile.cl/handle/2250/6479257
dc.description.abstract	En años recientes, se han publicado una variedad de modelos de aprendizaje profundo que se han destacado en diferentes tareas del procesamiento de lenguaje natural, como la generación automática de respuestas a preguntas. Una de las razones de este éxito, se debe a que dichos modelos incluyen estrategias de aprendizaje, que se enfocan en el uso de mecanismos de atención y transferencia de aprendizaje. A pesar de que el español es uno de los idiomas más hablados del mundo, la mayoría de estos modelos usan corpus en inglés, por lo cual, la comunidad científica que desea experimentar con estos modelos, en español, se ve limitada. En este contexto, esta tesis tiene por objetivo la creación de un corpus en español, y su posterior prueba usando un modelo para la generación automática de respuestas a preguntas. Dicho corpus, llamado Académico, fue creado usando la información de los sílabos de los cursos de la Escuela Profesional de Ciencia de la Computación. El corpus está compuesto por dos subconjuntos: Académico A y Académico B, que contienen 467 y 639 ejemplos, respectivamente. Con el propósito de garantizar la calidad del conjunto creado, se utilizaron métricas para evaluar el corpus, obteniéndose que, para el subconjunto Académico A, el CFR=100%, HQI de las buenas preguntas es 100%, MoOV=0%, Psi=100% y el coeficiente Kappa es 0.8478; mientras que, para el subconjunto Académico B, los valores de las métricas obtenidas fueron: CFR=100%, HQI de 100% para preguntas buenas, MoOV=0%, Psi=100% y un coeficiente Kappa de 0.8092. De esta evaluación, se puede concluir que el corpus Académico posee la calidad necesaria para realizar experimentos en modelos de generación automática de respuestas a preguntas. Además, en esta tesis se realizó un estudio de los modelos para la generación automática de respuestas a preguntas. De dicho estudio, se determinó que BETO es la mejor opción para poner a prueba el corpus creado. A fin de evaluar la implementación del modelo BETO, se diseñaron tres experimentos, a partir de los cuales se obtuvo que, EM=0.987 y F1=0.998, para Académico A; y que EM=0.831 y F1=0.91, para Académico B. En ambos conjuntos de datos, las métricas fueron mejores que las de BETO zero-shot.
dc.language	spa
dc.publisher	Universidad Católica San Pablo
dc.publisher	PE
dc.rights	https://creativecommons.org/licenses/by/4.0/
dc.rights	info:eu-repo/semantics/openAccess
dc.source	Universidad Católica San Pablo
dc.source	Repositorio Institucional - UCSP
dc.subject	Modelos de generación automática de respuestas a preguntas
dc.subject	BETO
dc.subject	Corpus
dc.subject	Mecanismo de atención
dc.subject	Transferencia de aprendizaje
dc.subject	Modelos basados en BERT
dc.subject	Conjunto de datos
dc.title	Construcción de un corpus académico para la generación automática de respuestas a preguntas puesto a prueba en el modelo BETO
dc.type	info:eu-repo/semantics/bachelorThesis

Este ítem pertenece a la siguiente institución

Universidad Católica San Pablo (Perú)