tesis de maestría
Template extraction for question answer generation using an image knowledge base
Fecha
2019Registro en:
10.7764/tesisUC/ING/64985
Autor
Fadic Gutiérrez, Miguel Osvaldo
Institución
Resumen
Deep Learning ha sido clave para resolver tareas complejas en los últimos añnos. Para entrenar modelos de Deep Learning, se requieren enormes cantidades de datos etiquetados. Visual Question Answering (VQA) es una tarea en donde se le hace una pregunta sobre una imagen en lenguaje natural a un sistema y el sistema debe responder la pregunta. Para aplicar Deep Learning a VQA se necesita un set de datos de cientos de miles de imágenes, preguntas sobre las imágenes y sus respuestas. Proponemos un método para obtener templates de pregunta-respuesta que pueden ser usados para generar preguntas y sus respuestas dada una base de conocimiento acerca de una imagen con información sobre los objetos que aparecen en ella, sus atributos y la relación entre ellos. Nuestro método genera sets de datos 2 órdenes de magnitud más grandes que los actuales con etiquetación manual. Encontramos en nuestros experimentos que la estrategia más adecuada para utilizar un dataset tan grande es entrenar un modelo de Deep Learning usando el dataset generado y luego aplicar fine-tunning usando el dataset objetivo. Para evaluar nuestras pregunta-respuestas generadas entrenamos modelos usando solo el set de entrenamiento de los datasets VQA y VQA v2 y modelos usando la técnica de fine-tune sobre nuestro set de datos. El uso de nuestros datos mejora la exactitud de los tipos de pregunta Que está .... y Quien está . . . en 2.25 y 1.02 puntos porcentuales respectivamente en VQA y en 0.73 y 4.91 puntos porcentuales respectivamente en VQA v2.