Template extraction for question answer generation using an image knowledge base

Fadic Gutiérrez, Miguel Osvaldo

tesis de maestría

Fecha

2019

Registro en:

10.7764/tesisUC/ING/64985

https://doi.org/10.7764/tesisUC/ING/64985

https://repositorio.uc.cl/handle/11534/64985

Autor

Fadic Gutiérrez, Miguel Osvaldo

Institución

Pontificia Universidad Católica de Chile

Resumen

Deep Learning ha sido clave para resolver tareas complejas en los últimos añnos. Para entrenar modelos de Deep Learning, se requieren enormes cantidades de datos etiquetados. Visual Question Answering (VQA) es una tarea en donde se le hace una pregunta sobre una imagen en lenguaje natural a un sistema y el sistema debe responder la pregunta. Para aplicar Deep Learning a VQA se necesita un set de datos de cientos de miles de imágenes, preguntas sobre las imágenes y sus respuestas. Proponemos un método para obtener templates de pregunta-respuesta que pueden ser usados para generar preguntas y sus respuestas dada una base de conocimiento acerca de una imagen con información sobre los objetos que aparecen en ella, sus atributos y la relación entre ellos. Nuestro método genera sets de datos 2 órdenes de magnitud más grandes que los actuales con etiquetación manual. Encontramos en nuestros experimentos que la estrategia más adecuada para utilizar un dataset tan grande es entrenar un modelo de Deep Learning usando el dataset generado y luego aplicar fine-tunning usando el dataset objetivo. Para evaluar nuestras pregunta-respuestas generadas entrenamos modelos usando solo el set de entrenamiento de los datasets VQA y VQA v2 y modelos usando la técnica de fine-tune sobre nuestro set de datos. El uso de nuestros datos mejora la exactitud de los tipos de pregunta Que está .... y Quien está . . . en 2.25 y 1.02 puntos porcentuales respectivamente en VQA y en 0.73 y 4.91 puntos porcentuales respectivamente en VQA v2.

Materias

Deep Learning

VQA

Visual Genome

Generación de set de datos

Mostrar el registro completo del ítem