Tesis
Segmentación semántica con supervisión débil utilizando descripciones en lenguaje natural
Autor
Rojas Vilar, Daniel
Institución
Resumen
En esta tesis se propone una metodología para entrenar modelos de segmentación semántica utilizando imágenes anotadas únicamente con descripciones en lenguaje natural. En los trabajos previamente publicados, se asignan etiquetas semánticas a fragmentos de descripciones mediante búsqueda exacta de nombres de clases. Luego se utilizan modelos entrenados para localizar texto arbitrario en imágenes para generar máscaras de segmentación artificiales, con las que se entrenan métodos supervisados.
En esta tesis, se propone aprovechar la estructura sintáctica de las descripciones, junto con información semántica de una base de conocimiento, para mejorar la detección de categorías relevantes, además de identificar atributos y categorías complementarias. El método propuesto no requiere de anotaciones adicionales, por lo que puede extenderse fácilmente a nuevas aplicaciones. Se presenta además una red de localización, que se entrena para predecir exclusivamente las etiquetas generadas, lo que focaliza su entrenamiento en información relevante, mejorando los mapas de localización resultantes. Finalmente, se describe un método para obtener máscaras de segmentación más precisas y completas, aprovechando todos los tipos de mapas generados.
Esta metodología se valida mediante varios experimentos en la base de datos MS-COCO, demostrando que supera por un amplio margen todos los métodos anteriores basados en supervisión a nivel de imagen.