Interactive segmentation of objects in images and videos using graphs and fuzzy models of content knowledge = Segmentação interativa de objetos em imagens e vídeos utilizando grafos e modelos nebulosos de conhecimento de conteúdo

Spina, Thiago Vallin, 1988-

Tesis

Segmentação interativa de objetos em imagens e vídeos utilizando grafos e modelos nebulosos de conhecimento de conteúdo

Registro en:

SPINA, Thiago Vallin. Interactive segmentation of objects in images and videos using graphs and fuzzy models of content knowledge = Segmentação interativa de objetos em imagens e vídeos utilizando grafos e modelos nebulosos de conhecimento de conteúdo. 2015. 1 recurso online ( 151 p.). Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.bibliotecadigital.unicamp.br/document/?code=000961083>. Acesso em: 2 abr. 2017.

http://repositorio.unicamp.br/jspui/handle/REPOSIP/275588

http://repositorioslatinoamericanos.uchile.cl/handle/2250/1314436

Autor

Spina, Thiago Vallin, 1988-

Institución

Universidade Estadual de Campinas (Brasil)

Resumen

Orientador: Alexandre Xavier Falcão

Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação

Resumo: Com o avanço da mídia social, usuários típicos passaram de consumidores passivos a produtores ativos de conteúdo multimídia que é compartilhado na Internet. Nesse cenário, várias aplicações foram desenvolvidas para edição de fotos e vídeos. A segmentação interativa de objetos em imagens e vídeos é frequentemente necessária para essas aplicações, que demandam por métodos eficazes e eficientes capazes de auxiliar o usuário a extrair os objetos de interesse do fundo acuradamente, requerendo pouco esforço e tempo para tanto. A segmentação pode ser dividida em reconhecimento e delineamento de objeto. O reconhecimento envolve localizar aproximadamente o objeto e verificar o resultado da segmentação, sendo uma tarefa fácil para humanos. O delineamento visa definir a extensão espacial do objeto em imagens e quadros de vídeo, e pode ser feito pelo computador com maior precisão. Métodos interativos buscam a sinergia entre o humano e a máquina através da propagação de rótulos advindos das anotações do usuário (i.e., pixels semente, regiões de interesse e quadros segmentados em vídeo) para os dados não rotulados. Em segmentação de imagens, um modo natural de explorar a conexão entre a informação anotada de objeto (sementes) e os pixels restantes é considerando a imagem explicita ou implicitamente como um grafo ponderado. Vários arcabouços baseados em grafo podem ser utilizados para delineamento, mas um desafio é como estimar bons pesos para os arcos do grafo que tornem a segmentação trivial. A primeira contribuição deste trabalho é uma metodologia para estimar os pesos dos arcos que realça as diferenças entre objeto e fundo via aprendizado supervisionado, feito transparentemente a partir da interação do usuário. Nossa segunda contribuição visa tornar a interação do usuário mais eficaz quando a estimativa de pesos é imperfeita. Ela envolve o desenvolvimento de técnicas híbridas de segmentação que combinam métodos baseados em região com abordagens por perseguição de borda, para aproveitar as vantagens de ambos. Apesar das ferramentas interativas de imagem supracitadas poderem ser utilizadas para segmentar vídeos quadro a quadro, é mais eficaz desenvolver abordagens que propaguem automaticamente a máscara de segmentação do quadro inicial para o restante do vídeo. Nossa terceira contribuição encapsula o conhecimento do usuário sobre o objeto em um modelo nebuloso de forma para reconhecimento. Esse modelo visa minimizar a necessidade de intervenção humana, corrigindo automaticamente a segmentação propagada para novos quadros. O usuário pode ainda refinar o resultado com nossos métodos interativos de segmentação de imagens

Abstract: With the rise of social media, the behavior of regular users has changed from merely consuming to actively producing multimedia data content that is shared on-line. In this scenario, several applications have been developed for photo and video editing. Interactive image and video object segmentation are often needed for those applications, demanding for effective and efficient methods that help the user to extract the objects of interest from the background accurately, while requiring minimum user effort and time. Segmentation may be divided into object recognition and delineation. Recognition involves approximately locating the object and verifying the segmentation result, being a simpler task for humans. Delineation involves defining the object's spatial extent in images and video frames, which can be done more precisely by computers. Interactive methods seek a synergy between the user and the machine, by propagating the labels from the user's annotations (i.e., scribbles, regions of interest, contour initializations in images and video frames) to the unlabeled data. In image segmentation, a natural way of exploiting the connection between the object information provided by the user (scribbles) and the pixels is to consider the image explicitly or implicitly as a weighted graph. Several graph-based frameworks may be used for delineation, but a challenge is to estimate arc weights that make segmentation trivial. The first main contribution of this PhD thesis is a methodology for enhancing the differences between foreground and background to aid in arc-weight assignment, which considers the user's input for supervised learning in a transparent way to the human operator. Our second contribution intends to make user interaction more effective in the presence of imperfect arc-weight estimation. It involves the development of hybrid interactive image segmentation techniques that combine region-based methods with boundary-tracking approaches to explore the advantages of both. The former typically handle complex silhouettes more easily, while the latter allows the user to select accurate boundary segments to compose the object's contour. Although the aforementioned interactive image segmentation tools could be used frame-by-frame, it is more effective to develop approaches that automatically propagate the object information from an input frame to the rest of the video. Our third contribution involves embedding the user's knowledge about the object into a fuzzy shape model for object recognition. This model aims to minimize the need of human intervention by automatically correcting segmentation, as propagated to new frames. The user may still refine the result with our image segmentation tools when necessary

Doutorado

Ciência da Computação

Doutor em Ciência da Computação

2011/01434-9, 2009/11908-8

1018/11-6

FAPESP

CAPES

Materias

Segmentação de imagens

Processamento de sinal de vídeo

Visão por computador

Processamento de imagens

Estimação de movimento

Image segmentation

Video signal processing

Computer vision

Image processing

Motion estimation

Mostrar el registro completo del ítem