masterThesis
Algoritmos e arquiteturas para processamento de documentos digitalizados monocromáticos
Registro en:
Tenório Ávila, Bruno; Dueire Lins, Rafael. Algoritmos e arquiteturas para processamento de documentos digitalizados monocromáticos. 2006. Dissertação (Mestrado). Programa de Pós-Graduação em Engenharia Elétrica, Universidade Federal de Pernambuco, Recife, 2006.
Autor
Tenório Ávila, Bruno
Institución
Resumen
Em projetos de digitalização de alto volume de documentos, a imagem dos
documentos digitalizados pode ser gerada com vários defeitos acarretando dificuldades
desde a sua leitura até sua transcrição automática. Além disso, o alto volume de
documentos a serem processados gera a necessidade de automatização do processo de
digitalização e à procura por melhores soluções para esses problemas.
Esta dissertação aborda os seguintes problemas encontrados nos documentos
digitalizados monocromáticos: detecção e remoção de borda preta e; detecção e correção da
orientação e enviesamento. Um novo filtro para remoção de borda preta foi desenvolvido,
testado em 21 mil documentos e comparado com várias ferramentas comerciais. Um novo
algoritmo de detecção de orientação e enviesamento com capacidade de estimar a rotação
em qualquer ângulo com uma precisão de 0,1º foi desenvolvido e comparado com outro
método da literatura. Um segundo algoritmo de detecção de enviesamento foi proposto com
o objetivo de aumentar o desempenho do processamento. Observaram-se três problemas na
correção de rotação do algoritmo clássico: pontos brancos, contorno acidentado e
desconexão de parte dos objetos. Um algoritmo de correção de rotação foi proposto com
capacidade de corrigir os três problemas. Um método quantitativo para medir a degradaçãodos algoritmos de correção de rotação foi introduzido e utilizado para comparar o novo
algoritmo com outros da literatura.
Além dos filtros, duas arquiteturas para processamento de documentos digitalizados
monocromáticos foram estudadas: seqüencial e cluster. Um ambiente visual, intitulado
BigBatch, foi construído com ambas as arquiteturas. A arquitetura em grid foi apenas
especulada