Dissertação
Uma Análise do uso de informacões multiescala no mapeamento da PSNR para pontuacão perceptual
An Analysis of the use of multiscale information in mapping of PSNR for perceptual scoring
Registro en:
Autor
GONÇALVES, Luan Assis
Institución
Resumen
The prediction of visual quality is crucial in image and video systems. For this task, image quality metrics based on the mean squared error prevail in the field, due to their mathematical straightforwardness, even though they do not correlate well with the visual human perception. Latest achievements in the area support that the use of convolutional neural networks (CNN) to
assess perceptual visual quality is a clear trend. Results in other applications, like blur detection and de-raining, indicate the combination of information from different scales improves the CNN performance. However, to the best of our knowledge, the best way to embody multi-scale information in visual quality characterization is still an open issue. Thus, in this work, we investigate the influence of using multi-scale information to predict the perceptual image quality. Specifically, we propose a single-stream dense network that estimates a spatially-varying parameter of a logistic function used to map values of a objective visual quality metric to subjective visual quality scores through the reference image. The proposed method achieved a reduction of 36.37% and 69.45% for the number of parameters and floating-point operations per second, respectively, and its performance is compared with a competing state-of-the-art approach by using a public image database. CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior A previsão da qualidade visual é crucial nos sistemas de imagem e vídeo. Métricas de qualidade de imagem com base no erro quadrático médio prevalecem em diversas aplicacões, apesar de apresentarem baixa correlacão¸ com a percepção visual humana, devido à sua simplicidade
matemática. As últimas realizacões na área sustentam que o uso de redes neurais convolucionais (CNN) para avaliar a qualidade visual perceptiva é uma tendência clara. Resultados em outras aplicacões, como deteccão de desfoque e remocão de chuva, indicam que a combinacão de informacões de diferentes escalas melhora o desempenho da CNN. No entanto, até onde sabemos, a melhor maneira de incorporar informacões em várias escalas na
caracterizacão da qualidade visual ainda é uma questão em aberto. Assim, neste trabalho, investigamos a influência do uso de informacões em várias escalas para prever a qualidade perceptual de imagens. Especificamente, propomos uma rede densa de fluxo único que estima um parâmetro espacialmente variável da funcão logística usada para mapear valores de métricas objetivas de qualidade visual para as notas subjetivas de qualidade visual através da imagem de referência. O método proposto alcançou uma reducão de 36,37% e 69,45% para o número de parâmetros e de operacões de ponto flutuante por segundo, respectivamente, e seu desempenho é
comparado com o estado da arte, usando um banco de dados de imagens disponível publicamente.