Tesis
Exploring adversarial images in deep neural networks = Explorando imagens adversárias em redes neurais profundas
Explorando imagens adversárias em redes neurais profundas
Registro en:
TABACOF, Pedro. Exploring adversarial images in deep neural networks = Explorando imagens adversárias em redes neurais profundas. 2017. 1 recurso online (75 p.). Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP.
Autor
Tabacof, Pedro, 1990-
Institución
Resumen
Orientador: Eduardo Alves do Valle Junior Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação Resumo: Exemplos adversários levantaram questões da robustez e segurança de redes neurais profundas. Neste trabalho nós formalizamos o problema de imagens adversárias dado um classificador pré-treinado, mostrando que mesmo em modelos lineares a otimização resultante é não-convexa. Nós geramos imagens adversárias utilizando classificadores rasos e profundos nas bases de dados de imagens MNIST e ImageNet. Nós sondamos o espaço dos pixels das imagens adversárias com ruído de intensidade e distribuição variável. Nós trazemos visualizações novas que mostram o fenômeno e sua alta variabilidade. Nós mostramos que imagens adversárias aparecem em regiões grandes no espaço de pixels, entretanto, para a mesma tarefa, um classificador raso parece mais robusto a imagens adversárias que uma rede convolucional profunda. Nós também propomos um novo ataque adversário a autoencoders variacionais. Nosso procedimento distorce uma imagem de entrada com o objetivo de confundir um autoencoder a reconstruir uma imagem alvo completamente diferente. Nós atacamos a representação interna e latente, com o objetivo de que a entrada adversária produza uma representação interna o mais similar possível da representação de uma imagem alvo. Nós verificamos que autoencoders são mais robustos ao ataque que classificadores: Apesar de alguns exemplos possuírem pequena distorção na entrada e similaridade razoável com a imagem alvo, há um compromisso quase linear entre esses objetivos. Nós demonstramos os resultados nas bases de dados MNIST e SVHN, e também testamos autoencoders determinísticos, chegando a conclusões similares em todos os casos. Finalmente, nós mostramos que o ataque adversário típico em classificadores, apesar de ser mais fácil, também apresenta uma relação proporcional entre a distorção da entrada e o erro da saída. No entanto, essa proporcionalidade é escondida pela normalização da saída, que mapeia uma camada linear em uma distribuição de probabilidades Abstract: Adversarial examples have raised questions regarding the robustness and security of deep neural networks. In this work we formalize the problem of adversarial images given a pre-trained classifier, showing that even in the linear case the resulting optimization problem is nonconvex. We generate adversarial images using shallow and deep classifiers on the MNIST and ImageNet datasets. We probe the pixel space of adversarial images using noise of varying intensity and distribution. We bring novel visualizations that showcase the phenomenon and its high variability. We show that adversarial images appear in large regions in the pixel space, but that, for the same task, a shallow classifier seems more robust to adversarial images than a deep convolutional network. We also propose a novel adversarial attack for variational autoencoders. Our procedure distorts the input image to mislead the autoencoder in reconstructing a completely different target image. We attack the internal latent representations, attempting to make the adversarial input produce an internal representation as similar as possible as the target's. We find that autoencoders are much more robust to the attack than classifiers: while some examples have tolerably small input distortion, and reasonable similarity to the target image, there is a quasi-linear trade-off between those aims. We report results on MNIST and SVHN datasets, and also test regular deterministic autoencoders, reaching similar conclusions in all cases. Finally, we show that the usual adversarial attack for classifiers, while being much easier, also presents a direct proportion between distortion on the input, and misdirection on the output. That proportionality however is hidden by the normalization of the output, which maps a linear layer into a probability distribution Mestrado Engenharia de Computação Mestre em Engenharia Elétrica