Dissertação
Support Vector Machines na classificação de imagens hiperespectrais
Hyperspectral image classification with support vector machines
Autor
Andreola, Rafaela
Resumen
É de conhecimento geral que, em alguns casos, as classes são espectralmente muito similares e que não é possível separá-las usando dados convencionais em baixa dimensionalidade. Entretanto, estas classes podem ser separáveis com um alto grau de acurácia em espaço de alta dimensão. Por outro lado, classificação de dados em alta dimensionalidade pode se tornar um problema para classificadores paramétricos, como o Máxima Verossimilhança Gaussiana (MVG). Um grande número de variáveis que caracteriza as imagens hiperespectrais resulta em um grande número de parâmetros a serem estimados e, geralmente, tem-se um número limitado de amostras de treinamento disponíveis. Essa condição causa o fenômeno de Hughes que consiste na gradual degradação da acurácia com o aumento da dimensionalidade dos dados. Neste contexto, desperta o interesse a utilização de classificadores não-paramétricos, como é o caso de Support Vector Machines (SVM). Nesta dissertação é analisado o desempenho do classificador SVM quando aplicado a imagens hiperespectrais de sensoriamento remoto. Inicialmente os conceitos teóricos referentes à SVM são revisados e discutidos. Em seguida, uma série de experimentos usando dados AVIRIS são realizados usando diferentes configurações para o classificador. Os dados cobrem uma área de teste da Purdue University e apresenta classes de culturas agrícolas espectralmente muito similares. A acurácia produzida na classificação por diferentes kernels são investigadas em função da dimensionalidade dos dados e comparadas com as obtidas com o classificador MVG. Como SVM é aplicado a um par de classes por vez, desenvolveu-se um classificador multi-estágio estruturado em forma de árvore binária para lidar como problema multi-classe. Em cada nó, a seleção do par de classes mais separáveis é feita pelo critério distância de Bhattacharyya. Tais classes darão origem aos nós descendentes e serão responsáveis por definir a função de decisão SVM. Repete-se este procedimento em todos os nós da árvore, até que reste apenas uma classe por nó, nos chamados nós terminais. Os softwares necessários foram desenvolvidos em ambiente MATLAB e são apresentados na dissertação. Os resultados obtidos nos experimentos permitem concluir que SVM é uma abordagem alternativa válida e eficaz para classificação de imagens hiperespectrais de sensoriamento remoto. This dissertation deals with the application of Support Vector Machines (SVM) to the classification of remote sensing high-dimensional image data. It is well known that in many cases classes that are spectrally very similar and thus not separable when using the more conventional low-dimensional data, can nevertheless be separated with an high degree of accuracy in high dimensional spaces. Classification of high-dimensional image data can, however, become a challenging problem for parametric classifiers such as the well-known Gaussian Maximum Likelihood. A large number of variables produce an also large number of parameters to be estimated from a generally limited number of training samples. This condition causes the Hughes phenomenon which consists in a gradual degradation of the accuracy as the data dimensionality increases beyond a certain value. Non-parametric classifiers present the advantage of being less sensitive to this dimensionality problem. SVM has been receiving a great deal of attention from the international community as an efficient classifier. In this dissertation it is analyzed the performance of SVM when applied to remote sensing hyper-spectral image data. Initially the more theoretical concepts related to SVM are reviewed and discussed. Next, a series of experiments using AVIRIS image data are performed, using different configurations for the classifier. The data covers a test area established by Purdue University and presents a number of classes (agricultural fields) which are spectrally very similar to each other. The classification accuracy produced by different kernels is investigated as a function of the data dimensionality and compared with the one yielded by the well-known Gaussian Maximum Likelihood classifier. As SVM apply to a pair of classes at a time, a multi-stage classifier structured as a binary tree was developed to deal with the multi-class problem. The tree classifier is initially defined by selecting at each node the most separable pair of classes by using the Bhattacharyya distance as a criterion. These two classes will then be used to define the two descending nodes and the corresponding SVM decision function. This operation is performed at every node across the tree, until the terminal nodes are reached. The required software was developed in MATLAB environment and is also presented in this dissertation.