masterThesis
Classificador simbólico baseado em regiões de tipo casca convexa
Registro en:
Tupinambá D'Oliveira Júnior, Simith; de Assis Tenório Carvalho, Francisco. Classificador simbólico baseado em regiões de tipo casca convexa. 2005. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2005.
Autor
Tupinambá D'Oliveira Júnior, Simith
Institución
Resumen
Com os progressos recentes nas tecnologias das ciências de informacão, diferentes tecnicas
são introduzidas para sintetizar, analisar e extrair conhecimentos das informações armazenadas
em enormes bases de dados. A analise de dados simbolicos (SDA) e um
dominio na area de descoberta automatica de conhecimentos (KDD), relacionada com
analise de dados multivariados, reconhecimento de padrões, inteligência artificial e banco
de dados. SDA visa generalizar os metodos da analise exploratoria de dados e as tecnicas
estatisticas (analise fatorial, regress~ao, classificac~ao etc.) par dados simbolicos. Esses
novos dados são mais complexos do que os dados classicos, pois contêm variação interna
e são estruturados.
Este trabalho introduz um classificador para dados descritos por vetores de valores
quantitativos baseado em regi~oes de tipo casca convexa. A ideia central desta abordagem
e construir regiões que descrevem e discriminem classes de exemplos observados. Nos
classificadores para dados simbolicos baseados em regi~oes existentes na literatura de SDA,
a etapa de aprendizagem fornece a descric~ao de uma classe por uma região (ou conjunto de
regiões), definida pelo hiper-cubo formado pelos objetos pertencentes a esta classe. Esta
descricão e obtida atraves de um operador simbolico (junção) e um Grafo de Vizinhos
Mutuos. Na etapa de alocação, as novas observações são classificadas usando diferentes
funções de matching.
No classificador proposto neste trabalho, a descrição de cada classe e uma região (ou
conjunto de regiões) em Rp definida pela casca convexa formada pelos seus objetos. Esta
nova abordagem tem, como proposito, reduzir a sobre generalização que e produzida
quando a classe e descrita por uma região (ou conjunto de regiões) definida pelo hipercubo
formado pelos objetos da classe e, por isso, melhorar o desempenho do classificador.Na etapa de alocação, cada nova observação e afetada a uma classe ou grupo, de acordo
com uma função de dissimilaridade que compara a descric~ao de uma classe (uma região
ou um conjunto de regiões) com um ponto em Rp.
Diferentes conjuntos de dados reais e artificiais são usados nesta avaliacão. Para
os dados simulados, a performance do classificador proposto e avaliada pela taxa de
erro de classificação, tempo de execuc~ao e memoria utilizada, em comparac~ao com um
classificador para dados simbolicos que usa hiper-cubos para descrever as classes. Esta
performance e computada no quadro de uma simulação de tipo Monte Carlo. Para os
dados reais, a performance do classificador proposto tambem e avaliada pela taxa de
erro de classificação, tempo de execução e memoria utilizada em comparação com os
algoritmos Part e J48. A performance, para o caso real, e computada usando o 10-Fold
repetido.
Os resultados mostraram que, em termos da taxa de erro de classificação, o metodo
proposto e superior ao metodo em que as regiões são representadas por hiper-cubos, porem
o mesmo não ocorre em relação aos algoritmos Part e J48, pois, em algumas situações, o
metodo proposto e superior a esses algoritmos