Tesis
Aplicação de mineração de dados na identificação de áreas cultivadas com cana-de-açúcar em imagens de sensoriamento remoto no Estado de São Paulo
Application of data mining for identifying sugar cane crop plantations in remote sensing images of the state of São Paulo
Registration in:
Author
Nonato, Robson Tavares
Institutions
Abstract
Orientador: Stanley Robson de Medeiros Oliveira Acompanhado de 1 DVD Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agrícola Resumo: O surgimento e a evolução das geotecnologias, que podem ser entendidas como tecnologias originadas de estudos e pesquisas na área de sensoriamento remoto, mais especificamente da utilização de sensores situados na órbita do planeta Terra, têm permitido o desenvolvimento de metodologias inovadoras para o mapeamento da cobertura do solo e o monitoramento agrícola. O emprego dessas novas tecnologias tem permitido, também, uma melhoria das metodologias utilizadas na estimativa da produtividade agrícola e na previsão de safras. Mesmo assim, no Brasil, muitas das metodologias empregadas no mapeamento agrícola ainda utilizam as imagens de satélite como material auxiliar, principalmente, em levantamentos amostrais. Isto se deve, em parte, aos avanços necessários no processo de extração de informações das imagens. Dentre estes avanços, deve-se destacar a necessidade de melhoria dos métodos utilizados para identificação e classificação digital de regiões contendo a cultura agrícola de interesse dentro da imagem. Amplamente utilizadas na resolução de problemas de classificação automatizada de dados, nas mais diversas áreas do conhecimento, as técnicas de mineração de dados se apresentam como uma alternativa promissora na resolução de problemas de identificação e classificação de regiões cultivadas com cana-de-açúcar. Dentro desse contexto, o objetivo desse trabalho foi avaliar as técnicas de mineração de dados voltadas para classificação de dados, dentre elas os métodos de seleção de atributos e a técnica de árvore de decisão binária na identificação de áreas cultivadas com cana-de-açúcar, no estado de São Paulo, em imagens com correção atmosférica do sensor TM a bordo do satélite Landsat 5. Também foi investigado o resultado da inserção de atributos de textura e de índices de vegetação com o objetivo de melhorar os resultados da identificação e classificação de áreas cultivadas com cana-de-açúcar. Neste trabalho foram abordados três cenários contendo áreas cultivadas com canade- açúcar. No primeiro cenário, a técnica de árvore de decisão foi avaliada na classificação de pixels puros de regiões cultivadas com cana-de-açúcar em meio a alvos diversos, como áreas urbanas, solo exposto, corpos compostos por água e outros tipos de vegetação. No segundo cenário, a ênfase foi a classificação de pixels puros de regiões cultivadas com cana-de-açúcar em diferentes fases fenológicas. No último cenário, a técnica de classificação foi avaliada na distinção de pixels puros de regiões cultivadas com cana-de-açúcar, em diferentes fases fenológicas, e em meio a outros tipos de cobertura do solo como áreas urbanas, solo exposto, corpos compostos por água e outros tipos de vegetação, como pastos e florestas. Nos três cenários abordados, os modelos de árvores de decisão binária, induzidos pelo algoritmo J48, produziram taxas de acerto superiores a 90%. A introdução de atributos de textura trouxe ganhos expressivos nos três cenários e contribuiu para melhorar a distinção de áreas cultivadas com cana-de-açúcar em meio a tipos diversos de cobertura do solo, como solo exposto, área urbana e corpos d'água. Os resultados de todos os cenários estudados reforçam o potencial forte das árvores de decisão no processo de classificação e identificação de áreas cultivadas com canade- açúcar, em diferentes cidades produtoras no estado de São Paulo. Também, deve-se destacar, que as técnicas de mineração de dados destinadas à seleção de subconjuntos de atributos relevantes para a classificação trouxeram redução significativa dos conjuntos de dados e permitiram a identificação de modelos melhores de classificação Abstract: The appearance and evolution of geotechnologies, notably those originated from research results in the area of remote sensing, allowed for the development of innovative methodologies for the land cover mapping and agricultural monitoring. The use of such technologies also allowed for a significant improvement in the methods used for agricultural productivity and crop forecasting. However, in Brazil, most of the methodologies applied to agricultural mapping are still using remote sensing images as an auxiliary tool, especially in connection with sample surveys designed to solve agricultural problems. This fact may be explained, in part, by the advances in the information extraction process of remote sensing images. Among such advances, it could be highlighted the need for improvement in methods used for identification and digital classification of regions containing agricultural crops inside the remote sensing images. Frequently used to solve data classification problems at the most different knowledge areas, the data mining techniques arise as alternative way to solve problems related to classification of pixels related to sugar cane tilled areas. So this work aimed evaluate the data mining techniques driven for data classification like decision tree learning methods and feature selection methods for the identification and classification of tilled regions with sugar cane inside TM Landsat 5 images. In this work three scenarios having tilled areas with sugar cane inside were evaluated. In the first scenario, decision tree learning technique was evaluated in the classification process of pixels having only sugar cane tilled areas among several others soil coverage like water, rivers, lakes, forest and others kind of vegetations. The second scenario was compound by pure pixels having only sugar cane in three different age phases. In the last scenario, the decision three learning technique was evaluated in the distinction of pure pixels having sugar cane in three different age phases among different kinds of soil coverage like urban areas, water, rivers, lakes, forests and vegetation. In all of the three scenarios, the binary decision three learning techniques, inducted by J48 algorithm, produced accuracy rates up to 90%. The insertion of the texture attributes produced relevant gains in two of three scenarios and also has demonstrated to bring contribution to improvement of the classification process of tilled sugar cane among different kinds of soil coverage. The observed results in all studied scenarios confirm the relevance of the decision three learning technique in the classification and identification process of regions tilled with sugar cane in different producer cities from the state of São Paulo. Also, should be highlighted that data mining techniques driven to feature selection have bring significant reduction of the databases and allowed the identification of better classification models Mestrado Planejamento e Desenvolvimento Rural Sustentável Mestre em Engenharia Agrícola