doctoralThesis
Framework Híbrido para Integração de Ferramentas e Reuso do Conhecimento em Problemas Binários de Mineração de Dados
Registro en:
Carneiro Leão Vieira da Cunha, Rodrigo; Jorge Leitão Adeodato, Paulo. Framework Híbrido para Integração de Ferramentas e Reuso do Conhecimento em Problemas Binários de Mineração de Dados. 2009. Tese (Doutorado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009.
Autor
CUNHA, Rodrigo Carneiro Leão Vieira da
Institución
Resumen
Data Mining surgiu da necessidade de extração do conhecimento a partir de
volumosas massas de dados geradas pelas empresas/instituições. Com o crescimento da área e
o aumento do poder de processamento dos computadores, as organizações que prestam
serviços em KDD (Knowledge Discovery in Database) têm guardado, cada vez mais, um
grande número de documentos e processos referentes a projetos executados no passado.
Por outro lado, hoje, o desenvolvimento de projetos de Data Mining exige do
especialista o uso de diversas ferramentas, linguagens de programação e metodologias
associadas à sua experiência para resolução do problema. Um dos maiores problemas
práticos de KDD é como prover a interoperabilidade entre diferentes plataformas existentes,
de tal forma que os processos fiquem centralizados e documentados em um único ambiente.
Outro grande problema, hoje, é a falta de reuso de conhecimento devido à complexidade e
forte dependência do usuário. Neste contexto, as experiências adquiridas em projetos
anteriores não são devidamente documentadas, gerenciadas e controladas, gerando como
conseqüência a repetição de erros dos projetos anteriores. Em outras palavras, outro grande
problema prático é a falta de plataformas capazes de fazer o reuso do conhecimento adquirido
em projetos realizados no passado.
O principal objetivo deste trabalho é criar um framework híbrido para
desenvolvimento de soluções em Mineração de Dados que integra diversas ferramentas
disponíveis no mercado e disponibiliza um ambiente integrado para reuso do conhecimento na
área de KDD. Este ambiente possibilita a centralização e padronização dos artefatos gerados
ao longo do processo de KDD, assim como aproveita os melhores recursos de cada ferramenta
de mercado disponível.
Para validação do framework foram coletados os metadados de 69 projetos reais de
mineração de dados, 61 lições aprendidas dos profissionais que trabalharam nestes projetos e
654 entidades de conhecimento (congressos, softwares, publicações etc) da área de KDD.
Os estudos apresentados, principalmente para definição do início do projeto,
mostraram ser possível, através do framework, entender as características que levaram os
projetos a serem um sucesso ou fracasso. Assim, o framework é um ambiente que assegura o desenvolvimento de projetos em KDD de alta qualidade que atende às expectativas do cliente dentro do tempo e orçamento previstos Conselho Nacional de Desenvolvimento Científico e Tecnológico