Extração de relações semanticas via análise de correlação de termos em documentos

Botero, Sergio William

Extracting semantic relations via analysis of correlated terms in documents

dc.creator	Botero, Sergio William
dc.date	2008
dc.date	2008-12-12T00:00:00Z
dc.date	2017-03-30T10:38:38Z
dc.date	2017-07-13T19:48:04Z
dc.date	2017-03-30T10:38:38Z
dc.date	2017-07-13T19:48:04Z
dc.date.accessioned	2018-03-29T03:54:30Z
dc.date.available	2018-03-29T03:54:30Z
dc.identifier	BOTERO, Sergio William. Extração de relações semanticas via análise de correlação de termos em documentos. 2008. 145 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação, Campinas, SP. Disponível em: <http://libdigi.unicamp.br/document/?code=000437630>. Acesso em: 30 mar. 2017.
dc.identifier	http://repositorio.unicamp.br/jspui/handle/REPOSIP/259205
dc.identifier.uri	http://repositorioslatinoamericanos.uchile.cl/handle/2250/1338032
dc.description	Orientador: Ivan Luiz Marques Ricarte
dc.description	Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação
dc.description	Resumo: Sistemas de recuperação de informação são ferramentas para automatizar os procedimentos de busca por informações. Surgiram com propostas simples nas quais a recuperação era baseada exclusivamente na sintaxe das palavras e evoluíram para sistemas baseados na semântica das palavras como, por exemplo, os que utilizam ontologias. Entretanto, a especificação manual de ontologias é uma tarefa extremamente custosa e sujeita a erros humanos. Métodos automáticos para a construção de ontologias mostraram-se ineficientes, identificando falsas relações semânticas. O presente trabalho apresenta uma técnica baseada em processamento de linguagem natural e um novo algoritmo de agrupamento para a extração semi-automática de relações que utiliza o conteúdo dos documentos, uma ontologia de senso comum e supervisão do usuário para identificar corretamente as relações semânticas. A proposta envolve um estágio que utiliza recursos lingüísticos para a extração de termos e outro que utiliza algoritmos de agrupamento para a identificação de conceitos e relações semânticas de instanciação entre termos e conceitos. O algoritmo proposto é baseado em técnicas de agrupamento possibilístico e de bi-agrupamento e permite a extração interativa de conceitos e relações. Os resultados são promissores, similares às metodologias mais recentes, com a vantagem de permitir a supervisão do processo de extração
dc.description	Abstract: Information Retrieval systems are tools to automate the searching for information. The first implementations were very simple, based exclusively on word syntax, and have evolved to systems that use semantic knowledge such as those using ontologies. However, the manual specification is an expensive task and subject to human mistakes. In order to deal with this problem, methodologies that automatically construct ontologies have been proposed but they did not reach good results, identifying false semantic relation between words. This work presents a natural language processing technique e a new clustering algorithm for the semi-automatic extraction of semantic relations by using the content of the document, a commom-sense ontology, and the supervision of the user to correctly identify semantic relations. The proposal encompasses a stage that uses linguistic resources to extract the terms and another stage that uses clustering algorithms to identify concepts and instanceof relations between terms and concepts. The proposed algorithm is based on possibilistic clustering and bi-clustering techniques and it allows the interative extraction of concepts. The results are promising, similar to the most recent methodologies, with the advantage of allowing the supervision of the extraction process
dc.description	Mestrado
dc.description	Engenharia de Computação
dc.description	Mestre em Engenharia Elétrica
dc.format	145 p. : il.
dc.format	application/pdf
dc.language	Português
dc.publisher	[s.n.]
dc.subject	Processamento de textos (Computação)
dc.subject	Semântica
dc.subject	Recuperação da informação
dc.subject	Sistemas de recuperação da informação
dc.subject	Ontologia
dc.subject	Text processing (Computation)
dc.subject	Semantic
dc.subject	Information retrieval
dc.subject	Information retrieval system
dc.subject	Ontology
dc.title	Extração de relações semanticas via análise de correlação de termos em documentos
dc.title	Extracting semantic relations via analysis of correlated terms in documents
dc.type	Tesis

Este ítem pertenece a la siguiente institución

Universidade Estadual de Campinas (Brasil)