Dissertação (Mestrado)
SBI: um método de sumarização extrativa de texto baseado em instâncias de uma ontologia
Fecha
2019Autor
Flores, Murillo Lagranha
Institución
Resumen
A abundância de documentos de texto disponíveis na web, juntamente com a facilidade de encontrar e recuperar tais documentos trazida pelos buscadores, cria a necessidade de se desenvolverem ferramentas computacionais capazes de criar uma versão resumida destes documentos para que se possa capturar a informação presente nos mesmos sem que para isso haja a necessidade de lê-los na íntegra. Um sumarizador automático de texto cria uma versão resumida de um documento ou de um conjunto de documentos. Sumarizadores extrativos selecionam algumas unidades de texto, como parágrafos ou sentenças, do documento ou dos documentos originais para compor o sumário. Existem diversas técnicas empregadas na seleção e extração de sentenças, dentre elas o uso de medidas baseadas na análise semântica das sentenças. Nestas técnicas, a semântica das sentenças geralmente é representada a partir das formalizações encontradas em uma ontologia. Uma ontologia pode formalizar, entre outros, conceitos e indivíduos, que são instâncias destes conceitos. Os métodos de sumarização extrativa no estado-da-arte exploram somente os conceitos definidos nas ontologias para representar a semântica das sentenças, deixando indivíduos de lado. Desta forma, esta dissertação apresenta uma proposta de método de sumarização extrativa que utiliza as instâncias de uma ontologia para representar a semântica das sentenças, bem como uma série de experimentos realizados para avaliar a relevância dos resultados obtidos pelo mesmo na tarefa de sumarização automática de texto. Os resultados indicam que o método proposto alcança resultados relevantes, revelando que a representação semântica proposta para as sentenças é uma alternativa viável no contexto da sumarização automática. Abstract: The abundance of text documents available on the web, coupled with the ease of finding and retrieving such documents brought by search engines, creates the need to develop computational tools capable of creating summary versions of these documents so that the information present in them can be captured by a reader without them having to read the documents in full. An automatic text summarizer creates a shortened version of a document or set of documents. Extractive summarizers will select textual units, such as paragraphs or sentences, from the original document or documents to compose the summary. There are several techniques employed in sentence selection and extraction, including the ones based on the semantic analysis of sentences. In these techniques, sentence semantics are usually represented using formal descriptions found in an ontology. An ontology can formalize, among others, concepts and individuals, which are instances of the concepts. State-of-the-art extractive summarization methods explore only the concepts defined in ontologies to represent sentence semantics, leaving individuals aside. Thus, this dissertation presents a proposal for an extractive summarization method that uses the instances in an ontology to represent sentence semantics, as well as a series of experiments performed to evaluate the relevance of the results obtained by this method in the automatic text summarization task. The results indicate that the proposed method achieves relevant results, revealing that the proposed semantic representation for sentences is a viable alternative in the context of automatic summarization.