doctoralThesis
Sumarização automática de textos baseada em conceitos via programação linear inteira e regressão
Autor
OLIVEIRA, Hilário Tomaz Alves de
Institución
Resumen
Sumarização Automática de Textos é o processo de criação automático de um resumo contendo as informações mais relevantes, a partir de um único documento (monodocumento) ou de um grupo de documentos relacionados (multidocumento). O interesse no desenvolvimento de novos e eficientes sistemas de sumarização é crescente, já que eles possuem o potencial de auxiliar no processamento de grandes volumes de documentos textuais, ressaltando as informações mais relevantes para os usuários. Apesar dos avanços obtidos nos últimos anos, ainda existe uma grande diferença entre os resumos gerados automaticamente e os escritos por seres humanos. A maioria das atuais estratégias de sumarização são estáticas, ou seja, adotam um método de sumarização com um conjunto de parâmetros pré-definido para todos os documentos de entrada. Investigações recentes na literatura e experimentos conduzidos neste trabalho demonstram que essa característica é uma significante limitação, já que a adoção de um único método de sumarização não consegue obter um alto desempenho para todos os documentos, mesmo quando eles pertencem ao mesmo domínio. Neste contexto, este trabalho propõe uma abordagem baseada em conceitos utilizando Programação Linear Inteira (PLI) e regressão para as tarefas de sumarização monodocumento e multidocumento de artigos de notícias. A arquitetura da solução proposta é composta por duas etapas principais: a geração de diversos resumos candidatos e, posteriormente, a identificação e seleção do resumo mais informativo. Duas abordagens baseadas em conceitos usando PLI são propostas para a geração dos resumos candidatos nas tarefas de sumarização monodocumento e multidocumento. Tais abordagens possibilitam a exploração de diversas configurações, permitindo a geração de uma grande variedade de resumos candidatos representando diferentes perspectivas. As abordagens propostas são integradas em uma macro arquitetura com a etapa de seleção do resumo mais informativo. Essa etapa de seleção vislumbra estimar a cobertura de informações relevantes presentes nos resumos candidatos gerados, permitindo assim, a identificação do resumo estimado como mais representativo. Para isso, diversas características baseadas em tradicionais indicadores de relevância, como posição, frequência e centralidade, identificadas na literatura e outras propostas neste trabalho, são exploradas para a construção de um modelo de regressão. Diversos experimentos foram conduzidos nos principais corpora da área, visando avaliar diferentes aspectos das abordagens propostas nas tarefas de sumarização monodocumento e multidocumento. Os resultados obtidos demonstram que as soluções propostas, para ambas as tarefas de sumarização, são capazes de aumentar a informatividade dos resumos gerados, com base nas medidas de cobertura do ROUGE-1 e ROUGE-2, em comparação com outros sistemas do estado da arte. CNPq Automatic Text Summarization (ATS) is the process of automatically creating a summary containing the most relevant information from a unique document (singledocument) or a group of related documents (multi-document). The interest in developing new and efficient summarization systems is increasing, since they have the potential to assist the processing of large volumes of textual documents, highlighting the most relevant information for users. Despite the advances achieved in recent years, there is still a considerable difference between automatically generated summaries and those written by human beings. Most current summarization approaches are static, i.e., they adopt a summarization method with a predefined set of parameters for all input documents. Recent investigations in the literature and experiments conducted in this work demonstrate that this characteristic is a significant limitation since the adoption of a single summarization method cannot obtain high performance for all documents, even when they belong to the same domain. In this context, this work proposes a concept-based approach, employing Integer Linear Programming (ILP) and regression for single- and multi-document summarization of news articles. The architecture of the proposed solution consists of two main steps: the generation of several candidate summaries and, later, the identification and selection of the most informative summary. Two concept-based ILP approaches are proposed for the generation of candidate summaries in the single- and multi-document summarization tasks. Such approaches enable the exploration of several configurations, allowing the generation of a large variety of candidate summaries representing different perspectives. The proposed approaches are integrated into a macro-architecture with the most informative summary selection step. This selection stage envisages estimating the coverage of relevant information present in the candidate summaries generated, allowing the identification of the candidate summary estimated as the most informative. Several characteristics based on traditional content importance indicators, such as position, frequency, and centrality, identified in the literature and other proposed in this work, are explored for the construction of a regression model. Several experiments were conducted in the most adopted corpora of the area aiming to evaluate different aspects of the proposed approaches in the tasks of single- and multi-document summarization. The experimental results show that the proposed approaches, for both summarization tasks, can increase the informativeness of the generated summaries, based on the recall measures of ROUGE-1 and ROUGE-2, compared to other state-of-the-art systems.