Tesis
Analise automatica de sumarios em lingua portuguesa : uma aproximação ao tratamento da estrutura de um texto
Registro en:
Autor
Saggion, Horacio
Institución
Resumen
Orientador: Ariadne Maria Brito Rizzoni Carvalho Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Ciencia da Computação Resumo: Lingüística Computacional é a ciência que estuda as teorias que possibilitam a construção de sistemas capazes de entender e gerar linguagem natural. Muitos sistemas de entendimento e, em particular, muitos sistemas de tradução automática concentram seus esforços no tratamento da sentença como unidade lingüística fundamental. Um texto é concebido como uma justaposição de sentenças e, de acordo com essa concepção, a tradução é feita sentença por sentença, muitas vezes desconsiderando fenômenos que caracterizam um texto como tal. Nesta dissertação estamos concentrados na análise de um texto em língua portuguesa via computador, visando o tratamento de fenômenos de interesse para a tradução automática. Devido a complexidade do tratamento de textos irrestritos, decidimos trabalhar com sumários de artigos técnicos pois, embora curtos, são considerados textos e, como tal, apresentam os fenômenos de interesse para o nosso trabalho. A nossa principal preocupação é o entendimento da estrutura de um sumário e o processo de geração dessa estrutura. Acreditamos que a representação da estrutura de um sumário possa auxiliar na produção de uma tradução de alta qualidade. No processamento de um texto e no cálculo de sua estrutura dois estudos devem ser considerados: a coesão e a coerência textual. Esses estudos tentam responder ao problema da conexidade das sentenças na seqüência lingüística. Nesta dissertação abordamos o problema da coesão textual como mecanismo de vinculação de sentenças no texto. O principal fenômeno abordado é a coesão referencial através do estudo e tratamento de anáfora definida. Apresentamos um formalismo para representar um subconjunto de sumários em língua portuguesa e um processo computacional que, a partir da análise do sumário gera a representação proposta nesta dissertação. O formalismo reflete o conteúdo proposicional do sumário e as relações entre proposições. O sistema analisa as sentenças e as vincula na representação proposta. Acreditamos que tanto a representação proposta como os processos de análise textuais possam ser estendidos para outros domínios textuais Abstract: Computational Linguistcs studies theories that enable the construction of systems capable of understanding and generating naturallanguage. Many understanding systems and, in particular, many automatic translation systems, treat sentences as the fundamentallinguistic unit. A text is conceived as a juxtaposition of sentences and, according to this conception, translation is made sentence by sentence; many times. phenomena that characterize the text are ignored. The work presented here is concerned with the automatic analysis of texts in the Portuguese language dealing with phenomena of interest for automatic translation. Due to the complexity of the treatment of unrestricted texts, we have worked with abstracts of technical papers; although they are short, they are still texts and, as such, present phenomena of interest for our work. . Our main concern is the understanding of the abstract's structure and the generation of such a structure. We believe that this representation may help in the production of high quality translation. When processing a text and calculating its structure two phenomena must be taken into account: cohesion and coherence. These studies try to explain the connection between sentences. Our work takes; cohesion into account in order to make the connection between sentences in the text. The main phenomenon treated here is definite anaphora. We present a formalism to represent a subset of abstracts in Portuguese and a computational process through which this representation is produced. The formalism reflects the propositional content of the abstract and the relationships between propositions. The sentences are analysed and related to each other in the proposed representation. We believe that the representation and the text analysis proposed may be extended to other textual domains Mestrado Mestre em Ciencia da Computação