Modelagem construcional de anáforas pronominais na FrameNet Brasil: contribuições para o mapeamento computacional da referência

Santos, Bárbara Dias

Dissertação

Registro en:

https://repositorio.ufjf.br/jspui/handle/ufjf/15270

https://repositorioslatinoamericanos.uchile.cl/handle/2250/9130997

Autor

Santos, Bárbara Dias

Institución

Universidade Federal de Juiz de Fora (Brasil)

Resumen

The work presented in this thesis is included in the FrameNet Brasil studies (FN Br). Through the theoretical basis of Frame Semantics (FILLMORE, 1982) and Berkeley Construction Grammar (KAY & FILLMORE, 1999), it aims to (i) provide the computational and linguistic treatment required to model Brazilian Portuguese anaphorical constructions (ii) discuss the application of the Constructicon model to information extraction methods. To achieve these goals, this work proposes a linguistic-computational representation of the demonstrative, possessive, reflexive, relative, undetermined, nominative, oblique and treatment anaphorical constructions. By analyzing data in corpora, we noted some diversity related to pronominal anaphora patterns in Portuguese language. From that, we modeled the constructions according to the types of anaphora and we defined the elements which compose the structure: the antecedent and the pronoun. Furthermore, we specified all the elements which are part of the structure using linguistic descriptions – constraints based on Universal Dependencies (UDs), constituent order and frames. At last, we implemented a construction recognition system for pronominal anaphoras and their antecedents using the constructions we modeled in the constructicon tool. On the one hand, the results suggest a correct mapping of antecedents by applying the model, on the other hand they suggest some exceptions related to mapping some types of antecedents, such as complex noun phrases, named entities, ellipses or cases when they are located outside the sentence boundary. Those exceptions are related to three reasons: deficiencies related to the anaphora model itself, restrictions in the FrameNet database, which can’t process named entities, and, lastly, restrictions in the UD parser, which processes lexical items in one sentence each time. The results emphasize the need to extend the coverage of the FN-Br Constructicon.

O trabalho apresentado nesta dissertação se insere nos estudos desenvolvidos pela FrameNet Brasil (FN-Br). Por meio dos pressupostos teóricos da Semântica de Frames (FILLMORE, 1982) e da Gramática de Construções de Berkeley (KAY; FILLMORE, 1999), este trabalho tem como objetivos (i) fornecer o tratamento linguístico-computacional das construções anafóricas pronominais no português brasileiro; (ii) discutir a aplicação do modelo do Constructicon em métodos de extração de informação. Para atingir esses objetivos, o trabalho conta com uma metodologia dividida em: apresentação do corpus de análise, cadastramento de construções, análise de ocorrências, modelagem e experimento de reconhecimento de construções. Assim, este trabalho propõe uma representação linguística e computacional das construções anafóricas pronominais demonstrativas, possessivas, reflexivas, relativas, indefinidas, nominativas, oblíquas e de tratamento. Por meio da análise de dados em dois corpora General e Natural Language Generation, constatamos a diversidade dos padrões anafóricos pronominais em língua portuguesa. A partir disso, modelamos computacionalmente as construções por tipo de anáfora e definimos os elementos que compõem a estrutura: o antecedente e o pronome. Depois, limitamos morfossintática e semanticamente os elementos que constituem as estruturas por meio de constraints baseados em Universal Dependencies (UDs), ordem de constituintes e frames. Por fim, implementamos um sistema de reconhecimento de construções anafóricas pronominais e de seus antecedentes a partir das construções modeladas no Constructicon e quantificamos os dados obtidos. Os resultados apontam para o mapeamento correto dos elementos antecedentes pela aplicação do modelo em contextos que o antecedente localiza-se próximo ao pronome anafórico. Por outro lado, o modelo não obteve o resultado esperado em contextos que os antecedentes são sintagmas nominais complexos, entidades nomeadas, elipses ou estão localizados fora do limite da sentença. Tais limitações estão relacionadas a três fatores: às deficiências do modelo propriamente dito, à base de dados da FN-Br que não processa entidades nomeadas e, por fim, ao funcionamento do parser UD - que processa itens lexicais em uma sentença por vez. Os resultados reforçam a necessidade de ampliação da cobertura do Constructicon da FN-Br.

Materias

Gramática de construções

Semântica de frames

Processamento de língua natural

Anáfora

Extração de informação

Information extraction

CNPQ::LINGUISTICA, LETRAS E ARTES::LINGUISTICA

Mostrar el registro completo del ítem