Dissertação
Modelagem construcional de anáforas pronominais na FrameNet Brasil: contribuições para o mapeamento computacional da referência
Autor
Santos, Bárbara Dias
Institución
Resumen
The work presented in this thesis is included in the FrameNet Brasil studies (FN
Br). Through the theoretical basis of Frame Semantics (FILLMORE, 1982) and Berkeley
Construction Grammar (KAY & FILLMORE, 1999), it aims to (i) provide the
computational and linguistic treatment required to model Brazilian Portuguese
anaphorical constructions (ii) discuss the application of the Constructicon model to
information extraction methods. To achieve these goals, this work proposes a
linguistic-computational representation of the demonstrative, possessive, reflexive,
relative, undetermined, nominative, oblique and treatment anaphorical constructions. By
analyzing data in corpora, we noted some diversity related to pronominal anaphora
patterns in Portuguese language. From that, we modeled the constructions according to
the types of anaphora and we defined the elements which compose the structure: the
antecedent and the pronoun. Furthermore, we specified all the elements which are part
of the structure using linguistic descriptions – constraints based on Universal
Dependencies (UDs), constituent order and frames. At last, we implemented a
construction recognition system for pronominal anaphoras and their antecedents using
the constructions we modeled in the constructicon tool. On the one hand, the results
suggest a correct mapping of antecedents by applying the model, on the other hand
they suggest some exceptions related to mapping some types of antecedents, such as
complex noun phrases, named entities, ellipses or cases when they are located outside
the sentence boundary. Those exceptions are related to three reasons: deficiencies
related to the anaphora model itself, restrictions in the FrameNet database, which can’t
process named entities, and, lastly, restrictions in the UD parser, which processes
lexical items in one sentence each time. The results emphasize the need to extend the
coverage of the FN-Br Constructicon. O trabalho apresentado nesta dissertação se insere nos estudos desenvolvidos
pela FrameNet Brasil (FN-Br). Por meio dos pressupostos teóricos da Semântica de
Frames (FILLMORE, 1982) e da Gramática de Construções de Berkeley (KAY;
FILLMORE, 1999), este trabalho tem como objetivos (i) fornecer o tratamento
linguístico-computacional das construções anafóricas pronominais no português
brasileiro; (ii) discutir a aplicação do modelo do Constructicon em métodos de extração
de informação. Para atingir esses objetivos, o trabalho conta com uma metodologia
dividida em: apresentação do corpus de análise, cadastramento de construções,
análise de ocorrências, modelagem e experimento de reconhecimento de construções.
Assim, este trabalho propõe uma representação linguística e computacional das
construções anafóricas pronominais demonstrativas, possessivas, reflexivas, relativas,
indefinidas, nominativas, oblíquas e de tratamento. Por meio da análise de dados em
dois corpora General e Natural Language Generation, constatamos a diversidade dos
padrões anafóricos pronominais em língua portuguesa. A partir disso, modelamos
computacionalmente as construções por tipo de anáfora e definimos os elementos que
compõem a estrutura: o antecedente e o pronome. Depois, limitamos morfossintática e
semanticamente os elementos que constituem as estruturas por meio de constraints
baseados em Universal Dependencies (UDs), ordem de constituintes e frames. Por fim,
implementamos um sistema de reconhecimento de construções anafóricas pronominais
e de seus antecedentes a partir das construções modeladas no Constructicon e
quantificamos os dados obtidos. Os resultados apontam para o mapeamento correto
dos elementos antecedentes pela aplicação do modelo em contextos que o
antecedente localiza-se próximo ao pronome anafórico. Por outro lado, o modelo não
obteve o resultado esperado em contextos que os antecedentes são sintagmas
nominais complexos, entidades nomeadas, elipses ou estão localizados fora do limite
da sentença. Tais limitações estão relacionadas a três fatores: às deficiências do
modelo propriamente dito, à base de dados da FN-Br que não processa entidades
nomeadas e, por fim, ao funcionamento do parser UD - que processa itens lexicais em
uma sentença por vez. Os resultados reforçam a necessidade de ampliação da
cobertura do Constructicon da FN-Br.