Dissertação
Um estudo da representação de documentos jurídicos em espaços métricos
Registro en:
MACHADO, Gustavo Menezes. Um estudo da representação de documentos jurídicos em espaços métricos. 2019. 74 f. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Sergipe, São Cristóvão, SE, 2019.
Autor
Machado, Gustavo Menezes
Institución
Resumen
Dozens of decisions are made daily from interpretations of the laws made by courts across the
country. This set of similar decisions on the same subject is known as jurisprudence and
serves as the basis for future judgments and arguments. In legal texts written in Brazilian
Portuguese, in addition to words being guided by different esthetic rules, there is also the use
of frequent references to legal elements, which makes the analysis of legal texts written in
Brazilian Portuguese a stimulating problem. This work explores a metric space associated
with contexts and the sharing of symbols between contexts of legal documents, that is, the
search for spaces suitable for the representation of texts as court lawsuits, where each process
- or part of it - is represented as a point, and the distances between these points represents
probabilistic measures. For such representation, the Multidimensional Scaling (MDS) was
used, which is a technique of dimensionality reduction where the relations of distances
between the points in the projected space approximate the proximity measurements of the
objects of the original space. The case law of the Sergipe State Court of Justice was used, in
addition to a controlled set of words used in the legal area, provided by the Federal Supreme
Court. The experiments showed that the proposed method obtained a better classification in
43.5% of the cases, while Doc2Vec was superior in only 35.7% of the cases, evidencing the
existence of a more adequate metric space for the representation of legal texts written in
Brazilian Portuguese than a space purely based on co-occurrence of symbols, as found by
Doc2Vec. Diariamente são elaboradas dezenas de decisões a partir de interpretações das leis realizadas
por tribunais de todo o país. Este conjunto de decisões similares sobre uma mesma matéria é
conhecido como jurisprudência, e serve como base para julgamentos e argumentações futuras.
Nos textos jurídicos escritos em português brasileiro, além das palavras serem guiadas por
regras estéticas diferentes, há também o uso de referências frequentes a elementos jurídicos, o
que torna a análise de textos jurídicos escritos em português brasileiro um problema
estimulante. Neste trabalho, é explorado um espaço métrico associado a contextos e ao
compartilhamento de símbolos entre contextos de documentos jurídicos, ou seja, trata-se da
busca por um espaço adequado à representação de textos como processos judiciais, onde cada
processo - ou parte dele - é representado como um ponto, e as distâncias entre esses pontos
representam medidas probabilísticas. Para tal representação, foi utilizado o Multidimensional
Scaling (MDS), que é uma técnica de redução de dimensionalidade onde as relações de
distâncias entre os pontos no espaço projetado se aproximam das medidas de proximidade dos
objetos do espaço original. A base de jurisprudência do Tribunal de Justiça do Estado de
Sergipe foi utilizada, além de um conjunto controlado de palavras utilizadas na área jurídica,
disponibilizado pelo Supremo Tribunal Federal. Os experimentos realizados evidenciaram
que o método proposto conseguiu uma melhor classificação em 43,5% dos casos, enquanto
Doc2Vec foi superior em apenas 35,7% das vezes, evidenciando a existência de um espaço
métrico mais adequado à representação de textos jurídicos escritos em português brasileiro,
que um espaço puramente baseado em co-ocorrência de símbolos, como o que é encontrado
pelo Doc2Vec. São Cristóvão, SE