Tese
Protocolo para anotação linguística e gerenciamento de amostras sociolinguísticas : o caso da amostra Deslocamentos 2019
Registro en:
SOUSA, Marta Deysiane Alves Faria. Protocolo para anotação linguística e gerenciamento de amostras sociolinguísticas : o caso da amostra Deslocamentos 2019. 2023. 147 f. Tese (Doutorado em Letras) – Universidade Federal de Sergipe, São Cristóvão, 2023.
Autor
Sousa, Marta Deysiane Alves Faria
Institución
Resumen
Linguistic data bases are considered tools that provide researchers with fast access to language samples (written or oral texts), crossing among data from different regions, and a linguistic collection of a certain period of time and place, being useful not only to scientific purposes, but also to didactic ones (FREITAG; MARTINS; TAVARES, 2012; GONÇALVES, 2019; SILVA, 2015). Both in Brazilian and international scenarios, there is a concern with the documentation and archiving of sociolinguistic samples, which may be explained due to the importance of these data to the advance of the research in this field (KENDALL, 2013), to the Open Science demands in relation to the sharing of data, and also to the technological advances regarding archiving and linguistic annotation (VANN, 2021). However, as in the international scenario, in Brazil, such endeavors have been individually made, without standardization in the methodologies, codes, and data availability, which makes it difficult to replicate and, consequently, compare different variable phenomena from different databases. In addition to it, there are no sociolinguistic samples linguistically tagged among those that are already available online as well as data storage and management protocols and codes to perform statistical analysis. With this study, we aim at creating a protocol to systematize and disseminate the sample Displacements 2019 (FREITAG, 2018) from Falares Sergipanos database following Open Science principles. Our thesis is that it is possible to use open and free resources to linguistically tag and systematize sociolinguistic samples according to Open Science paradigm. In order to support our thesis, we set the following specific goals: i) to test two free computational tools (LancsBox 6.0 e spaCy 3.5) to linguistically annotate the sample Displacements 2019; ii) to evaluate the annotation performed by each tool; iii) to compare the performance of the two tools in relation to searches and functionalities for a pre-analysis of the phenomenon the filling of the determiner position before possessives in pre-nominal position;iv) to describe actions to disseminate and share the data of the sample Displacements 2019; v) organize the actions taken in a protocol. The general results confirm our thesis that it is possible to systematize and linguistically annotate sociolinguistic samples using only free resources available for the Portuguese language. The tools tested also contributed to searchers that are more accurate and with a greater number of occurrences of the phenomenon in comparison to a manual search. On the other hand, it is still a limitation to host and store a web site with a high number of data using free resources. Bancos de dados linguísticos são ferramentas que propiciam aos pesquisadores acesso ágil a amostras de língua (textos orais ou escritos), cruzamento entre dados de diferentes regiões e um acervo linguístico de um determinado período e localidade, servindo não só a propósitos científicos, mas também didáticos (FREITAG; MARTINS; TAVARES, 2012; GONÇALVES, 2019; SILVA, 2015). Tanto no contexto brasileiro quanto internacional, a preocupação com a documentação e arquivamento de amostras sociolinguísticas pode ser explicada pela importância desses dados para o avanço das pesquisas na área (KENDALL, 2013), pelas demandas da Ciência Aberta quanto ao compartilhamento dos dados e pelos avanços tecnológicos em termos de armazenamento e anotação linguística (VANN, 2021). No entanto, assim como no exterior, no Brasil, empreendimentos nesse sentido têm-se dado no nível individual, sem padronização na metodologia, codificação e disponibilização de dados, o que dificulta a replicabilidade e consequente cotejamento de fenômenos variáveis entre diferentes bancos de dados. Ademais, não há amostras sociolinguísticas linguisticamente anotadas entre aquelas que já se encontram disponíveis online, assim como protocolos de gerenciamento de dados e códigos para realização de análise estatística. Objetivamos com este trabalho, elaborar um protocolo de sistematização e divulgação Amostra Deslocamentos 2019 (FREITAG, 2018) seguindo os preceitos da Ciência Aberta. Nossa tese é a de que é possível utilizar recursos abertos e gratuitos para anotação linguística e sistematização de amostras sociolinguísticas seguindo o paradigma da Ciência Aberta. Para defendermos essa tese, delimitamos os seguintes objetivos específicos: i) testar duas ferramentas computacionais (LancsBox 6.0 e spaCy3.5) gratuitas na etiquetagem da Amostra Deslocamentos 2019; ii) avaliar a etiquetagem empreendida pelas ferramentas; iii) comparar o desempenho das ferramentas em relação à buscas e funcionalidades para uma pré-análise do fenômeno da variação do preenchimento de determinante antes de possessivo pré-nominal; iv) descrever ações para a divulgação e o compartilhamento dos dados da amostra Deslocamentos 2019; v) sistematizar as ações desenvolvidas em forma de protocolo. Os resultados gerais confirmam nossa tese de que é possível sistematizar e anotar linguisticamente, no nível gramatical (part-of-speech) amostras sociolinguísticas usando apenas recursos gratuitos disponíveis para a língua portuguesa. As ferramentas também contribuem para buscas mais acuradas e com resultados com maior número de ocorrências do que uma busca manual. Por outro lado, em relação à divulgação dos dados, o armazenamento e a hospedagem do site é ainda uma limitação a respeito do uso de recursos abertos e gratuitos. São Cristóvão