Tese (Doutorado)
Corpus mining: a new perspective on translation studies
Fecha
2018Autor
Silva, Carlos Eduardo da
Institución
Resumen
Abstract : Drawing on Text Mining (TM) and Corpus-based Translation Studies (CTS), this study addresses the combination of an interdisciplinary methodology for translation research. It focuses on technical and theoretical assumptions necessary to develop the proposed methodological model, henceforth referred to as Corpus Mining. The hypothesis is that a collaboration between CTS and TM can contribute to the improvement of corpus creation, text processing, and analysis. It is worth noting that the application of Corpus Mining and proposed techniques can lead to the discovery of novel patterns (i.e., linguistic features or, in our case, specific variables typically associated with translated texts). To achieve this goal, the following steps are taken: (a) the utilization of techniques from Text Mining contribute to CTS; (b) an explanation of how Corpus Mining can support the corpus compilation triad (i.e., design, building, and processing) and research based on a parallel corpus; and (c) inclusion of a practical example showing the application of Corpus Mining while developing new tools for COPA- TRAD Corpus Paralelo de Traduc¸a~o. It is expected that Corpus Mining will contribute to CTS theoretical and practical repertoire by providing a methodological model for the investigation of translated texts through parallel corpus. New horizons to manipulate and analyze translated texts through a set of computerized algorithms that are far from the basic frequency list and pattern matching are available for investigation; it is also expected that Corpus Mining can support or indicate the need for further research in this direction. Results show that Corpus Mining model, set up as a concise, step-by-step guide to support the investigation of translated texts in the light of Text Mining and Corpus-based Translation Studies, can provide means for the analysis of information that is comprehensive and easily accessible. Utilizando-se da Mineração de Textos (MT) e dos Estudos da Tradução com Base em Corpus (ETC), este estudo aborda a combinação de uma metodologia interdisciplinar para pesquisa em tradução. O estudo focaliza-se em pressupostos técnicos e teóricos para desenvolver o modelo metodológico proposto, doravante referido Mineração de Corpus. A hipótese deste estudo é que uma interface entre MT e ETC pode contribuir para a melhoria ao suporte na criação de corpus, processamento automático de textos e análise. Cabe ressaltar, que a aplicabilidade da Mineração de Corpus possibilita a descoberta de novos padrões (isto é, características linguísticas ou no nosso caso, variáveis específicas características do texto traduzido). Para atingir este fim, os seguintes passos são adotados: (a) a utilização de técnicas de Mineração de Textos, Mineração de Dados e Processamento de Linguagem Natural podem contribuir para ETC, (b) como a Mineração de Corpus pode contribuir para a tríade da compilação de corpus (isto é, projeto, construção e processamento) e pesquisas com base em corpus paralelo, (c) a aplicação da Mineração de Corpus em um caso prático, COPA-TRAD Corpus Paralelo de Tradução. Espera-se, que a Mineração de Corpus possa contribuir para o repertório prático e teórico dos Estudos da Tradução com Base em Corpus por prover um modelo metodológico a ser seguido durante a pesquisa em corpus paralelo. Novos horizontes abrem-se para a manipulação de textos traduzidos através de um conjunto de algoritmos computadorizados além de simples listas de frequência e combinações de padrões. Os resultados indicam que a Mineração de Corpus é um guia sucinto para a investigação de tradução à luz de uma metodologia com base em corpus pode prover para o pesquisador informações completas e acessíveis.