Tesis
MulTeC: A construção de um corpus multimodal em teletandem
Autor
Aranha, Solange [UNESP]
Universidade Estadual Paulista (Unesp)
Institución
Resumen
O teletandem (TTD), contexto de aprendizagem de línguas telecolaborativo e autônomo (TELLES, 2006), desenvolvido na Unesp há mais de 12 anos, vem promovendo oportunidade de aprendizagem de línguas estrangeiras embasada na autonomia, separação de línguas e reciprocidade, princípios basilares da aprendizagem in tandem, como discutido por Brammerts (1996). Tal contexto de aprendizagem se tornou possível pela utilização das redes telemáticas que viabilizam a aprendizagem de línguas entre aprendizes que residem em países geograficamente distantes. No TTD, os aprendizes realizam sessões orais de teletandem (SOTs) e participam de sessões de mediação. Segundo Aranha e Leone (2016; 2017) essas são macrotarefas a partir das quais ocorrem as microtarefas: produção de diários de aprendizagem, troca de textos entre os participantes, respostas aos questionários inicial e final e uso da ferramenta chat durante a SOT. Esse contexto propicia a geração de uma quantidade significativa de dados multimodais (áudio, vídeo, texto escrito) que podem ser utilizados para pesquisas diversas. O intuito desta pesquisa é a construção de um corpus com os dados produzidos por 112 pares no período de 2012 a 2015. Para a composição do corpus, foram utilizados os dados coletados e armazenados conforme descrito por Aranha, Luvizari-Murad e Moreno (2015) e para a elaboração do corpus utilizei os seguintes procedimentos: a) levantamento das características de cada grupo de teletandem; b) criação de código para identificação dos parceiros; c) criação de códigos para a nomeação dos dados; d) padronização da anonimização dos dados; e) conversão dos dados para formatos compatíveis com diferentes sistemas operacionais; e f) renomeação dos dados a partir de Chanier e Wigham (2016). O MulTeC (Multimodal Teletandem Corpus) é composto por um total de 91 questionários iniciais, 41 questionários finais, 666 diários de aprendizagem, 355 chats, 921 textos produzidos na troca de texto por brasileiros e corrigidos por estadunidenses e 581 horas de gravações em vídeos, com transcrições em andamento. Após a finalização do corpus, percebeu-se a necessidade de ampliação de dados a serem coletados, incluindo a coleta da reunião tutorial e das sessões de mediação em mídia de vídeo ou áudio. Teletandem (TTD), a telecollaborative and autonomous language learning context (TELLES, 2006), which has been carried out at Unesp for more than 12 years, has been promoting language learning based on autonomy, separation of languages and reciprocity, basic principles of tandem learning, as discussed by Brammerts (1996). Such learning context has become viable using telematic networks that enable language learning between learners residing in geographically distant countries. In teletandem, learners hold teletandem oral sessions (TOSs) and participate in mediation sessions. According to Aranha and Leone (2016, 2017) these are macrotasks from which microtasks occur: production of learning diaries, text exchange among TTD participants, responses to the initial and final questionnaires, and use of the chat tool during teletandem oral sessions. The production of these tasks generates a significant amount of data that can be used for various researches. The purpose of this research is constructing a multimodal corpus in teletandem with the data produced by the participants in the period from 2012 to 2015. The data which constitute the corpus were produced by 112 pairs, in a partnership with an American university in the period of 2012 to 2015, whose collection was described by Aranha, Luvizari-Murad and Moreno (2015). The elaboration of the corpus from the collection and storage described in Aranha, Luvizari-Murad and Moreno (2015) adopted the following procedures: a) survey of the characteristics of each teletandem group; b) creation of code to identify the partners; c) creation of codes for data naming; d) standardization of data anonymization; e) converting the data to compatible formats with different operating systems; and f) renaming the data according to what is proposed by Chanier and Wigham (2016). After the organization of the corpus, MulTeC (Multimodal Teletandem Corpus) has a total of 91 initial questionnaires, 41 final questionnaires, 666 learning diaries, 355 chats, 921 texts produced in the text exchange between the partners and 581 hours of TOSs recordings, with transcriptions ongoing. After the completion of the corpus, it was perceived the need to broaden the collection of the data, including tutorial meeting and mediation sessions in audio or video media collection.