Automatic native language identification
Fecha
2018-10-08Registro en:
Markov, Ilia. (2018). Automatic native language identification (Doctorado en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México.
Autor
Markov, Ilia
Institución
Resumen
RESUMEN:
La tarea de identificación del lenguaje nativo (ILN) consiste en identificar el lenguaje nativo (L1) de una persona basándose en sus textos escritos en una segunda lengua (L2). La ILN es útil para una variedad de propósitos, incluyendo aplicaciones de marketing, seguridad y educación. La identificación del lenguaje nativo se basa en la suposición de que el lenguaje nativo influye la escritura en L2 debido al efecto de interferencia lingüística, uno de los temas principales en el campo de la adquisición de una segunda lengua (ASL).
Varios aspectos del lenguaje nativo que influyen la producción de L2 se han explorado previamente para la ILN: elecciones léxicas, incluyendo la elección de cognados, etimología general, patrones gramaticales y errores ortográficos, entre otros. Estos aspectos proporcionan varias ideas sobre la naturaleza de la influencia de L1 en la escritura en L2.
En esta disertación, nos enfocamos en otras dos áreas, poco exploradas, de la identificación del lenguaje nativo: la puntuación y las emociones. Mostramos que el uso de la puntuación y la forma en que los autores expresan sus emociones en la escritura en L2 están influenciados por su idioma nativo.
Primero, mostramos que el uso de la puntuación en la escritura en L2 está fuertemente afectado por L1. Describimos nuestros experimentos sobre la evaluación del impacto de los signos de puntuación en la tarea de ILN. Proponemos características novedosas: n-gramas de puntuación, con el objetivo de capturar los patrones de uso de signos de puntuación. Utilizamos dos conjuntos de características: etiquetas gramaticales y palabras funcionales. Mostramos que agregando las características basadas en puntuación a estos conjuntos de características se mejoran los resultados en una variedad de configuraciones: clasificación tradicional de clases múltiples, clasificación en dos pasos, clasificación del nivel de dominio de L2 y clasificaciones de temas cruzados y de corpus cruzados.
Segundo, exploramos el papel de las emociones en la ILN. Para modelar la información de las emociones, utilizamos las características de polaridad de la emoción y la carga emocional. Nuestros resultados con etiquetas gramaticales y palabras funcionales muestran que agregar características basadas en emociones es útil para la tarea en la mayoría de las configuraciones mencionadas anteriormente, incluso en el corpus compuesto de ensayos, donde el uso de emociones está limitado por el género.
Estos hallazgos, junto con algunas otras modificaciones descritas en detalle en el texto, nos permitieron mejorar nuestro método ILN, desarrollado para la competencia de Identificación del Lenguaje Nativo 2017 (NLI Shared Task 2017), y superar resultados del estado del arte sobre los corpus principales en la investigación de ILN.
Las principales contribuciones de esta disertación son las siguientes: (i) evaluamos la fortaleza de los signos de puntuación como características para la ILN, (ii) evaluamos la fortaleza de los n-gramas de puntuación como características para la ILN, (iii) mostramos que los signos de puntuación son indicadores sólidos de la lengua materna para diferentes niveles de dominio de L2 y variaciones de tema/corpus, (iv) exploramos el papel de las emociones en la tarea de ILN, (v) evaluamos la fortaleza de las características basadas en emociones en la NLI, (vi) desarrollamos un método robusto para la tarea de ILN.
ABSTRACT:
Native language identification (NLI) is the task of identifying the native language (L1) of a person based on his or her texts written in a second language (L2). NLI is useful for a variety of purposes, including marketing, security, and educational applications. Identifying the native language relies on the assumption that the native language influences L2 writing due to language transfer effect, one of the major topics in the field of second language acquisition (SLA).
Various aspects of the native language that influence L2 production have been explored before for NLI: lexical choices, including choice of cognates, general etymology, grammatical patterns, and spelling errors, among others. These aspects provide various insights into the nature of L1 influence in L2 writing.
In this dissertation, we focus on two other, underexplored areas of native language identification: punctuation and emotions. We show that the use of punctuation and the way authors express their emotions in L2 writing are influenced by their native language.
First, we show that the use of punctuation in L2 writing is strongly affected by L1. We describe our experiments on evaluation of the impact of punctuation marks on the NLI task. We propose novel features: PM n-grams, aiming to capture patterns of the use of PMs. We use two feature sets: part-of-speech tags and function words. We show that adding punctuation-based features to these feature sets improves the results under variety of settings: traditional multi-class classification, 2-step classification, proficiency- level classification, and cross-topic and cross-corpus classifications.
Second, we explore the role of emotions in NLI. To model emotion information, we use emotion polarity and emotion load features. Our results with part-of-speech tag and function word feature sets show that adding emotion-based features is useful for the task, in the majority of settings listed above, even in essay domain, where the use of emotions is limited by genre.
These findings, along with some other modifications described in detail in the text, allowed us to improve our NLI method, developed for the NLI Shared Task 2017, and to overcome state-of-the-art results on the two main datasets in NLI research.
The main contributions of this dissertation are as follows: (i) we evaluated the strength of punctuation marks as NLI features, (ii) we evaluated the strength of punctuation mark n-grams as NLI features, (iii) we showed that punctuation marks are robust indicators of the native language for different proficiency levels and topic/corpus variations, (iv) we explored the role of emotions in the NLI task, (v) we evaluated the strength of emotion- based features in NLI (vi) we developed a robust NLI method.