Detección automática de texto engañoso mediante algoritmos de modelos basados en tópicos
Fecha
2018-09-06Registro en:
Hernández Castañeda, Ángel. (2017). Detección automática de texto engañoso mediante algoritmos de modelos basados en tópicos (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México.
Autor
Hernández Castañeda, Ángel
Institución
Resumen
RESUMEN:
En este trabajo abordamos diferentes casos de estudio. En primer lugar, dado que las características basadas en LDA mostraron un buen desempeño cuando fueron evaluadas en cada conjunto de datos por separado se realizaron experimentos mezclando todos los conjuntos de datos clasificados en el presente estudio para verificar si las características obtenidas de una mezcla de dominios mejoraban los resultados o, por el contrario, los empeoraban. Además, exploramos si un conjunto de características puede ser suficientemente general para ser usado en la clasificación de un conjunto de datos de un tema diferente al tema del conjunto de datos utilizado para su formación, lo que permitiría crear detectores de texto engañoso de propósito general independientes del dominio.
Para ello, hemos generado características mediante el uso de varios métodos, tales como la latent Dirichlet allocation (LDA), n-gramas sintácticos (ns-gramas), linguistic inquiry and word count (LIWC), y un modelo de espacio de palabras (MTD), así como las combinaciones de características generadas por los diferentes métodos. Para probar la eficiencia de cada método, utilizamos tres conjuntos de datos sobre diferentes temas, específicamente: OpSpam, que consiste en opiniones sobre hoteles, DeRev, que consiste en opiniones sobre libros comprados en Amazon, y el conjunto de datos de tópicos controversiales, compuesto de opiniones sobre tres temas (aborto, pena de muerte y mejor amigo). Con base en los conjuntos de datos obtenidos, se investiga qué método es mejor en un único dominio, donde tanto el conjunto de entrenamiento y de prueba son del mismo tema, en un entorno de dominio mixto, donde el conjunto de entrenamiento y de prueba consisten en una mezcla de temas, y en un entorno de dominio cruzado, donde los conjuntos de entrenamiento y prueba están formados de diferentes temas (sin intersección entre prueba y entrenamiento).
ABSTRACT:
We identify deceptive text by using different kinds of features: a continuous semantic space model based on latent Dirichlet allocation topics (LDA), one-hot representation (OHR), syntactic information from syntactic n-grams (SN), and lexicon-based features using the linguistic inquiry and word count dictionary (LIWC). Several combinations of these features were tested to assess the best source(s) for deceptive text identification. By selecting the appropriate features, we were able to obtain a benchmark-level performance using a Naïve Bayes classifier. We tested on three different available corpora: a corpus consisting of 800 reviews about hotels, a corpus consisting of 600 reviews about controversial topics, and a corpus consisting of 236 book reviews. We found that the merge of both LDA features and OHR yielded the best results, obtaining accuracy above 80% in all tested datasets. Additionally, this combination of features has the advantage that language-specific-resources are not required (e.g. SN, LIWC), compared to other reference works. Additionally, we present an analysis on which features lead to either deceptive or truthful texts, finding that certain words can play different roles (sometimes even opposing ones) depending on the task being evaluated.