Automatic detection of linguistic features of influential news tweets
Fecha
2018-12-03Registro en:
Maldonado Sifuentes, Christian Efraín. (2018). Automatic detection of linguistic features of influential news tweets (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México.
Autor
Maldonado Sifuentes, Christian Efraín
Institución
Resumen
RESUMEN:
El papel de los medios tradicionales en el mundo está cambiando rápidamente a medida que su influencia disminuye constantemente. Incluso desde los primeros días de la web, surgieron nuevas formas de comunicación. Aumentando en número y popularidad a lo largo del tiempo, descentralizando la producción de contenido y ganando popularidad. Con el advenimiento de las redes sociales, esta tendencia solo se aceleró, los productores de contenido ahora son los mismos consumidores.
Para mantenerse relevante, se ha vuelto vital que los medios tradicionales publiquen su contenido en los medios sociales, de estos, la plataforma de microblogs Twitter es uno de los más utilizados para la distribución de noticias, tanto de usuarios como de medios tradicionales. Por lo tanto, es importante que las empresas de medios tengan sus publicaciones de noticias para ser influyentes en la plataforma. En una época en la que la automatización está asumiendo muchas tareas, incluida la producción de contenido; la detección automática de características lingüísticas de tweets de noticias influyentes es una tarea importante para alcanzar influencia en las redes sociales, particularmente en Twitter.
Para alcanzar los objetivos de esta tesis se necesitaba una medida de influencia para el tweet. Utilizando la información del número de interacciones de tweets (retweets y favoritos) y la cuenta misma (seguidores, seguidores y listas) -proporcionada por la API de búsqueda de Twitter- desarrollamos medidas del tweet y las influencias de la cuenta, a través de nosotros, entonces, obtuvimos una medida de influencia de tweet absoluta, por lo que las comparaciones entre los tweets de diferentes cuentas son posibles.
Una vez que esta medida estuvo en su lugar; la descarga automatizada y la clasificación de los tweets de noticias de acuerdo con la influencia absoluta fue posible; desarrollamos y publicamos una herramienta en la web para tal fin. La salida resultante fue un corpus de noticias tweets de las cuentas de revistas nacionales, etiquetados como altamente influyentes y de baja influencia.
Varias técnicas de aprendizaje automático se aplicaron a este corpus utilizando unigramas y bigramas de palabras y etiquetas POS como características obteniendo una referencia del 50% de las instancias correctamente clasificadas que subieron al 78% después de la selección del atributo, la discretización y el ajuste de los parámetros.
ABSTRACT:
The role of the traditional media in the world is quickly changing as its influence steadily declines. Even from the early days of the web, new forms of communication arose. Increasing in number and popularity over time, decentralizing the production of content and gaining in popularity. With the advent of Social Media this trend only accelerated, the producers of content now being the consumers themselves.
To stay relevant, it has become vital to traditional media to post their content in Social Media outlets, of these, micro-blogging platform Twitter is the among the most widely used for the distribution of news, both user generated and from traditional media. It is, thus, important for media companies to have their news postings to be influential in the platform. In an era where automation is taking over many tasks, including content production; the automatic detection of linguistic features of influential news tweets is an important task towards reaching influence in Social Media, particularly in Twitter.
To achieve the goals of this thesis a measure of influence for the tweet was needed. Using the information of the number of tweet interactions (retweets and favorites) and the account itself (followers, following, and lists) –provided by the twitter search API– we developed measures of the tweet and account influences, through which we, then, obtained a measure of absolute tweet influence, so comparisons between tweets of different accounts are possible.
Once this measure was in place; automated download and classification of news tweets according to absolute influence was possible; we developed and published a tool on the web for such purpose. The resulting output was a corpus of news tweets from the nationwide journals accounts, tagged as highly influential and lowly influential. Several machine learning techniques were then applied to this corpus using word unigrams and POS tagging as features obtaining a baseline of 50% of correctly classified instances going up to 78% after attribute selection, discretization and parameter tweaking.