Análisis de mercados financieros bajo el efecto de difusión de información en redes sociales
Fecha
2018-06-21Registro en:
Zúñiga Morales, Luis Norberto. (2017). Análisis de mercados financieros bajo el efecto de difusión de información en redes sociales. (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Sección de Estudios de Posgrado e Investigación, Centro de Investigación en Computación. México.
Autor
Zúñiga Morales, Luis Norberto
Institución
Resumen
RESUMEN:
En esta tesis se utiliza análisis de sentimientos para una aplicación financiera. Con la combinación del procesamiento del lenguaje natural, el aprendizaje automático y el análisis de series de tiempo, se pretende predecir el movimiento futuro de los precios de las acciones de las empresas que cotizan en la Bolsa Mexicana de Valores. Se recopilan datos específicos de Twitter para todas las empresas mexicanas listadas en el mercado accionario mexicano con dos objetivos: crear un motor para clasificar el sentimiento de las opiniones expresadas en Twitter específicas de la empresa en el idioma español y determinar si el sentimiento publico hacia una compañía se puede usar para predecir la dirección del precio futuro de sus acciones. Se consideran tres clases para el dominio del sentimiento: positivo, neutral y negativo. Se agrega la clase neutral debido a la necesidad de proporcionar a los expertos financieros una herramienta para descartar tweets neutrales, que contienen enlaces publicitarios a otros sitios de Internet. Esos enlaces a menudo son maliciosos y representan una pérdida de tiempo para un análisis rápido. Sin embargo, también se considera el enfoque tradicional de dos clases: positiva y negativa.
Al construir el motor de opinión nombrado, se encuentra que Maquinas de Vectores de Soporte es un buen clasificador para las clases dominantes en ambos casos: positivo y neutral, alrededor de 85 % para el enfoque binario y 80 % para el enfoque ternario. Sin embargo, la clase negativa está mal clasificada con un desempeño entre el 48 % y el 52 % de las predicciones correctas. En contraste, Naive Bayes presenta un desempeño al clasificar la clase negativa (alrededor del 76 %) mientras que mantiene una clasificación regular para las otras clases (alrededor del 78 %). A pesar de la falta de información y los pocos esfuerzos en esta a´rea, se logran resultados competitivos usando algoritmos de clasificación de aprendizaje supervisado, proporcionando el primer conjunto de datos relacionados con acciones mexicanas en español.
Finalmente, se analizan cinco acciones listadas en la Bolsa Mexicana de Valores. Aplicando la prueba de causalidad de Granger, se concluye que para dos empresas, con un nivel de significancia del 5 %, el sentimiento generado hacia una compañía puede usarse para predecir el movimiento futuro del precio de la acción. Para los otros tres, se llega a la misma conclusión considerando un nivel de significancia del 10 %.
ABSTRACT:
In this thesis we use sentiment analysis for financial applications. With the combi- nation of natural language processing, machine learning and time series analysis, we aim to predict the future movement of stock prices of companies listed in the mexican stock exchange (Bolsa Mexicana de Valores). We gather specific data from Twitter for all the listed mexican companies with two objectives: build a sentiment engine tailored to clas- sify tweets of firm-specific opinions in the Spanish language, and determine if the public sentiment towards a company can be used to predict the direction of their future stock price. We consider three classes for the sentiment domain: positive, neutral and negative. We add the neutral class because of the need to provide financial experts a tool to discard neutral tweets, which are found to contain advertising links to other internet sites. Those links are often malicious and present a waste of time for a quick scan. However, we also consider the traditional approach of two clases: positive and negative.
In constructing the named sentiment engine, it is found that Support Vector Ma- chines are a good classifier for the dominant classes in both cases: positive and neutral, around 85 % for the binary approach and 80 % for the ternary approach. However, the negative class is poorly classified with numbers whithin 48 % and 52 % of correct pre- dicitions. In constrast, Naive Bayes presents good classification numbers for the nega-
tive class (around 76 %) while mantaining a regular classificaction for the other classes (around 78 %). Despite the lack of information and the few e↵orts in this area, we achieve competitive results using supervised learning classification algorithms, providing the first mexican-stock-related data set in spanish.
Finally, we analyze five shares listed in the mexican stock exchange. Applying the Granger causality test, we conclude that for two companies, with a 5 % significance level, the sentiment generated towards a company can be used to predict the future movement of the stock price. For the other three, we arrive to the same conclusion considering a 10 % significance level.