Tesis de maestría
Descubrimiento de tópicos a partir de textos en español sobre enfermedades en México
Fecha
2022-12-09Autor
López López, Alejandro
López López, Alejandro
Institución
Resumen
En las redes sociales existe una gran cantidad de información que puede llegar a ser valiosa sobre numerosos temas. Por ejemplo, en el dominio de las enfermedades muchas personas en todo el mundo publican diversa información acerca de ellas entre lo que destacan padecimientos, signos, síntomas, procedimientos, medicamentos y tratamientos. Esta información se encuentra en textos de manera desorganizada lo que complica a los lectores a encontrar información valiosa y el realizar un análisis manual de la misma resulta un proceso tedioso, difícil y que consume mucho tiempo. Para esto recurrimos a los sistemas computacionales, algoritmos o métodos de análisis de textos para encontrar tópicos o temas de interés. Es por ello que en este trabajo se presenta un enfoque para el descubrimiento de tópicos a partir de textos en español sobre tres enfermedades (Diabetes, Cáncer y COVID-19) en México, utilizando los algoritmos LDA (Latent Dirichlet Allocation) ampliamente utilizado en la literatura, y BTM (Biterm Topic Model ) una alternativa que agrupa dos términos para encontrar los tópicos. Este enfoque tiene como hipótesis que el uso de frases sobre palabras para ingresar a los algoritmos mejora los resultados de coherencia de los tópicos. Una evaluación de resultados experimentales fue llevada a cabo basada en la métrica de coherencia de tópicos. Esta evaluación ha mostrado que el uso de frases es más efectiva que usar palabras simples para descubrir tópicos. Además, se han logrado los mejores resultados de coherencia por enfermedad como sigue: 0.7421 con el algoritmo BTM para 100 tópicos sobre el COVID; 0.6755 con el algoritmo BTM para 80 tópicos sobre el Cáncer; y 0.6357 con el algoritmo BTM para 80 tópicos sobre la Diabetes. In social networks there is a large amount of information that can reach to be valuable on numerous topics. For example, in the domain of diseases Many people around the world publish various information about them, including conditions, signs, symptoms, procedures, medications and treatments. This information is found in texts in a disorganized way making it difficult for readers to find valuable information and perform an analysis manual of it is a tedious, difficult and time-consuming process. For this we resort to computational systems, algorithms or methods of analysis of texts to find topics or topics of interest. That is why in this work an approach for the discovery is presented of topics from texts in Spanish on three diseases (Diabetes, Cancer and COVID-19) in Mexico,
using LDA (Latent Dirichlet Allocation) algorithms widely used in the literature, and BTM (Biterm Topic Model) an alternative that groups two terms to find the topics. This approach has as hypothesis that the use of phrases over words to enter algorithms improves the coherence results of the topics. An evaluation of experimental results was carried out based on the topic coherence metric. This evaluation has shown that the use of phrases it is more effective than using single words to discover topics. In addition, they have achieved the best consistency results by disease as follows: 0.7421 with the BTM algorithm for 100 topics on COVID; 0.6755 with the BTM algorithm for 80 topics on Cancer; and 0.6357 with the BTM algorithm for 80 topics about Diabetes.