Thesis
Modelado de tópicos, una revisión sistemática de la literatura científica de Latent Dirichlet Allocation LDA.
Fecha
2023-03-24Autor
Nagua Domínguez, Roger Andrés
Institución
Resumen
El propósito del presente trabajo de investigación es realizar un análisis bibliométrico de la literatura científica de las bases de datos Scopus, ScienceDirect y Web of Science para la extracción de los artículos de los últimos 10 años referentes al modelo probabilístico Latent Dirichlet Allocation (LDA) y aplicar el mismo modelo por medio del programa LDAShiny a aquella base de datos obtenida. Se logró reconocer los indicadores bibliométricos más relevantes de los resultados, además de los 18 tópicos con mayor coherencia probabilística dentro del corpus, siendo los términos principales: aprendizaje automático, salud del corazón y extracción de texto, además se propuso 18 tópicos de acuerdo al análisis de textos en cuanto a la matriz Phi que presenta la probabilidad posteriori por tópico por palabra. Finalmente se presentó el dendograma Ciencia de Datos el cual representa la agrupación jerárquica de los tópicos de acuerdo a la cantidad óptima de cluster definidos The purpose of this research work is to carry out a bibliometric analysis of the scientific literature from the Scopus, ScienceDirect and Web of Science databases for the extraction of articles from the last 10 years referring to the probabilistic model Latent Dirichlet Allocation (LDA) and apply the same model by means of the LDAShiny program to that obtained database. It was possible to recognize the most relevant bibliometric indicators of the results, in addition to the 18 topics with the greatest probabilistic coherence within the corpus, the main terms being: automatic learning, heart health and text extraction, in addition 18 topics were proposed according to the analysis. of texts in terms of the Phi matrix that presents the posterior probability per topic per word. Finally, the Data Science dendrogram was presented, which represents the hierarchical grouping of the topics according to the optimal number of clusters defined.