Sistema de análisis visual para la exploración de grandes corpus periodísticos utilizando modelación de tópicos y entidades nombradas
Fecha
2018-09-06Registro en:
Ortega Castellanos, Pedro Ricardo. (2017). Sistema de análisis visual para la exploración de grandes corpus periodísticos utilizando modelación de tópicos y entidades nombradas (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México.
Autor
Ortega Castellanos, Pedro Ricardo
Institución
Resumen
RESUMEN:
El sistema Noti-Explorer es una herramienta para la exploración y análisis visual de noticias publicadas diariamente en diversos periódicos. El sistema implementa diversas técnicas de minería de datos que ayudan a entender una gran cantidad de noticias que han sido recolectadas, preprocesadas y almacenadas desde septiembre del 2016 a la fecha. La interfaz de usuario provee las opciones para reducir el tamaño del corpus que se desea analizar; permite ingresar palabras de interés, fechas de inicio y fin, y elegir una sección periodística tales como: Política, Salud, Ciencia y Tecnología, Deportes, Nacional, Estados, Internacional, Sociedad, Opinión, Seguridad, entre otros. Sugerimos un sistema de análisis visual que combina visualizaciones interactivas en una aplicación web, la implementación métodos de aprendizaje no supervisado y el reconocimiento de entidades.
Cabe mencionar que actualmente existen algunas aplicaciones web que integran diferentes periódicos digitales, tal como Google Noticias que te recomienda en base a una consulta y muestra una lista de posibles noticias relacionadas, NewsStand que despliega las noticias en un mapa geográfico y Analytix que mapea la cantidad de menciones extraídas de la API ya sea de Facebook o Twiter.
Noti-Explorer utiliza técnicas de Procesamiento de Lenguaje Natural (NLP), procesos de Extracción Transformación y Carga de datos (ETL), Reconocimiento de Entidades Nombradas (NER), un modelo probabilístico de aprendizaje no supervisado Latent Dirichlet Allocation (LDA) y diferentes técnicas de visualización sobre una interfaz web tales como: Tree Maps para interactuar con los grupos generados, las nubes de palabras para observar las palabras con mayor frecuencia, gráficas de líneas para ver la cantidad de publicaciones por día, el título y la imagen ubicadas de forma geográfica.
En el presente sistema se basa en la idea que la modelación de tópicos probabilísticos ayuda a la sumarización, organización y exploración de grandes colecciones de documentos. Las diferentes técnicas de visualización que combinan formas, colores, figuras, imágenes, mapas y texto, aumentan la percepción visual y capacidad cognitiva de las personas que interactúan con la herramienta; el hacer uso de la exploración de noticias por medio de entidades nombradas también llega a ser de gran ayuda al momento de buscar las noticias que suelen ser más interesantes para un analista en particular.
Con el uso de una herramienta de análisis visual se espera que las personas encargadas de leer una gran cantidad de textos periodísticos reduzcan el tiempo que emplean al visitar cada periódico digital por separado, disminuyan la carga de trabajo al momento de seleccionar las noticias que les interesa analizar y aumenten la capacidad cognitiva al buscar nuevo conocimiento.
El prototipo está en fase de prueba, extrae de 32 periódicos digitales de México un promedio de 1800 noticias diariamente y actualmente se tienen más de 400 mil noticias que puede presentar posibles situaciones de interés al usuario que interactúa con él. La primera versión del sistema se puede visitar en la dirección http://148.204.66.228:8000/Noti-Explorer.
ABSTRACT:
A prototype called Noti-Explorer is presented, a tool for the analysis of daily news in various Internet newspapers. The system implements diverse data mining techniques that help to understand a large amount of news that has been collected, The user interface provides the options to reduce the size of the corpus that you want to analyze; allows entering words of interest, in a period of time and by classic sections such as: Politics, Health, Science and Technology, Sports, National, States, International, Society, Opinion Security, among others. We suggest a visual analysis system that combines interactive visualizations in a web interface, the implementation of unsupervised learning methods and the recognition of entities.
Currently, there are some web applications that integrate different digital newspapers such as Google News that recommend it on a basis to a query and a sample of a list of possible news to a search, NewsStand a geographical map and Analytix that only displays the number of mentions extracted from the the Facebook or Twitter API.
Noti-Explorer uses Natural Language Processing (NLP) techniques, Transformation Extraction and Data Loading (ETL) processes, Named Entity Recognition (NER), a probabilistic model of unsupervised learning, and Latent Dirichlet Allocation (LDA) and different techniques such as Tree Maps to interact with generated groups, word clouds to observe words more frequently, line graphs to see the number of publications per day, title and image located geographically.
In the present system is based on the idea that the modeling of probabilistic topics can help the summarization, organization and exploration of large collections of documents, the different visualization techniques that combine shapes, colors, figures, images, maps and text can increase visual perception and cognitive capacity of the people who interact with the tool, the use of named entities also comes to be of great help a moment of the search of the news that are usually interesting for an analyst in particular.
With the use of a visual analysis tool, it is expected that the people in charge of reading a large number of journalistic texts reduce the time they use to visit each digital newspaper separately, reduce the workload when selecting the news that they are interested in analyzing and increase cognitive capacity when searching for new knowledge.
The prototype is in the test phase, it extracts from 32 digital newspapers of Mexico an average of 1,800 news daily and currently has more than 400 million news that can appear possible situations of interest to the user that interacts with it. The first version of the system can be visited at the address http://148.204.66.228:8000/Noti-Explorer.