Thesis
NLP aplicado a análisis de texto
Autor
Alias, Gerardo
Cassanelli, Rodrigo
Institución
Resumen
El procesamiento de lenguaje natural o NLP (del inglés Natural Language Processing) es un campo de las ciencias de la computación. Si bien no fue concebido como una rama de la inteligencia computacional, las características del problema a resolver hicieron que paulatinamente se pasará de modelos basados en reglas a modelos que utilizan redes neuronales. En la actualidad, la mayoría de los sistemas orientados al análisis de textos basan su funcionamiento en la utilización de redes neuronales. Este tipo de sistemas “aprende”, es decir se entrena, para luego inferir resultados basándose en el contexto en lugar de reglas particulares.
El avance en las técnicas de procesamiento del lenguaje natural hace posible pensar en una solución informática a la problemática antes descripta. En el InFo-Lab , a principios del año 2018, se realizó una prueba de concepto o prototipo para analizar la factibilidad de la aplicación de estas técnicas a las investigaciones criminales. Dicho prototipo obtuvo buenos resultados detectando referencias a drogas o estupefacientes en diversos textos.
El objetivo del presente proyecto es desarrollar un sistema informático orientado a la resolución de este tipo de problemas. Para ello se plantea un producto dividido en dos módulos principales. Se puede observar un esquema de alto nivel de la solución propuesta y de la interacción con cada uno de los componentes principales del sistema.
El primero de ellos es un módulo de administración de modelos para el análisis de lenguaje natural. El mismo se orienta a los usuarios con conocimientos medios / avanzados de informática. Su objetivo es ofrecer interfaces para:
Analizar los textos y, de este modo, permitir al investigador focalizar su atención sobre los fragmentos con mayor probabilidad de contener evidencia.
Permitir al administrador del sistema administrar los diferentes modelos, orientados a temáticas particulares, con los que cuente el sistema.
Permitir crear modelos especializados en distintas temáticas.
Permitir administrar los datos de entrenamiento de cada modelo y, al mismo tiempo, ofrecer un mecanismo para aplicar los mismos a los modelos.
El segundo módulo es una plataforma web que, utilizando las funcionalidades provistas por la librería de NLP, permite a distintos tipos de usuarios, tales como abogados, fiscales e investigadores utilizar modelos para analizar distintos documentos.
Dado el tipo de usuario esperado, este sistema debe poder ser operado con conocimientos básicos de informática. Sus principales objetivos son:
Permitir gestionar los documentos vinculados a investigaciones que lleva a cabo el Ministerio Público, en primera instancia, de manera sencilla y útil.
Ofrecer al menos un modelo de análisis base orientado a una temática criminal particular.
Permitir a los usuarios analizar, de forma amigable, los textos asociados a una investigación pertinente.
Generar informes que muestren información considerada de importancia respecto de una investigación. Fil: Alias, Gerardo. Universidad Nacional de Mar del Plata. Facultad de Ingeniería; Argentina. Fil: Cassanelli, Rodrigo. Universidad Nacional de Mar del Plata. Facultad de Ingeniería; Argentina.