Otro
Diseño de una estrategia de limpieza y estandarización de direcciones postales a través de redes neurales recurrentes tipo LSTM
Fecha
2020-12-09Registro en:
Ceballos, S. (2020). Diseño de una estrategia de limpieza y estandarización de direcciones postales a través de redes neurales recurrentes tipo LSTM [Tesis de maestría, Universidad Nacional de Colombia]. Repositorio Institucional.
Autor
Ceballos Gallego, Santiago
Institución
Resumen
Las direcciones geográficas son uno de los elementos más comunes en las bases de datos de diferentes tipos de organizaciones. Sin embargo, el registro de dichas direcciones se realiza, a menudo, de forma manual y sin un formato de referencia, lo que da lugar a múltiples representaciones de los elementos que componen la dirección. Esto, a su vez, genera que el registro sea usualmente inutilizable para fines de geolocalización automática, un área cada vez más relevante en los principales sectores de la economía.
En el presente documento se propone una metodología para la limpieza y estandarización de direcciones geográficas, basada en redes neuronales recurrentes tipo LSTM, como solución a este problema. Dicha metodología, incluye la estrategia de generación de un conjunto de datos sintético, para el entrenamiento de la red, que está compuesto por direcciones no estructuradas y las direcciones equivalentes en formato estándar. El desempeño del modelo se mide en dos conjuntos de datos diferentes: El primero contiene 10000 direcciones sintéticas sucias y su equivalente limpio, contra el cual se compara la dirección genearada utilizando los índices de Jaccard, Jaro y Levenshtein, como medidas de similitud; el segundo, contiene 5000 direcciones reales de establecimientos comerciales en las tres principales ciudades de Colombia, para los cuales se cuenta con la geolocalización exacta. Esta ubicación real se compara con la obtenida tras geolocalizar la dirección resultante del proceso de estandarización.
Al aplicar esta estrategia, se evidencia una mejora significativa tanto en la precisión del formato estándar obtenido, como en la geolocalización de la dirección resultante, cuando se compara contra los dos modelos base más utilizados en este campo: el modelo basado en reglas de limpieza y el modelo basado en cadenas de Markov ocultas.
Por ´ultimo, se muestran aplicaciones de la metodología para limpieza y geolocalización de direcciones tomadas de una base de datos real, en ´ámbitos como la optimización de fuerza de ventas, la atención al cliente y el mercadeo digital. Postal addresses are one of the most common elements in current organizations’ databases. However, the register of these addresses is usually made in a manual way and not following any standard format, which may result in multiple representations for items in the address (e.g., street, avenue, apartment number, etc.) and therefore hindering the efforts to take value out of those registers. In this document we proposed a cleansing and standardization methodology for postal addresses, based on Long-Short-Term Memory (LSTM) neural networks. It includes the strategy to generate synthetic registers used for training purposes and composed of non-structured addresses and their equivalents in standard format. We measure model performance using two different data sets. First data set contains up to 10000 registers of new synthetic non-standard addresses with their clean equivalent, which is compared with the result of the model using Jaro, Jaccard and Levenshtein indexes as similarity measures. The second data set contains 5000 real addresses (anonymized) from commercial establishments, located in three main cities in Colombia as well as their real locations, which are compared against geolocation obtained from the clean address given by the model. The proposed methodology is shown to make a significant improvement in both, the accuracy of the string text obtained versus the expected standard format, and the geolocation obtained; when compared with the main strategies used for this purpose: rules-based models and Hidden Markov models. We also present some real applications of the proposed strategy in diverse areas such as sales routes optimization, digital marketing and customer service.