Reconocimiento de tablas en documentos fiscales colombianos, un enfoque no supervisado
Autor
Duque Lozano, Daniel
Resumen
El reconocimiento de tablas en documentos públicos es una herramienta para extraer información de formatos no estructurados. En este documento mostramos un algoritmo que combina algunas de las herramientas más recientes para encontrar tablas, delimitarlas, encontrar las estructuras dentro de ellas y extraer la información del texto que allí se encuentra de forma que sea procesable por computación.