Tesis
Sistema de reconocimiento óptico de caracteres, como solución al procesamiento digital de la información en la Facultad de Ingeniería, Ciencias Físicas y Matemática Especialidad - Informática.
Fecha
2012Registro en:
Betancourt Salazar, Silvana del Rocío; Ponce Proaño, Miguel Alejandro (2012). Sistema de reconocimiento óptico de caracteres, como solución al procesamiento digital de la información en la Facultad de Ingeniería, Ciencias Físicas y Matemática Especialidad - Informática. Trabajo de Graduación previo la obtención del Título de Ingeniero Informático. Carrera de Ingeniería en Informática. Quito: UCE. 286 p.
BIBLIOTECA INGENIERIA / TICI / 0511
Autor
Betancourt Salazar, Silvana del Rocío
Ponce Proaño, Miguel Alejandro
Institución
Resumen
Mediante un análisis de los OCR en el mercado se evidencio la falta de un OCR que sea libre y que permita realizar multiprocesamientos. Para el desarrollo del sistema se utilizó base de datos MySql, .NET C#, librerías (Aforge.net, Pdf Sharp, Migradoc, iTextPdf, Teseract, Tessnet2, MODI) open source y programas básicos para su funcionamiento. Al emplear librerías open source se compiló Teseract para realizar optimizaciones en la reducción del tiempo de procesamiento y que pueda ser utilizada en un ambiente de multiprocesamiento, además como técnica primordial se creó un batch que agrupa el conjunto de librerías open source permitiendo de esta forma realizar el OCR y ejecutar varios procesos batch que a su vez procesan varios documentos al mismo tiempo, durante este proceso la información generada se almacena en la base de datos, permitiendo generar reportes, tales como cantidad de documentos procesados, número de caracteres, número de líneas y rendimiento del software... Through an analysis of the OCR market evidenced the lack of an OCR that is free and that allows multiprocessing. For system development it is used MySql database, .NET C#, bookstores (Aforge.net, Pdf Sharp, Migradoc, iTextPdf, Teseract, Tessnet2, and MODI) open source and basic programs for operation. By using open source libraries compiled Teseract for optimizations in reducing processing time and can be used in a multiprocessing environment, as well as primary technique created a batch which groups the set of open source libraries thus allowing to perform OCR and run multiple batch processes which in turn process multiple documents at the same time, during this process the information generated is stored in the database, allowing generate reports, such as the number of documents processed, number of characters, number of lines and software performance...