dc.description.abstract | y publicar datos. Por ejemplo, en el Internet se halla
un enorme número de tablas publicadas en HTML
integradas en documentos PDF, o que pueden ser simplemente
descargadas de páginas web. Sin embargo,
las tablas no siempre son fáciles de interpretar pues
poseen una gran variedad de características y son
organizadas en diferentes formatos. De hecho, se han
desarrollado muchos métodos y herramientas para
la interpretación de tablas. Este trabajo presenta la
implementación de un algoritmo, basado en campos
aleatorios condicionales (CRF, Conditional Random
Fields), para clasificar las filas de una tabla como
fila de encabezado, fila de datos y fila metadatos. La
implementación se complementa con dos algoritmos
para reconocer tablas en hojas de cálculo, específicamente,
basados en reglas y detección de regiones.
Finalmente, el trabajo describe los resultados y beneficios
obtenidos por la aplicación del algoritmo para
tablas HTML, obtenidas desde la web y las tablas en
forma de hojas de cálculo, descargadas desde el sitio
de la Agencia Nacional de Petróleo de Brasil.//Tables are widely adopted to organize and publish
data. For example, the Web has an enormous number
of tables, published in HTML, embedded in PDF
documents, or that can be simply downloaded from
Web pages. However, tables are not always easy to
interpret due to the variety of features and formats
used. Indeed, a large number of methods and tools
have been developed to interpreted tables. This work
presents the implementation of an algorithm, based
on Conditional Random Fields (CRFs), to classify
the rows of a table as header rows, data rows or metadata
rows. The implementation is complemented by
two algorithms for table recognition in a spreadsheet
document, respectively based on rules and on region
detection. Finally, the work describes the results and
the benefits obtained by applying the implemented algorithm
to HTML tables, obtained from theWeb, and
to spreadsheet tables, downloaded from the Brazilian
National Petroleum Agency. | |