Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca

VAZ, G. J.; VEIGA, P. H. R. da C. da; CALDAS, R. G.; VIDAL, W. C. L.; ASSIS, C. P. de; CORREA, J. L.; MOURA, M. F.

dc.contributor	GLAUBER JOSE VAZ, CNPTIA; PEDRO HENRIQUE RODRIGUES DA CUNHA DA VEIGA, IZAGRO; RAFAEL GOMES CALDAS, IZAGRO; WYVIANE CARLOS LIMA VIDAL, CNPAE; CRISTIANE PEREIRA DE ASSIS, SUCOM; JORGE LUIZ CORREA, CNPTIA; MARIA FERNANDA MOURA, CNPTIA.
dc.creator	VAZ, G. J.
dc.creator	VEIGA, P. H. R. da C. da
dc.creator	CALDAS, R. G.
dc.creator	VIDAL, W. C. L.
dc.creator	ASSIS, C. P. de
dc.creator	CORREA, J. L.
dc.creator	MOURA, M. F.
dc.date	2023-08-15T15:23:43Z
dc.date	2023-08-15T15:23:43Z
dc.date	2023-08-15
dc.date	2023
dc.date.accessioned	2023-09-05T03:05:08Z
dc.date.available	2023-09-05T03:05:08Z
dc.identifier	Revista Ibero-americana de Ciência da Informação, v. 16, n. 2, p. 311-328, maio/ago. 2023.
dc.identifier	1983-5213
dc.identifier	http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913
dc.identifier	https://doi.org/10.26512/rici.v16.n2.2023.42740
dc.identifier.uri	https://repositorioslatinoamericanos.uchile.cl/handle/2250/8638443
dc.description	Este trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scriptspara processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários.
dc.language	Portugues
dc.language	pt_BR
dc.rights	openAccess
dc.subject	Curadoria digital
dc.subject	Recuperação da informação
dc.subject	Processamento de texto
dc.subject	Disseminação da informação
dc.subject	Indexação
dc.subject	Livros digitais
dc.subject	Digital curation
dc.subject	Text processing
dc.subject	Indexing
dc.subject	Digital books
dc.subject	Information retrieval
dc.subject	Information dissemination
dc.title	Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca
dc.type	Artigo de periódico

Este ítem pertenece a la siguiente institución

EMBRAPA (Brasil)