Objeto de conferencia
A integração do Arca - Repositório Institucional da Fiocruz com a Plataforma de Ciência de Dados aplicada à Saúde
Autor
Fernandes de Queiroz, Claudete
Neves Maranhão, Ana Maria
Danielli de Araujo, Luciana
Gonçalves do Nascimento, Andrea F.
Belchior Rodrigues, Raphael
de Almeida Freyre, Éder
da Costa Lima, Jefferson
de Moraes Pedroso, Marcel
Institución
Resumen
Apresenta o projeto desenvolvido entre o Laboratório de Ciência de Dados aplicada À Saúde, do Instituto de Informação Científica e Tecnológica em Saúde (ICICT) e o Arca – Repositório Institucional da Fiocruz. O projeto teve como objetivos: melhorar a curadoria dos dados inseridos no repositório institucional, visando a qualidade das informações, e a recuperação e a visualização de dados, oferecendo uma plataforma que permite a extração de informações com potencial de uso pela gestão e pela pesquisa. No processo de curadoria foi possível identificar inconsistências no preenchimento dos metadados, utilizando classificação automática e machine learning, e consequente correção, de forma a garantir a qualidade das informações e dos dados extraídos. Outro fator importante para a realização do projeto foi a utilização do software Kibana e do Elasticsearch para a visualização de dados de forma dinâmica, oferecendo uma plataforma de exploração interativa para extração e mineração de dados. O software permitiu a utilização de filtros e combinações de dados contidos no Arca, como produção por tipo de material, Unidades da Fiocruz, assunto, autor, ano e direito autoral de forma que possam ser manipulados pelas diferentes unidades/comunidades representadas no Repositório Institucional. Fundação Oswaldo Cruz