Tesis
Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional
Fecha
2019-06-05Registro en:
TEDESQUE, Fernanda Hondo. Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional. 2018. xii, 65 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2018.
Autor
Tedesque, Fernanda Hondo
Institución
Resumen
Os experimentos da biologia molecular são frequentemente apresentados sob a forma
de workflows científicos. Um workflow científico é composto por um conjunto de atividades
realizadas por diferentes entidades de processamento através de tarefas gerenciadas. O
conhecimento sobre a trajetória dos dados ao longo de um determinado workflow permite
a reprodutibilidade por meio da proveniência de dados. Para reproduzir um experimento
de Bioinformática in silico, é preciso considerar outros aspectos, além das tarefas executadas
em um workflow. De fato, as configurações computacionais nas quais os programas
envolvidos são executados são um requisito para a reprodutibilidade. A tecnologia da
computação em nuvem pode ocultar detalhes técnicos e facilitar ao usuário a configuração
desse ambiente sob demanda. Os sistemas de banco de dados NoSQL também ganharam
popularidade, particularmente na nuvem. Considerando este cenário, é proposta
uma modelagem para a proveniência de dados de experimentos científicos, em ambiente
de nuvem computacional, utilizando o PROV-DM e realizando o mapeamento para três
diferentes tipos de famílias de sistemas de banco de dados NoSQL. Foram executados dois
workflows de Bioinformática envolvendo diferentes fases, os quais foram utilizados para
os testes nos bancos de dados NoSQL Cassandra, MongoDB e OrientDB, e em seguida
é apresentada uma análise dessas execuções e testes. Os resultados obtidos mostraram
que os tempos de armazenamento da proveniência são mínimos comparados aos tempos
de execução dos workflows sem o uso da proveniência e, portanto, os modelos propostos
para os bancos de dados NoSQL mostraram ser uma boa opção para armazenamento e
gerenciamento de proveniência de dados biológicos.