Um meta-modelo para representação de dados biológicos moleculares e suporte ao processo de anotação de variantes genéticas

ALENCAR, Andreza Leite de

dc.contributor	GARCIA, Vinícius Cardoso
dc.contributor	BUREGIO, Vanilson Andre de Arruda
dc.contributor	http://lattes.cnpq.br/6060587704569605
dc.contributor	http://lattes.cnpq.br/6613487636748832
dc.creator	ALENCAR, Andreza Leite de
dc.date	2019-09-12T17:58:07Z
dc.date	2019-09-12T17:58:07Z
dc.date	2018-09-06
dc.date.accessioned	2022-10-06T16:40:21Z
dc.date.available	2022-10-06T16:40:21Z
dc.identifier	https://repositorio.ufpe.br/handle/123456789/32659
dc.identifier.uri	http://repositorioslatinoamericanos.uchile.cl/handle/2250/3983950
dc.description	Na última década, surgiu uma nova tendência de abordagens que considera modelos não apenas como artefatos de documentação, mas também como artefatos centrais no campo da engenharia de software, permitindo a criação ou execução de sistemas de software complexos a partir desses modelos. Essas abordagens foram genericamente classificadas como Model-Driven Engineering (MDE). A análise de dados biológicos moleculares envolve a geração e interpretação de dados de genoma por sistemas de software complexos para apoiar decisões clínicas em diagnósticos. Esta análise pode ser decomposta em: (1) avaliação de qualidade dos dados brutos, (2) alinhamento de leitura a um genoma de referência, (3) identificação da variante, (4) anotação das variantes e visualização de dados. Por mais que existam diversas ferramentas para dar suporte a partes específicas deste processo, ele ainda enfrenta desafios. Um destes desafios está relacionado ao fato de não existirem padrões para publicação destes dados. Cada publicador escolhe qual conjunto de dados publicar e como publicá-lo. Como resultado, os serviços existentes, os formatos e os esquemas de dados podem variar significativamente. Diante deste cenário, identificou-se a demanda por pesquisas e soluções que possibilitem uma representação destes dados, auxiliando o processo de análise, especificamente na preparação de dados da etapa de anotação de variantes de genoma. Assim, esse trabalho busca responder a seguinte pergunta de pesquisa "Quais os conceitos e características do domínio de dados biológicos moleculares que precisam ser identificados e mapeados para prover uma representação deste conjunto de dados e possibilitar a geração de ferramentas que possibilitem o gerenciamento de seus esquemas de dados?". A abordagem de MDE surge como uma alternativa promissora neste cenário pois, com uso de recursos como meta-modelos e transformações de modelos, será possível contribuir com esta demanda. Assim, esse trabalho propõe uma solução que irá representar os esquemas de dados biológicos moleculares por meio de meta-modelos, permitindo o desenvolvimento de linguagens de modelagem e outros recursos que irão compor uma arquitetura de referência para dar suporte ao processo de anotação de variantes genéticas. A principais contribuições desse trabalho foram validadas por meio de suas implementações e avaliadas por meio de estudos baseados em opinião de especialistas e observação participante, que coletaram dados qualitativos e quantitativos sobre as contribuições. Entre as principais contribuições pode-se destacar: o meta-modelo GenDB; a linguagem de modelagem GenML; os algoritmos para identificação de esquemas e geração de esquemas de bases de dados orientadas a documento; e aplicação da abordagem deMDE para o desenvolvimento de soluções no contexto de engenharia de dados.
dc.description	In the last decade, a new trend of approaches has emerged which considers models not only as documentation artifacts but also as central artifacts in the field of software engineering, allowing the creation or execution of complex software systems from these models. These approaches were generically classified as Model-Driven Engineering (MDE). The analysis of biomolecular data involves the generation and interpretation of genome data by complex software systems to support clinical decisions in diagnostics. This analysis can be broken down into: (1) raw data quality assessment, (2) reading alignment to a reference genome, (3) variant identification, (4) variant annotation and data visualization. Although there are several tools to support specific parts of this process, it still faces challenges. One of these challenges is related to the fact that there are no standards for publication of this data. Each publisher chooses which dataset to publish and how to publish it. As a result, existing services, formats, and data schemas can vary significantly. In this scenario, we identified the demand for research and solutions that allow a representation of these data, assisting the analysis process, specifically in the preparation of data from the annotation step. Thus, this theses seeks to answer the following research question "Which are the concepts and characteristics of the biomolecular data domain that need to be identified and mapped to provide a representation of this data set and enable the generation of tools that enable the management of your data schemas?". The MDE approach emerges as a promising alternative in this scenario because, with the use of resources such as meta-models and model transformations, it will be possible to contribute to this demand. Thus, this work proposes a solution that will represent the biomolecular data schemas by means of meta-models, allowing the development of modeling languages and other resources that will compose a reference architecture to support the genetic variants annotation process. The main contributions of this work were validated through their implementations and evaluated through expert opinion and participant observation studies, which collected qualitative and quantitative data on contributions. Among the main contributions, can be highlighted: the GenDB meta-model; the GenML modeling language; algorithms for schema identification and generation of document-oriented database schemas; and application of the MDE approach to the development of solutions in the context of data engineering.
dc.format	application/pdf
dc.language	por
dc.publisher	Universidade Federal de Pernambuco
dc.publisher	UFPE
dc.publisher	Brasil
dc.publisher	Programa de Pos Graduacao em Ciencia da Computacao
dc.rights	openAccess
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil
dc.rights	http://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subject	Engenharia de software
dc.subject	Meta-modelo
dc.title	Um meta-modelo para representação de dados biológicos moleculares e suporte ao processo de anotação de variantes genéticas
dc.type	doctoralThesis

Este ítem pertenece a la siguiente institución

Universidade Federal de Pernambuco (Brasil)