Tesis
Generating knowledge networks from phenotypic descriptions = Gerando redes de conhecimento a partir de descrições de fenótipos
Gerando redes de conhecimento a partir de descrições de fenótipos
Registro en:
PANTOJA, Fagner Leal. Generating knowledge networks from phenotypic descriptions = Gerando redes de conhecimento a partir de descrições de fenótipos. 2016. 1 recurso online (68 p.). Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP.
Autor
Pantoja, Fagner Leal, 1987-
Institución
Resumen
Orientadores: André Santanchè, Júlio César dos Reis Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação Resumo: Diversos sistemas computacionais usam informações sobre seres vivos, tais como chaves de identificação ¿ artefatos criados por biólogos para identificar espécimes de seres vivos seguindo uma cadeia de questões acerca das suas características observáveis (fenótipos). Tais questões estão em formato de texto livre, por exemplo, "Possui olhos grandes e pre- tos". Contudo, texto livre dificulta a interpretação de informação por máquinas, limitando sua capacidade de realização de tarefas de busca, integração e comparação de termos. Esta dissertação propõe um método para extrair informação a respeito de fenótipos a partir de textos escritos em linguagem natural, colocando-os no formato de Entidade-Qualidade ¿ um formato de dados biológicos para representar estruturas anatômicas (Entidade) e o seu modificador (Qualidade). A proposta permite que Entidades e Qualidades, reconhecidas automaticamente a partir de informação do nível textual, sejam relacionadas com con- ceitos presentes em ontologias de domínio. Ela adota ferramentas de Processamento de Linguagem Natural existentes, bem como contribui com novas técnicas que exploram as características de escrita e estruturação implícitas em textos presentes nas chaves de iden- tificação. A abordagem foi validada utilizando os dados da base FishBase, sobre a qual foram conduzidos experimentos explorando um conjunto de testes anotado manualmente para avaliar a precisão e aplicabilidade do método de extração proposto. Os resultados obtidos mostram os benefícios da técnica e possibilidades de estudos científicos utilizando a rede de conhecimento extraída Abstract: Several computing systems rely on information about living beings, such as identification keys ¿ artifacts created by biologists to identify specimens following a flow of questions about their observable characters (phenotype). These questions are described in a free- text format, e.g., "big and black eye". Free-texts hamper the automatic information interpretation by machines, limiting their ability to perform search and comparison of terms, as well as integration tasks. This thesis proposes a method to extract phenotypic information from natural language texts from biology legacy information systems, trans- forming them in an Entity-Quality formalism ¿ a format to represent each phenotype character (Entity) and its state (Quality). Our approach aligns automatically recognized Entities and Qualities with domain concepts described in ontologies. It adopts existing Natural Language Processing techniques, adding an extra original step, which exploits intrinsic characteristics of phenotypic descriptions and of the organizational structure of identification keys. The approach was validated over the FishBase data. We conducted extensive experiments based on a manually annotated Gold Standard set to assess the precision and applicability of the proposed extraction method. The obtained results re- veal the feasibility of our technique, its benefits and possibilities of scientific studies using the extracted knowledge network Mestrado Ciência da Computação Mestre em Ciência da Computação 1406900 CAPES