dc.contributorCeci, Flávio
dc.creatorLara, John
dc.creatorLobo, Giovanni
dc.date2022-01-14T18:30:29Z
dc.date2022-01-14T18:30:29Z
dc.date2021-12-14
dc.date.accessioned2023-09-29T19:16:20Z
dc.date.available2023-09-29T19:16:20Z
dc.identifierhttps://repositorio.animaeducacao.com.br/handle/ANIMA/20862
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/9151078
dc.descriptionSistemas de busca de informação tem grande importância na área biomédica, na qual os repositórios de publicações científicas armazenam volumes gigantescos de documentos. Junto aos desafios globais apresentados pelo Covid-19 somou-se a necessidade de criar alternativas eficientes para recuperar informação útil no universo de publicações geradas sobre esta doença. Entender a necessidade de informação de um usuário que realiza uma consulta em um sistema de recuperação de informação e selecionar, a partir de índices que tentam sintetizar o conteúdo de cada documento, aqueles documentos que têm mais relevância para a necessidade do usuário não é uma tarefa fácil. Diversos modelos matemáticos podem ser utilizados nas máquinas de busca. Entender o contexto dos termos nos documentos é muito importante para realizar uma busca por significado. Dentre as representações do conhecimento no domínio biomédico, as ontologias podem ser muito úteis para aumentar a eficiência de buscadores semânticos. Neste projeto desenvolvemos um buscador semântico para recuperar documentos em um corpus específico para Covid-19, o CORD-19, utilizando para isso o apoio de uma representação do conhecimento simplificada e a biblioteca python spaCy para recuperar entidades nomeadas nos documentos. Os índices invertidos foram criados a partir de uma imagem do Elasticsearch instanciada no Google Cloud Plataform. A fim de criar vetores densos de representação para análise de similaridade contextual foi utilizada o framework de modelo de linguagem pré-treinado sentence-transformers. A funcionalidade de busca semântica do projeto permitiu a recuperação de um número maior de documentos relevantes. Concluindo, a utilização de representações do conhecimento no domínio biomédico associada a modelos de linguagem pré-treinados que permitem associar a análise de contexto a nível de palavras e sentenças podem aumentar a relevância dos resultados de um sistema de recuperação de informação na área biomédica.
dc.format67
dc.formatapplication/pdf
dc.languagept
dc.rightsAtribuição-NãoComercial-SemDerivados 3.0 Brasil
dc.rightsAtribuição-NãoComercial-SemDerivados 3.0 Brasil
dc.rightshttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subjectBusca semântica
dc.subjectRecuperação da informação
dc.subjectBiomédico
dc.subjectCovid-19
dc.subjectCORD-19
dc.subjectÍndice invertido
dc.subjectEntidades nomeadas
dc.subjectSpaCy
dc.subjectSimilaridade
dc.subjectSentence-transformers
dc.titleBusca semântica em documentos da área biomédica relacionados com COVID-19
dc.typeMonografia
dc.coverageFlorianópolis


Este ítem pertenece a la siguiente institución