TCCgrad
Mineração de padrões morfo-semânticos em textos clínicos
Autor
Cardoso, Nathan Cezar
Institución
Resumen
TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação. Atualmente, enormes volumes de textos de diversos domínios (microblogs, notícias, artigos,
prontuários médicos, etc.) têm sido coletados diariamente em plataformas digitais. Várias fer-
ramentas para Processamento de Linguagem Natural (PLN), mineração de textos e ciência de
dados permitem extrair informação, analisar e classificar certos textos conforme os seus conteú-
dos. Recentemente, técnicas de embedding de texto, principalmente embeddings contextualiza-
dos, têm possibilitado ganhos de desempenho em diversas tarefas de Processamento de Lingua-
gem Natural (PLN). Nosso grupo de pesquisa tem investigado a aplicação de tais recursos na
mineração de padrões morfo-semânticos em textos, visando extração e análise de informação.
Tais padrões têm se mostrado úteis em tarefas como análise de discurso, desambiguação do
sentido de palavras e classificação de textos, usando métodos não-supervisionados, que dispen-
sam grandes volumes de dados rotulados para treinamento, possibilitam certa explicabilidade e
flexibilidade, por exemplo no detalhamento de categorias de classificação. Este trabalho desen-
volveu e avaliou métodos e algoritmos baseados em PLN e embeddings contextualizados para
minerar eficientemente padrões morfo-semânticos em textos clínicos (inseridos por profissio-
nais de saúde, como médicos, nos prontuários de pacientes em atendimentos), com o intuito de
automatizar a classificação e a triagem desses textos e possibilitar análises de seus conteúdos
com métodos inovadores. Os textos clínicos e exemplos dos padrões a serem minerados foram
fornecidos por uma empresa que presta serviços a operadoras de planos de saúde, com interme-
diação de um mestrando a ela ligado. Foram gerados embeddings do BERT pré-treinados para
a língua portuguesa (BERTimbau), assim como classes morfossintáticas e reconhecimento de
entidades (e.g., medicamentos, doenças, especialidades médicas) de acordo com terminologia
específica da área médica para calcular similaridade e/ou determinar casamento na mineração
dos padrões nos documentos. Os embeddings gerados foram utilizados em experimentos de
visualização e agrupamento a fim de selecionar conjuntos de dados ao redor das entidades re-
conhecidas mencionadas nos textos clínicos. Com o uso dos algoritmos desenvolvidos e as
visualizações geradas foi possível concluir que o modelo do BERT utilizado usa o contexto dos
documentos para gerar os embeddings dos medicamentos próximos aos embeddings de outras
palavras mencionadas nos mesmos contextos textuais, tais como doenças tratadas com os res-
pectivos medicamentos. Isso não permite discriminar medicamentos e doenças, por exemplo,
em grupos distintos de embeddings. Currently, huge volumes of texts from different domains (microblogs, news, articles, medical
records, etc.) have been collected daily on digital platforms. Various tools for Natural Language
Processing (NLP), text mining, and data science allow extracting information and analyzing
and classifying certain texts according to their contents. Recently, text embedding techniques,
mainly contextualized embeddings, have enabled performance gains in several NLP tasks. Our
research group has investigated the application of such resources in the mining of morpho-
semantic patterns in texts, aiming at extracting and analyzing information. Such patterns are
useful in tasks such as discourse analysis, disambiguation of the meaning of words, and clas-
sification of texts, using unsupervised methods, which do not require large volumes of labeled
data for training, allowing some explainability, and flexibility, for example in detailing classi-
fication categories. This work aims to develop and evaluate methods based on contextualized
NLP and embeddings to efficiently mine morpho-semantic patterns in clinical texts (inserted
by health professionals, such as doctors, in the records of patients in attendance), intending to
automate the classification and sorting of these texts and enable an analysis of their contents
with innovative methods. The clinical texts and examples of the standards to be mined have
been provided by a company that provides services to health plan operators, with the interme-
diation of a master’s student linked to it. It is intended to use pre-trained BERT embeddings for
the Portuguese language, as well as morphosyntactic classes and entity recognition (e.g., drugs,
diseases, medical specialties) according to specific medical terminology to calculate similarity
and/or determine matching by mining the patterns in the documents. The generated embed-
dings were used in visualization and clustering experiments in order to select datasets around
recognized entities mentioned in clinical texts. With the use of the developed algorithms and
the generated visualizations, it was possible to conclude that the BERT model used uses the
context of the documents to generate the embeddings of the drugs close to the embeddings of
other words mentioned in the same textual contexts, such as diseases treated with the respective
drugs . This does not allow discriminating drugs and diseases, for example, in distinct groups
of embeddings.