Análisis de historias clínicas basado en similitud textual
Fecha
2019-04-11Registro en:
Fócil Arias, Carolina. (2018). Análisis de historias clínicas basado en similitud textual (Doctorado en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México.
Autor
Fócil Arias, Carolina
Institución
Resumen
RESUMEN:
Recientemente, la extracción de eventos clínicos desde textos médicos no estructurados ha atraído mucha la atención en la comunidad científica. En este trabajo presentamos una metodología para la identificación y la clasificación de eventos clínicos con base en historias médicas de pacientes con cáncer de colón.
Primero, analizamos los textos clínicos y aplicamos técnicas de procesamiento de lenguaje natural para hacer un procesamiento cuidadoso de los textos médicos, de tal forma que se mejore la calidad de éstos.
Luego, proponemos el uso de características lingüísticas, léxicas, sintácticas, nivel de discurso, y de recursos externos con algoritmos de aprendizaje automático, como campo aleatorio condicional y el algoritmo de Viterbi, los cuales son muy populares para etiquetar secuencia de datos efectivamente.
Después, evaluamos los enfoques presentados en el estado del arte, y comparamos los resultados presentados en la competencia de SemEval 2016 - Tarea 12: TempEval 2016, llevando a cabo las subtareas: (i) detección de eventos, (ii) clasificación de eventos, (iii) clasificación de acuerdo con la polaridad del evento, y (iv) clasificación con base en el tipo de eventos.
Finalmente, analizamos los resultados de las tareas, y observamos que nuestra propuesta utilizando campo aleatorio condicional obtuvo buenos resultados en comparación con los trabajos presentados en la competencia de SemEval Tarea 12. Además, demostramos que el popular y mucho más simple algoritmo Viterbi (algoritmo de clasificación basado en el modelo de Markov oculto) puede producir resultados competitivos, cuando sus parámetros son ajustados utilizando técnicas de optimización tales como evolución diferencial y hill climbing.
ABSTRACT:
Recently, the extraction of clinical events from unstructured medical texts has attracted much attention of the research community. In this work, we propose a methodology to identify and to classify clinical events based on histories in colon cancer patients.
Firstly, we analyze the medical history and we apply natural language processing techniques for a better understanding and improving of the medical texts.
Then, we propose the usage of different features such as linguistic, word-forms, discourse level, lexical and external resources with machine learning algorithms: conditional random fields and Viterbi algorithm, which are very popular for solving the problem of sequence tagging effectively.
Afterwards, we evaluate the approaches based on the state-of-the-art and we compare the results presented in the task of extraction of medical events from the corpus developed for SemEval shared Task 12: Clinical TempEval (Temporal Evaluation) 2016, namely, for its subtasks: (i) event detection, (ii) event classification, (iii) polarity, and (iv) type based on contextual modality.
Finally, we analyze the results and observed that our proposal using conditional random fields achieves good results in comparison to the works presented in Task-12: Clinical TempEval 2016 challenges. We also show that the popular and much simpler Viterbi algorithm (hidden Markov model-based classification algorithm) can produce competitive results, when its parameters are tuned using specific optimization techniques using differential evolution and hill climbing.