Trabajo de grado - Maestría
Modelo de aprendizaje automático para la clasificación temprana de flujos de texto aplicado a la detección de desórdenes psicológicos
Fecha
2021Registro en:
Universidad Nacional de Colombia
Repositorio Institucional Universidad Nacional de Colombia
Autor
Babativa Melgarejo, Diego Alejandro
Institución
Resumen
La representación adecuada de los flujos de textos en un modelo de aprendizaje automático
permite la acumulación efectiva de evidencia secuencial, donde los algoritmos toman la decisión de clasificación cuando hay suficiente certeza para determinar la existencia de cierto
tipo de riesgo. Lo que resulta determinante en la detección temprana de trastornos mentales
con tendencia al suicidio. Inspirado en lo anterior, el presente trabajo de investigación toma
por objeto la realización de un modelo de aprendizaje automático efectivo en la detección de
des ́ordenes psicológicos, como son la depresión, la anorexia y la autolesión; manifestados en
los flujos de texto discriminados de publicaciones con caracterizaciones determinantes en la
red social Reddit. El modelo establecido en esta tesis es entrenado por varios conjuntos de
datos etiquetados por expertos del Conference and Labs of the Evaluation Forum (CLEF),
dando lugar al establecimiento de una propuesta con menor n ́umero de escritos requeridos
en la detección, sobresaliendo en la métrica ERDE y F1 en la identificación temprana de
población con tendencia a la anorexia. (Texto tomado de la fuente) The adequate representation of text streams in a machine learning model allows the effective
accumulation of sequential evidence, in which the algorithms make the classification decision
when there is sufficient certainty to determine the existence of a certain type of risk. What
is decisive in the early detection of mental disorders with a tendency to suicide. Inspired by
the above, the present research work aims to carry out an effective machine learning model
in the detection of psychological disorders, such as depression, anorexia and self-harm; mani-
fested in the discriminated text streams of publications with decisive characterizations in the
Reddit social network. The model established in this thesis is trained by several data sets
labeled by experts from the Conference and Labs of the Evaluation Forum (CLEF), leading
to the establishment of a proposal with a lower number of writings required in detection,
excelling in the ERDE and F1 metrics in the early identification of a population with a
tendency to anorexy.