Trabajo de grado - Maestría
A Data-driven Representation Learning for Tumor Tissue Differentiation from Non-Small Cell Lung Cancer Histopathology Images
Fecha
2022Registro en:
Universidad Nacional de Colombia
Repositorio Institucional Universidad Nacional de Colombia
Autor
Cano Ramirez, Fabian Alberto
Institución
Resumen
Lung cancer is the second most common type and the leading cause of cancer death in the world. It is divided into different types according to cellular and tissular features, and in turn, these types are distinguished by typical patterns that represent them. Each histological subtype of lung cancer is associated with the prognosis and treatment of patients, and is subjectively stratified mainly by its morphological features. However, due to the very nature of the disease, this stratification varies since there is no specialized grading system, and also because of the difficulty of characterizing cases that generally contain mixtures of histological patterns and unspecified tissues, which therefore, alters the diagnosis and prognosis of patients. This research work addresses a computational data-driven strategy to characterize histological patterns of lung cancer, in addition to determining its differentiation and aggressiveness, in order to support decision-making in clinical practice. Therefore, this work has been divided in two parts. The first part presents a supervised subtype differentiation learning of lung cancer features in a latent space constructed with a variational autoencoder. In such space, complicated patterns are quantified by estimating a differentiation grade of typical encoded features of lung cancer subtypes. Then, a logistic regression model assigns differentiation cancer subtype grade to the embedded tissue samples. This approach builds up a subtype differentiation grade of non-small cell lung cancer among complex structures which are fully interpretable and integrable with a pathology workflow. Finally, the second part presents an unsupervised computational approach based on an ensemble of tissue-specialized variational autoencoders, which were trained per histopathology subtype, to build an unsupervised embedded tissue-image representation. This representation was used to train a Random Forest classifier of three lung adenocarcinoma histology subtypes (lepidic, papillary and solid), and a 2D-visually interpretable projection from the learned embedded representation. (Texto tomado de la fuente) El cáncer de pulmón es el segundo tipo más común y la principal causa de muerte por cáncer en el mundo. Se divide en diferentes tipos según las características celulares y tisulares, y a su vez, estos tipos se distinguen por los patrones histológicos típicos que los representan. Cada subtipo histológico de cáncer de pulmón se asocia con el pronóstico y tratamiento de los pacientes, y se estratifica subjetivamente por parte de los patólogos principalmente por sus características morfológicas. Sin embargo, por la propia naturaleza de la enfermedad, esta estratificación varía ya que no existe un sistema de gradación especializado, y también por la dificultad de caracterizar los casos que generalmente contienen mezclas de patrones histológicos y tejidos no especificados, lo que puede afectar la precisión del diagnóstico y pronóstico de los pacientes. Este trabajo de investigación aborda una estrategia computacional basada en datos para caracterizar los patrones histológicos del cáncer de pulmón, además de determinar su diferenciación y agresividad, con el fin de apoyar la toma de decisiones en la práctica clínica. Por ello, este trabajo se ha dividido en dos partes. La primera parte presenta un aprendizaje supervisado de diferenciación de subtipos de características de cáncer de pulmón en un espacio latente construido con un autocodificador variacional. En dicho espacio, los patrones complejos se cuantifican mediante la estimación de un grado de diferenciación de las características codificadas típicas de los subtipos de cáncer de pulmón. Luego, un modelo de regresión logística asigna un grado de diferenciación del subtipo de cáncer a las muestras de tejido codificadas. Este enfoque construye un grado de diferenciación de subtipos de cáncer de pulmón de células no pequeñas entre estructuras complejas que son totalmente interpretables e integrables con un flujo de trabajo de patología. Finalmente, la segunda parte presenta un enfoque computacional no supervisado basado en un conjunto de codificadores automáticos variacionales especializados en tejidos, que fueron entrenados por subtipo de histopatología, para construir una representación de imagen de tejido codificada no supervisada. Esta representación se usó para entrenar un clasificador Random Forest para distinguir entre tres subtipos histológicos de adenocarcinoma de pulmón (lepídico, papilar y sólido) y una proyección visualmente interpretable en 2D a partir de la representación incrustada aprendida.