tese
Influence of spatial information coding into 2D and 3D descriptors for QSAR modelling purposes
Influência da codificação de informações espaciais em descritores 2D e 3D para fins de modelagem QSAR
Registro en:
DARÉ, J. K. Influência da codificação de informações espaciais em descritores 2D e 3D para fins de modelagem QSAR. 2023. 86 p. Tese (Doutorado em Agroquímica)–Universidade Federal de Lavras, Lavras, 2023.
Autor
Daré, Joyce Karoline
Institución
Resumen
The multivariate image analysis applied to QSAR (MIA-QSAR) is a technique based on the treatment of bidimensional images resulting from the projections of perfectly congruent, non-optimized geometries. It stands out for being a methodology that balances simplicity and efficiency in the generation of prediction models of biological/physicochemical properties. Because MIA-QSAR is a 2D technique, it does not efficiently encode spatial information in its molecular descriptors. In this sense, and keeping in mind the key role of 3D information for modeling and describing biological/physicochemical properties of molecules, the present work aims to investigate different strategies to encode and model this type of information in MIA-QSAR descriptors, as well as to evaluate the role of conformation in an originally tridimensional QSAR approach. Three different sources of descriptors have been proposed to codify 3D information into the MIA-QSAR descriptors: (I) images of 2D projections of compounds with previously optimized geometries; (II) images of “molecular slices” obtained after scanning molecules, with optimized geometries, along one of the cartesian axes; and, (III) images from the front, right and top faces of chemical structures, with optimized geometries, placed inside a theoretical box. For data modeling, two robust multivariate regression tools were used: for 2D projection descriptors, the support vector machine applied to regression (SVR) method was employed; for the other two strategies, the multilinear partial least squares (N-PLS) method was chosen. The three routines were applied to three different groups of compounds, a series of molecules with activity against the hepatitis C virus (anti-HCV), another with action against the coronavirus that causes severe acute respiratory syndrome (SARS-CoV), and a group with anti-HIV activity (human immunodeficiency virus). As a result, high quality parameters for both internal and external validation were achieved in all three strategies, and the statistical results of correlation were at least similar to those earlier reported for these series of compounds. Nevertheless, the risk of chance correlation could not be excluded as demonstrated by y-randomization tests. Accordingly, traditional MIA-QSAR method that uses perfectly congruent, non-optimized geometries of pharmacophoric substructures as images is still more efficient than the attempts to incorporate 3D information in the modelling. To evaluate the role of conformational information in an originally 3D-QSAR technique, one compared models built with variables codifying tridimensional aspects fully described, obtained from chemical structures previously docked in their biological target, with descriptors in which this type of information is either suppressed (flat structures) or only partially described (chemical structures with computationally optimized geometries). As a result, the validation parameters indicated that the robustness of the QSAR models seems to be more related to the alignment aspects of the structures than to the level of detail of tridimensional aspects encoded by the molecular descriptors. Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) A análise multivariada de imagens aplicada em QSAR (MIA-QSAR) é uma técnica baseada no tratamento de imagens bidimensionais resultantes das projeções de estruturas moleculares perfeitamente congruentes (alinhadas) e com geometrias não-otimizadas. Destaca-se por ser uma metodologia que balanceia simplicidade e eficácia na geração de modelos de predição de propriedades biológicas e físico-químicas. Por se tratar de uma técnica 2D, a MIA-QSAR não codifica, de forma eficiente, informações espaciais em seus descritores moleculares. Nesse sentido, e tendo em mente o papel fundamental das informações 3D para modelagem e descrição de propriedades biológicas/físico-químicas de moléculas, o presente trabalho tem como objetivo principal investigar diferentes estratégias para codificar e modelar esse tipo de informação em descritores MIA-QSAR, bem como avaliar o papel da conformação em uma abordagem QSAR originalmente tridimensional. Três diferentes fontes de descritores foram propostas para codificação de informação 3D nos descritores MIA-QSAR: (I) imagens de projeções 2D de compostos com geometrias previamente otimizadas; (II) imagens de “fatias moleculares” obtidas após o escaneamento, ao longo de um dos eixos cartesianos, de moléculas com geometrias otimizadas; e (III) imagens da face frontal, direita e superior de estruturas químicas, com geometrias otimizadas, dispostas dentro de uma caixa teórica. Para a modelagem dos dados, duas ferramentas robustas de regressão multivariada foram empregadas: para os descritores oriundos das projeções 2D fez-se uso do método de máquina de vetores de suporte para regressão (SVR); para as duas outras estratégias o método dos mínimos quadrados parciais multilinear (N-PLS) foi empregado. As três rotinas foram empregadas em três diferentes grupos de compostos: uma série de moléculas com atividade contra o vírus da hepatite C (anti-HCV), outra com ação contra o coronavírus causador da síndrome respiratória aguda severa (SARS-CoV), e um grupo com atividade anti-HIV (vírus da imunodeficiência humana). Como resultado, parâmetros de boa qualidade, tanto de validação interna quanto externa, foram obtidos nas três estratégias e resultados estatísticos de correlação foram, no mínimo, similares aos reportados em outros estudos envolvendo os mesmos conjuntos de dados. No entanto, o risco de correlação casual não pôde ser excluído, como demonstrado por testes de randomização do bloco Y. Dessa forma, a metodologia MIA-QSAR tradicional, que faz uso de imagens de subestruturas farmacofóricas perfeitamente congruentes e com geometrias não-otimizadas, mostrou-se mais eficiente que as estratégias que codificaram informação tridimensional na modelagem. Para avaliar o papel da conformação em uma técnica QSAR originalmente 3D, foram comparados modelos construídos com variáveis que codificam aspectos tridimensionais completamente descritos, obtidos de estruturas químicas previamente ancoradas em seu alvo biológico, com descritores em que esse tipo de informação é suprimido (estruturas planas) ou apenas parcialmente descrito (estruturas químicas com geometrias computacionalmente otimizadas). Como resultado, os parâmetros de validação indicaram que a robustez dos modelos QSAR parece estar mais associada ao alinhamento das estruturas do que ao nível de detalhamento dos aspectos tridimensionais codificados pelos descritores moleculares.