Tesis
Estudio bioinformático de elementos móviles de DNA en Procariontes
Fecha
2011Autor
Riadi Mahías, Gonzalo
Institución
Resumen
Las Transposasas (Tnps) son enzimas codificadas por las Secuencias de Inserción (ISs ). Tnps son una de las proteínas más comunes encontradas en la naturaleza y juegan un rol importante en la evolución de los genomas. Entretanto, son difíciles de predecir bioinformáticamente y dada la creciente disponibilidad de genomas y metagenomas procariontes, es esencial desarrollar una anotación automática de Tnps rápida y de buena calidad. Adicionalmente, una base de datos de Tnps cuidadosamente anotada podría potencialmente revelar nuevos conocimientos biológicos. Esta tesis: (i) describe métodos para una predicción y clasificación mejorada de Tnps; (ii) genera un servicio web (http://www.mobilomics.cl) basado en estos perfeccionamientos de manera que biólogos puedan anotar nuevos genomas y secuencias de genes; (iii) describe la construcción de una base de datos que alberga más de 1.150 genomas pre anotados en su contenido de Tnps y (iv) describe nuevos conocimientos biológicos revelados por un análisis multidimensional de más de 210.000 Tnps.
Un nuevo método es descrito para el descubrimiento de Tnps, basado en la generación y uso de Perfiles de Cadenas de Markov Escondidas (HMM), construidos usando Tnps conocidas depositadas en la base de datos pública ISFinder. Como parte de esta tesis, ISFinder fue, en primer lugar, curada, de manera a remover sus errores de anotación. Los Perfiles HMM de secuencia fueron luego usados para predecir cerca de 210.000 Tnps en 1.150 genomas procariontes incluyendo cerca de 7.000 nuevas Tnps. El análisis multidimensional de las Tnps reveló: (i) la tendencia general de un genoma a que la integración de ISs esté centrada alrededor del punto de terminación de la replicación del DNA en genomas circulares; (ii) muchos genomas contuvieron una plétora de familias de Tnps pero, a excepción de unas pocas parejas de familias, no hubo correlaciones positivas ni negativas con respecto a la caocurrencia de familias de Tnps dentro de un genoma particular; (iii) no se detectó correlación significativa entre cantidad de Tnps de una familia particular y variables genómicas, incluyendo %G+C del genoma, tamaño de genoma y el número de familias de Tnps presente en los genomas; (iv) ciertas familias de Tnps se mostraron más abundantes en nichos ecológicos específicos (por ejemplo, pH bajo); (v) ciertas familias de Tnps se mostraron más prevalentes en grupos taxonómicos específicos; (vi) las familias de Tnps extendidas mostraron discrepancias que sugieren que hay cerca de 14.000 secuencias de proteínas en la base de datos Protein de NCBI cuya anotación podría ser mejorada.