Identificación de secuencias reguladoras mediante agrupamiento

DULCE MARÍA GARCÍA ORDAZ

Tesis

Registro en:

http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/682

http://repositorioslatinoamericanos.uchile.cl/handle/2250/2258824

Autor

DULCE MARÍA GARCÍA ORDAZ

Institución

Conacyt (México)

Resumen

In recent years the number of organisms, which has been obtained its DNA sequence, has increased . The large amount of data that exists contrast with the limited knowledge we have of the functions of DNA. The regulatory sequences are short sequences of DNA wich turn on or turn off the genes. These sequences are found in regions close to genes. The regulatory sequences are inexact patterns, and can be found using computational methods. The currently existing tools for the discovery of regulatory sequences are limited by several factors. Some of these factors are the number of sequences and the length of the regulatory sequences that can be discovered. An important point is that so far there isn’t a method capable of identifying all regulatory sequences that exist in the genome, or in subset of genes. And it was found that all existing tools tend to find at least one sequence that others methods do not find [16], what causes discovery methods are complementary to each other. This paper proposes a method for identifying regulatory sequences. This method is based on a divisive hierarchical clustering algorithm to identify patterns which are then evaluated to determine candidates for regulatory sequences. We decided to use a clustering method due to the size of databases, such as Bacillus subtilis organism, which was evaluated with this method, has more than 4400 genes. The results show that the method is able to identify these sequences.

En los últimos años ha aumentado la cantidad de organismos de los que se ha obtenido su secuencia de ADN. La gran cantidad de datos que existen contrasta con el poco conocimiento que se tiene de las funciones del ADN. Las secuencias reguladoras son un tipo de secuencia dentro del ADN que se encarga de activar o desactivar a los genes y se encuentran en regiones cercanas a ´estos. Las secuencias reguladoras son patrones inexactos, y pueden ser hallados mediante métodos computacionales. Las herramientas que existen actualmente para el descubrimiento de secuencias reguladoras se encuentran limitados por diversos factores. Algunos de estos factores son el número de secuencias de entrada y la longitud de las secuencias reguladoras que pueden descubrir. Un punto importante es que hasta ahora no existe algún método capaz de identificar todas las secuencias reguladoras que existan en el genoma, o en un subconjunto de genes. Se ha encontrado que todas las herramientas existentes suelen encontrar por lo menos una secuencia que las demás no [16], lo que provoca que los métodos de descubrimiento sean complementarios entre si. En este trabajo se propone un método para la identificación de secuencias reguladoras. Este método está basado en un algoritmo de agrupamiento jerárquico divisivo para identificar los patrones que posteriormente serán evaluados para determinar si son o no candidatos a secuencias reguladoras. Se decidió utilizar un método de agrupamiento debido al tamaño de las bases de datos, por ejemplo, el organismo Bacillus Subtilis, con el que se evaluó este método, cuenta con más de 4400 genes. Los resultados muestran que el método es capaz de identificar estas secuencias con una precisión cercana al promedio de los métodos existentes, con la ventaja de que propone el tamaño de las secuencias.