Tesis
Identificación de secuencias reguladoras mediante agrupamiento
Autor
DULCE MARÍA GARCÍA ORDAZ
Institución
Resumen
In recent years the number of organisms, which has been obtained its DNA sequence,
has increased . The large amount of data that exists contrast with the limited knowledge
we have of the functions of DNA. The regulatory sequences are short sequences of DNA
wich turn on or turn off the genes. These sequences are found in regions close to genes.
The regulatory sequences are inexact patterns, and can be found using computational
methods. The currently existing tools for the discovery of regulatory sequences are limited
by several factors. Some of these factors are the number of sequences and the length of the
regulatory sequences that can be discovered. An important point is that so far there isn’t
a method capable of identifying all regulatory sequences that exist in the genome, or in
subset of genes. And it was found that all existing tools tend to find at least one sequence
that others methods do not find [16], what causes discovery methods are complementary
to each other. This paper proposes a method for identifying regulatory sequences. This
method is based on a divisive hierarchical clustering algorithm to identify patterns which
are then evaluated to determine candidates for regulatory sequences. We decided to use a
clustering method due to the size of databases, such as Bacillus subtilis organism, which
was evaluated with this method, has more than 4400 genes. The results show that the
method is able to identify these sequences. En los últimos años ha aumentado la cantidad de organismos de los que se ha obtenido
su secuencia de ADN. La gran cantidad de datos que existen contrasta con el poco conocimiento
que se tiene de las funciones del ADN. Las secuencias reguladoras son un tipo
de secuencia dentro del ADN que se encarga de activar o desactivar a los genes y se encuentran
en regiones cercanas a ´estos. Las secuencias reguladoras son patrones inexactos,
y pueden ser hallados mediante métodos computacionales. Las herramientas que existen
actualmente para el descubrimiento de secuencias reguladoras se encuentran limitados
por diversos factores. Algunos de estos factores son el número de secuencias de entrada
y la longitud de las secuencias reguladoras que pueden descubrir. Un punto importante
es que hasta ahora no existe algún método capaz de identificar todas las secuencias reguladoras
que existan en el genoma, o en un subconjunto de genes. Se ha encontrado que
todas las herramientas existentes suelen encontrar por lo menos una secuencia que las
demás no [16], lo que provoca que los métodos de descubrimiento sean complementarios
entre si. En este trabajo se propone un método para la identificación de secuencias reguladoras.
Este método está basado en un algoritmo de agrupamiento jerárquico divisivo
para identificar los patrones que posteriormente serán evaluados para determinar si son o
no candidatos a secuencias reguladoras. Se decidió utilizar un método de agrupamiento
debido al tamaño de las bases de datos, por ejemplo, el organismo Bacillus Subtilis, con el
que se evaluó este método, cuenta con más de 4400 genes. Los resultados muestran que
el método es capaz de identificar estas secuencias con una precisión cercana al promedio
de los métodos existentes, con la ventaja de que propone el tamaño de las secuencias.
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
Compendio de innovaciones socioambientales en la frontera sur de México
Adriana Quiroga -
Caminar el cafetal: perspectivas socioambientales del café y su gente
Eduardo Bello Baltazar; Lorena Soto_Pinto; Graciela Huerta_Palacios; Jaime Gomez -
Material de empaque para biofiltración con base en poliuretano modificado con almidón, metodos para la manufactura del mismo y sistema de biofiltración
OLGA BRIGIDA GUTIERREZ ACOSTA; VLADIMIR ALONSO ESCOBAR BARRIOS; SONIA LORENA ARRIAGA GARCIA