dc.description.abstract | En los últimos años la obtención de genomas completamente secuenciados ha permitido el
desarrollo de algoritmos computacionales que permiten estudiar los genes contenidos en
éstos genomas, lo cual, a su vez posibilita una descripción de su organización y localización
y por ende, la posibilidad de identificar la función que realizan las proteínas que son
codificadas por estos.
La última generación de métodos para la identificación de funciones de muchas proteínas
no caracterizadas son los llamados métodos basados en el contexto genómico. En este
grupo se destaca el método de perfiles filogenéticos (MPF), el cual describe el patrón de
ausencia o presencia de una proteína particular a través de un conjunto de organismos con
genomas completos.
La principal ventaja de este método es que en un mismo análisis permite la participación,
tanto de genomas de arqueas, procariotas y eucariotas. No obstante, como la mayoría de los
métodos para la inferencia funcional, éste tiene algunas limitantes, por ejemplo, se restringe
severamente el número de relaciones funcionales que pueden establecerse, debido a que
solamente infiere enlaces funcionales de perfiles que son idénticos o muy similares, pero
sin establecer el grado de relación que hay entre éstos y sus demás vecinos. Por otro lado,
no logra relacionar genes que no están en la misma vía metabólica y cuyos perfiles
filogenéticos pueden no tener una similitud suficiente, pero que coadyuvan a una función
común.
Este trabajo se propone incrementar el nivel de expresividad del método de perfiles
filogenéticos utilizando el algoritmo de agrupamiento C-medias difuso conocido como
Fuzzy C-means en idioma inglés o FCM.
El uso del algoritmo C-medias difuso agrupa perfiles filogenéticos con diferentes grados de
pertenencia para inferir relaciones funcionales entre proteínas de perfiles no idénticos, pero
que posiblemente participan en una función común.
El algoritmo, además, podría dar lugar a la inclusión de expresiones lingüísticas, referentes
al parecido de perfiles filogenéticos o para describir el grado de relación funcional entre
proteínas, tales como: muy alta, alta, media-alta, media, media-baja, baja y muy baja
similitud del perfil filogenético en función al valor de pertenencia (membresía) dado.
La validación de los agrupamientos difusos de perfiles filogenéticos se llevó a cabo usando
los operones de la bacteria de Escherichia coli (E. coli). Los genes de estos operones
fueron comparados con nuestro agrupamiento difuso para interrelacionar funciones.
El desempeño aceptable de los resultados sugirió la posibilidad de implementar un sistema
automático para inferir relaciones funcionales de perfiles filogenéticos de genes/proteínas
hipotéticos o nuevos, mediante el entrenamiento de una red neuronal de base radial (RBR),
la cual simuló de forma muy aceptable el agrupamiento de perfiles filogenéticos obtenido
con FCM.
Los resultados de este trabajo amplían la suposición de que los perfiles filogenéticos de las
proteínas que funcionan juntas en una vía bioquímica o estructura compleja son similares y
están dispuestos en un modelo correlacionado. Nosotros, por nuestra parte, mostramos que
este modelo correlacionado conserva un patrón que puede ir haciéndose difuso o
borrándose hacia el resto de los grupos y a su vez, seguir conservando algún grado en la
relación funcional de los genes involucrados, lo cual brinda información adicional sobre
posibles enlaces funcionales lejanos, pero existentes y por otro lado, extender el
conocimiento sobre proteínas en general. | |