metodos

Páginas: 13 (3146 palabras) Publicado: 12 de mayo de 2014
Modelos Ocultos de Markov
Aplicaciones a la bioinformática
Sergio E. Lew, Facultad de Ingeniería, UBA

Introducción

El la década del 60 los modelos ocultos de Markov, de aquí en adelante denominados HMM, surgieron como una herramienta aplicada al procesamiento del habla, un modelo estadístico que, a través de un algoritmo de aprendizaje, extraía las principales característicasestocásticas de una cadena de habla.
Con el advenimiento de los proyectos geonómicos, una gran cantidad de información proveniente del secuenciamiento de distintos genomas, aparece en escena trayendo consigo un problema: como extraer de estos datos, experimentalmente obtenidos, la información subyacente, es decir, como de la gran cantidad de secuencias de ADN y proteínas almacenadas en bases de datos,descubrir las propiedades estadísticas o determinísticas que permitan hacer análisis, modelos y juntamente con la generación de estos últimos, obtener hipótesis que se confirmen a través de experimentación.
Nuevamente, como en la década del 60, los HMM aparecen como una poderosa herramienta para el análisis de datos geonómicos y proteómicos. Los HMM son ampliamente utilizados en el área debioinformática para el modelado de familias de proteínas, alineamientos múltiples y modelado de estructuras 2D y 3D.
En este trabajo se intenta explicar el funcionamiento y obtención de HMM aplicados a genómica y proteómica.

Datos obtenido experimentalmente

A partir de los procesos de secuenciación es posible obtener la composición de secuencias de ADN, ARN y proteínas. En el ADN, las secuenciasobtenidas están formadas por cuatro letras distintas (ver apéndice 1), estos cuatro nucleótidos ordenados de manera poco entendible para el ser humano y en secuencias de longitud variable, representan la información genética almacenada. Para el ARN la representación es similar, en este caso el nucleótido T es cambiado por U (uracilo).
En las proteínas son 21 letras diferentes, representando cada unade ellas a un aminoácido, las que codifican la información y función de la proteína (ver apéndice 1).
Estas secuencias de encuentran en bases de datos, muchas de ellas publicas, en diferentes formatos. El mas conocido es el formato FASTA, se muestra a continuación una porción de una base de datos en este formato para ADN y proteínas.

>gi|5819095|ref|NC_001321.1| Balaenoptera physalusmitochondrion, complete genome
GTTAATTACTAATCAGCCCATGATCATAACATAACTGAGGTTTCATACATTTGGTATTTT-
TTTATTTTTTTTGGGGGGCT
TGCACGGACTCCCCTATGACCCTAAAGGGTCTCGTCGCAGTCAGATAAATTGTAGCTGGG-
CCTGGATGTATTTGTTATTT
GACTAGCACAACCAACATGTGCAGTTAAATTAATGGTTACAGGACATAGTACTCCACTAT-
TCCCCCCGGGCTCAAAAAA

>gi|5819099|gnl|NCBI_MITO|ND1_10014 NADH dehydrogenase subunit 1MFMINILTLILPILLAVAFLTLVERKILGYMQFRKGPNIVGPHGLLQPFADAIKLFTKEP-
LRPATSSTTMFIIAPVLALT
LALTMWSPLPMPYPLINMNLGVLFMLAMSSLAVYSILWSGWASNSKYALIGALRAVAQTI-
SYEVTLAIILLSVLLMNGSY
TLSTLATTQEQLWLLFPSWPLAMMWFISTLAETNRAPFDLTEGESELVSGFNVEYAAGPF-
ALFFLAEYANIIMMNMLTAI

El formato FASTA es especificado en apéndice 1.
HMM's

Dado un conjunto de secuencias xi+1....xL de ADN, ARN o proteínas, surgen tres preguntas que resumen el funcionamiento de un HMM:

1) Cuales sonlos parámetros que mejor ajustan el modelo al conjunto de datos.
2) Cual es el camino de estados que se recorre al representar una secuencia con el modelo.
3) Cual es la probabilidad de que una secuencia x sea generada por el modelo.

Respuesta a la tercer pregunta

Resolver la tercer pregunta implica la utilización de un algoritmo que tome como entradas el modelo y a secuencia dada ypermita estimar que estados ocultos se transitaron cuando esta secuencia fue obtenida. Este problema se lo conoce comúnmente como el del casino deshonesto, donde el empleado del casino cambia con una cierta probabilidad los dados con los que se juega. La tarea del inspector del casino es determinar si se está jugando con dados normales o cargados. Los datos con que cuenta el inspector son solamente...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Metodos De Metodos
  • El Método
  • Metodo
  • El Método
  • Metodo
  • Metodos
  • Metodos
  • Metodos

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS