Bioinformatica
Universidad Nacional Andrés Bello
Facultad de Ciencias Exactas
Bioinformática
Sección:BIO-390-1
Profesores: Fernando Danilo Gonzalez Nilo
Melissa Alegria Arcos
Actividad Práctica No 1
“Introducción a la Bioinformática”
Autor: Sebastián Valenzuela Pozo
Fecha deentrega: 29 de abril de 2013
Introducción
En la ciencia moderna al tener una secuencia nueva o de interés, es necesario compararla por medios de diferentes bases de datos biológicas mundiales para obtener un respaldo en sus investigaciones, estas se organizaron en diferentes recopilaciones, cada una de ellas contienen secuencias similares o diferentes dependiendo la necesidad científica, lo quese puede encuentra en los datos son como secuencias: proteicas, nucleicas, genómica entre otras, las cuales están unidades por enlaces, los cuales proporciona un mayor rango de búsqueda en diferentes respaldos científicos. En las bases de datos proteicas uno de los más usados es el protein data bank (PDB), el cual es un buscador de proteínas secuenciadas y determinadas.
Para hacer unacomparación de secuencias, se puede ocupar diferentes alineamientos y matrices, estas se enfocan en global(needle) o local(water), PAM o BLOSUM respectivamente, cada una de ellas, aplican diferente lógica algorítmica la cual da distintos resultados en comparar secuencias. Otro método de relación entre dos secuencias es Blast, el cual proporciona en regiones locales similitudes entre secuenciascon otras bases de datos calculando estadísticamente las comparaciones entre proteínas.
Objetivos
1. Familiarizarse con diferentes bases de datos
2. Aprender a usar diferentes alineamientos y matrices
3. Aprender a usar Blast
Resultados
PDB ID: 3PDE
Nombre de la proteína: geranylgeranyl pyrophosphate synthase
Código Uniprot de la proteína: Q03RR4
Obtenga lasecuencia de las proteínas en formato FASTA, e inclúyala en el informe
>3PDE:D|PDBID|CHAIN|SEQUENCE
MSLINARLIAFEDQWVPALNAPLKQAILADSQDAQLAAAMTYSVLAGGKRLRPLLTVATM-
QSLGVTFVPERHWRPVMALELLHTYSLIHDDLPAMDNDALRRGEPTNHVKFGAGMATLAG-
DGLLTLAFQWLTATDLPATMQAALVQALATAAGPSGMVAGQAKDIQSEHVNLPLSQLRVL-
HKEKTGALLHYAVQAGLILGQAPEAQWPAYLQFADAFGLAFQIYDDILDVVSSPAEMGKA-TQKDADEAKNTYPGKLGLIGANQALIDTIHSGQAALQGLPTSTQRDDLAAFFSYFDTERV-
NEGHHHHHH
PDB ID: 3KRF
Nombre de la proteína: Mint heterotetrameric geranyl pyrophosphate synthase
Código Uniprot de la proteína: Q9SBR4
Obtenga la secuencia de las proteínas en formato FASTA, e inclúyala en el informe
>3KRF:D|PDBID|CHAIN|SEQUENCE
MFDFDGYMLRKAKSVNKALEAAVQMKEPLKIHESMRYSLLAGGKRVRPMLCIAACELVGG-DESTAMPAACAVEMIHTMSLMHDDLPCMDNDDLRRGKPTNHMAFGESVAVLAGDALLSFA-
FEHVAAATKGAPPERIVRVLGELAVSIGSEGLVAGQVVDVCSEGMAEVGLDHLEFIHHHK-
TAALLQGSVVLGAILGGGKEEEVAKLRKFANCIGLLFQVVDDILDVTKSSKELGKTAGKD-
LVADKTTYPKLIGVEKSKEFADRLNREAQEQLLHFHPHRAAPLIALANYIAYRDN
Compare un alineamiento local y uno global. Comente y explique los resultados
Secuencia local (water,):
BLOSUM30
########################################
# Program: water
# Rundate: Mon 22Apr 2013 17:29:52
# Commandline: water
# -auto
# -stdout
# -asequence emboss_water-I20130422-172951-0346-95827945-oy.asequence
# -bsequence emboss_water-I20130422-172951-0346-95827945-oy.bsequence
# -datafile EBLOSUM30
# -gapopen 10.0
# -gapextend 0.5
# -aformat3 pair
# -sprotein1
# -sprotein2
# Align_format: pair
# Report_file: stdout########################################
#=======================================
#
# Aligned_sequences: 2
# 1: SEQUENCE
# 2: SEQUENCE
# Matrix: EBLOSUM30
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 309
# Identity: 115/309 (37.2%)
# Similarity: 181/309 (58.6%)
# Gaps: 35/309 (11.3%)
# Score: 683.5
#
#
#=======================================
BLOSUM90...
Regístrate para leer el documento completo.