Clase7
Clase 7: XML
Autor:
Versión:
Licencia:
Sebastián Bassi
1.1
Creative Commons BY-NC-SA 2.5. (ver texto completo)
XML
Introducción
XML es un formato de intercambio de datos. Actualmente hay todo tipo de información en este formato,
se puede decir que es el formato estándar de intercambio de datos. Ejemplos de archivos XML:
• Archivos de configuración (.xml)
• Bases dedatos
• Páginas web (.xhtml)
• Planillas de cálculo (.ods, .xlsx)
• Gráficos vectorizados (.svg)
Estructura de un documento XML
No hace falta conocer todas y cada una de las particularidades de los componentes de XML debido a que
desde Python usaremos un parser específico para extraer los elementos deseados. De todas maneras
hay que conocer un mínimo de la estructura interna para sacar el máximoprovecho del parser y
solucionar eventuales problemas que pueden presentarse.
¡Nota importante!
Por especificación de XML, si un documento no cumple correctamente con la especificación, el
parser está obligado a interrumpir su ejecución. Si un parser no lee un documento no válido, no es
un error del parser, sino que está cumpliendo con la especificación. Para parsear XML no válidos,
usar otraherramienta como BeautifulSoup.
Ejemplos de documentos XML
Feed de rss: Este tipo de xml está asociada a todas las páginas que llevan el logo de “RSS” y proveen
este mecanismo de notificación de actualización de contenido:
http://www.misolrna.org
http://www.misolrna.org
http://www.misolrna.org
Secuencia proteíca de Uniprot: Uno de los formatos de los registros de la base de datos de proteinas
(Uniprot) esXML (el siguiente archivo fue acortado brevemente por razones de espacio):
xsi:schemaLocation="http://uniprot.org/uniprot
http://www.uniprot.org/support/docs/uniprot.xsd">
MPKKKPTPIQLNPAPDGSAVNGTSSAETNLEALQKKLEELELDEQQRKRL
EAFLTQKQKVGELKDDDFEKISELGAGNGGVVFKVSHKPSGLVMARKLIH
LEIKPAIRNQIIRELQVLHECNSPYIVGFYGAFYSDGEISICMEHMDGGS
LDQVLKKAGRIPEQILGKVSIAVIKGLTYLREKHKIMHRDVKPSNILVNSRGEIKLCDFGVSGQLIDSMANSFVGTRSYMSPERLQGTHYSVQSDIWSMG
LSLVEMAVGRYPIPPPDAKELELLFGCHVEGDAAETPPRPRTPGGPLSSY
GMDSRPPMAIFELLDYIVNEPPPKLPSGVFSLEFQDFVNKCLIKNPAERA
DLKQLMVHAFIKRSDAEEVDFAGWLCSTIGLNQPSTPTHAASI
Elementos de XML
En general los archivos XML tienen prólogo, cuerpo y (a veces), epílogo. El prólogo puede tener una o
varias lineas:
Prólogo de una línea:
Prologo de varias líneas:
"http://www.ncbi.nlm.nih.gov/dtd/NCBI_BlastOutput.dtd">
En el cuerpo residen los elementos, como por ejemplo:
Donde
Regístrate para leer el documento completo.