Vida
TESIS DE GRADO EN INGENIERIA INFORMATICA FACULTAD DE INGENIERIA UNIVERSIDAD DE BUENOS AIRES
TESISTA: DIRECTORES
Daniel Fernández Lic. Gustavo López Lic. Ismael Jeder Lic. Arturo Servetto Lic. Adriana Echeverría
Laboratorio de Informática de Gestión Departamento de Computación
Mayo de 2009
Daniel Fernández
TESIS DE GRADO
2Daniel Fernández
TESIS DE GRADO
Agradecimientos
A Paula por su paciencia y sus largas horas de compañía. A mi familia por todo el apoyo brindado a lo largo de la carrera. A los profesores que me han ayudado durante el desarrollo de este trabajo. A mis amigos, colegas y compañeros que me proveyeron la fuerza necesaria para seguir adelante. Gracias a todos.
3
Daniel FernándezTESIS DE GRADO
Resumen
La Web actual está formada principalmente por un conjunto de documentos cuya información semántica es fácilmente comprendida por los usuarios y no así por las máquinas que los procesan automáticamente. En este trabajo se estudiarán y compararán las principales tecnologías dedicadas a procesar el significado de los datos de la Web para que puedan ser interpretados porsistemas de computación. Asimismo, se presentará un desarrollo basado en la tecnología más adecuada acorde a la investigación llevada a cabo.
Abstract
Nowadays the Web is mostly composed by a group of documents whose semantic information is easily understood by its users but not by the computers which process the information automatically. This work will show the analysis and comparison of themain technologies applied to process the meaning of the data among the Web, so that it can be interpreted by computer systems. This work will also show a development based on the more suitable technology, according to the investigation being achieved.
4
Daniel Fernández
TESIS DE GRADO
Índice
Capítulo 1: Introducción ..................................... 7
1.1. 1.2. 1.3. 1.4.Introducción ................................................................... 8 Motivaciones ................................................................. 10 Objetivos...................................................................... 10 Estructura del documento ............................................... 11
Capítulo 2: La información ................................ 12
2.1. World Wide Web............................................................ 13 2.2. El significado de los datos de la Web ................................ 15 2.3. El procesamiento del lenguaje natural .............................. 17 2.3.1. Lenguaje ............................................................... 17 2.3.2. Historia ................................................................. 18 2.3.3. Cómotrabaja el PLN ............................................... 19 2.3.4. Problemas y limitaciones ......................................... 21 2.4. EL PLN y la Web ............................................................ 24 2.5. Web Scraping ............................................................... 27 2.5.1. Dapper .................................................................. 292.5.2. Yahoo! Pipes .......................................................... 32 2.6. Aproximación top-down.................................................. 34 2.7. Nueva aproximación: bottom-up ..................................... 36 2.8. Resumen investigación ................................................... 38
Capítulo 3: Los metadatos ................................ 39
3.1. Los datossobre los datos ............................................... 40 3.2. Web Semántica ............................................................. 42 3.2.1. Las diferentes Capas ............................................... 43 3.2.2. Unicode ................................................................. 44 3.2.3. URI ....................................................................... 45...
Regístrate para leer el documento completo.