Escuela Superior
Facultad de Ingeniería en Electricidad y Computación
“GENERACIÓN DE VERSIONES ESPECIALIZADAS DE LA WIKIPEDIA”
INFORME DE MATERIA DE GRADUACIÓN
Previo a la obtención del Título de:
INGENIERO EN COMPUTACIÓN ESPECIALIZACIÓN
SISTEMAS TECNOLÓGICOS
INGENIERO EN COMPUTACIÓN ESPECIALIZACIÓN
SISTEMAS DE INFORMACION
Presentado por:
Mario AlbertoGarcía Moreira
Luis Manuel Mora Torres
Guayaquil – Ecuador
AÑO 2009
AGRADECIMIENTO
A Dios, a nuestros padres, a nuestros profesores
y a nuestros más dilectos amigos por su incondicional
apoyo y amplia colaboración en el curso
de nuestra vida universitaria
DEDICATORIA
A todos los que aportan con su
conocimiento y tiempo para
llevar a este país adelante pese
a todas lasadversidades.
TRIBUNAL DE GRADO
____________________________
MsC. Cristina Abad R.
PROFESORA DE LA MATERIA DE GRADUACIÓN
____________________________
MSc. Xavier Ochoa
PROFESOR DELEGADO POR EL DECANO
DECLARACION EXPRESA
“La responsabilidad del contenido de este Proyecto de Graduación, nos corresponde exclusivamente; y el patrimonio intelectual de la misma, a la Escuela SuperiorPolitécnica del Litoral”
(Reglamento de exámenes y títulos profesionales de la ESPOL)
Mario Alberto García Moreira
Luis Manuel Mora Torres
RESUMEN
En este trabajo se presenta una alternativa para generar una enciclopedia especializada con temas previamente definidos basada en la Wikipedia, usando la herramienta Hadoop y los servicios Web de Amazon para el procesamiento distribuidode la enciclopedia original, de tal manera que los resultados generados se puedan guardar en un dispositivo portable para ser consultados en cualquier computadora sin la necesidad de conectarse a Internet.
ÍNDICE GENERAL
RESUMEN 6
INDICE GENERAL 7
INTRODUCCIÓN 9
1. PLANTEAMIENTO DEL PROBLEMA 10
1.1 Antecedentes 10
1.2.1 Fiabilidad de datos. 13
1.2.2 Derechos de autor 14
1.3.Objetivos del proyecto 15
1.4 Justificación del proyecto 15
1.5 Alcance 16
2. MARCO TEÓRICO 17
2.1 Cloud Computing y los Servicios Web de Amazon (AWS) 17
2.2 Paradigma MapReduce y Hadoop 18
2.3 Edición de páginas en Wikipedia 19
2.3.1 Enlaces internos 19
2.3.2 Enlaces externos 21
3. ANÁLISIS y DISEÑO 22
3.1 Análisis de datos de entrada. 22
3.2 Algoritmo utilizado 24
3.2.1Primera fase 25
3.2.2 Segunda fase 26
4. IMPLEMENTACIÓN Y PRUEBAS 28
4.1 Detalle de la implementación 28
4.1.1 Wikigen. 28
4.1.2 Cloud9 29
4.1.3 Expresiones Regulares 30
4.2 Software utilizado para las pruebas 30
4.3 Pruebas y Resultados 32
4.3.1 Resultados con 3 nodos esclavos. 33
4.3.2 Resultados con 7 nodos esclavos. 34
CONCLUSIONES Y RECOMENDACIONES 36
BIBLIOGRAFÍA 40INTRODUCCIÓN
La Wikipedia es una enciclopedia libre que se ha convertido en uno de los recursos más consultados para quienes tienen la posibilidad de conectarse a Internet. Sin embargo su acceso debe ser en-línea, dejando a un lado a quienes por motivos de orden geográfico o económico no pueden acceder a ella.
Como alternativa, la Wikipedia permite descargarse todo el contenido de la misma,pero la gran cantidad de artículos que tiene en su sistema hace que sea para fines prácticos imposible descargarla para un usuario común.
El presente trabajo se presenta una alternativa para generar una versión personalizada de la Wikipedia, de tal manera que los resultados generados se puedan guardar en un dispositivo portable para ser consultados en cualquier computadora sin la necesidad deconectarse a Internet.
1. PLANTEAMIENTO DEL PROBLEMA
1.1 Antecedentes
Internet se ha convertido en uno de los principales recursos didácticos tanto para estudiantes como para profesores de escuelas. Sin embargo, en nuestro país existen muchas familias, escuelas y centros comunitarios que tienen computadores personales con características básicas, pero sin conexión a esta red. Si bien en la...
Regístrate para leer el documento completo.