Basado en el artículo ”The Anatomy Of A Large Scale Search Engine” escrito por
los creadores de Google, Sergey Brin y Lawrence Page, y presentado en la WWW7 en
1997,
Unapresentación realizada por Jose Dueñas para la asignatura Estructura de Datos II
índice del artículo
Introducción
Metas del diseño
Características del
sistemaTrabajo relacionado
Anatomia del
sistema
Resultados y
rendimiento.
Conclusiones
Trabajo futuro
Referencias
INDICE DEL ARTÍCULO
¿Qué es Google?
Es un motor de búsqueda a granescala
hace un uso intensivo de los enlaces
rastrea e indexa eficientemente la Web
sus resultados son mejores que otros motores
googol = 10^100
Actualmente es mas que un simplemotor de búsqueda, aglutinando muchos otros servicios.
Su objetivo según sus creadores es indexar toda la información existente y hacerla accesible.
anatomia del sistema
- Servidor URL
-Rastreador
- Servidor de almacenamiento
- Repositorio
- Textos ancla
- Servidor que resuelve URLs
- Indexador
- Cubetas
- Léxico
- Enlaces
- Indice de Documentos
- PageRank
- Clasificador
-Buscador
los procesos
Rastreo
Indexado
Búsqueda
Clasificación
descripción general del
funcionamiento
1. Proceso de Rastreo (URL server – Rastreador - Storeserver)
1. URLserver envíalistras de URLs a los Rastreadores.
2. Las webs son almacenadas en el storeserver
3. El storeserver las comprime y guarda en el Repositorio
2. Proceso de Indexación (Indexador - Clasificador)
1. Elindexador las descomprime, las interpreta y asigna un
docID.La web es convertida a un cjto. de ocurrencias (hits)
2. El indexador distribuye los hits en cubetas, creando un indice.
3. El indexadorguarda info sobre los links en el archivo Ancla.
4. El URLresolver lee el Ancla y convierte URL relativos a
absolutos que son pasados a docIDs
5. Se genera una bd con pares de docIDs (lo usará...
Regístrate para leer el documento completo.