Lo mejor ia

Solo disponible en BuenasTareas
  • Páginas : 11 (2661 palabras )
  • Descarga(s) : 4
  • Publicado : 5 de abril de 2010
Leer documento completo
Vista previa del texto
Recuperación de Información en Internet:

Estructura de Google g
Martín Llamas Nistal
Nuevos Servicios Telemáticos Curso 2007 2008 2007-2008

Contenidos Introducción Características de Google Arquitectura de Google Exploración de la web: “Crawling” Crawling Búsquedas Datos estadísticos y de implementación Conclusiones

NST - Estructura de Google

2

¿Qué es un motor de búsqueda?Motor de Búsqueda: Un sistema de almacenamiento de oo úsqued : U s s e ce e o datos (base de datos) diseñada para indexar direcciones web (url, ftp, etc.). Ejemplos: Google, Altavista, Excite, etc. Servicio de Directorio: igual que el motor de búsqueda, pero la indexación se hace de forma manual. Ejemplo: Yahoo

NST - Estructura de Google

3

Evolución histórica* (I)
Tamaño de los Motores deBúsqueda Web (en millones de páginas indexadas) ( ill d á i i d d )

NST - Estructura de Google

* Fuente: searchenginewatch.com (Dic 2001)

4

Evolución histórica* (II)
Tamaño de los Motores de Búsqueda Web (en millones de páginas indexadas)

* Fuente: searchenginewatch.com (Dic 2001)
NST - Estructura de Google 5

Tamaño de los buscadores Web

* Fuente: searchenginewatch.com(Dic 2001)
NST - Estructura de Google 6

Contenidos
Introducción

Características de Google
Arquitectura de Google p g Exploración de la web: “Crawling” Búsquedas Datos estadísticos y de implementación Conclusiones

NST - Estructura de Google

7

Características de Google Utiliza la información hipertextual de los documentos Web para calcular la relevancia de d á i d cada página,utilizando lo que se denomina tili d l d i PageRank Utiliza los enlaces (links) y el texto de los mismos para mejorar los resultados de la búsqueda

NST - Estructura de Google

8

PageRank. Cálculo

r (i ) = d ⋅

j∈B ( i )

∑ r ( j ) / N ( j ) + (1 − d ) / m

r(i) es el PageRank de la página i N(i) es el número de enlaces (salientes) de la página i B(i) es el número de páginas queapuntan a la página i m es el número total de nodos en el grafo d es el factor de decaimiento (entre 0 y 1) lf d d i i (

NST - Estructura de Google

9

PageRank
Recordamos que: eco d os Fácilmente calculable con algoritmos iterativos Características del “navegante” aleatorio: navegante • El PageRank es la probabilidad de que este “navegante” p g partiendo de una de acabe en una determinadapágina web p entrada • El factor d se puede ver como la probabilidad de que el “navegante” se aburra El PR para una página será alto: • Si existen muchas páginas apuntándola • O aunque la apunten pocas páginas, éstas tienen PR alto.
NST - Estructura de Google 10

Texto de los enlaces
La mayoría de los buscadores asocian el texto de un enlace y (anchor text) con la página en la que aparece Googleasocia el texto del enlace con la página a la que apunta t Ventajas/inconvenientes: El texto de los enlaces, con frecuencia, proporciona enlaces frecuencia descripciones sobre el contenido de las páginas ( g , Pueden existir enlaces a documentos (imágenes, programas, direcciones de e-mail, etc.) que no pueden ser indexados por motores de búsqueda textuales Permite d l P i devolver documentos enlas búsquedas que no d l bú d han sido rastreados Pueden devolver páginas inexistentes
NST - Estructura de Google 11

Características adicionales
Mantiene información de la posición de los términos que aparecen dentro de los documentos indexados, lo que permite búsquedas por proximidad (aunque luego no la hace) Mantiene información de la apariencia visual de los documentos (p.e: a las palabrasmarcadas en negrita o con un tamaño de letra mayor se les concede mayor peso al calcular la relevancia) El código HTML plano de los documentos está ódi l d l d t tá disponible en los almacenes de Google
NST - Estructura de Google 12

Contenidos
Introducción Características de Google

Arquitectura d Google A i de G l
Exploración de la web: “Crawling” p g Búsquedas Datos estadísticos y de...
tracking img