Google funcionamineto

Solo disponible en BuenasTareas
  • Páginas : 12 (2768 palabras )
  • Descarga(s) : 0
  • Publicado : 4 de noviembre de 2010
Leer documento completo
Vista previa del texto
The Anatomy of a Large-Scale Hypertextual Web Search Engine
Tarea 3 – Minería de datos
IIC2432

René de la fuente
Diego Ríos

Fecha: Martes 02 de Noviembre del 2010
Resumen del trabajo presentado en el paper

El rápido crecimiento de la web en los últimos años presenta un importante desafío en cuanto a la obtención de información. La cantidad de información contenida en la web, asícomo el número y los distintos tipos de usuarios, han crecido enormemente en los últimos años.
Ante esto, los primeros acercamientos fueron listas de páginas que cubrían los temas más populares, pero eran subjetivas, costosas de construir y mantener, lentas de mejorar y por mucho esfuerzo que se hiciera no podían cubrir todos los tópicos correctamente. Luego, los sistemas automáticos de búsquedaque se apoyaban en la búsqueda de palabras clave, generalmente retornan muchos resultados de baja calidad. Además, algunos publicistas tomaban medidas para engañar a estos sistemas automáticos y así atraer la atención de la gente.
Además de su tremendo crecimiento, la web también se ha vuelto enormemente comercial. En 1993, un 1.5% de los servidores web estaban en los dominios .com. Éste númerocreció hasta sobre un 60% en 1997. Al mismo tiempo, los sistemas de búsqueda han ido migrando desde el mundo académico a dominios comerciales.
En este escenario se construye un nuevo sistema de búsqueda a larga escala que soluciona muchos de los problemas enunciados anteriormente, haciendo uso de la estructura adicional presentada en hipertexto.  Éste sistema va más allá de lo que podríasignificar un índice, por muy completo que fuera, ya que la completitud de un índice no es el único factor de calidad de los resultados de una búsqueda. La enorme cantidad de “basura” circulando en la web hace que los resultados verdaderamente interesantes para el usuario se pierdan entre la enorme cantidad de resultados poco relevantes. Además, el usuario común solo está dispuesto a revisar un númeropequeño de páginas en busca de un resultado satisfactorio.
Lo primero que hay que definir para desarrollar este nuevo sistema, es que entendemos por un resultado relevante. En esta sentido, Google busca que esta noción de relevante solo incluya los mejores resultados, ya que puede haber cientos de miles de documentos ligeramente relevantes. Para Google, la precisión en cuanto al nivel de relevanciaes más importante que el número de resultados relevantes encontrados, para lo cual hace uso de la estructura de un link así como del texto del link (anchor text).
Para llevar a cabo éste sistema, se requiere contar con los siguientes atributos; tecnología de “gateo” (recorrido de la web) lo suficientemente rápido para reunir documentos web y mantenerlos actualizados, espacio eficientementeusado para guardar índices u opcionalmente los documentos mismos, eficiencia en el sistema de indexado para procesar cientos de gigabytes de datos y las queries o consultas deben ser manejada rápidamente a niveles de cientos a miles por segundo.
En el diseño y desarrollo de Google, se consideraron tanto la tasa de crecimiento de la web como los cambios tecnológicos, principalmente en losrendimientos y costos de hardware, los cuales han mejorado dramáticamente para permitir subsanar gran parte de las dificultades enunciadas.
El sistema Google, cuenta con dos características principales; hace uso de la estructura de enlaces en la web para calcular el ranking de calidad de cada página llamado PageRank y utiliza un análisis de concordancia de anchors en relación a la consulta. La tecnologíaPageRank se basa en el hecho de que una página puede tener un ranking alto en la medida en que haya muchas páginas apuntando a ella, o si hay paginas con un ranking también alto apuntando a ellas. Intuitivamente, paginas que son citadas en muchos lugares alrededor de la web, son dignas de ser miradas, o paginas que son citadas, a lo mejor por una sola página de enorme relevancia (como la página...
tracking img