Lectura
búsqueda a gran escala de web
hipertextual.
Sergey Brin y Lawrence Page
{sergey, page}@cs.stanford.edu
Departamento de Informática, Universidad de Stanford, Stanford, California 94305
Traducción al castellano por José M. Dueñas Quesada
Original disponible en: http://infolab.stanford.edu/~backrub/google.html
Versión preliminar
Extracto En este artículo, presentamos Google, un prototipo de un motor de búsqueda a gran
escala que hace un uso intensivo de la estructura presente en hipertexto. Google está
diseñado para rastrear e indexar la Web de una forma eficiente y producir muchos mas
resultados de búsqueda satisfactorios que los actuales sistemas de búsqueda. El prototipo con una base de datos de textos completos y de hiper enlaces de al menos 24 millones de
páginas se encuentra disponible en http://google.stanford.edu/
El proceso de ingeniería de un motor de búsqueda es una desafiante tarea. Los
motores de búsqueda indexan centenares de millones de páginas web, implicando otro
numero equiparable de términos distintos. Ejecutan decenas de millones de consultas cada día. A pesar de la gran importancia de los motores de búsqueda a gran escala, se han
llevado a cabo muy pocas investigaciones en el ámbito académico. Además, debido al
rápido avance de la tecnología y la proliferación de webs, crear un motor de búsqueda
hoy, difiere mucho de lo que sería crearlo hace tres años. Este artículo proporciona una
profunda descripción de nuestro motor de búsqueda a gran escala – el primero en el que se hace pública su descripción de forma publica, que nosotros sepamos, al menos hasta la
fecha.
Dejando aparte los problemas de la técnicas de búsqueda tradicionales de búsqueda
aplicados a éstas magnitudes de datos, hay nuevos desafíos técnicos que involucran usar la
información presente en el hipertexto para producir mejores resultados en las búsquedas. Este articulo aborda el tema de cómo construir un sistema a gran escala que sea práctico y
que además pueda beneficiarse de la información presente en el hipertexto. También
tratamos el problema de cómo tratar eficientemente con hipertexto sin control el cual ha
podido ser publicado por cualquiera que haya querido.
Palabras clave: World Wide Web, Motores de búsqueda, Recuperación de la
información, PageRank, Google
1. Introducción(Nota: Hay dos versiones de éste artículo – una versión completa y otra mas corta en formato
impreso. La versión completa se encuentra disponible en la web y en el CDROM de la conferencia.
La web crea nuevos retos para la recuperación de la información. La cantidad de información en la
web está creciendo rápidamente, al igual que el número de nuevos usuarios inexpertos en el arte de la investigación de la web. La gente normalmente navega por la Web usando los enlaces, a menudo
comenzando por directorios de web mantenidos manualmente, como es Yahoo! o con motores de
búsqueda. Los directorios de webs cubren, en efecto, temas populares, pero son subjetivos, caros de
construir y de mantener, difíciles de mejorar, y no pueden cubrir todos los temas. Los motores de búsqueda automatizada se basan en encontrar palabras clave que normalmente devuelven demasiados
resultados de poca calidad. Para empeorar aun mas las cosas, algunos anunciantes en internet hacen
uso de técnicas de mala praxis, lo cual minimiza la eficacia de éstos buscadores. Nosotros hemos
construido un motor de búsqueda a gran escala que aborda muchos de los problemas de los sistemas actuales. Hace especial hincapié en el uso de la estructura adicional presente en el hipertexto para
proporcionar unos resultados de mejor calidad. Escogimos el nombre de Google, porque es como se
pronuncia googol, o 10100 lo cual se ajusta muy bien a nuestra meta de construir motores de búsqueda
a gran escala.
1.1 Motores de búsqueda web - perfeccionándose: 1994 2000...
Regístrate para leer el documento completo.