Traduccion Tesis Google
Sergey Brin y Lawrence Page {sergey, page}@cs.stanford.edu Departamento de Informática, Universidad de Stanford, Stanford, California 94305 Traducción al castellano por José M. Dueñas Quesada Original disponible en: http://infolab.stanford.edu/~backrub/google.html Versión preliminar
Extracto En este artículo, presentamos Google, un prototipo de un motor de búsqueda a gran escala que hace un uso intensivo de la estructura presente en hipertexto. Google está diseñado para rastrear e indexar la Web de una forma eficiente y producir muchos mas resultados de búsqueda satisfactorios que los actuales sistemas de búsqueda. El prototipo con una base de datos de textos completos y de hiper enlaces de al menos 24 millones de páginas se encuentra disponible en http://google.stanford.edu/ El proceso de ingeniería de un motor de búsqueda es una desafiante tarea. Los motores de búsqueda indexan centenares de millones de páginas web, implicando otro numero equiparable de términos distintos. Ejecutan decenas de millones de consultas cada día. A pesar de la gran importancia de los motores de búsqueda a gran escala, se han llevado a cabo muy pocas investigaciones en el ámbito académico. Además, debido al rápido avance de la tecnología y la proliferación de webs, crear un motor de búsqueda hoy, difiere mucho de lo que sería crearlo hace tres años. Este artículo proporciona una profunda descripción de nuestro motor de búsqueda a gran escala – el primero en el que se hace pública su descripción de forma publica, que nosotros sepamos, al menos hasta la fecha. Dejando aparte los problemas de la técnicas de búsqueda tradicionales de búsqueda aplicados a éstas magnitudes de datos, hay nuevos desafíos técnicos que involucran usar la información presente en el hipertexto para producir mejores resultados en las búsquedas. Este articulo aborda el tema de cómo construir un sistema a gran escala que sea práctico y que además pueda beneficiarse de la información presente en el hipertexto. También tratamos el problema de cómo tratar eficientemente con hipertexto sin control el cual ha podido ser publicado por cualquiera que haya querido. Palabras clave: World Wide Web, Motores de búsqueda, Recuperación de la información, PageRank, Google
1. Introducción(Nota: Hay dos versiones de éste artículo – una versión completa y otra mas corta en formato impreso. La versión completa se encuentra disponible en la web y en el CDROM de la conferencia. La web crea nuevos retos para la recuperación de la información. La cantidad de información en la web está creciendo rápidamente, al igual que el número de nuevos usuarios inexpertos en el arte de la investigación de la web. La gente normalmente navega por la Web usando los enlaces, a menudo comenzando por directorios de web mantenidos manualmente, como es Yahoo! o con motores de búsqueda. Los directorios de webs cubren, en efecto, temas populares, pero son subjetivos, caros de construir y de mantener, difíciles de mejorar, y no pueden cubrir todos los temas. Los motores de búsqueda automatizada se basan en encontrar palabras clave que normalmente devuelven demasiados resultados de poca calidad. Para empeorar aun mas las cosas, algunos anunciantes en internet hacen uso de técnicas de mala praxis, lo cual minimiza la eficacia de éstos buscadores. Nosotros hemos construido un motor de búsqueda a gran escala que aborda muchos de los problemas de los sistemas actuales. Hace especial hincapié en el uso de la estructura adicional presente en el hipertexto para proporcionar unos resultados de mejor calidad. Escogimos el nombre de Google, porque es como se pronuncia googol, o 10100 lo cual se ajusta muy bien a nuestra meta de construir motores de búsqueda a gran escala.
1.1 Motores de búsqueda web - perfeccionándose: 1994 2000...
Regístrate para leer el documento completo.