CAP TULO 4 BUSQUEDA Y CLASIFICACION

Páginas: 12 (2859 palabras) Publicado: 18 de julio de 2015
Inteligencia Colectiva

Capítulo 4
Búsqueda y clasificación
Este capítulo trata sobre los motores de texto completo, los cuales permiten buscar
una lista de palabras en un gran conjunto de documentos, y que clasifican los
resultados de acuerdo a cuán relevantes son estos documentos para nosotros. Los
algoritmos para las búsquedas de texto completo son los algoritmos más importantes
deinteligencia colectiva, y muchas fortunas se han labrado por nuevas ideas en este
campo. Es ampliamente conocido el rápido ascenso de Google de un proyecto
académico al motor de búsqueda más popular del mundo basado en gran parte en el
algoritmo PageRank, una variante de este es lo que aprenderás en este capítulo.
La recuperación de información es un gran campo con una larga historia. Este
capítulo solamentepuede abarcar algunos pocos conceptos clave, pero lo haremos
mediante la construcción de un motor de búsqueda que indexará un conjunto de
documentos y te dejará con ideas de cómo mejorarlas en el futuro. Por tanto el
enfoque estará en los algoritmos para búsqueda y clasificación en lugar de los
requerimientos de infraestructura para indexar grandes porciones de la Web, el
motor de búsqueda queconstruirás no debe tener problemas con colecciones de
hasta 100,000 páginas. A lo largo de este capítulo, aprenderás los pasos necesarios
para rastrear, indexar y buscar un conjunto de páginas, e incluso clasificar los
resultados de muchas formas distintas.

¿Qué es un motor de búsqueda?
El primer paso para crear un motor de búsqueda es desarrollar una forma para
recolectar los documentos. Enalgunos casos, esto puede involucrar crawling
(empezar con un pequeño conjunto de documentos y seguir los links a otros) en otros
casos se puede empezar con una colección fija de documentos, por ejemplo en una
intranet corporativa.
Después de que hayas recolectado los documentos, estos necesitan ser indexados.
Esto involucra usualmente crear una gran tabla de los documentos y sus
localizaciones paratodas las palabras diferentes. Dependiendo de la aplicación
particular, los documentos mismos no necesitan ser almacenados en una base de
datos; el índice simplemente tiene que almacenar una referencia (tal como un path
o una URL) de sus ubicaciones.
El paso final es, por supuesto, retornar una lista clasificada de los documentos a
partir de una consulta. Recuperar cada documento con un conjuntodado de palabras
es bastante sencillo una vez que tienes un índice, pero la magia real de esto es cómo
los resultados son ordenados. Una gran cantidad de métricas se pueden generar, y
son abundantes las formas en que se pueden ajustar para cambiar el orden de
Iván Soria Solís

28

Inteligencia Colectiva
clasificación. El aprender las diferentes métricas podría hacer que desees que los
grandesmotores de búsqueda te permitan un mayor control de ellos ( “¿Por qué no
le puede decir a google que mis palabras deben estar juntas?. Este capítulo analizará
varias métricas basadas en el contenido de la página, tales como la frecuencia de las
palabras, y luego abarca métricas basadas en información externa al contenido de la
página, tales como el algoritmo Page-Rank, el cual considera cómo otraspáginas
enlazan la página en cuestión.
Finalmente, construirás una red neuronal para consultas de rankings. La red neuronal
aprenderá a asociar búsquedas con resultados basados en qué links la gente clic
después que ellos obtienen una lista de resultados de búsqueda. La red neuronal
usará esta información para cambiar el orden de los resultados para mejorar
reflejando lo que la gente ha clicado en elpasado.
Para trabajar con los ejemplos de este capítulo, necesitarás crear un módulo de
Python llamado searchengine, el cual tiene dos clases: una para hacer crawling y
creación de la base de datos, y la otra para hacer búsquedas de texto completo
mediante consultas a la base de datos. Los ejemplos utilizaran SQLite, pero se
pueden adaptar fácilmente para trabajar con un cliente de base de datos...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • 4 Cap Tulo 1A
  • Rese A Cap Tulo 4
  • Cap Tulo 4
  • CAP TULO 4
  • Cap tulo 4
  • Cap Tulo 4
  • Prueba del cap tulo 4
  • Cap Tulo 4

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS