Seminario apache solr

Solo disponible en BuenasTareas
  • Páginas : 6 (1326 palabras )
  • Descarga(s) : 0
  • Publicado : 1 de septiembre de 2010
Leer documento completo
Vista previa del texto
Paradigma Tecnológico
Servicios de Solr Apacheformación

1

APACHE SOLR

Índice
 Introducción
 Lucene  Solr  Instalación

 Analizadores de Texto
   


Tokenización Stemming Sinónimos Stop Words
N-Gramas

 Indexación
 Esquema de Datos

 Búsqueda
 Parámetros de Búsqueda  Búsqueda Avanzada

 Componentes de Búsqueda
  

Highlighting Correcciónortográfica More like this

2

APACHE SOLR

Paradigma Tecnológico
Servicios de formación Introducción

3

APACHE SOLR

Introducción (I): Lucene
 Solr: Motor de búsqueda basado en Lucene.
 Lucene : Proyecto de código abierto escrito en java.  Librería que proporciona búsquedas de texto de alto rendimiento haciendo

uso de índices invertidos.
 Mayor velocidad en la búsqueda de cadenasde texto.  Menor dependencia del tamaño del índice.  Mayor flexibilidad en las búsquedas de texto: Búsquedas por término,

mediante N-Gramas, búsquedas fonéticas…
 Mayor facilidad para ordenaciones por score y ponderaciones.  Características

adicionales: Analizadores coincidencias, corrector ortográfico, etc.
4 APACHE SOLR

de

texto,

resaltado

de

Introducción (II): ÍndiceInvertido vs. Índice Directo

Índice Directo
1 que es esto 2 esto es un texto 3 este texto es otro texto

Índice Invertido
que es esto un texto este otro
5 APACHE SOLR

1 1, 2, 3 1, 2 2 2, 3 3 3

que es esto un texto este otro

(1,1) (1,2) (2,2) (3,3) (1,3) (2,1) (2,3) (2,4) (3,2) (3,5) (3,1) (3,4)

Introducción (III): Solr
Solr es un proyecto de código abierto escrito en java queproporciona un recubrimiento de Lucene añadiendo características adicionales:
 Acceso HTTP a Lucene.  Cachés para lograr mayor velocidad en las búsquedas.  Interfaz de administración web.  Configuración del esquema de datos y del servidor mediante archivos

XML.
 Facetado de resultados (Agrupación de resultados con contadores).  Distribución de servidores.

6

APACHE SOLR Arquitectura de Solr (I)
 Solr se divide en dos partes:
 Índice: Sistema de ficheros que almacenan la información. Contiene la

configuración de Solr y la definición de la estructura de datos.
 Servidor: Proporciona el acceso a los índices y las características

adicionales. Admite plugins para añadir funcionalidades.

7

APACHE SOLR

Arquitectura de Solr (II): Arquitectura DistribuidaSolr permite búsquedas distribuidas: Uno de los servidores actúa como maestro, consultando al resto y componiendo la respuesta.

8

APACHE SOLR

Instalación de Solr
 Requisitos:
 Java 1.5+  Servidor de aplicaciones

 Descarga:
 http://apache.rediris.es/lucene/solr/  Pasos:  Copia de índice.  Despliegue de servidor sobre el servidor de aplicaciones.
 Configuración de enlaceentre servidor e índice. (Modificación del

fichero web.xml)

9

APACHE SOLR

Paradigma Tecnológico
Servicios de formación Indexación

10

APACHE SOLR

Indexación de Contenidos (I): Esquema de datos
 schema.xml: Archivo XML que define las estructura de datos a indexar.
 Estructura de campo:

 Tipos de Datos: Definidos por clases java.  Parámetros opcionales:  default:Valor a usar si no se recibe ninguno  required: Define si un campo es obligatorio.  indexed: Determina si un campo es buscable u ordenable.  stored: Determina si un campo se puede recuperar en una consulta.  multiValued: El campo contiene más de un valor.
11 APACHE SOLR

Indexación de Contenidos (II)
 Canales para el envío de documentos:
 Petición HTTP: Envío de instrucción y datosasociados vía HTTP POST.  Cliente Solrj: Cliente java. Permite realizar las diferentes operaciones

sobre el índice y enviar la información en diferentes formatos.
 Fuentes de datos para la indexación:  XML: Coherente con la estructura de datos definida.  Objetos Java: Representación binaria del documento XML.  CSV: Documento de texto con valores separados.
 Documentos enriquecidos: PDF,...
tracking img