Seminario apache solr
Servicios de Solr Apacheformación
1
APACHE SOLR
Índice
Introducción
Lucene Solr Instalación
Analizadores de Texto
Tokenización Stemming Sinónimos Stop Words
N-Gramas
Indexación
Esquema de Datos
Búsqueda
Parámetros de Búsqueda Búsqueda Avanzada
Componentes de Búsqueda
Highlighting Correcciónortográfica More like this
2
APACHE SOLR
Paradigma Tecnológico
Servicios de formación Introducción
3
APACHE SOLR
Introducción (I): Lucene
Solr: Motor de búsqueda basado en Lucene.
Lucene : Proyecto de código abierto escrito en java. Librería que proporciona búsquedas de texto de alto rendimiento haciendo
uso de índices invertidos.
Mayor velocidad en la búsqueda de cadenasde texto. Menor dependencia del tamaño del índice. Mayor flexibilidad en las búsquedas de texto: Búsquedas por término,
mediante N-Gramas, búsquedas fonéticas…
Mayor facilidad para ordenaciones por score y ponderaciones. Características
adicionales: Analizadores coincidencias, corrector ortográfico, etc.
4 APACHE SOLR
de
texto,
resaltado
de
Introducción (II): ÍndiceInvertido vs. Índice Directo
Índice Directo
1 que es esto 2 esto es un texto 3 este texto es otro texto
Índice Invertido
que es esto un texto este otro
5 APACHE SOLR
1 1, 2, 3 1, 2 2 2, 3 3 3
que es esto un texto este otro
(1,1) (1,2) (2,2) (3,3) (1,3) (2,1) (2,3) (2,4) (3,2) (3,5) (3,1) (3,4)
Introducción (III): Solr
Solr es un proyecto de código abierto escrito en java queproporciona un recubrimiento de Lucene añadiendo características adicionales:
Acceso HTTP a Lucene. Cachés para lograr mayor velocidad en las búsquedas. Interfaz de administración web. Configuración del esquema de datos y del servidor mediante archivos
XML.
Facetado de resultados (Agrupación de resultados con contadores). Distribución de servidores.
6
APACHE SOLRArquitectura de Solr (I)
Solr se divide en dos partes:
Índice: Sistema de ficheros que almacenan la información. Contiene la
configuración de Solr y la definición de la estructura de datos.
Servidor: Proporciona el acceso a los índices y las características
adicionales. Admite plugins para añadir funcionalidades.
7
APACHE SOLR
Arquitectura de Solr (II): Arquitectura DistribuidaSolr permite búsquedas distribuidas: Uno de los servidores actúa como maestro, consultando al resto y componiendo la respuesta.
8
APACHE SOLR
Instalación de Solr
Requisitos:
Java 1.5+ Servidor de aplicaciones
Descarga:
http://apache.rediris.es/lucene/solr/ Pasos: Copia de índice. Despliegue de servidor sobre el servidor de aplicaciones.
Configuración de enlaceentre servidor e índice. (Modificación del
fichero web.xml)
9
APACHE SOLR
Paradigma Tecnológico
Servicios de formación Indexación
10
APACHE SOLR
Indexación de Contenidos (I): Esquema de datos
schema.xml: Archivo XML que define las estructura de datos a indexar.
Estructura de campo:
Tipos de Datos: Definidos por clases java. Parámetros opcionales: default:Valor a usar si no se recibe ninguno required: Define si un campo es obligatorio. indexed: Determina si un campo es buscable u ordenable. stored: Determina si un campo se puede recuperar en una consulta. multiValued: El campo contiene más de un valor.
11 APACHE SOLR
Indexación de Contenidos (II)
Canales para el envío de documentos:
Petición HTTP: Envío de instrucción y datosasociados vía HTTP POST. Cliente Solrj: Cliente java. Permite realizar las diferentes operaciones
sobre el índice y enviar la información en diferentes formatos.
Fuentes de datos para la indexación: XML: Coherente con la estructura de datos definida. Objetos Java: Representación binaria del documento XML. CSV: Documento de texto con valores separados.
Documentos enriquecidos: PDF,...
Regístrate para leer el documento completo.