Archivo indices
Un fichero inverso o también llamado fichero invertido es un tipo de fichero índice donde la estructura de cada ítem (o entrada) del fichero es, generalmente:
- palabra clave, identificador de documento, identificador de campo
Una palabra clave es un término índice quedescribe al documento, el identificador de documento es único para cada documento y un identificador de campo es un término que nos indica dentro de qué campo del documento aparece la palabra clave.
Algunos sistemas incluyen también información acerca de la localización en el documento del párrafo y frase de los términos utilizados para proceder a interrogar la base de datos. La búsqueda serealiza, corrientemente, por medio de la localización de los términos solicitados en el fichero inverso.
Construcción.
La construcción de un fichero inverso se realiza de la siguiente manera:
1. Conseguir una lista de las palabras que aparecen en el texto, junto con su locaclización en el mismo.
2. Invertir la lista anterior: conseguir una lista de términos ordenados lexicográficamente y por ordende aparición (con las localizaciones asociadas a los términos).
3. Opcionalmente postprocesar el fichero inverso, añadiendo peso a los términos, reorganizándolos o comprimiéndolos.
Figura Fichero inverso interacción.
Funcionamiento.
El fichero inverso contiene ordenadas alfabéticamente todos los términos con significado semántico, es decir que no sean palabras vacías, contenidos en losdocumentos de una base de datos que ya está construida.
A la hora de realizar una búsqueda a lo largo del fichero el robot no lee todos los documentos sino que sencillamente realiza la búsqueda en el fichero inverso y en cada una de las ocurrencias de los términos buscados. El resultado que obtenemos son los documentos en los que aparece esa palabra por la que hemos realizado la búsqueda. Normalmenteel sistema al finalizar dicha búsqueda espera nuevas órdenes del usuario y que estas pueden ser realizar otra búsqueda, mejorar la búsqueda anterior, ver los documentos que nos ofrece, etc.
El índice invertido es muy fácil de mantener y permite resolver de manera eficiente consultas basadas en términos clave, sobre todo cuando se buscan los términos clave de manera individual.
En la figura 2mostramos un ejemplo de construcción de un índice invertido sobre dos textos. Es un ejemplo simplificado ya que, a la hora de construir este tipo de estructuras, los sistemas reales emplean una serie de técnicas de preprocesado de los textos como puede ser el borrado de palabras sin significado (es decir, términos muy empleados y con poca utilidad para resolver consultas como en, de, y, etc.) queproducirían que algunas de las palabras que mostramos no formasen parte del índice.
El índice invertido es una estructura orientada a palabra compuesta principalmente por dos elementos: el vocabulario y la lista de ocurrencias. El vocabulario está formado por el conjunto de todas las palabras o términos clave que se citan en los documentos a indexar. Por otra parte, las ocurrencias son las listasque se almacenan para cada término clave indicando en qué documentos e incluso en qué posiciones dentro de ellos aparece cada término. Las posiciones pueden ser palabras (como en el ejemplo de la figura) o caracteres. La decisión de emplear palabras o caracteres depende fundamentalmente de las consultas que tenga que resolver habitualmente la estructura, ya que emplear palabras simplifica lasconsultas de frases y de proximidad mientras que emplear caracteres facilita un acceso directo al texto.
Para resolver consultas empleando esta estructura el algoritmo de búsqueda básico se compone de tres pasos. En primer lugar, se realiza una búsqueda en el vocabulario con el objetivo de encontrar los términos clave que forman la consulta. En segundo lugar, se obtiene la lista de ocurrencias...
Regístrate para leer el documento completo.