Dise O Metabuscador

Páginas: 89 (22025 palabras) Publicado: 9 de abril de 2015
UNIVERSIDAD DE CHILE
´
FACULTAD DE CIENCIAS F´ISICAS Y MATEMATICAS
DEPARTAMENTO DE INGENIER´IA INDUSTRIAL
´
DEPARTAMENTO DE CIENCIAS DE LA COMPUTACION

˜ E IMPLEMENTACION
´ DE UN METABUSCADOR DE PARRAFOS
´
DISENO
´
PARA LA RECUPERACION DE DOCUMENTOS SIMILARES EN LA WEB

MEMORIA PARA OPTAR AL T´
ITULO DE INGENIERO CIVIL
´
INDUSTRIAL E INGENIERO CIVIL EN COMPUTACION

´ BRAVO MARQUEZ
´
FELIPE JOSEPROFESOR GU´IA:
´
SEBASTIAN ALEJANDRO R´IOS PEREZ
´
MIEMBROS DE LA COMISION:
LUIS GUERRERO BLANCO
JUAN MUARICIO MAR´IN CAIHUAN
´ ANDRES
´ L’HUILLIER CHAPARRO
GASTON

SANTIAGO, CHILE
OCTUBRE 2010

ESTE TRABAJO HA SIDO FINANCIADO POR EL PROYECTO FONDEF
DO8I-1015 TITULADO DOCODE

RESUMEN DE LA MEMORIA
PARA OPTAR AL TÍTULO DE
INGENIERO CIVIL INDUSTRIAL E
INGENIERO CIVIL EN COMPUTACIÓN
FELIPE BRAVOMÁRQUEZ
FECHA: 28/09/2010
PROF. GUIA: SR. SEBASTIÁN RÍOS
DISEÑO E IMPLEMENTACIÓN DE UN METABUSCADOR DE PÁRRAFOS PARA LA
RECUPERACIÓN DE DOCUMENTOS SIMILARES EN LA WEB
La recuperación de documentos similares a un documento dado en la Web es un problema no resuelto
por los motores de búsqueda tradicionales. Esto se debe, a que los motores de búsqueda están
pensados para resolver necesidades deinformación de usuarios basadas en conjuntos pequeños de
palabras clave. En este trabajo se define el problema de recuperación de documentos similares como el
proceso en que un usuario ingresa un párrafo a un sistema de información y éste le retorna los
documentos con mayor similitud a éste en la Web. Los documentos recuperados son rankeados por
medio de una métrica de similitud estimada por el sistema.La resolución del problema, podría ser
utilizado en contextos como la detección de plagio, el análisis de impacto de documentos en la Web y la
recuperación de ideas similares. En este trabajo en particular, se pretende resolver el problema en el
contexto de la detección de plagio en documentos digitales en el marco del proyecto FONDEF titulado
DOCODE.
Se propone una metodología basada en modelos delenguaje generativos y metabuscadores. Los
modelos de lenguaje son utilizados como generadores de consultas aleatorizadas sobre el texto del
documento entregado, donde se propone un modelo que extrae términos relevantes sin reposición
llamado Modelo de Lenguaje Hipergeométrico. El conjunto de consultas generado intenta ser una
representación de la información relevante del documento.Posteriormente, cada consulta es enviada
como entrada a una lista de motores de búsqueda de la Web. Para luego combinar los resultados de
cada búsqueda en una única respuesta. A este proceso se le conoce como metabúsqueda. Finalmente,
los resultados son ordenados por relevancia y presentados al usuario. Para estimar la relevancia entre el
documento de entrada y los documentos encontrados se propone unafunción de scoring basada en la
ley de Zipf, la cual considera los ranking locales de aparición de cada resultado, la confianza en los
motores de búsqueda utilizados y la cantidad instancias de búsqueda en que éstos son recuperados.
Se definen los requerimientos de software junto a un análisis preliminar de las características de éste
donde se define una arquitectura basada en capas. La capa deaplicación de la herramienta es diseñada
acorde a una arquitectura orientada a servicios, de manera que pueda interoperar con otros sistemas. La
herramienta se diseña en base al paradigma de orientación a objetos y el uso patrones de diseño
conocidos. Esto se realiza para permitir la mantenibilidad y extensibilidad del modelo al uso de diversas
estrategias para la generación de consultas, rankeo deresultados y para permitir al metabuscador hacer
uso de diversos motores de búsqueda externos. La capa interfaz se diseña como una interfaz Web donde
el usuario ingresa el párrafo dentro de un cuadro de texto, permitiéndole a éste además, evaluar la
calidad de los resultados entregados. Los resultados son registrados dentro de la capa de datos, para
poder evaluar continuamente la calidad predictiva...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • METABUSCADORES
  • Metabuscadores
  • Metabuscadores
  • Metabuscadores
  • buscadores y metabuscadores
  • buscadores y metabuscadores
  • Buscadores y metabuscadores
  • motores y metabuscadores

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS