Filtracion

Solo disponible en BuenasTareas
  • Páginas : 23 (5558 palabras )
  • Descarga(s) : 0
  • Publicado : 2 de septiembre de 2012
Leer documento completo
Vista previa del texto
Pag 34-49

Rev. Esp. Doc. Cient., 22, 1, 1999

ALGORITMO DE FILTRADO MULTI-TÉRMINO PARA LA OBTENCIÓN DE RELACIONES JERÁRQUICAS EN LA CONSTRUCCIÓN AUTOMÁTICA DE UN TESAURO
Velasco, I. Díaz, J. Lloréns, A. de Amescua Departamento de Informática. Universidad Carlos III de Madrid. Correo electrónico: llorens@inf.uc3m.es V. Martínez Departamento de Inteligencia Artificial, Facultad deInformática. Universidad Politécnica de Madrid. Resumen: Las nuevas técnicas de análisis de dominios (temáticos, etc.) proporcionan métodos para la construcción de repositorios o conjunto de información estructurada. Existe una metodología específica para generar automáticamente dominios (temáticos, etc.) que utiliza como repositorio una estructura basada en los tesauros documentales. Una de las fasesindicadas en esta metodología para la generación del tesauro es la adquisición de conceptos, que utiliza técnicas de filtrado de información estadísticas. En este trabajo se presentan modificaciones a estas técnicas de filtrado para proporcionar términos compuestos. Palabras Clave: análisis de dominios, filtrado, relaciones jerárquicas, indización, ciencias de la información, palabra compuesta, tesauro.Abstract: The new techniques of domain analysis (thematic, etc.) supply methods to create repositories or sets of structured information. A specific methodology to automatically generate domains (thematic, etc.) uses as repository a structure based on documental tbesauri. One of the stages described in this metbodology to generate a tbesaurus is the acquisition of concepts using statisticaltechniques to filter information. This paper presents modifications to these filtering techniques to obtain composite terms. Key words: domain analysis, filtering, hierarchical relations, indexing, information science, composite Word, thesaurus. 1 Introducción El problema de la construcción automática de tesauros (1, 2, 3) ha traído en jaque a varias generaciones de investigadores. Su construcción serealiza en la actualidad de forma manual; sólo con unas pocas aproximaciones que intentan la automatización del proceso (4). Esta supondría el ahorro tanto de gran parte del personal dedicado a la construcción manual como del tiempo necesario para ello, que en el caso de tesauros construidos manualmente, y dependiendo del área de conocimiento que abarque el tesauro, oscila en torno a un año (5). Porello, la riqueza semántica que proporcionan estas estructuras de conocimiento es desaprovechada en otras áreas de investigación, ya que, por ejemplo, en las nuevas técnicas de análisis de dominios (6,7, 8) no se propone la utilización de tesauros como repositorio inteligente para gestionar la información de un dominio o área de conocimiento, salvo en (5), donde se utiliza como repositorio elTesauro de Software, definido en (9, 10). En este caso, el análisis de dominios está principalmente enfocado a la reutilización de software pero puede extrapolarse su uso a cualquier tipo de información, no necesariamente software. Existen multitud de conexiones entre el análisis de dominios y las ciencias documentales, tal como se comenta en (4, 11, 12). En (5) se presenta una metodología para laconstrucción automática de dominios utilizando como repositorio el Tesauro de Software; es decir, que en el fondo se define una metodología para la construcción automática de tesauros. Esta metodología divide el proceso global en seis fases, las cuales son similares a las que se realizarían en un correcto proceso de construcción manual de un tesauro: -Identificación y definición del dominio. -Obtención del corpus. - Identificación y adquisición de componentes. Se intentan identificar características comunes (entre conceptos, operaciones, eventos, relaciones 0 estructuras complejas compuestas de alguna de las anteriores), variaciones que ayuden a encapsular y parametrizar, combinaciones que sugieran patrones o comportamientos y trade-offs que posibiliten descomposiciones de módulos o...
tracking img