Dfghjk

Páginas: 6 (1282 palabras) Publicado: 24 de mayo de 2012
Universidad de Matanzas “Camilo Cienfuegos”



Facultad de Ciencias Económicas e Informática

Departamento de Informática

[pic]



Protocolo de Investigación







Título: El pre procesado de texto por estemizado

Autor: Ramsés Abreu González

Tutor(es): MSc. Ing. Antonio C. Fernández Orquín



Matanzas

Septiembre, 2011



Aprobación del tutor: _______________________

Resumen



El presenteproyecto propone el desarrollo de una herramienta que agrupe procedimientos de estemizado (del inglés “stem”, que significa lexema), brindando al medio informático la posibilidad de generar familias de palabras basándose solamente en sus raíces. Con dicha herramienta se tratará de demostrar que utilizando el estemizado de vocablos se obtiene una mejoría en cuanto a velocidad y eficiencia en losprocesos de búsqueda y recuperación de información. Esta afirmación se justifica por sí sola, pues utilizando solamente los lexemas, que nunca cambian, los algoritmos de búsqueda no omitirán palabras relacionadas con el criterio de búsqueda por no coincidir completamente si pertenecen a la misma familia. Para ellos se utilizarán algoritmos mundialmente conocidos como Porter, Lovins y Paice, y susvariaciones para varios idiomas. Como resultando se espera un aumento de la confiabilidad de los buscadores y de la cantidad de resultados correctos para satisfacción del usuario.



Introducción



La creciente manipulación de grandes volúmenes de información por parte del ser humano, ha provocado que los ingenieros se lanzaran a la tarea de crear y perfeccionar, casi constantemente, algoritmos debúsqueda y recuperación de información. Dichos métodos se basan en reglas y heurísticas diseñadas para tratar de abarcar los amplios matices de los idiomas y realizar recuperaciones correctas y eficientes.

Algunos de estos algoritmos son los llamados estemizadores (del inglés “Stem”, lexema), que se dan a la tarea de crear familias de palabras de forma automática a través de la obtención de susraíces o lexemas. Surge así la interrogante acerca de una posible mejoría en las búsquedas si se aplicasen estos algoritmos con el fin de no descartar resultados que no coincidan exactamente con el criterio de búsqueda y que aun así pertenecen a la misma familia de palabras. La herramienta que se propone desarrollar contendrá un compendio de los algoritmos de estemizado más utilizados a nivelmundial, además de sus variaciones para múltiples idiomas, brindando así la posibilidad a los desarrolladores informáticos, de obtener familias de stems (lexemas) y no ya familias de palabras. Estos cuerpos ordenados de stems facilitaran en mayor grado las respuestas acertadas en las búsquedas, así como en los procedimientos de búsqueda. Dicha herramienta dispondrá de detección de idioma, facilitandola selección de los algoritmos a utilizar, además de un módulo estadístico que brindará datos como error y cobertura de los métodos a utilizar, permitiendo incluso realizar comparaciones de eficacia entre algoritmos.



Proyecto Investigativo



En el presente proyecto se trabajará esencialmente con vocablos, lo que implica recabar un conocimiento sobres estos. En primer lugar se analiza lasintaxis de la palabra y como está compuesta, apareciendo así los conceptos de lexema, que es la raíz o parte invariable, y morfema, que es la partícula que cambia dentro de la palabra.

Utilizando el lexema de las palabras es posible organizarlas en familias. Esta forma de organización presenta varios beneficios en el campo de la informática, por ejemplo: en la búsqueda de información, se empleantérminos que, en numerosos casos, no aparecen textualmente en las fuentes consultadas, pero utilizando solo el lexema del término, la búsqueda se ve beneficiada pues se verán incluidas todas las posibles variaciones gramaticales del vocablo deseado, obteniendo así mejores resultados.

Se ha seleccionado como metodología de desarrollo: XP (eXtreme Programming), formulada por Kent Beck. Es el más...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • dfghjk
  • dfghjk
  • dfghjk
  • dfghjk
  • dfghjk
  • dfghjk
  • dfghjk
  • Dfghjk

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS