Recuperacion información

Páginas: 3 (635 palabras) Publicado: 19 de marzo de 2013
Explicació de la Sessió 2 de Recuperació de la Informació
Durant tota la sessió he utilitzat el mateix conjunt de fitxers (els de la sessió 1). Aquest es el resultat inicial de la indexaciósense fer cap modificació.
Imatge 1 – Indexació inicial
Seguint el guió de la práctica he hagut de modificar alguns punts del codi per a modificar el comportament de la indexació i la cerca.Primer de tot hem vist el comportament del PorterStemmer:
Taula 1
ponies
poni
people
peopl
body
bodi
OtheRS
other
Després hem modificat el codi del fitxer StandardAnalyzer.java per a quedurant el procés de indexació dels fitxers s’apliqui el Standard Analyzer.
Hem afegit el PorterStemFilter en última opció per a tindre un conjunt menor de tokens degut a que ja ha passat la resta defiltres. D’aquesta manera no hem de “Stemitzar” tants tokens i estalvien feina no necessària.
També podríem eliminar el filtre de LowerCaseFilter, ja que aquest només normalitza els tokens alletres minúscules (segons la documentació del fitxer) i veiem a la Taula 1 que el PorterStemFilter també passa els tokens a lletres minúscules.
Una vegada apliquen l’StemFilter obtenim un resultatmolt semblant en les primeres posicions (degut a que encara no hem suprimit stop words):
Imatge 2 – Indexació aplicant l’StemFilter
Peró si comparem paraules que realment interessen en la cerca(com per exemple la paraula computer o computing) podem deduir que aplicant la Stemització obtindrem millors resultats en les cerques:
Imatge 3 – Comparació paraula computer
Ara la paraula comput(que inclou totes les paraules amb arrel comput) té 17 aparicions, de manera que estem guanyant bondat en la indexació i aquesta bondat es propagarà alhora de fer cerques.
Què passa ara si feu unacerca d'una paraula que ha estat stemitzada? Si no passa el que voleu, què caldria fer per arreglar-ho? (no cal que ho feu, només que ho penseu).
Ho he provat i no troba la paraula “Computer” ni...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • recuperación de información
  • recuperacion de la informacion
  • Recuperación De La Información En Ebay
  • HERRAMIENTAS PARA LA RECUPERACIÓN DE LA INFORMACIÓN
  • Historia y recuperación de la información
  • clasificación y recuperación de la información
  • Herramientas de recuperación de información
  • Servicio De Respaldo y Recuperacion De Informacion

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS