clasificacion automatica
1 / 23
Clasicación Automática de Documentos
Dos cosas diferentes:
Clasicación Supervisada
también conocida como categorización
parte de la existencia de un conjunto de clases pre-establecidas
el objetivo es colocar cada documento en la clase que le corresponda
Clasicacion no supervisada
también llamada clustering
no hay clases preestablecidas
elpropio sistema establece las clases o clusters de forma totalmente
automática
Carlos G. Figuerola (Grupo REINA)
Clasicación Automática
2 / 23
Clasicación Supervisada
se parte de un conjunto de clases diseñadas por personas previamente
el sistema debe asignar cada documento a la clase que le corresponda
Aplicaciones:
ltrado de documentos
routing o DSI
recuperación mediantebrowsing
asignación automática de descriptores, encabezamientos de materias o
similares
Carlos G. Figuerola (Grupo REINA)
Clasicación Automática
3 / 23
Clasicación Supervisada
La mayoría de los algoritmos parten la elaboración de un modelo o
patrón para cada clase
Esta fase se conoce como entrenamiento
Necesita una colección de documentos ya clasicada manualmente
(colección deentrenamiento)
Requiere intervención humana para la clasicación de la colección de
entrenamiento y para la revisión y renamiento de resultado
Carlos G. Figuerola (Grupo REINA)
Clasicación Automática
4 / 23
Clasicación Supervisada. Entrenamiento
Podemos verlo como la elaboración de un centroide para cada clase.
Carlos G. Figuerola (Grupo REINA)
Clasicación Automática5 / 23
Clasicación Supervisada
El proceso de clasicación consiste en estimar la similitud entre el
documento a clasicar y cada uno de los centroides
Sistemas que asignan cada documento a una sola clase
Sistemas que asignan un documento a varias clases
En sistemas con asignación de clase única el centroide más similar indica a
qué clase hay que asignar el documento
En sistemas conasignación de clases múltiples un umbral de similitud
indica a qué clases hay que asignar el documento
Carlos G. Figuerola (Grupo REINA)
Clasicación Automática
6 / 23
Clasicación Supervisada
Carlos G. Figuerola (Grupo REINA)
Clasicación Automática
7 / 23
Clasicación Supervisada. Algoritmos
Naive Bayes
Rocchio
Vecino más próximo
Knn
Carlos G. Figuerola (GrupoREINA)
Clasicación Automática
8 / 23
Clasicación Supervisada. Naive Bayes
Naive Bayes
tiene una base probabilística
calcula la probabilidad de que un documento encaje en una clase a
partir de la probabilidad de que documentos que contengan
determinados términos pertenezcan a esa clase
estas probabilidades de los términos se estiman mediante los términos
que aparecen en losdocumentos de entrenamiento
en la práctica considera solamente pesos binarios de esos términos
es rápido y fácil de implementar
es ecaz
Carlos G. Figuerola (Grupo REINA)
Clasicación Automática
9 / 23
Clasicación Supervisada. Rocchio
Algoritmo de Rocchio
se basa en las mismas ideas utilizadas en la realimentación por
relevancia
se contruyen vectores que tratan de representarcada clase a partir de
los documentos de entrenamiento
para el vector de cada clase:
los documentos de entrenamiento de esa clase se usan como ejemplos
positivos
los documentos de entrenamiento de las demás clases se usan como
ejemplos negativos
Carlos G. Figuerola (Grupo REINA)
Clasicación Automática
10 / 23
Clasicación Supervisada. Rocchio
Algoritmo de Rocchio
el vectorrepresentativo de una clase se construye sumando los pesos
de los términos de los ejemplos positivos
de él se restan los pesos de los términos de los ejemplos negativos
aplicando coecientes multiplicadores, es posible dar más o menos
importancia a los ejemplos positivos o a los negativos
el resultado es un vector de términos con pesos como el utilizado en el
modelo vectorial
para...
Regístrate para leer el documento completo.