fck ya
INGENIERÍA EN COMPUTACIÓN
IC-8020 RECUPERACIÓN DE INFORMACIÓN TEXTUAL
TAREA CORTA 2 – CLASIFICACIÓN DE TEXTO
Setiene la siguiente colección de documentos:
argumento
cola
memoria
semáforo
valor
CLASE
d1
SÍ
SÍ
SÍ
C1
d2
SÍ
SÍ
C2
d3
SÍ
C3
d4
SÍ
SÍ
C1
d5
SÍ
SÍ
SÍ
C2
d6
SÍ
SÍ
SÍ
C1
d7
SÍ
C3
d8
SÍ
SÍ
SÍ
C3
d9
SÍ
SÍ
C1
d10
SÍ
SÍ
SÍ
C3
d11
SÍ
C2
Además de los términos, cada documento tiene un atributo CLASE en la que se indica la clase a la que pertenece ese documento. Los documentos han sidoclasificados manualmente en tres categorías:
C1
colas de mensajes
C2
semáforos
C3
memoria compartida
Los primeros 8 documentos de la colección formarán el conjunto deentrenamiento. Los últimos tres documentos forman el conjunto de pruebas que se usará para evaluar el clasificador desarrollado.
1. Desarrollar el árbol de decisión para este caso.Aplicar Ganancia de Información como criterio de selección de atributos.
2. Evaluar el árbol de decisión obtenido.
a. Usando el conjunto de pruebas, calcular las entradasde la tabla de contingencia:
Caso
dj está en clase cp
dj NO está en clase cp
Total
Clasificador dice que dj está en cp
nf,t
nf – nf,t
nf
Clasificador dice que dj NOestá en cp
nt – nf,t
Nt – nf – nt – nf,t
Nt – nf
Todos los documentos
nt
Nt – nt
Nt
b. Calcular las siguientes métricas de evaluación:
Tasa de acierto (accuracy)Tasa de error (error)
Precisión
Exhaustividad (recall)
Las tareas son individuales. La fecha límite de entrega de esta tarea es el martes 18 de junio al mediodía.
Regístrate para leer el documento completo.