Analisis de la informacion

Solo disponible en BuenasTareas
  • Páginas : 8 (1891 palabras )
  • Descarga(s) : 0
  • Publicado : 29 de septiembre de 2010
Leer documento completo
Vista previa del texto
MARKET BASKET ANALYSIS

Tienen técnica exploratorio y se basa en técnicas de probabilidad y estadística, genera reglas asociativas (útiles, triviales-inexplicables) y ofrece paquetes.
Respuesta a la pregunta ¿Qué ítems funcionan juntos?
Utiliza matriz de co-ocurrencias de donde se obtienen parámetros para generar las reglas (ej: productos más comprados o menos comprados, etc).

MODALIDAD:directa/indirecta

RESULTADO: reglas de asociación del tipo IF condición THEN resultado “Si A y B entonces C”

EXPRESIVIDAD: alta

MEDIDAS:

SOPORTE: incidencia porcentual de todos los ítems de la regla sobre los ítems del universo. Soporte = p(A y B y C)

CONFIANZA: probabilidad de que se de el resultado si se da la condiciónConfianza = p(A y B y C)/p(AyB)

PREDICTIBILIDAD p(A y B y C)/P(C )

PRUNNING: técnica para eliminar reglas poco útiles: se exige un soporte mínimo para cada ítem de la regla

FORTALEZAS:
▪ Resultado entendible
▪ Muy útil para DM indirecto
▪ Trabaja con datos de longitud variable
▪ Bajo nivel de cómputo.

DEBILIDADES:
▪ Crecimiento exponencial (decómputo y de datos)
▪ Soporte limitado para atributos de datos
▪ Los ítems correctos son difíciles de determinar
▪ Los ítems poco frecuentes son problemáticos

MEMORY BASED REASONING

Identificación casos del pasado próximos a uno actual y aplicar esa información al caso actual.

MODALIDAD: directa

RESULTADO: Clasifica según alguna categoría, elige vecino más cercanoEXPRESIVIDAD: No presenta

FUNCIONES:

DISTANCIA: entre registros de la base; se calcula para cada campo y luego se
suma para el registro (O se suma dividiendo por la máxima suma o...)
Ej para valores numéricos |a-b| /máxima distancia
Ej para sexo 0ó1

ELECCION DE VECINOS: cuántos?

COMBINACION: de los votos de los vecinos sobrela categoría a determinar
Democrática: todos los elegidos lo hacen con igual peso y el
Resultado tiene un % de certeza (100% si hay coincidencia,....)
Ponderada: la incidencia del voto es inversamente proporcional a la distancia al nuevo vecino.

MEDIDAS: (Para el caso de asignaciones múltiples de categorías)

PRECISION: de los códigos que asignó laherramienta, que % corresponde a códigos correctos?
RECALL: del total de correctos a asignar, que % asignó? (pueden faltar)

FORTALEZAS:
▪ Resultados entendible y claramente justificables
▪ Independiente de la representación de los datos
▪ Preformase independiente del training set (cualquier número de campos)
▪ Requiere mínimo esfuerzo de mantenimiento

DEBILIDADES:▪ Requiere alto poder de cómputo en las etapas de predicción y clasificación.
▪ Requiere gran capacidad de almacenamiento para el training set (mientras más grande mejor el resultado)
▪ Los resultados dependen de la función distancia. Combinación y número de vecinos.

CLUSTER DETECTION

Detección de grupos homogéneos y diferenciación entre los distinto clusters formados.MODALIDAD: indirecta

RESULTADO: división del universo de datos en grupos

EXPRESIVIDAD: baja

METODOS: K-means, aglomeración (al incio cada elemento es un cluster). Generalmente es el primer método que se utiliza en todo proyecto de DM y luego se combina con algún otro algoritmo para profundizar el estudio (jerárquico, particional o genético).

FUNCIONES:
DISTANCIA entre dos registros: se puededefinir como distancia de puntos en el
espacio o ángulo entre vectores o cantidad de campos cuyos valores coinciden

DISTANCIA entre dos clusters: se puede definir como la de sus centros, la de sus puntos más cercanos o sus puntos más lejanos.

VARIANZA: sumatoria de los cuadrados de la distancia al centro.

PROBLEMAS: campos expresados en distintas unidades de medida

CRITERIO DE...
tracking img