Mineria de datos iii - 3

Solo disponible en BuenasTareas
  • Páginas : 24 (5865 palabras )
  • Descarga(s) : 0
  • Publicado : 1 de junio de 2011
Leer documento completo
Vista previa del texto
3.3. Técnicas de Minería de Datos 3.3.1. El Problema de la Extracción Automática de Conocimiento. 3.3.2. Evaluación de Hipótesis 3.3.3. Técnicas no supervisadas y descriptivas. 3.3.4. Técnicas supervisadas y predictivas.

3.3. Técnicas de Minería de Datos

1

2

El Problema de la Extracción Automática de Conocimiento
La minería de datos no es más que un caso especial de aprendizajecomputacional inductivo. ¿Qué es aprendizaje?
• (visión genérica, Mitchell 1997) es mejorar el comportamiento a partir de la experiencia. Aprendizaje = Inteligencia. • (visión más estática) es la identificación de patrones, de regularidades, existentes en la evidencia. • (visión externa) es la predicción de observaciones futuras con plausibilidad. • (visión teórico-informacional, Solomonoff 1966) eseliminación de redundancia = compresión de información.

El Problema de la Extracción Automática de Conocimiento
¿Cómo se validan/descartan las hipótesis para conformar el conocimiento adquirido? • Principio (‘escándalo’) de la Inducción: las hipótesis pueden ser refutadas, pero nunca confirmadas. • Y para las que todavía no han sido refutadas, ¿cuál elegimos? • Necesidad de criterios deselección: simplicidad, refuerzo, ... • Existencia de métodos de validación: estadísticos, crossvalidation, informacionales, ... • ¿Cuánto afecta a la plausibilidad el número de ejemplos? • ¿Cómo afecta la presencia de ruido?

Aprendizaje Inductivo: razonamiento hipotético de casos particulares a casos generales.

3

4

Taxonomía de Técnicas de DM
Cualquier problema de aprendizaje inductivo sepuede presentar Cualquier problema de aprendizaje inductivo se puede presentar (más o menos directamente) de cualquiera de estas cuatro formas. (más o menos directamente) de cualquiera de estas cuatro formas. Clasificación de las técnicas de aprendizaje:
• Interpolación: una función continua sobre varias dimensiones • Predicción secuencial: las observaciones están ordenadas secuencialmente. Sepredice el siguiente valor de la secuencia. Caso particular de interpol. con 2 dim., una discreta y regular. • Aprendizaje supervisado: cada observación incluye un valor de la clase a la que corresponde. Se aprende un clasificador. Caso particular de interpolación: la clase (imag. función) es discreta. • Aprendizaje no supervisado: el conjunto de observaciones no tienen clases asociadas. El objetivoes detectar regularidades en los datos de cualquier tipo: agrupaciones, contornos, asociaciones, valores anómalos. • Abducción o Aprendizaje Analítico: El contexto B es muy importante. El objetivo es explicar la evidencia respecto a B. 5

Taxonomía de Técnicas de DM
Ejemplos:
• Interpolación: ?

f(2.2)=?

• Predicción secuencial: 1, 2, 3, 5, 7, 11, 13, 17, 19, ... ? • Aprendizajesupervisado: 1 3 -> 4. 3 5 -> 8. 4 2 -> ? 7 2 -> 9. • Segmentación (Aprendizaje no supervisado):

¿Cuántos grupos hay? ¿Qué grupos formo?
• Análisis Exploratorio: Correlaciones, Asociaciones y Dependencia 6

1

Taxonomía de Técnicas de DM
PREDICTIVO: Interpolación y Predicción Secuencial. • Generalmente las mismas técnicas: • Datos continuos (reales): • Regresión Lineal: • Regresión lineal global(clásica). • Regresión lineal ponderada localmente. • Regresión No Lineal: logarítmica, pick & mix, ... • Datos discretos: • No hay técnicas específicas: se suelen utilizar técnicas de algoritmos genéticos o algoritmos de enumeración refinados.
7

Taxonomía de Técnicas de DM
PREDICTIVO: Aprendizaje supervisado.
Dependiendo de si se estima una función o una correspondencia: • clasificación: seestima una función (las clases son disjuntas). • categorización: se estima una correspondencia (las clases pueden solapar). Dependiendo del número y tipo de clases: • clase discreta: se conoce como “clasificación”.
Ejemplo: determinar el grupo sanguíneo a partir de los grupos sanguíneos de los padres. • si sólo tiene dos valores (V y F) se conoce como “concept learning”. Ejemplo: Determinar si...
tracking img