Data Mining

Páginas: 5 (1052 palabras) Publicado: 8 de junio de 2012
Resumen Data mining prueba 2

Tecnicas de aprendizaje clasificado
Usan set de entrenamient, que ajuste el modelo.
El set de entrenamiento debería correspondar a datos lo mas representativos posibles, para que el árbol tome buenas decisiones.Corresponde al 70% de los datos de prueba.
El set de test, corresponde a valores que no conoce el Arbol y que permitirán determinar que tan bien fueentrenado.

Arboles de decisión.
* Sirve para encontrar patrones globales no decisiones puntuales.
* Problemas de clasificación.
* Reglas de decisión entendibles por personas.
* Atributos discretos o discretizables
* Son una disyunción de conjunciones
* Las hojas representan el resultado de la clasificación.

Algoritmo
1. ¿Pertenecen todos a la misma clase?
*Retomar marcando el nodo hoja con la clase respectiva
2. ¿Tienen todos los registros el mismo valor para todos los atributos que determinan su clase?
* Retornar marcado nodo hoja con la clase más común.
De lo contrario:
1. Evaluar la ganancia de cada atributo y quedarme con el que tiene más.
2. Usar ese atributo como nodo raíz.
3. Dividir el set de entrenamiento de acuerdo a esteatributo. Para cada rama resultante continuar la construcción del árbol de forma recursiva.
Entropía



Pi=Fracción de registros que contiene la clase C.

Ganancia de la información:
* Es la reducción esperada de la entropía al separar según cierto atributo.
* No funciona bien con atributos que poseen muchos valores.
* Hay otras métricas para medir homogeneidad.
* Es muyusado.

Si un atributo tiene muchos valores

Overfitting

Sobreajuste o sobre entrenamiento de un árbol:

Se resuelve:

1. Parando el árbol cuando el número de registros restantes no es significativo.
2. Construir el árbol completo y luego podarlo.

KDD – Knowledege Discovery in databases – Reconocimiento de patrones

* Predicción: Factibilidad de que un paciente sufra decáncer, basado en info demográfica, exámenes clínicos e historia.
* Clustering:Determinar grupo de rasgos comunes.
* Clasificacion:Identificar monto escrito en un cheque.
* Detección de anormalidades:
* Asociaciones
* Visualización
* Comprensión de información.

Aprendizaje supervisado, no supervisado,semisupervisado,reforzado

Algoritmo K-Means (particional)

*Utilizada para detectar grupos significativos.
* Cuantización de vectores en problemas de baja dimensionalidad.
* Procesamiento de voz.
* Paletas de Color.

Inicialización
Decidir el numero de clusters que buscaremos.
Lanzar los centros de forma aleatoria
Operación
1. Asignar cada punto al centro mas cercano, con lo que se crea un área.
2. Cada centro calcula el centroide desu area.
3. Cada centro salta al nuevo centroide.
4. Repetir 2 y 3 hasta que los centros no cambien significativamente.

Los máximos locales se resulven con la función de distorcion.
Elergir puntos de partida: Correr Kmean varias veces partiendo de diferentes puntos de partida.
Nro de centros: Probar con varios valores.

Metricas dedistancia entre clusters

Algoritmos jerárquicosDendograma

Diagramas en los que la altura representa la similitud entre elementos o clusters, a mas distancia implica el precio que tengo que pagar.

Otros tipos de clustering

Clustering en subespacios: El Biclustering o Clustering de Subespacios, consiste en agrupar genes que expresen un comportamiento similar bajo un grupo de condiciones. Mediante el biclustering
agrupamos genes ycondiciones. Su naturaleza es distinta por tanto a la del clustering. Podemos por tanto entender el problema como un problema de búsqueda de patrones.

Clustering jerarquico: clusters dentro de clusters.
* (SL): En cada paso se unen los dos grupos cuyos elementos más cercanos tienen la mínima distancia.
* (AL): En cada paso se unen los dos grupos tal que tienen la mínima...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Data Mining
  • data mining
  • Data mining
  • Data Mining
  • DATA MINING
  • Data Mining
  • Data Mining
  • data mining

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS