5 Data Warehouse continuacion

Páginas: 5 (1135 palabras) Publicado: 20 de marzo de 2016
Unidad 3 (cont)
Data Mining
Big Data

R. Wainer

1

DataMinig
http://www.dmg.org/ Data Mining Group
http://www.kdnuggets.com/ Data Mining Community's Top Resource
http://www.datanalytics.com Datanalytics (blog)

http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/index.
htm
http://www.megaputer.com/dm/index.php3
http://www.darwinmag.com/read/100103/mining.html

R.Wainer

2

DataMining
• “The automated extraction of predictive information from (large)
databases “ (Kurt Thearling)
• Herramienta para descubrir información en los datos
– reglas de asociación (regresión, sumarización, dependencias)
– jerarquía de clasificación (cluster)
– comportamiento secuencial
– categorización y segmentación
– “outliers”, desviaciones y evolución
• Objetivos de esta información– predicción
– identificación
– optimización
R. Wainer

3

Datamining

R. Wainer

4

DataMining (Ejemplos)
Asociación (descriptivo)
Los compradores de pañales también suelen comprar cerveza.
Clustering (descriptivo)
Segmentación de los clientes de un hipermercado:
-- Clientes ocasionales que gastan mucho.
-- Clientes habituales con presupuesto limitado.
-- Clientes ocasionales con presupuestolimitado.
Clasificación (predictivo):
-- Perfil de un cliente de alto riesgo para préstamos bancarios.

R. Wainer

5

DataMining
 Usar el software para encontrar patrones útiles de

información en la data warehouses se llama data
mining.
 OLAP fue la forma original del data mining. Los datos
originalmente recolectados para preparar informes
financieros se reconocieron como posibles fuentes
paramodelar, predecir y como soporte para las
decisiones
 En lugar de tener hipótesis que se verifican (o no) con
los datos, el software busca patrones que se analizan,
y se validan.
R. Wainer

6

DataMining
 hay muchos algoritmos y herramientas disponibles
• Decision Trees
• Nearest Neighbor Classification
• Neural Networks
• Rule Induction
• K-means Clustering (partición)
 se requiere conocimientosestadísticos para comparar las
diferentes técnicas
 Sitios (compraciones):
http://www.cs.uvm.edu/~icdm/algorithms/10Algorithms-08.pdf
http://www.dataprix.com/files/Comparativa-Algoritmos-Herramientas_Data_Mining.pdf
R. Wainer

7

DataMining
Algoritmos de Minería de Datos:•

1. Supervisados o predictivos:
– Dado un conjunto de variables predictoras, se desea conocer el
comportamiento de lavariable a predecir. Predicen el valor de un
atributo de un conjunto de datos, conocidos otros atributos.
– Una vez entrenado el modelo, sirve para realizar la predicción
de datos cuyo valor es desconocido
2 - No supervisados :
– Descubren patrones y tendencias en los datos
– Agrupar registros por similitud

R. Wainer

8

DataMinig (Algoritmos)
• C4.5. Este algoritmo genera clasificadores expresadosen
términos de árboles de decisión.
• k-medias. Es un método simple iterativo que particiona un
conjunto de datos en un número pre-especificado de
conglomerados.
• SVM (Support Vector Machine). Mediante el aprendizaje, este
algoritmo trata de encontrar la mejor función de clasificación
para distinguir en miembros de distintas clases.
• a priori. Este método encuentra conjuntos de ítems
frecuentesusando generación candidata.
• EM. Es utilizado para clasificar datos de naturaleza continua y
para estimar su correspondiente función de densidad.
R. Wainer

9

DataMinig (Algoritmos)
• PageRank. Es un algoritmo de búsqueda sobre hipervínculos en la
web. Gracias a este método es que Google funciona.
• AdaBoost. Emplea métodos que utilizan múltiples learners para
resolver un problema.
• kNN.Memoriza el conjunto de datos de entrenamiento y realiza
una clasificación sólo si los atributos del objeto de prueba coinciden
exactamente con los ejemplos del entrenamiento.
• Bayes ingenuo (Naive Bayes). Dado un conjunto de objetos, que
pertenecen a una clase conocida, construye una regla que permite
asignar objetos futuros a una clase.
• CART (Classification and Regression Trees). Se trata de...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • DATA WAREHOUSE
  • DATA WAREHOUSE
  • Data Warehouse
  • Data Warehouse
  • Data warehouse
  • Data Warehouse
  • Data warehouses
  • Data Warehouse

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS