5 Data Warehouse continuacion
Data Mining
Big Data
R. Wainer
1
DataMinig
http://www.dmg.org/ Data Mining Group
http://www.kdnuggets.com/ Data Mining Community's Top Resource
http://www.datanalytics.com Datanalytics (blog)
http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/index.
htm
http://www.megaputer.com/dm/index.php3
http://www.darwinmag.com/read/100103/mining.html
R.Wainer
2
DataMining
• “The automated extraction of predictive information from (large)
databases “ (Kurt Thearling)
• Herramienta para descubrir información en los datos
– reglas de asociación (regresión, sumarización, dependencias)
– jerarquía de clasificación (cluster)
– comportamiento secuencial
– categorización y segmentación
– “outliers”, desviaciones y evolución
• Objetivos de esta información– predicción
– identificación
– optimización
R. Wainer
3
Datamining
R. Wainer
4
DataMining (Ejemplos)
Asociación (descriptivo)
Los compradores de pañales también suelen comprar cerveza.
Clustering (descriptivo)
Segmentación de los clientes de un hipermercado:
-- Clientes ocasionales que gastan mucho.
-- Clientes habituales con presupuesto limitado.
-- Clientes ocasionales con presupuestolimitado.
Clasificación (predictivo):
-- Perfil de un cliente de alto riesgo para préstamos bancarios.
R. Wainer
5
DataMining
Usar el software para encontrar patrones útiles de
información en la data warehouses se llama data
mining.
OLAP fue la forma original del data mining. Los datos
originalmente recolectados para preparar informes
financieros se reconocieron como posibles fuentes
paramodelar, predecir y como soporte para las
decisiones
En lugar de tener hipótesis que se verifican (o no) con
los datos, el software busca patrones que se analizan,
y se validan.
R. Wainer
6
DataMining
hay muchos algoritmos y herramientas disponibles
• Decision Trees
• Nearest Neighbor Classification
• Neural Networks
• Rule Induction
• K-means Clustering (partición)
se requiere conocimientosestadísticos para comparar las
diferentes técnicas
Sitios (compraciones):
http://www.cs.uvm.edu/~icdm/algorithms/10Algorithms-08.pdf
http://www.dataprix.com/files/Comparativa-Algoritmos-Herramientas_Data_Mining.pdf
R. Wainer
7
DataMining
Algoritmos de Minería de Datos:•
1. Supervisados o predictivos:
– Dado un conjunto de variables predictoras, se desea conocer el
comportamiento de lavariable a predecir. Predicen el valor de un
atributo de un conjunto de datos, conocidos otros atributos.
– Una vez entrenado el modelo, sirve para realizar la predicción
de datos cuyo valor es desconocido
2 - No supervisados :
– Descubren patrones y tendencias en los datos
– Agrupar registros por similitud
R. Wainer
8
DataMinig (Algoritmos)
• C4.5. Este algoritmo genera clasificadores expresadosen
términos de árboles de decisión.
• k-medias. Es un método simple iterativo que particiona un
conjunto de datos en un número pre-especificado de
conglomerados.
• SVM (Support Vector Machine). Mediante el aprendizaje, este
algoritmo trata de encontrar la mejor función de clasificación
para distinguir en miembros de distintas clases.
• a priori. Este método encuentra conjuntos de ítems
frecuentesusando generación candidata.
• EM. Es utilizado para clasificar datos de naturaleza continua y
para estimar su correspondiente función de densidad.
R. Wainer
9
DataMinig (Algoritmos)
• PageRank. Es un algoritmo de búsqueda sobre hipervínculos en la
web. Gracias a este método es que Google funciona.
• AdaBoost. Emplea métodos que utilizan múltiples learners para
resolver un problema.
• kNN.Memoriza el conjunto de datos de entrenamiento y realiza
una clasificación sólo si los atributos del objeto de prueba coinciden
exactamente con los ejemplos del entrenamiento.
• Bayes ingenuo (Naive Bayes). Dado un conjunto de objetos, que
pertenecen a una clase conocida, construye una regla que permite
asignar objetos futuros a una clase.
• CART (Classification and Regression Trees). Se trata de...
Regístrate para leer el documento completo.