Mineria
Desde los años sesenta los estadísticos manejaban términos como data fishing, data mining o data archaeology, con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, entre otros comenzaron a consolidar los términos de data mining.
La minería de datos consiste en descubririnformación que se encuentra oculta dentro de las bases de datos de manera inteligente pero automatizada. Data Mining, en su proceso de análisis y exploración de datos utiliza técnicas estadísticas y modelos matemáticos para encontrar patrones, relaciones y tendencias con uso predictivo.
El término de minería de datos es una etapa dentro de un proceso mayor llamado extracción de conocimiento en bases dedatos. Consiste en reunir las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos.
Materiales y métodos o Metodología computacional
El data mining es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundircon un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones de software en cada etapa que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de unproyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta.
Herramientas de la minería de datos
Clementine / SPSS: Herramienta de data mining que permite desarrollar modelos predictivos y desplegarlos para mejorar la toma de decisiones. Está diseñada teniendo en cuenta a los usuarios empresariales, de manera que no es preciso ser un experto en data mining.
Clementine es la másavanzada herramienta de Data Mining del mercado, combina modernas técnicas de modelamiento con poderosas herramientas de acceso, manipulación y exploración de datos en una interfaz simple e intuitiva.
Características de Clementine
Fácil entendimiento de los datos.
Visualización interactiva.
Poderosa preparación de los datos.
Combina datos de múltiples fuentes.
Especifica valores perdidos.
Deriva nuevasvariables.
Produce información resumida.
Incrementa la productividad con su enfoque visual de la manipulación de datos.
Técnicas de Modelado.
Técnicas Supervisadas: C&RT, Redes Neuronales, C5.0, Quest, CHAID, Regresión Lineal y Regresión Logística.
Técnicas No Supervisadas: K-medias, Kohonen, Bi-etápico, Apriori, GRI, Sequence, Carma, Detección de Anomalías.
Técnicas de Evaluación: TablasEstadísticas, Gráficos de Ganancia y ROI.
Técnicas de Publicación de modelos: Punteo o Scoring de Bases de Datos, Scoring en tiempo real.
Clementine cuenta con los métodos de redes neuronales de mayor uso (Kohonen, Prune, Radial Basis). Las redes neuronales son, junto a los árboles de decisión, las más importantes herramientas de data mining disponibles actualmente debido a su capacidad para encontrarrelaciones ocultas entre las variables y su flexibilidad para enfrentar distintos tipos de problemas de negocios.
SAS Enterprise Miner / SAS: Solución de minería de datos que proporciona gran cantidad de modelos y de alternativas. Permite determinar pautas y tendencias, explica resultados conocidos e identifica factores que permiten asegurar efectos deseados. Además, compara los resultados de lasdistintas técnicas de modelado, tanto en términos estadísticos como de negocio, dentro de un marco sencillo y fácil de interpretar.
Keel: Es un software para evaluar la evolución de los algoritmos de minería de datos y problemas de regresión, entre ellos: clasificación, agrupamiento y patrón de la minería. Contiene una gran colección de algoritmos clásicos de extracción de conocimientos, técnicas...
Regístrate para leer el documento completo.