Mineria de datos

Solo disponible en BuenasTareas
  • Páginas : 5 (1071 palabras )
  • Descarga(s) : 0
  • Publicado : 27 de agosto de 2012
Leer documento completo
Vista previa del texto
Tareas de Minería de Datos
El proceso de minería involucra ajustar modelos o determinar patrones a partir de datos. Este ajuste normalmente es de tipo estadístico, en el sentido que se permite un cierto ruido o error dentro del modelo.
Los algoritmos de minería de datos realizan en general tareas de predicción (de datos desconocidos) y de descripción (de patrones).
Las tareas principalesson:
* Análisis de dependencias:
El valor de un elemento puede usarse para predecir el valor de otro. La dependencia puede ser probabilística, puede definir una red de dependencias o puede ser funcional. Se ha orientado mucho en los últimos años en el descubrimiento de redes Bayesianas o causales en donde la dependencia se da a nivel estructural (dependencias e independencias entre variables)y cuantitativa (fuerza de las dependencias)
* Identificación de clases (agrupar registros en clases)
Identifica un conjunto finito de categorias o clusters que describen los datos (pueden ser exhaustivas y mutuamente exclusivas o jerárquicas y con traslapes)
Las clases pueden ser relevantes en sí o pueden servir como entradas a otros sistemas de aprendizaje. Se utilizan algoritmos declustering. Normalmente el usuario tiene una buena capacidad de formar las clases y se han desarrollado herramientas visuales interactivas para ayudar al usuario.
* Descripción de conceptos
Resumen cierto patrón característico. La descripción puede ser característica (qué registros son comunes entre clases) o dicriminatoria (cómo difieren las clases). La mayoría de los sistemas de aprendizajeencuentran descripciones de conceptos y estan enfocados a clasificación: aprender una función que mapea (clasifica) un dato dentro de un conjunto de posibles clases predefinidas.
Otra técnica relacionada es regresión: aprender una función que mapea un dato a una variable real.
A veces se trata de encontrar descripciones compactas de subconjuntos de datos (e.g., media y varianza, leyes físicas)que los resuman de alguna forma.
* Detección de desviaciones, casos extremos o anomalias
Detectar los cambios más significativos en los datos con respecto a valores pasados o normales. Sirve para filtrar grandes volúmenes de datos que son menos probables de ser interesantes. El problema está en determinar cuándo una desviación es significativa para ser de interés.
Métodos dediscretización (minería de datos)
Algunos de los algoritmos que se utilizan para crear modelos de minería de datos en SQL Server Analysis Services requieren tipos de contenido específicos para poder funcionar correctamente. Por ejemplo, el algoritmo Bayes naive de Microsoft no puede utilizar columnas continuas como entrada ni predecir valores continuos. Además, algunas columnas pueden contener tal cantidad devalores que el algoritmo no puede identificar con facilidad patrones de interés en los datos para crear un modelo a partir de los mismos.
En estos casos, puede discretizar los datos en las columnas de modo que pueda utilizar los algoritmos para producir un modelo de minería de datos. La discretización es el proceso mediante el cual los valores se incluyen en depósitos para que haya un númerolimitado de estados posibles. Los depósitos se tratan como si fueran valores ordenados y discretos. Puede discretizar tanto columnas numéricas como de cadena.
Pueden utilizarse varios métodos para discretizar datos. Si la solución de minería de datos usa datos relacionales, puede controlar el número de depósitos que se deben usar para agrupar los datos estableciendo el valor de la propiedadDiscretizationBucketCount. El número predeterminado de depósitos es 5.
Si la solución de minería de datos usa datos de un cubo OLAP (Procesamiento analítico en línea), el algoritmo de minería de datos calcula automáticamente el número de depósitos que se deben generar mediante la siguiente ecuación, donde n es el número de valores de datos distintos existentes en la columna:
Number of Buckets =...
tracking img