Estudiante De Ingenieria De Sistemas E Informatica

Páginas: 28 (6905 palabras) Publicado: 3 de marzo de 2013
Algoritmos de minería de datos incluidos en SQL Server 2008

Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive de Microsoft, Clústeres de Microsoft, Serie temporal de Microsoft, Reglas de asociación de Microsoft, Clústeres de secuencia de Microsoft, Regresión lineal de Microsoft, Red neuronal de Microsoft, Regresión logística de Microsoft.

1.Algoritmo de árboles de decisión de Microsoft [MIC2009a]

El algoritmo de árboles de decisión de Microsoft es un algoritmo de clasificación y regresión proporcionado por Microsoft SQL Server Analysis Services para el modelado de predicción de atributos discretos y continuos.
Para los atributos discretos, el algoritmo hace predicciones basándose en las relaciones entre las columnas de entrada de unconjunto de datos. Utiliza los valores, conocidos como estados, de estas columnas para predecir los estados de una columna que se designa como elemento de predicción. Específicamente, el algoritmo identifica las columnas de entrada que se correlacionan con la columna de predicción. Por ejemplo, en un escenario para predecir qué clientes van a adquirir probablemente una bicicleta, si nueve de diezclientes jóvenes compran una bicicleta, pero sólo lo hacen dos de diez clientes de edad mayor, el algoritmo infiere que la edad es un buen elemento de predicción en la compra de bicicletas. El árbol de decisión realiza predicciones basándose en la tendencia hacia un resultado concreto.
Para los atributos continuos, el algoritmo usa la regresión lineal para determinar dónde se divide un árbol dedecisión.
Si se define más de una columna como elemento de predicción, o si los datos de entrada contienen una tabla anidada que se haya establecido como elemento de predicción, el algoritmo genera un árbol de decisión independiente para cada columna de predicción.

Cómo funciona el algoritmo

El algoritmo de árboles de decisión de Microsoft genera un modelo de minería de datos mediante lacreación de una serie de divisiones en el árbol. Estas divisiones se representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una columna de entrada tiene una correlación significativa con la columna de predicción. La forma en que el algoritmo determina una división varía en función de si predice una columna continua o una columna discreta.

El algoritmo deárboles de decisión de Microsoft utiliza la selección de características para guiar la selección de los atributos más útiles. Todos los algoritmos de minería de datos de Analysis Services utilizan la selección de características para mejorar el rendimiento y la calidad del análisis. La selección de características es importante para evitar que los atributos irrelevantes utilicen tiempo deprocesador. Si se utilizan demasiados atributos de predicción o de entrada al diseñar un modelo de minería de datos, el modelo puede tardar mucho tiempo en procesarse o incluso quedarse sin memoria. Entre los métodos que se usan para determinar si hay que dividir el árbol figuran métricas estándar del sector para la entropía y las redes Bayesianas.
Un problema común de los modelos de minería dedatos es que el modelo se vuelve demasiado sensible a las diferencias pequeñas en los datos de entrenamiento, en cuyo caso se dice que está sobreajustado o sobreentrenado. Un modelo sobreajustado no se puede generalizar a otros conjuntos de datos. Para evitar sobreajustar un conjunto de datos determinado, el algoritmo de árboles de decisión de Microsoft utiliza técnicas para controlarel crecimiento del árbol.

Predecir columnas discretas

La forma en que el algoritmo de árboles de decisión de Microsoft genera un árbol para una columna de predicción discreta puede mostrarse mediante un histograma. La Figura 1 muestra un histograma que traza una columna de predicción, Comprador, con una columna de entrada, Edad. El histograma muestra que la edad de una persona ayuda a...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Ingeniería Infórmatica Y Sistemas
  • estudiante ingenieria de sistemas
  • Estudiante de ingenieria en sistemas
  • Estudiante ingenieria en sistemas
  • Estudiante De Ingenieria De Sistemas
  • ¿Que es la ingenieria en sistemas y porque estudiarla?
  • Por Que Estudiar Ingeniería Industrial Y De Sistemas
  • Deserción de estudiantes de la facultad de ingeniería en sistemas

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS