Mineria De Datos / Arboles De Decisión
El algoritmo de árboles de decisión de Microsoft es un algoritmo de clasificación y regresión proporciona por MicrosoftSQL ServerAnalysis Services para el modelado de predicción de atributos discretos y continuos.
Para los atributos discretos, el algoritmo hace predicciones basándose en las relaciones entre las columnas de entrada de un conjunto dedatos. Utiliza los valores, conocidos como estados, de estas columnas para predecir los estados de una columna que se designa como elemento de predicción. Específicamente, el algoritmo identifica las columnas de entrada que se correlacionan con la columna de predicción. Por ejemplo, en un escenario para predecir qué clientes van a adquirir probablemente una bicicleta, si nueve de diez clientesjóvenes compran una bicicleta, pero sólo lo hacen dos de diez clientes de edad mayor, el algoritmo infiere que la edad es un buen elemento de predicción en la compra de bicicletas. El árbol de decisión realiza predicciones basándose en la tendencia hacia un resultado concreto.
Para los atributos continuos, el algoritmo usa la regresión lineal para determinar dónde se divide un árbol de decisión.
Sise define más de una columna como elemento de predicción, o si los datos de entrada contienen una tabla anidada que se haya establecido como elemento de predicción, el algoritmo genera un árbol de decisión independiente para cada columna de predicción.
Ejemplo
El departamento de marketing de la empresa Adventure Works Cycles desea identificar las características de los clientes antiguos quepodrían indicar si es probable que realicen alguna compra en el futuro. La base de datos AdventureWorks2008R2 almacena información demográfica que describe a los clientes antiguos. Mediante el algoritmo de árboles de decisión de Microsoft que analiza esta información, el departamento puede generar un modelo que predice si un determinado cliente va a comprar productos, basándose en el estado de lascolumnas conocidas sobre ese cliente, como la demografía o los patrones de compra anteriores.
Cómo funciona el algoritmo
El algoritmo de árboles de decisión de Microsoft genera un modelo de minería de datos mediante la creación de una serie de divisiones en el árbol. Estas divisiones se representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una columna de entrada tiene unacorrelación significativa con la columna de predicción. La forma en que el algoritmo determina una división varía en función de si predice una columna continua o una columna discreta.
El algoritmo de árboles de decisión de Microsoft utiliza la selección de características para guiar la selección de los atributos más útiles. Todos los algoritmos de minería de datos de Analysis Services utilizan laselección de características para mejorar el rendimiento y la calidad del análisis. La selección de características es importante para evitar que los atributos irrelevantes utilicen tiempo de procesador. Si utiliza demasiados atributos de predicción o de entrada al diseñar un modelo de minería de datos, el modelo puede tardar mucho tiempo en procesarse o incluso quedarse sin memoria. Entre losmétodos que se usan para determinar si hay que dividir el árbol figuran métricas estándar del sector para la entropía y las redes Bayesianas. Para obtener más información sobre los métodos que se usan para seleccionar los atributos significativos y, a continuación, puntuarlos y clasificarlos, vea Selección de características en minería de datos.
Un problema común de los modelos de minería de datos esque el modelo se vuelve demasiado sensible a las diferencias pequeñas en los datos de entrenamiento, en cuyo caso se dice que está sobreajustado o sobreentrenado. Un modelo sobreajustado no se puede generalizar a otros conjuntos de datos. Para evitar sobreajustar un conjunto de datos determinado, el algoritmo de árboles de decisión de Microsoft utiliza técnicas para controlar el crecimiento...
Regístrate para leer el documento completo.