Tellopo

Páginas: 7 (1745 palabras) Publicado: 16 de abril de 2012
Introducción

Los árboles de clasificación (también llamados de decisión o de identificación) constituyen una aproximación radicalmente distinta a todas las estudiadas hasta el momento. Es uno de los métodos de aprendizaje inductivo supervisado no paramétrico más utilizado. Como forma de representación del conocimiento, los árboles de clasificación destacan por su sencillez. A pesar de quecarecen de la expresividad de las redes semánticas o de la lógica de primer orden, su dominio de aplicación no está restringido a un ámbito concreto sino que pueden utilizarse en diversas áreas: diagnóstico médico, juegos, predicción meteorológica, control de calidad, etc.
Un árbol de clasificación es una forma de representar el conocimiento obtenido en el proceso de aprendizaje inductivo. Puedeverse como la estructura resultante de la partición recursiva del espacio de representación a partir del conjunto (numeroso) de prototipos. Esta partición recursiva se traduce en una organización jerárquica del espacio de representación que puede modelarse mediante una estructura de tipo árbol. Cada nodo interior contiene una pregunta sobre un atributo concreto (con un hijo por cada posible respuesta)y cada nodo hoja se refiere a una decisión (clasificación).
La clasificación de patrones se realiza en base a una serie de preguntas sobre los valores de sus atributos, empezado por el nodo raiz y siguiendo el camino determinado por las respuestas a las preguntas de los nodos internos, hasta llegar a un nodo hoja. La etiqueta asignada a esta hoja es la que se asignará al patrón a clasificar.Entre los clasificadores basados en árboles descritos en la literatura (ID3, C4, C4.5, árboles Bayesianos, etc.) estudiaremos CART (acrónimo de Classification And Regression Trees o árboles de clasificación y regresión), propuesto por Breiman y otros en [B.1]. Las diferencias principales entre los distintos algoritmos de construcción de árboles de decisión radican en las estrategias de poda y en laregla adoptada para particionar nodos. Así, CART se caracteriza, fundamentalmente, por realizar particiones binarias y por utilizar una estrategia de poda basda en el criterio de coste-complejidad. Entre las dos aplicaciones de CART (clasificación y regresión) nos centraremos exclusivamente en la primera.
La metodología a seguir puede resumirse en dos pasos, y se esquematiza en la figura 70:
1.Aprendizaje. Consiste en la construcción del árbol a partir de un conjunto de prototipos, S. Constituye la fase más compleja y la que determina el resultado final. A esta fase dedicamos la mayor parte de nuestra atención.
2.
Clasificación. Consiste en el etiquetado de un patrón, X, independiente del conjunto de aprendizaje. Se trata de responder a las preguntas asociadas a los nodosinteriores utilizando los valores de los atributos del patrón X. Este proceso se repite desde el nodo raíz hasta alcanzar una hoja, siguiendo el camino impuesto por el resultado de cada evaluación.

  
|Figura 70: Aprendizaje y clasificación con un árbol de decisión |
|[pic]|

 
[pic]

Ejemplo
Ilustraremos con un sencillo ejemplo cómo puede utilizarse un árbol de decisión. El problema a resolver es el siguiente: se trata de decidir si vamos a jugar al tenis dependiendo de las condiciones atmosféricas siguientes: nubosidad, humedad y viento3.
Considerando un conjunto de aprendizaje en el que los patrones están compuestos por atributoscategóricos y la clase cierta asociada es Si o No, algunos de estos prototipos serán:
• {Nubosidad=despejado, Humedad = normal, viento=débil, Si}
• {Nubosidad=despejado, Humedad = alta, viento=débil, No}
• {Nubosidad=nublado, Humedad = normal, viento=débil, Si}
• {Nubosidad=lluvioso, Humedad = normal, viento=débil, No}
.........
y el árbol de decisión construído es el mostrado en la...
Leer documento completo

Regístrate para leer el documento completo.

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS