Inteligencia artificial knn-svm
UNIVERSIDAD DE TALCA
FACULTAD DE INGENIERIA
ESCUELA DE BIOINFORMATICA
UNIVERSIDAD DE TALCA
Laboratorio 2 Inteligencia Artificial
Autor: Francisco Vergara Henríquez
Curso: Inteligencia Artificial
Matricula: 2005409031Fecha: 31 de mayo del 2010
Introducción
El problema de clasificación atrabajar hoy está relacionado con el set de datos de
calidad de vino tinto presentado durante el primer laboratorio. Este set de datos cuenta con 11 atributos numéricos más una variable de clase que representa la calidad asignada a cada muestra de vino (valores entre 1 – 10).
Elobjetivo de este laboratorio es analizar el rendimiento que tiene el modelo SVM con dos tipos distintos de kernel, polinomico y gausiano. Para el kernel polinomico se analizaran distintos grados y para el kernel gausiano de utilizaran distintos valores de gamma.
Luego de analizar los el modelo SVM con los dos kernel distintos, se compararan lo resultados obtenidos con los resultados del laboratorioanterior en donde se evaluaron otros modelos distintos como naive bayes, Knn y arboles de decisión y los resultados obtenidos en el paper “Modeling wine preferences by data mining from physicochemical properties”.
Desarrollo
Para comenzar aclararemos algunos conceptos que debemos tener claros en este trabajo:
Sobreajuste: el sobreajuste es el efecto de sobre entrenar un algoritmo deaprendizaje con unos ciertos datos para los que se conoce el resultado deseado.
Desbalance de datos: es cuando entrenamos un modelo y el set de datos posee mchos ejemplos de solo una clase, lo cual entrena al modelo a predecir de ese tipo de clase algunos datos que no lo son, por lo tanto comete errores.
SVM: maquina de vectores de soporte, Método más popular/exitoso del tipo Kernel que es capaz degenerar buenos modelos para múltiples aplicaciones SVM no se centra en producir hipótesis con pocos errores. Mas bien en generar predicciones con mucha confianza.
Aclarado estos puntos podemos continuar con el desarrollo del laboratorio.
Para el modelo SVM comenzaremos analizando el kernel polinomico con grados entre 1 y 5.
En la siguiente tabla se resumen los resultados obtenidos.
* N:corresponde a el grado del polinomio
En esta tabla podemos observar que para el kernel polinomico con valor “5” es donde se obtienen los mejores resultados con un 59.5997 % de instancias clasificadas correctamente y el tiempo que se tarda en generar el modelo es de 8.04 segundos, 1.02 segundos mas lento que para el grado “4”. sin embargo no vamos a considerar este grado polinomico como elmas apto y consideraremos el grado “4” ya que en un análisis no considerado en la tabla con grados polinomicos 6 y 10 se observo que el tiempo de creación del modelo subía considerablemente pero el porcentaje de instancias clasificadas correctamente no sobrepasaba el 59% por lo tanto es aquí donde podemos observar un sobre ajuste del modelo.
En este gráfico se observa que para el grado “1” haymayor porcentaje de clasificación que para el grado “2” pero desde el grado “3” en adelante el porcentaje comienza a mejorar hasta sobrepasar el 59% para el grado 4 lo cual se considera bueno.
Detalles de precisión por clases y matriz de confusión.
En la tabla de precisión por clases se observa que la mayor cantidad de verdaderos positivos corresponde a la clase 5, lo que indica que elmodelo es ideal para clasificar vinos de mediana calidad.
Esta matriz de confusión corresponde al modelo SVM con grado polinomico “4” que es el grado considerado como mas apto.
Aquí podemos ver que para la clase “a, b, c, j y k” no existen datos, lo que quiere decir que
no existen vinos muy bueno y tampoco existen vinos tan malos, todo se concentra en las calidades medias.
Otra cosa que...
Regístrate para leer el documento completo.