Weka

Solo disponible en BuenasTareas
  • Páginas : 6 (1274 palabras )
  • Descarga(s) : 4
  • Publicado : 6 de junio de 2010
Leer documento completo
Vista previa del texto
Práctica WEKA

Edwar Javier Herrera Osorio Gestión del Conocimiento. UAN

El entorno de trabajo del Weka
Este software ha sido desarrollado bajo licencia GPL lo cual ha impulsado que sea una de las suites más utilizadas en el área en los últimos años. La versión 3.5.8 incluye las siguientes características: Diversas fuentes de datos (ASCII, JDBC). Interfaz visual basado en procesos/flujosde datos (rutas). Distintas herramientas de minería de datos: reglas de asociación (a priori, Tertius) agrupación/segmentación/conglomerado (Cobweb, EM y kmedias), clasificación (redes neuronales, reglas y árboles de decisión, aprendizaje Bayesiona) y regresión (Regresión lineal, SVM..). Manipulación de datos (pick & mix, muestreo, combinación y separación). Combinación de modelos (Bagging,Boosting) Visualización anterior (datos en múltiples gráficas) y posterior (árboles, curvas ROC, curvas de coste). Entorno de experimentos, con la posibilidad de realizar pruebas estadísticas (t-test).

Interface

Como se en la figura anterior en el menú aplicaciones encontramos: Simple CLI: Entorno consola para invocar directamente con java a los paquetes de weka. Explorer: Entorno visual queofrece una interfaz gráfica para el uso de los paquetes. Experimenter: Entorno centrado en la automatización de tareas de manera que se facilite la realización de experimentos a gran escala. KnowledgeFlow: Permite generar proyectos de minería de datos mediante la generación de flujos de información.

Explorer
En esta parte vamos a centrarnos en el entorno Explorer, ya que permite el acceso ala mayoría de las funcionalidades integradas en Weka de una manera sencilla.

6 entornos de ejecución

Preprocess: Incluye las herramientas y filtros para cargar y manipular los datos Classification: Acceso a las técnicas de clasificación y regresión Cluster: Integra varios métodos de agrupamiento Associate: Incluye una pocas técnicas de reglas de asociación Select Attributes: Permite aplicardiversas técnicas para la reducción del número de atributos Visualize: En este apartado podemos estudiar el comportamiento de los datos mediante técnicas de visualización.

Un primer ejemplo: Jugando Tenis
Se van a trabajar con los datos acerca de los días que se ha podido jugar al tenis, dependiendo de diversos aspectos meteorológicos. El objetivo es poder determinar (predecir) si hoypodremos jugar al tenis. Los datos de que disponemos están en el fichero: "weather.arff” y son los siguientes:

Cargamos el proyecto

Choose en Filter,
Realizar un filtrado de atributos. Cambiar el tipo de los atributos (discretizar o numerizar). Realizar muestreos sobre los datos. Normalizar atributos numéricos. Unificar valores de un mismo atributo.

Classify (Algoritmo de Clasificación)Bayes. Métodos basados en el paradigma del aprendizaje de Bayes Funciones. Métodos “matemáticos”: Redes neuronales, regresiones, SVM… Lazy. Métodos que utilizan el paradigma de aprendizaje perezoso, es decir no construyen un modelo Meta. Métodos que permiten combinar diferentes métodos de aprendizaje Trees. Métodos que aprenden mediante la generación de árboles de decisión Rules. Métodos queaprenden modelos que se pueden expresar como reglas.

Classify (Métodos de Validación)
Use training set. Con esta opción Weka entrenará el método con todos los datos disponibles y a posteriori realiza la evaluación sobre los mismos datos. Supplied test set. Con esta opción podemos cargar un conjunto de datos (normalmente diferentes a los de aprendizaje) con los cuales se realizará la evaluaciónCross-validation. Se realiza la evaluación mediante la técnica de validación cruzada. En este caso podemos establecer el número de pliegues a utilizar. Percentage split. Se define un porcentaje con el que se aprende el modelo. La evaluación se realiza con los datos restantes.

Resultados

Un problema de clasificación
En este caso se trata de predecir el tipo de fármaco (drug) que se debe...
tracking img