Sistemas

Páginas: 27 (6715 palabras) Publicado: 8 de marzo de 2013
Minería de datos WEKA

Susana Medina Gordillo Escuela de Ingeniería de Sistemas y Computación Universidad del Valle

Introducción
Qué es WEKA?
Corresponde a las siglas en inglés de Waikato Environment for Knowledge Analysis. Es una herramienta de software desarrollada en Java por la Universidad de Wakaito (Nueva Zelanda). Esta herramienta contiene principalmente algoritmos de machineLearning usados en el proceso de la minería de datos. WEKA incluye herramientas para el preprocesamiento de los datos (filtros), clasificación (árboles, tablas), clustering, reglas de asociación y adicionalmente, diversas formas de visualización de los datos, tanto en el inicio del proceso de carga de datos, como después de haber aplicado un algoritmo. Al estar cubierta con la licencia GNU, es posibleusar directamente las implementaciones en Java de los algoritmos y unirlos a otros tipos de software, para crear procesos de minería semi-automatizados.

Figura 1: Interfaz de WEKA con un archivo cargado.

Instalación
Las últimas versiones estables (3.6 y 3.4) se pueden descarga del sitio web: http://www.cs.waikato.ac.nz/ml/weka/ donde están para diversos sistemas operativos como Windows(arquitecturas x86 y x64), Mac OS X y distribuciones Linux. Independientemente del sistema usado. WEKA utiliza la máquina virtual de Java, por lo

cual la versión que se descargue debe contener el JRE (Java Runtime Environment) sobre el cual se ejecuta. Si ya está instalado previamente se puede utilizar para la instalación una versión sin el JRE (son más livianas). También está disponible en lapágina web, la versión de desarrollo (3.7 hasta el momento), sobre la cual van corrigiendo bugs y añadiendo nuevas funcionalidades. Windows En la página oficial, al igual que en muchos otros sitios, el instalador de WEKA es un ejecutable. Se debe escoger la versión acorde con la arquitectura del Windows, ya sea x86 ó x64. Una vez se sigan las instrucciones del programa de instalación (Figura 2) y sefinalicen (Figura 3), inmediatamente se puede comenzar a utilizar WEKA (Figura 4).

Figura 2: Instalador de Weka 3.6.5 para Windows.

Figura 3: Instalación terminada.

Figura 4: GUI de Weka en Windows 7.

Linux Para los equipos que cuenten con cualquier distribución Linux, las versiones disponibles en la página oficial brindan un archivo .zip que sólo contiene a WEKA. El entorno de Java(JRE) se debe haber instalado previamente. Después de descomprimir el .zip, se puede ejecutar directamente usando el comando: java -jar weka.jar

En la distribución Ubuntu, además de la instalación directa del .zip, se puede instalar desde los repositorios (la versión 3.6), como se muestra en la Figura 5, abriendo el Gestor de paquetes Synaptic y buscando por el nombre de “weka” el paquetecorrespondiente.

Figura 5: Versión 3.6 de Weka de repositorios para instalar en la distribución Ubuntu.

Preprocesamiento de datos
Esta etapa es siempre la más dispendiosa y por ende la que consume el mayor tiempo en el desarrollo de un proyecto de minería de datos. Aproximadamente el 70% o más de la duración estimada de un proyecto, se gasta en el análisis de datos. Sin embargo, al hacer laplaneación es común encontrar que al preprocesamiento no se le asigna un tiempo adecuado. El preprocesamiento de datos abarca procesos de extracción, limpieza e integración. Algunas veces también se deben hacer cálculos, a partir de los datos dados, para obtener otros nuevos más interesantes que se puedan incluir en los estudios de minería. No existe un orden exacto para estos procesos, ni un número deveces a realizar cada uno de ellos, tras los cuales se pueda afirmar que se finalizó esta etapa. Por el contrario, todo depende del tipo y la naturaleza de los datos que se están tratando, al igual que la forma en que se van ejecutar los algoritmos de minería. En muchos estudios es usual implementar algún algoritmo (por ejemplo el k-means) e ir realizando variaciones en los parámetros para...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Sistemas
  • Sistemas
  • Sistema
  • Sistemas
  • Sistemas
  • Sistemas
  • Sistemas
  • El sistema

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS