fmimn

Páginas: 25 (6167 palabras) Publicado: 18 de marzo de 2013
Minería de datos
WEKA

Susana Medina Gordillo
Escuela de Ingeniería de Sistemas y Computación
Universidad del Valle

Introducción
Qué es WEKA?
Corresponde a las siglas en inglés de Waikato Environment for Knowledge Analysis. Es
una herramienta de software desarrollada en Java por la Universidad de Wakaito (Nueva
Zelanda). Esta herramienta contiene principalmente algoritmos de machineLearning
usados en el proceso de la minería de datos. WEKA incluye herramientas para el preprocesamiento de los datos (filtros), clasificación (árboles, tablas), clustering, reglas de
asociación y adicionalmente, diversas formas de visualización de los datos, tanto en el
inicio del proceso de carga de datos, como después de haber aplicado un algoritmo.
Al estar cubierta con la licencia GNU, esposible usar directamente las implementaciones
en Java de los algoritmos y unirlos a otros tipos de software, para crear procesos de
minería semi-automatizados.

Figura 1: Interfaz de WEKA con un archivo cargado.

Instalación
Las últimas versiones estables (3.6 y 3.4) se pueden descarga del sitio web:
http://www.cs.waikato.ac.nz/ml/weka/ donde están para diversos sistemas operativos
comoWindows (arquitecturas x86 y x64), Mac OS X y distribuciones Linux.
Independientemente del sistema usado. WEKA utiliza la máquina virtual de Java, por lo

cual la versión que se descargue debe contener el JRE (Java Runtime Environment) sobre
el cual se ejecuta. Si ya está instalado previamente se puede utilizar para la instalación
una versión sin el JRE (son más livianas). También estádisponible en la página web, la
versión de desarrollo (3.7 hasta el momento), sobre la cual van corrigiendo bugs y
añadiendo nuevas funcionalidades.
Windows
En la página oficial, al igual que en muchos otros sitios, el instalador de WEKA es un
ejecutable. Se debe escoger la versión acorde con la arquitectura del Windows, ya sea
x86 ó x64. Una vez se sigan las instrucciones del programa deinstalación ( Figura 2) y se
finalicen (Figura 3), inmediatamente se puede comenzar a utilizar WEKA (Figura 4).

Figura 2: Instalador de Weka 3.6.5 para Windows.

Figura 3: Instalación terminada.

Figura 4: GUI de Weka en Windows 7.

Linux
Para los equipos que cuenten con cualquier distribución Linux, las versiones disponibles
en la página oficial brindan un archivo .zip que sólo contiene aWEKA. El entorno de
Java (JRE) se debe haber instalado previamente. Después de descomprimir el .zip, se
puede ejecutar directamente usando el comando:
java -jar weka.jar

En la distribución Ubuntu, además de la instalación directa del . zip, se puede instalar
desde los repositorios (la versión 3.6), como se muestra en la Figura 5, abriendo el
Gestor de paquetes Synaptic y buscando por elnombre de “weka” el paquete
correspondiente.

Figura 5: Versión 3.6 de Weka de repositorios para instalar en la distribución Ubuntu.

Preprocesamiento de datos
Esta etapa es siempre la más dispendiosa y por ende la que consume el mayor tiempo en
el desarrollo de un proyecto de minería de datos. Aproximadamente el 70% o más de la
duración estimada de un proyecto, se gasta en el análisis dedatos. Sin embargo, al
hacer la planeación es común encontrar que al preprocesamiento no se le asigna un
tiempo adecuado.
El preprocesamiento de datos abarca procesos de extracción, limpieza e integración.
Algunas veces también se deben hacer cálculos, a partir de los datos dados, para
obtener otros nuevos más interesantes que se puedan incluir en los estudios de minería.
No existe un ordenexacto para estos procesos, ni un número de veces a realizar cada
uno de ellos, tras los cuales se pueda afirmar que se finalizó esta etapa. Por el
contrario, todo depende del tipo y la naturaleza de los datos que se están tratando, al
igual que la forma en que se van ejecutar los algoritmos de minería.
En muchos estudios es usual implementar algún algoritmo (por ejemplo el k-means) e ir...
Leer documento completo

Regístrate para leer el documento completo.

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS