data mining

Páginas: 19 (4682 palabras) Publicado: 25 de noviembre de 2014
Practica 1
Minería de Datos


Introducción
En el presente informe se estudiará el funcionamiento de seis métodos de minería de
datos para cinco datasets distintos. A su vez se utilizaran estos métodos en conjunto con
técnicas de selección de características y técnicas de selección de instancias. Para este
estudio se realizara se realizará un estudio de los datasets siguiendo el siguienteformato:
1. Visualización: En esta etapa se pretende buscar información de los datasets
mediante la visualización de la relación de sus atributos.
2. Análisis sin procesamiento: En esta etapa se implementarán los métodos de
minería de datos a los datasets en bruto, es decir, sin ningún tipo de alteración en
estos.
3. Selección de características: En esta etapa se implementarán distintostipos de
métodos de selección de características para así eliminar atributos que puedan ser
contraproducentes en los datasets y ver cómo afecta este cambio en los resultados
obtenidos previamente.
4. Selección de instancias: En esta etapa se implementarán distintos tipos de
métodos de selección de instancias, para así procesar los datasets y estudiar los
cambios en el resultado que estoproduce.
5. Combinación instancias y características: En esta etapa se pretende utilizar la
mejor técnica de selección de características con la mejor técnica de selección de
instancias.
Una vez realizados los cinco pasos descritos anteriormente se compararán los distintos
resultados obtenidos para cada una de las distintas alternativas y se verá cual método es
el que funciona mejor para abordarlos cinco datasets en estudio.
Los datasets en estudio son los siguientes:

Glass
Viña llevó a cabo una prueba de comparación de su sistema basado en normas,
beagle, el algoritmo del vecino más próximo, y el análisis discriminante .

Page-Blocks
Los 5.473 ejemplos provienen de 54 documentos distintos. Cada observación se
refiere a una cuadra. Todos los atributos son numéricos.

VehicleEl propósito es clasificar una silueta dado como uno de los cuatro tipos de vehículo,
utilizando un conjunto de características extraídas de la silueta. El vehículo puede ser visto
desde uno de los muchos ángulos diferentes.

Wisconsin Breast Cancer
Las características se calculan a partir de una imagen digitalizada de un aspirado
con aguja fina (PAAF) de una masa en la mama. Se describencaracterísticas de los núcleos
de las células presentes en la imagen.

Sonar
El archivo “sonar.mines” contiene 111 patrones obtenidos haciendo rebotar señales
de sonar fuera de un cilindro de metal en varios ángulos y en diversas condiciones. Los "
sonar.rocks " archivo contiene 97 patrones obtenidos de rocas en condiciones similares.
La señal transmitida por sonar es un sonido de frecuenciamodulada aumentado
enfrecuencia. El conjunto de datos contiene señales obtenidas a partir de una variedad de
diferentes ángulos de aspecto, que abarca 90 grados para el cilindro y 180 grados para la
roca.

Visualización
Glass
Al visualizar el dataset Glass se puede ver que este dataset no está parejo, ya que
cuenta con muchos datos de los tipos 1 y 2 y muy pocos datos de los tipos 3,4,5,6y 7, los
datos 1 y 2 triplican o cuadruplican en cantidad a los otros, además hay 0 datos del tipo 4.
Al ver los atributos de este dataset se ve que estos siguen distribuciones parecidas a la
normal o poisson y no se ven a primera vista datos anómalos, excepto en el atributo 6
correspondiente a K, en el cual se ve que hay dos valor muy fuera del rango en el que se
encuentran los otros datos,por lo que en este caso se debería consultar a un experto si
dichos datos son erróneos.

Figura 1:

Al ver la relación entre los atributos de Glass no se puede diferenciar a primera vista
una combinación de datos que permita obtener información de que atributo puede ser
relevante para la solución del problema.

Page-blocks
Al visualizar el dataset Page-blocks lo primero que se nota es...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Data Mining
  • Data Mining
  • data mining
  • Data mining
  • Data Mining
  • DATA MINING
  • Data Mining
  • Data Mining

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS