AnteproyectoAlexanderFerronPerez

Páginas: 7 (1721 palabras) Publicado: 16 de abril de 2015
Anteproyecto de Trabajo Fin de Carrera

Desarrollo de algoritmos evolutivos para la selección de instancias en Minería de
Datos sobre Weka

Alexander Ferrón Pérez

Ingeniería en Informática
Escuela Técnica de Ingeniería Informática
Universidad de Alcalá
alexander.ferron@edu.uah.es

Palabras Clave: Minería de datos, selección de instancias, Weka, prototipo, conjunto de formación.

1.Introducción
Los avances en la tecnología digital y las computadoras han llevado a la gran
expansión de Internet, esto significa que cantidades masivas de información y
colecciones de datos tienen que ser procesados. Las investigaciones científicas que van
desde la astronomía al genoma humano natural se enfrentan al mismo problema de como
hacer frente a grandes cantidades de información. Los datos en bruto seutilizan
raramente de forma directa y simplemente el análisis manual no puede seguir el rápido
crecimiento de los datos. El Descubrimiento de conocimiento sobre base de datos
( KDD) y la minería de datos ( DM ) pueden ayudar a lidiar con este problema (Cano et
al 2003).
Entendemos por KDD como el proceso no trivial de identificar patrones válidos,

novedosos potencialmente útiles y en últimainstancia comprensible a partir de los datos
(Fayyad et al. 1996). Podemos definir varias etapas dentro del KDD:
1. Determinar las fuentes de información que puedan ser útiles y dónde
conseguirlas.
2. Diseñar el esquema de un almacén de datos que consiga unificar de manera
operativa toda la información recogida.
3. Implantación del almacén de datos que permita la “navegación” y
visualización previa desus datos, para discernir qué aspectos puede interesar que
sean estudiados.
4. Selección, limpieza y transformación de los datos que se van a analizar. La
selección incluye tanto una criba o fusión horizontal ( filas ) como vertical
(atributos).
5. Seleccionar y aplicar el método de minería de datos apropiado.
6. Interpretación, transformación y representación de los patrones extraídos.
7.Difusión y uso del nuevo conocimiento.

Las primeras fases del KDD determinan que las fases sucesivas sean capaces de extraer
conocimiento válido y útil a partir de la información original (Hernández et al 2004).

La Minería de Datos es una disciplina perteneciente a las ciencias e ingenierías de la

computación que se incluye como un paso más en el Descubrimiento de Conocimiento en
Bases de Datos(KDD). Este descubrimiento engloba todo el proceso de búsqueda de
conocimiento incluyendo la extracción de información, la preparación de los datos y la
interpretación de los resultados obtenidos. El Descubrimiento de Conocimiento en Bases de
Datos se ha definido como el proceso no trivial de identificación en los datos de patrones
válidos, nuevos, potencialmente útiles, y finalmente comprensibles.Dentro de este proceso
la Minería de Datos se ha centrado en la parte previa a la extracción de conocimiento, siendo
la parte encargada de aplicar algoritmos para extraer modelos o patrones desde los datos.
(Fayyad et al., 1996).
En todo proceso de la minería de datos, el ser humano es el factor más importante, ya que
sólo él tiene la capacidad de analizar y decidir se los patrones, normas ofunciones
encontrados tienen importancia, pertinencia y utilidad para el objetivo final (Larieta et al.
2000).
Las técnicas de Minería de Datos se clasifican en dos grandes categorías: supervisadas o
predictivas y no supervisadas o descriptivas:

Una técnica constituye el enfoque conceptual para extraer la información de los datos, y en
general es implementada por varios algoritmos. Cada algoritmorepresenta, en la práctica, la
manera de desarrollar una determinada técnica paso a paso, de forma que es preciso un
entendimiento de alto nivel de los algoritmos para saber cual es la técnica más apropiada
para cada problema. Asimismo es preciso entender los parámetros y las características de los
algoritmos para preparar los datos a analizar ( Molina et al. 2006).
Dentro del KDD la fase de pre...
Leer documento completo

Regístrate para leer el documento completo.

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS