Minado de datos relacionales
INGENIERÍA EN SISTEMAS COMPUTACIONALES
UNIDAD 4. MINADO DE DATOS RELACIONALES
ÍNDICE
Unidad 4
Minado de datos relacionales
4.1 Pre-procesamiento 3
4.2 reglas de asociación relacional 9
4.3 Árboles de decisión relacionales 13
Unidad 4
Minado de datosrelacionales
4.1 Pre-procesamiento
PRE-PROCESAMIENTO DE DATOS
Consiste en la preparación previa de los datos para ser usados por la construcción, entrenamiento y prueba de un modelo de red neuronal.
Alguno de los problemas más comunes en la preparación de los datos es la mezcla de variables continuas y discretas.
a) Debe hacerse una definición previa para el conjunto devariables.
Binarias sexo, estado civil, temperatura.
La preparación de los datos de entrada para entrenamiento y pronóstico, contemplaría la disposición de la siguiente manera:
Errores comunes:
Uso de valores continuos para conceptos simbólicos (animal)
Los meses del año representados con valores numéricos del 1 al 12.
b) Otro ejemplode mezcla de datos podría ser la definición de variables atributos a través de variables con valores continuos.
Por ejemplo, supongamos que todas las variables han sido estandarizadas.
Continuos ingreso, edad, altura, temperatura, peso, voltaje, velocidad.
La preparación de los datos de entrada para entrenamiento y pronóstico, contemplaría la disposición de la siguiente manera:Errores comunes:
Mezclar escalas. (toneladas con kgs, años con meses)
Variables con altas variaciones (máximos y mínimos).
c) Usar como patrones de entrada los diferentes períodos que puedan afectar la salida. Un caso concreto sería las series temporales.
Y no hacer lapreparación de la manera que se muestra abajo, ya que sería interminable la preparación de las entradas y por supuesto, la construcción de los modelos de redes neuronales.
d) Un excesivo número de entradas requiere demasiados casos para entrenamiento, y esto puede conducir a:
1. Arquitectura de redes complejas. Es decir demasiadas entradas con complejasestructuras de datos que implican un gran número de nodos de entrada.
2. Alto consumo de tiempo computacional.
3. Esfuerzo humano excesivo conducente a múltiple pruebas por ensayo y error. Esto hace difícil la interpretación de los resultados.
e) Estado actual en la construcción de las redes neuronales
1. Ensayo y Error. Se ajustan los datos de entrada a los resultados deseados. Muy común enlos modelos físicos que requieren precisión.
2. Adaptación de la arquitectura de la red. La selección del número de capas ocultas y el número de neuronas ocultas sin seguir ningún tipo de criterio.
3. Adaptación a los objetivos. Forzar el modelo a los resultados deseados.
En los algoritmos de entrenamiento supervisado puede reducirse este problema mediante preprocesamiento.
PORQUÉ HACERPREPROCESAMIENTO
Basados en las premisas señaladas en la página anterior, podríamos indicar que las razones fundamentales para hacer el pre-procesamiento son las siguientes.
1. Relación incremental de las horas/hombre en el diseño y construcción de redes neuronales.
2. Carácter de independencia de los datos con la construcción de la red.
3. Un piso estadístico representativo al procesoheurístico de construcción de la red.
De este modo, en un proceso normal, como producto del preprocesamiento, existiría una transformación adicional. Ella es la transformación de los resultados conseguidos a través de la aplicación del modelo construido en valores que puedan ser interpretados físicamente. Esto es post-procesamiento.
Hay que tener presente...
Regístrate para leer el documento completo.