Trabajos_universidad

Páginas: 7 (1572 palabras) Publicado: 23 de agosto de 2013
Informe Laboratorio I
Business Intelligence y Data Mining Financiero

Pregunta 1

Para remover el valor perdido de la columna Nbr_Children se utilizará el Operador "Filter Examples" como se aprecia en la Figura 1:




Y como condiciones de este operador se pondrá en "Condition Class" la condición "attribute_value_filter" y en "Parameter String" la condición "Nbr_Children=?" parafinalmente seleccionar "Invert Filter" y así dejamos fuera estos valores vacíos, como se muestra a continuación:



Pregunta 2

Para transformar la columna Mo_Income en categorías, primero normalizaremos este atributo con el operador Normalize para que Mo_Income quede expresado en desviaciones estándar respecto a su media, y luego utilizando el operador Discretize se especificarán lascaracterísticas de las distintas clasificaciones:






Colocar en tabla x: normalizar Mo_Income con el método Z-transformation



En classes seleccionamos "Edit List" para asignar las características de las distintas clasificaciones:




Pregunta 3
Para generar el atributo Age se tomará el operador Generate Attribute donde en la descripción de la función se debe seleccionar Edit List yespecificar dicho atributo, como se muestra a continuación:










Luego, se normalizó este nuevo atributo mediante el operador Normalize, para dejarlo expresado en desviaciones estándar respecto a su media:



Para finalmente categorizar dicho atributo mediante el operador Discretize, clasificando la edad de los individuos en 4 secciones, como se muestra a continuación:Finalmente obtenemos este resultado, generando un operador para guardar el proceso realizado:


Pregunta 4
Gráfico en que el eje x es Mo_Balance y el eje y es Mo_Expenses, ambos suavizados medianto Logaritmo:



Pregunta 5

Para trabajar con datos faltantes se pueden seguir varios caminos:
Dato real: lo más recomendable, si es costo-beneficioso, es buscar el dato realque se carece, debido a que mantendría la objetividad en la muestra y no afectaría el tamaño de la misma, mejorando así la calidad de los datos sujetos a estudio.
Reemplazar el valor: lo segundo más recomendable en estos casos es reemplazar el valor erróneo o faltante, ya sea estimando el valor real, con el valor medio del atributo en cuestión, con la generación de una submuestra aleatoria, ocon valores determinísticos que defina el usuario (este último no tan efectivo). Con esto no se disminuiría el número de observaciones pero sí se afectaría la calidad de los datos a estudiar.
Ignorar: si se ignora que la base contiene datos vacíos o faltantes, no alteraríamos el número de observaciones ni la calidad de la muestra, pero es muy probable que tengamos problemas al ejecutar ciertosmodelos de B.I., dado que algunos algoritmos son sensibles a los missing values, como por ejemplo, los árboles de decisión.
Además, existen métodos más extremos que disminuyen el número de observaciones contenidas en la muestra y probablemente empeoren la calidad de los datos, y en definitiva, las eventuales conjeturas del estudio. Como los siguientes:
Eliminar Atributo: si existe un atributo condatos faltantes, una opción es sacarlo de la base de datos, pero es un método muy extremo y no siempre recomendable. Este método puede funcionar sólo si existe otro atributo directamente relacionado con el que se pretende eliminar y que sea de mejor calidad. De no ser así, es recomendable no.
Eliminar Tupla: esta acción se podría tomar cuando el valor erróneo o faltante es caracteristico de unasituación que amerite que se quede fuera del estudio. También es poco recomendable, por lo que se insta a estar completamente seguro que dicho registro no es relevante para el estudio.
Para profundizar en las ventajas y desventajas de estos métodos, nos centraremos en el Reemplazo de valores faltantes, debido a que es el método que aquí se recomienda (en caso de no tener acceso al dato real):...
Leer documento completo

Regístrate para leer el documento completo.

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS