Tarea 4 Colorado
TRATAMIENTO DE DATOS FALTANTES EN R, RAPIDMINER Y WEKA.
Aplicando técnicas de media, medianas y K vecinos más cercanos
MEDIA
R ProjectRapidminer
Weka
Objetos
(Comando)
census.media=ce.mimp(census,"mean",atr=1:15, nomatr=0)
Retrieve, Declare Missing Value, Replace Missing Values,
Default Model
Rules ZeroR
Funciónmean
Operador average
ZeroR
Aprox. valores faltantes
Reemplaza por decimal
Reemplaza por decimal
Reemplaza por decimal
Detalles
Muestra un resultado de obtención de 2 clases para laprimera 3734 y la segunda 528 datos.
Datos perdidos reemplazados.
3 clases predicciones para el conjunto de datos census.
MEDIANA
R Project
Rapidminer
Weka
Objetoscensus.mediana=ce.mimp(census,"median",atr=1:15,nomatr=c(2,4:10,14,15))
Set Role, Default Model
algoritmo en java
Función
median
Default Model contiene median
P-Median (algoritmo)
Aprox. valoresfaltantes
Reemplazo por entero
Reemplazo por carácter
Reemplazo por carácter
Detalles
R, nos muestra un resultado de obtención de 2 clases para la primera 3734 y la segunda 528 datos.
Realizópredicciones en:
att2, att7, att14 columnas con datos faltantes.
3 clases predicciones para el conjunto de datos census,
Private
Prof-specialty
United-States
K-vecinos cercanosObjetos
census.knvecinos=ec.knnimp(census,k=10)
census.knvecinos=ec.knnimp(census,nomatr=c(2,4:10,14,15),k=10)
Set Role, Validation , Apply Model , K-NN,Perfomance
Lazy - IBK
Funciónec.knnimp
K=10 mixedMeasures - MixedEuclideanDistance
IBK
Detalles
Para el proceso siguiente se debe tomar en cuenta que los atributos nominales se reemplazaron por la moda para elcálculo.
Rapidminer presenta en su pantalla una precisión de 69.74% en Att2, 14.66% en att7, y 89.59 en att14 en predicciones.
Precisión.
Att2 = 64.7%
Att7 = 28.7%
Att14= 83.8
Regístrate para leer el documento completo.