Analisis De Datos En Weka Pruebas De Selectividad
Selectividad
María García Jiménez
Aránzazu Álvarez Sierra
Ingeniería de Telecomunicación
Universidad Carlos III
Ingeniería de Telecomunicación
Universidad Carlos III
100025080@alumnos.uc3m.es
100025202@alumnos.uc3m.es
RESUMEN
En este trabajo vamos a utilizar la herramienta de
minería de datos WEKA para analizar el contenido de
un fichero .arff, quecontiene las muestras
correspondientes a 18802 alumnos presentados a las
pruebas de selectividad y los resultados obtenidos en
las pruebas.
Categorías
Asignatura
y
Descripción
de
la
H.2.8 Database Applications [Database Management]:
Data mining.
Términos Generales.
Algoritmos, diseño, experimentación, teoría.
Palabras Claves
Aprendizaje, algoritmo, modelo, predicción.
1. INTRODUCCIÓN
WEKA(Waikato Environment for Knowledge
Analysis) es una herramienta que permite la
experimentación de análisis de datos mediante la
aplicación, análisis y evaluación de las técnicas más
relevantes de análisis de datos, principalmente las
provenientes del aprendizaje automático, sobre
cualquier conjunto de datos del usuario.
El fichero de datos seleccionado contiene datos
provenientes del campo de laenseñanza,
correspondientes a alumnos que realizaron las pruebas
de selectividad en los años 1993-2003 procedentes de
diferentes centros de enseñanza secundaria de la
comunidad de Madrid. Los datos de cada alumno
contienen la siguiente información: año, convocatoria,
localidad del centro, opción cursada (entre 5 posibles),
calificaciones parciales obtenidas en lengua, historia,
idioma y las tresasignaturas opcionales, así como la
designación de las asignaturas de idioma y las 3
opcionales cursadas, calificación en el bachillerato,
calificación final y si el alumno se presentó o no a la
prueba.
Algunos de los análisis que podemos llevar a cabo con
esta herramienta puede ser el relacionar los resultados
obtenidos en las pruebas con las características o
perfiles de los estudiantes, cuáles sonlas características
comunes de aquellos alumnos que superan las pruebas,
hay diferencias en los resultados obtenidos según las
opción elegida, las localidades de las que proceden,…
2. DESARROLLO Y RESULTADOS
2.1 Preprocesado de los Datos
2.1.1 Filtros de Atributos
WEKA permite realizar manipulaciones sobre los datos
aplicando filtros. Se pueden aplicar en dos niveles:
atributos e instancias.Además las operaciones de
filtrado pueden aplicarse en cascada, de forma que la
entrada de cada filtro es la salida de haber aplicado el
anterior filtro.
Vamos a aplicar sólo filtros no supervisados sobre
atributos, donde las operaciones son independientes del
algoritmo análisis. El resultado de estos filtros nos
servirá de ayuda para el resto de aplicaciones de la
herramienta.
De entre todos losfiltros que hay implementados en
esta sección, hemos decidido aplicar sobre nuestros
datos los filtros “Remove” y “Discretize”, que eliminan
atributos
y discretizan
atributos
numéricos,
respectivamente.
! “Remove”: vamos a proceder a eliminar los
atributos correspondientes a las calificaciones parciales
y la calificación final, quedando únicamente como
calificaciones las notas de bachillerato y la deselectividad.
! “Discretize”: Este filtro transforma los atributos
numéricos seleccionados en atributos simbólicos, con
una serie de etiquetas que resultan de dividir la
amplitud total del atributo en intervalos. Por ejemplo,
una vez aplicado el filtro anterior, si dividimos las
calificaciones en 4 intervalos de igual frecuencia,
obtenemos los rangos delimitados por (4, 4.8, 5.76).
Podemos observarcomo el 75% de los alumnos
alcanza la nota de compensación, el 50% está entre 4 y
5.755, y el 25% obtiene una nota a partir del 5.755.
2.2 Visualización
La herramienta de visualización de WEKA permite
representar gráficas 2D que relacionan pares de
atributos. Podemos visualizar en la figura 1 el rango de
calificaciones finales de los alumnos entre 1993 y
2003, especificando como color para la...
Regístrate para leer el documento completo.