Hola hola
Todas las prácticas se realizan con los ficheros de pruebamini_20newsgroups. Estos news los encontrareis clasificados por carpetas en el fichero comprimido en la sección de prácticas de la página web de la asignatura. Todos los news son ficheros de texto y la clase a la quecorresponden es el nombre de subdirectorio que lo contiene, por ejemplo: alt.atheism, etc. Todas las clases contienen 100 ejemplos o documentos news y tenemos un total de 2000 documentos.
En lasección de prácticas de la página web también podréis encontrar un enlace con código en Java de ejemplo. En él podréis encontrar una clase LuceneToArff.java que hace una posible conversión, utilizandoLucene, a un fichero de datos de weka para realizar las tares de minería de datos. Es necesario notar, que cierto preprocesamiento de los documentos es necesario realizarlo con Lucene y convertirlodespués a un fichero arff de weka para realizar las tareas correspondientes, como por ejemplo si queremos realizar una representación de los documentos en el modelo vectorial basado en TF-IDF (normalizado ono).
Proceso: Se parte de una base de datos documental (20NG), partiendo de la clase LuceneToArff.java se generaran las bases de datos necesarias para la realización de las prácticas. Al menosnecesitamos 3 tipos de bases de datos; la primera una base de datos basadas en frecuencias de aparición de los términos en los documentos, una segunda basada en la representación vectorial TF-IDFnormalizado, y una tercera con una representación binaria (esta última se puede obtener mediante un filtro en weka a partir de alguna de las anteriores). Hemos de tener en cuenta, también, que la variable...
Regístrate para leer el documento completo.