Hola hola

Solo disponible en BuenasTareas
  • Páginas : 4 (835 palabras )
  • Descarga(s) : 0
  • Publicado : 26 de noviembre de 2010
Leer documento completo
Vista previa del texto
Material Necesario: Todo el material necesario para las prácticas, son un IDE de Java para la programación. Weka como herramienta de minería de datos y Lucene como manejador de la colección dedocumentos a indexar y procesar. Todo el material lo podréis encontrar en la página web de la asignatura de minería de datos web.
Todas las prácticas se realizan con los ficheros de pruebamini_20newsgroups. Estos news los encontrareis clasificados por carpetas en el fichero comprimido en la sección de prácticas de la página web de la asignatura. Todos los news son ficheros de texto y la clase a la quecorresponden es el nombre de subdirectorio que lo contiene, por ejemplo: alt.atheism, etc. Todas las clases contienen 100 ejemplos o documentos news y tenemos un total de 2000 documentos.
En lasección de prácticas de la página web también podréis encontrar un enlace con código en Java de ejemplo. En él podréis encontrar una clase LuceneToArff.java que hace una posible conversión, utilizandoLucene, a un fichero de datos de weka para realizar las tares de minería de datos. Es necesario notar, que cierto preprocesamiento de los documentos es necesario realizarlo con Lucene y convertirlodespués a un fichero arff de weka para realizar las tareas correspondientes, como por ejemplo si queremos realizar una representación de los documentos en el modelo vectorial basado en TF-IDF (normalizado ono).
Proceso: Se parte de una base de datos documental (20NG), partiendo de la clase LuceneToArff.java se generaran las bases de datos necesarias para la realización de las prácticas. Al menosnecesitamos 3 tipos de bases de datos; la primera una base de datos basadas en frecuencias de aparición de los términos en los documentos, una segunda basada en la representación vectorial TF-IDFnormalizado, y una tercera con una representación binaria (esta última se puede obtener mediante un filtro en weka a partir de alguna de las anteriores). Hemos de tener en cuenta, también, que la variable...
tracking img