PROYECTO DE MINERIA
Busqueda de características independientes
(Factorización de matrices no negativas)
AEA(Aplicaciones Empresariales Avanzadas) Grupo SIE
Versión 1.0 09 de mayo de 2009
Proyecto de mineria - NMF
Departamento Economía Financiera, Contabilidad y Marketing
Versión 1.0
INDICE DE CONTENIDO
0. Introducción a la búsqueda de características independientes. 0.1. ¿Quées y para que sirve? 0.2. Ventajas que aporta al Cliente 1. Compresión del Negocio 1.1. Descripción de la naturaleza de los datos 1.2. Objetivos de Minería 2. Compresión de los Datos 2.1. Descripción de la fuente (ficheros, enlaces) 2.2. Verificaciones de los datos, gráficos estadísticos, etc.. 3. Preparación de los Datos 3.1. Descripción sobre la manipulación de los datos 3.2. Vista minabledefinitiva 4. Modelado 4.1. Tipo de tarea de minería a realizar 4.2. Técnica o técnicas utilizadas 5. Evaluación de los resultados 5.1. Análisis de los resultados obtenidos de los modelos 6. Conclusiones del proyecto
Proyecto de mineria - NMF
Grupo SIE
Alumno: Carlos Meseguer Grupo prácticas: Turno L 14:00
Pág. 2
Fecha:09/05/2009
Proyecto de mineria - NMF
Departamento EconomíaFinanciera, Contabilidad y Marketing
Versión 1.0
0. INTRODUCCIÓN INDEPENDIENTES.
A
LA
BÚSQUEDA
DE
CARACTERÍSTICAS
0.1 ¿Qué es y para que sirve?
En este proyecto voy a tratar de extraer de forma automática y no supervisada las características que definen un conjunto de datos. Un ejemplo muy ilustrativo para este acercamiento a la minería es “el efecto de la fiesta ruidosa”, yno es más que interpretar la conversación en una fiesta, en la que muchas personas hablan, hay música y otros ruidos. Nuestra mente es capaz de aislar los diferentes sonidos e identificarlos como cosas diferentes, aunque nuestra “entrada de información” sean solo los oídos. Aplicando los algoritmos con los que vamos a trabajar a este problema, podríamos llegar a diferenciarlos con un ordenador. Eneste caso, voy a trabajar con información sobre películas, estos datos son las sinopsis, críticas,etc de las mismas y el objetivo es lograr aislar los temas de los que tratan con únicamente estos textos.
0.2 Ventajas que aporta al Cliente
Con los resultados de este proceso, podríamos describir mejor las películas de una manera automática. Dando un valor añadido a la información que ya se tienede las mismas. Algunas aplicaciones potenciales que podríamos darle son: generar directorios sin supervisión humana, añadir palabras clave para poder ofrecer resultados más sofisticados para búsquedas o utilizar estos resultados para relacionar las películas y usos en otros procesos útiles para el cliente. 1. COMPRESIÓN DEL NEGOCIO
1.1 Descripción de la naturaleza de los datos
Los datosprovienen de la información disponible acerca de las películas del portal de cine cinecin.com y se componen de la siguiente información: – Sinopsis de la película – Genero de la película – Críticas de la película – Comentarios de los visitantes del portal a la película Aunque es importante tener en cuenta la naturaleza de los mismos, ya que de los cuatro tipos de datos, solo los dos primeros (sinopsisy genero) están disponibles para todas las películas, el resto, son opcionales. Ademas, los comentarios no pasan ningún filtro, por lo que en algunas ocasiones, puedes ser, en principio, irrelevantes.
Proyecto de mineria - NMF
Grupo SIE
Alumno: Carlos Meseguer Grupo prácticas: Turno L 14:00
Pág. 3
Fecha:09/05/2009
Proyecto de mineria - NMF
Departamento Economía Financiera,Contabilidad y Marketing
Versión 1.0
1.2 Objetivos de Minería
El objetivo del proyecto, es generar un numero determinado de características que nos permitan definir los temas de los que tratan las películas. Este numero podemos especificarlo en función de las necesides. Es importante señalar, que definiendo n características, lo que estaríamos haciendo es definir todas las películas en base a...
Regístrate para leer el documento completo.