Comparación y analisis de tres algoritmos de clustering por medio de la herramienta Weka recuperado
1. Fecha de Presentación: 27 de Febrero de 2014
2. Identificación del Estudiante:
a. Código:
1.033.704.136
b. Nombre:
Jennifer Tatiana Acosta
c. Teléfono:
3102422814
d. Carrera:
Ingeniería de sistemas
e. Firma:
f. Semillero/grupo de investigación/Área de Conocimiento al que pertenece el
proyecto: Sistemas Inteligentes de y de Información Espacial (SIGA)
g. Línea:
Minería de datos
3. Director Sugerido:
Wilson Soto
4. Título:
“COMPARACIÓN Y ANÁLISIS DE TRES DIFERENTES ALGORITMOS DE
AGRUPAMIENTO.”
5. Identificación del Problema.
En el mundo actual la información es un recurso muy importante para la actividad
humana, el gran crecimiento de los datos ha generado la necesidad del manejo de grandes volúmenes de estos, con el fin de responder a determinados problemas. Con
la minería de datos se da lugar al descubrimiento de información útil a partir de bases
de datos, con lo cual contribuye a la toma de decisiones tácticas y estratégicas en
diferentes áreas como finanzas, análisis de mercado, medicina, biología, química,
telecomunicaciones entre otras. Esto lo realiza mediante las tareas propias de la
minería como: agrupamiento, clasificación, regresión, etc.
El agrupamiento de datos o clustering tiene como objetivo encontrar asociaciones de tal
forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos
deotros grupos.
Teniendo en cuenta lo anterior y de lo importante que es la minería de datos en nuestro
mundo actual, la presente investigación pretende hacer la comparación con diferentes
conjuntos de datos utilizando algunos de los algoritmos más importantes de
agrupamiento como son Kmeans, Cobweb y EM(expectation–maximization). En la
actualidad no se cuenta con un estudio específico que de alguna sugerencia de cual usar en un determinado conjunto de datos.
6. Antecedentes y Justificación.
En [1] se realiza la comparación de dos técnicas de minería de datos, como árboles de
asociación y reglas de asociación, las cuales son tareas propias de la clasificación de
datos, allí se analizan determinados criterios para la comparación y así mismo se
generan las respectivas pruebas como, velocidad de ejecución, precisión para
clasificación de los datos, precisión para la predicción de datos futuros, escalabilidad y
robustez. Para la ejecución de los algoritmos de clasificación, se utilizó la herramienta
WEKA, donde los datos de salida, fueron usados para hacer las respectivas pruebas
de comparación.
En [2] usan tres algoritmos de agrupamiento para la estimación del costo de un
software. Los algoritmos que usan son Kmeans (Clustering particional), Cobweb
(Clustering jerárquico) y EM (Clustering probabilístico). En este trabajo se hace la
comparación de los algoritmos mediante un análisis de los resultados obtenidos por la
herramienta WEKA y así se determina cual es el algoritmo más apropiado para
mejorar la estimación del costo de un software. No obstante el trabajo no muestra un
marco extenso |de evaluación de los resultados.
En [3] se estudian los diferentes algoritmos de agrupamiento contenidos en la
herramienta WEKA, con el fin de mostrar las ventajas y desventajas entre estos y mostrar cuál sería el algoritmo más adecuado para un conjunto de datos en un dominio
específico. La comparación la hacen tomando los resultados que arroja la herramienta
después de ejecutar cada uno de los algoritmos, finalmente se hace un análisis a
manera cualitativa y se determina cuál de los algoritmos es el más apropiado para un
determinado conjunto de datos
. ...
Regístrate para leer el documento completo.