Ingeniero

Páginas: 7 (1733 palabras) Publicado: 21 de marzo de 2014
CLUSTERING.
CLUTO es un paquete de Software para realizar Clustering en conjuntos de datos con baja o alta dimensionalidad en los objetos, además el Software también soporta el análisis de las características de los clústers obtenidos. La herramienta provee tres clases diferentes de algoritmos para Clustering que trabajan en el espacio de características de los objetos, o en el espacio desimilaridad.
CLUTO trabaja con dos diferentes programas tipo stand-alone:
vCluster: V significa vector. El archivo de entrada para el programa consta de una representación multidimensional de los objetos.
sCluster: S significa similaridad. La matriz entrada del programa consta de una matriz de similaridad de los objetos.
Los programas vCluster y sCluster trabajan a través de línea de comandos, yson invocados utilizando la siguiente secuencia:
Nombre_Programa [Parametros Opcionales] Nombre_Archivo Número_Cluster

Funciones Criterio.
Los algoritmos de Clustering usados en CLUTO, tratan el problema como un proceso de optimización, en el cual el criterio de la función es maximizar o minimizar. Las funciones criterio pueden ser clasificadas dentro de cuatro categorías: Interna, Externa,Hibrida, y Funciones criterio basadas en la gráfica. Las seis funciones criterio utilizadas son visualizadas en el cuadro siguiente:



Medidas de similaridad.
Los programas sCluster y vCluster implementados en CLUTO, mide el grado de similaridad entre los objetos utilizando la función coseno, el coeficiente de correlación de Pearson, el coeficiente de Jaccard extendido, o la similaridadderivada de la distancia Euclidiana.
Las medidas de la función coseno y el coeficiente de correlación, indica la similaridad entre dos objetos si los vectores correspondientes apuntan hacia la misma dirección. En el otro lado, la distancia Euclidiana tiene en cuenta la dirección y la magnitud de los objetos. Finalmente el coeficiente de Jaccard, compara el ángulo y la magnitud para poder calcular lasimilaridad.

FORMATOS DE ARCHIVOS EN CLUTO.
CLITO utiliza dos tipos de archivos de entrada, los cuales son: Matrix Format, y, Graph Fomat. Las características de cada formato son descritas a continuación:
Matrix Format: El primer tipo de entrada

http://www.sc.ehu.es/jiwdocoj/remis/docs/GarreAdis05.pdf




9.6. ANALISIS NO SUPERVISADO MEDIANTE EL ENFOQUE CLUSTERING.

El repositoriode datos de incidentes de seguridad informática fue sometido a la evaluación mediante Clustering, que hace parte del enfoque de aprendizaje no supervisado. Para lo anterior, utilizaremos el software open source para análisis de minería de datos WEKA.
Existen doce algoritmos implementados en WEKA para realizar Clustering; para lo cual fue necesario evaluar los algoritmos para el dominio deinvestigación actual y encontrar el que mejor se adapte al repositorio de datos. El paper Comparación de diferentes algoritmos de Clustering en la estimación de coste en el desarrollo de Software1, compara la ejecución de los algoritmos COBWEB, EM, y, K-medias, para realizar el proceso Clustering a información sobre distintos proyectos de Software clasificados en diferentes metodologías de desarrollo.Debido a la similitud de información analizada en la investigación realizada en el paper citado anteriormente, se realizaron pruebas para los algoritmos Cobweb y EM, las cuales son objetivo de estudio en el capítulo.
Debido a que el algoritmo K-medias solo trabaja con datos numéricos, no será analizado en la investigación sobre incidentes de seguridad informática.
9.6.1. Algoritmo CobwebCOBWEB es clasificado como un algoritmo de Clustering Jerárquico, caracterizado por un aprendizaje incremental donde realiza las agrupaciones instancia a instancia. En la tabla 66 son explicados los parámetros de configuración del algoritmo.
Parámetro
Descripción
Utilidad de la categoría
Es basado en una estimación de la media y la desviación estándar del valor de los atributos; pero cuando se...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Ingeniero
  • Ingeniero
  • Ingeniero
  • Ingeniero
  • Ingeniero
  • Ingeniero
  • Ingeniero
  • Ingeniero

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS