N ENFOQUE EFECTIVO BASADO EN CLÚSTERING PARA LA DETECCIÓN DE VALORES ATÍPICOS (OUTLIER)

Páginas: 10 (2468 palabras) Publicado: 16 de julio de 2014





UN ENFOQUE EFECTIVO BASADO EN CLÚSTERING PARA LA DETECCIÓN DE VALORES ATÍPICOS (OUTLIER)

INTRODUCCIÓN

El presente ensayo realiza el análisis del trabajo de investigación “An Effective Clustering-Based Approach For Outlier Detection” realizado por el Dr. Moh’d Belal Al- Zoubi de la Universidad de Jordan, este trabajo se enfoca en la importancia de detección de datos atípicos enuna amplia variedad de dominios de aplicación, se propone un método para la localización de datos atípicos que permiten la detección de fraudes, este método se encuentra basado en clustering enfocado a la detección de outliers (datos atípicos).

En primer lugar se realiza el análisis del algoritmo de agrupamiento PAM (Partitioning Around Medoides), se determinan clúster pequeños y se realiza elestudio para determinar los datos atípicos mediante el cálculo de de las distancias entre el medoid del clúster y cada uno de los puntos den clúster, en este estudio se presenta los resultados experimentales que demuestran que el método propuesto funciona bien.

1. OUTLIERS (VALOR ATIPICO)

Los datos anómalos son un conjunto de objetos que son considerados diferentes del resto de los datos.La detección de estos datos es un problema extremadamente importante con una directa aplicación en una amplia variedad de dominios de aplicación, incluida la detección de fraudes, identificación de intrusiones en la red informática y la generación de cuellos de botella, actividades criminales en e-commerce y detección de actividades sospechosa.

Fig. 1 Datos atípicos de un grupo de datos

2.CLUSTERING
Clustering es una técnica de análisis exploratorio que intenta ordenar los diferentes objetos en grupos, de forma que el grado de asociación entre dos objetos sea máximo si pertenecen al mismo grupo, clustering es una herramienta importante para el análisis de datos atípicos.

Fig.2 Ejemplo de Clustering
Tipos de Clustering:
Clustering Particional: Una división de los objetos dedato en subconjuntos disjuntos (clúster) tal que cada objeto de datos está en exactamente un subconjunto
Clustering Jerárquico: Un conjunto de clúster anidados organizados como un árbol.

Fig. 3 Ejemplo de Clustering Jerárquico y Clustering particional respectivamente
3. ALGORITMOS DE CLUSTERING.
Muchos de los clustering basados en técnica de detección de datos anómalos se han desarrollado. Lamayoría de esas técnicas confía en el supuesto clave que los objetos normales pertenecen clúster grandes y densos mientras los datos anómalos de clúster muy pequeños.
Esto está siendo argumentado por muchos investigadores, que han analizado si los algoritmos de clustering son una elección apropiada para la detección de datos de anómalos. Por ejemplo en (Zhang and Wang, 2006), los autores reportanque los algoritmos deberían no ser considerados como métodos de detección de datos anómalos.
Esto podría ser verdad para algunos de los algoritmos de clustering, tal como el K-MEANS clustering algorithm, este es porque el clúster producido por el algoritmo k-means es sensible a los ruidos y datos anómalos.
ALGORITMO K-MEANS
En minería de datos k -means es un método de agrupamiento, cuyoobjetivo es el de generar k grupos de la partición de un conjunto n de datos, K-means clustering es un método particional en el cual cada clúster está asociado con un centroide (punto central) y en donde cada punto se asigna al clúster con el centroide más próximo, se debe especificar el número de clúster, K.

Fig 4. Algoritmo Clustering K-means
ALGORITMO PAM (Partitioning Around Medoides)
Adiferencia del algoritmo K- means, el algoritmo de PAM es más robusto en lo que respecta en la presencia de ruidos o datos anómalos, haciéndolo mucho más confiable ya que el algoritmo utiliza los objetos más centrales localizados en un clúster (llamados medoide) en lugar de la media del clúster, lo cual resulta más eficiente. PAM trabaja bien en bases de datos pequeñas, pero es lento en grandes....
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Estrategias Para Una Comunicaci N Efectiva
  • Bases Conceptuales Para La Argumentaci N
  • Detección de datos atípicos
  • 7 Valores Para Los Adolescentes Altamente Efectivos
  • ENFOQUES PARA LA CONSERVACI N DE LOS RECURSOS NATURALES
  • Manejo de valores atípicos
  • Proyecto para una convivencia escolar basada en valores
  • Standarización De Titulantes Para Valoraciones Ácido-Base.

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS