Que Es K Means

Páginas: 5 (1172 palabras) Publicado: 2 de octubre de 2015
K-MEANS
¿QUÉ ES?
El algoritmo K-means, creado por MacQueen en 1967 es el algoritmo de clustering más conocido y utilizado ya que es de muy simple aplicación y eficaz. Es un método de agrupamiento que sigue un procedimiento simple de clasificación de un conjunto de objetos en un determinado número K de clústeres, K determinado a priori.
El nombre de K-means viene porque representa cada uno delos clústers por la media (o media ponderada) de sus puntos, es decir, por su centroide. La representación mediante centroides tiene la ventaja de que tiene un significado gráfico y estadístico inmediato. Cada clúster por tanto es caracterizado por su centro o centroide que se encuentra en el centro o el medio de los elementos que componen el cluster. Kmeans es traducido como K-medias.
O un conjuntode objetos , para todo el , reales y , 1, los centros de los K cluster. El algoritmo del K-means se realiza en 4 etapas:
Etapa 1: Elegir aleatoriamente K objetos que forman así los K clústers iniciales. Para cada clúster k, el valor inicial del centro es = , con los únicos objetos de pertenecientes al clúster.

Etapa 2: Reasigna los objetos del clúster. Para cada objeto x, el prototipo que sele asigna es el que es más próximo al objeto, según una medida de distancia, (habitualmente la medida euclidiana).

Etapa 3: Una vez que todos los objetos son colocados, recalcular los centros de K clúster. (Los baricentros).

Etapa 4: Repetir las etapas 2 y 3 hasta que no se hagan más reasignaciones. Aunque el algoritmo termina siempre, no se garantiza el obtener la solución óptima. En efecto, elalgoritmo es muy sensible a la elección aleatoria de los K centros iniciales. Esta es la razón por la que, se utiliza el algoritmo del K-means numerosas veces sobre un mismo conjunto de datos para intentar minimizar este efecto, sabiendo que a centros iniciales lo más espaciados posibles dan mejores resultados.

El agrupamiento k-means cuando se usan heurísticas como el algoritmo de Lloyd esfácil de implementar incluso para grandes conjuntos de datos. Por lo que ha sido ampliamente usado en muchas áreas como segmentación de mercados, visión por computadoras, geo estadística, astronomía y minería de datos en agricultura. También se usa como pre procesamiento para otros algoritmos, por ejemplo para buscar una configuración inicial.


Aunque se puede probar que este algoritmo siempretermina, no siempre la distribución que se alcanza es la más óptima, ya que es muy sensible a las condiciones iniciales y cuenta con algunos inconvenientes:
1. Además del hecho de que sea necesario realizar en sucesivas ocasiones el algoritmo para así tener el resultado más óptimo posible, uno de sus inconvenientes es la necesidad de inicializar el número de prototipos al principio de la ejecución. Estoperjudica la eficacia del algoritmo ya que en la práctica, no se conoce a priori el número de clúster final.
Este defecto le perjudicará al compararlo con otros algoritmos, ya que en muchos la inicialización del número de clústers no es necesaria.
2. Es susceptible a valores extremos porque distorsionan la distribución de los datos.
3.
4. La distancia euclideana se usa como una métrica y lavarianza es usada como una medida de la dispersión de los grupos.

5. El número de grupos k es un parámetro de entrada: una elección inapropiada puede acarrear malos resultados. Por eso es muy importante cuando corremos el k-means tener en cuenta la importancia de determinar el numeros de grupos para un conjunto de datos.

6. La convergencia a óptimos locales puede traer malos resultados.

Otralimitación clave del k-means es su modelo de agrupamiento. El concepto se basa en grupos esféricos que son separables de una forma en que el valor de la media converge hacia el centro del grupo. Se espera que los grupos tengan igual tamaño, por lo que la asignación al grupo más cercano es la asignación correcta. Cuando por ejemplo aplicamos k-means con un valor de al conjunto de datos Iris flower, el...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • K-Means Clustering
  • k means
  • Curriculum means
  • lo k sea
  • Lo k Sea
  • no se k es
  • K
  • K

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS