clasificación k-medias
Pedro David Nizo Cárdenas. -25051770; Bioestadística G4; Pedro Nel Pacheco
Introducción
En mineria de datos, k -means es un método de agrupamiento, quetiene como objetivo la [partición [de un conjunto]] n en k grupos en el que cada observación pertenece al grupo más cercano a la media. Esto da lugar a una compartimentación del espacio de datos en celdasde Voronoi.
El problema es computacionalmente difícil (NP-hard). Sin embargo, hay eficientes heurísticas que se emplean comúnmente y convergen rápidamente a un óptimo local. Estos suelen sersimilares a los algoritmos expectation-maximization de mezclas de distribuciones gausianas por medio de un enfoque de refinamiento iterativo empleado por ambos algoritmos. Además, los dos algoritmos usan loscentros que los grupos utilizan para modelar los datos, sin embargo k-means tiende a encontrar grupos de extensión espacial comparable, mientras que el mecanismo expectation-maximization permite quelos grupos que tengan formas diferentes.
La idea básica
Digamos que se le da un conjunto de datos donde cada ejemplo observado tiene un conjunto de características, pero notiene ninguna etiqueta. Las etiquetas son un ingrediente esencial para un algoritmo supervisado como máquinas de vectores soporte, que se entera de una función de hipótesis para predecir etiquetas dadas características. Así queno podemos correr el aprendizaje supervisado. ¿Qué podemos hacer?
Una de las tareas más sencillas que podemos realizar sobre un conjunto de datos sin etiquetas es encontrar grupos de datos en nuestrabase de datos que son similares entre sí - lo que llamamos grupos.
K-Means es uno de los más populares algoritmos "clustering". K-means tiendaskcentroides que utiliza para definir clusters. Un puntose considera que está en un grupo particular, si está más cerca al centroide de ese clúster que cualquier otro centroide.
K-Means encuentra los mejores centroides por la alternancia entre (1)...
Regístrate para leer el documento completo.