Clustering es una técnica de aprendizaje automático opera mediante la agrupación de datos similares entre sí. Clustering es un tipo de máquina de aprendizaje no supervisado . El algoritmo no tiene por qué ser "entrenados " y puede agrupar los datos en grupos coherentes con un concepto " preconcebida " de lo que pertenece conjuntamente. Esto difiere de los sistemas de aprendizaje automático supervisado que debe ser "entrenado " a los datos de la etiqueta correctamente. Clustering se utiliza principalmente como un mecanismo de reconocimiento de patrones ordenador . Algoritmos basados generativos o probabilidad
algoritmos de clustering basados generativos o probabilidad intentan clasificar los conjuntos de datos como una especie de distribución conocida , una agrupación común de datos numéricos. Este tipo de algoritmo sólo se puede utilizar en los datos numéricos . Algoritmos generativos vienen con varias advertencias . El problema puede ser imposible de resolver si se permite que los datos para variar demasiado libremente . Algoritmos generativos también asumen que los datos representa una distribución conocida, que no siempre es cierto . Este tipo de algoritmos también no tienen en cuenta el "ruido" en los datos.
K- means clustering
K -means clustering fue uno de los primeros métodos de la agrupación a ser desarrollado . Es muy sencillo de poner en práctica , sin embargo, tiene la desventaja de ser muy sensibles a sus entradas de partida . K - significa obras de agrupamiento dividiendo los datos en un conjunto aleatorio de racimos y luego volver a calcular los puntos medios de cada grupo y repitiendo el proceso hasta que sólo hay un clúster. Esto se conoce como convergencia.
Fuzzy Clustering
lugar de los datos que identifican como pertenecientes a grupos específicos , intentos de agrupamiento difuso para identificar el grado en que un conjunto de datos punto pertenece a un grupo . Los algoritmos que se utilizan para hacer clustering fuzzy son conocidos como " C- medios algoritmos. " En el enfoque de agrupamiento difuso , un punto de datos puede pertenecer a más de un grupo . Este tipo de agrupación es útil cuando los puntos de datos pueden tener que pertenecer a más de un grupo .
Aglomerativo Clustering
agrupación aglomerativo fue uno de los primeros algoritmos de agrupamiento para ser desarrollado . Y sigue vigente , ya que es también uno de los algoritmos más simples desarrollados hasta la fecha. Agglomerative clustering trabaja tratando cada punto de datos individual como un grupo y agrupación con el punto de datos más similar. Este proceso se repite hasta que " converge , " los datos o hay un racimo grande que contiene todos los datos . El proceso también se puede realizar a la inversa para el mismo efecto . A partir de un clúster , todos los datos se pueden dividir en varias ocasiones hasta que cada punto de datos es su propia agrupación.