Minería de datos con agrupación en clústeres de K-medias
los k-significa que el algoritmo de agrupamiento es un procesamiento de datos y herramienta de aprendizaje automático utilizada para agrupar observaciones en grupos de observaciones relacionadas sin ningún conocimiento previo de esas relaciones. Mediante el muestreo, el algoritmo intenta mostrar a qué categoría o conglomerado pertenecen los datos, con el número de conglomerados definido por el valor k.
los k-significa que el algoritmo es una de las técnicas de agrupación más simples y se usa comúnmente en imágenes médicas, biometría y campos relacionados. La ventaja de k-significa que la agrupación es que informa sobre sus datos (utilizando su forma no supervisada) en lugar de usted tener que instruir al algoritmo sobre los datos al principio (utilizando la forma supervisada del algoritmo).
A veces se le conoce como Algoritmo de Lloyd, particularmente en los círculos de la informática porque el algoritmo estándar fue propuesto por primera vez por Stuart Lloyd en 1957. El término "k-medias" fue acuñado en 1967 por James McQueen.
Cómo funciona el algoritmo de K-medias
los k-significa algoritmo es un algoritmo evolutivo que recibe su nombre de su método de operación. El algoritmo agrupa las observaciones en k grupos, donde k se proporciona como parámetro de entrada. Luego, asigna cada observación a conglomerados en función de la proximidad de la observación a la media del conglomerado. Luego, se vuelve a calcular la media del clúster y el proceso comienza de nuevo. Así es como funciona el algoritmo:
- El algoritmo selecciona arbitrariamente k puntos como los centros de conglomerados iniciales (los medios).
- Cada punto del conjunto de datos se asigna al grupo cerrado, según la distancia euclidiana entre cada punto y el centro de cada grupo.
- Cada centro de grupo se vuelve a calcular como el promedio de los puntos en ese grupo.
- Los pasos 2 y 3 se repiten hasta que los grupos converjan. La convergencia se puede definir de manera diferente dependiendo de la implementación, pero normalmente significa que no hay observaciones cambiar grupos cuando se repiten los pasos 2 y 3, o que los cambios no hacen una diferencia material en la definición del racimos.
Elegir el número de clústeres
Una de las principales desventajas de k-significa que la agrupación en clústeres es el hecho de que debe especificar el número de clústeres como entrada al algoritmo. Tal como se diseñó, el algoritmo no es capaz de determinar el número apropiado de clústeres y depende del usuario para identificarlo de antemano.
Por ejemplo, si tiene un grupo de personas que deben agruparse en función de la identidad de género binaria como hombre o mujer, llamar al k-significa algoritmo que utiliza la entrada k = 3 forzaría a la gente en tres grupos cuando sólo dos, o una entrada de k = 2, proporcionaría un ajuste más natural.
Del mismo modo, si un grupo de personas se agrupaba fácilmente en función del estado de origen y llamaba al k-significa algoritmo con la entrada k = 20, los resultados pueden ser demasiado generalizados para ser efectivos.
Por esta razón, a menudo es una buena idea experimentar con diferentes valores de k para identificar el valor que mejor se adapta a sus datos. También es posible que desee explorar el uso de otros algoritmos de minería de datos en su búsqueda de conocimiento de aprendizaje automático.
Preguntas más frecuentes
-
¿Qué es la minería de datos?
Procesamiento de datos es la práctica de analizar grandes cantidades de información para buscar tendencias y patrones. Estos datos a menudo se recopilan del historial de navegación de Internet de una persona, sus hábitos de compra, datos de ubicación y más.
-
¿Cómo funciona la minería de datos?
Las empresas suelen recopilar datos de programas de recompensas, redes sociales, listas de correo y más. Luego, esos datos se analizan en busca de patrones y comportamientos. Así es como las tiendas de comestibles saben que el ponche de huevo se vende a lo grande durante la temporada navideña, por ejemplo, o por qué los anuncios de artículos para acampar aparecen en sus redes sociales después de investigar ese viaje a Zion.
-
¿Cuáles son los principales objetivos asociados con la minería de datos?
Los principales objetivos son encontrar conocimientos, tendencias y relaciones dentro de grandes cantidades de datos. Los expertos utilizan esta información en bruto para desarrollar estrategias de marketing. También se utiliza en campos como la policía, la ciencia y la ingeniería.