2. Clustering
• Consiste en agrupar ítems en grupos con características similares y se
utiliza para determinar patrones climáticos, agrupar artículos por
temas o para segmentar clientes.
3. Clasificación
• Es una técnica usada en Machine Learning (aprendizaje automático)
para que las computadoras puedan predecir a qué grupo o categoría
pertenece un objeto, basándose en datos anteriores.
• Los datos que se usan para entrenar el modelo pueden tener
etiquetas (clasificación supervisada) o no tenerlas (clasificación no
supervisada).
4. Tipos de clasificación
• Supervisada: El modelo aprende a partir de datos que ya están
etiquetados. Es como darle al modelo fotos de perros y gatos,
diciéndole cuál es cuál, para que después pueda identificar nuevas
fotos.
• No supervisada: Aquí no se le da etiquetas al modelo. En vez de
decirle qué es un perro o un gato, el modelo intenta agrupar los datos
por su cuenta, basándose en similitudes.
• Semi-supervisada: Algunos datos están etiquetados y otros no. El
modelo usa las etiquetas que tiene para mejorar su agrupamiento de
los datos sin etiquetar.
5. Clasificación supervisada
• Detección de spam en correos electrónicos: Se entrena un modelo
con correos electrónicos etiquetados como "spam" o "no spam".
• Una vez entrenado, el modelo puede predecir si un nuevo correo es
spam.
• Diagnóstico médico: Se entrena un modelo con datos de pacientes
etiquetados como "enfermo" o "sano".
• Después, puede predecir si un nuevo paciente tiene una enfermedad
basándose en sus datos médicos.
6. Clasificación no supervisada
• Agrupación de clientes: En un negocio, los datos de clientes se
agrupan automáticamente en segmentos (por ejemplo, jóvenes,
adultos, mayores) según patrones de comportamiento sin etiquetas
previas.
• Agrupación de genes: En biología, se agrupan datos de genes según
similitudes en sus características, sin especificar etiquetas.
7. Clasificación semi-supervisada
• Clasificación de imágenes médicas: Se tiene un pequeño conjunto de
imágenes etiquetadas (por ejemplo, "tumor benigno" o "tumor
maligno") y muchas imágenes sin etiquetas.
• El modelo usa tanto las imágenes etiquetadas como las no
etiquetadas para mejorar su predicción.
• Reconocimiento de voz: Se tiene un conjunto de grabaciones de voz
donde algunas están etiquetadas con lo que se dijo y otras no.
• El modelo usa ambas para aprender y mejorar su precisión.
8. Algoritmo k-means
• Es una técnica para agrupar datos que no tienen etiquetas
(clasificación no supervisada).
• Este algoritmo agrupa los datos en k grupos, donde k es un número
que tú eliges.
• Cada grupo tiene un "centro" (centroide), y el algoritmo intenta
agrupar los datos alrededor de esos centros.
9. k-Means
• Uno de los principales algoritmos de clustering
• Un algoritmo de clustering muy extendido y que permite entender la
técnica de manera sencilla es el k-Means, el cual:
10. k-Means
• Determina las variables (características o propiedades) que se van a utilizar para agrupar los
datos.
• Selecciona k centroides (centros de los grupos, clusters o segmentos). La selección del
número de centroides k se puede hacer mediante la observación de las muestras o
métodos como el del codo (elbow). Este método consiste en la ejecución del algoritmo de
clustering k-Means para un rango de valores de k y luego calcula la varianza en la distancia
de los miembros del cluster a su centroide, el valor óptimo de k será aquel que satisfaga
que un incremento en el número de centroides k no mejore sustancialmente la varianza.
• Repite hasta que no haya cambios en los centroides.
• Asignar cada muestra al centroide más cercano: se pueden utilizar distintas métricas para
calcular la distancia a los centroides (euclídea, Manhattan, similitud de coseno…).
• Calcular la media del cluster para determinar centroides más exactos.
11. Pasos del algoritmo k-means:
• Inicialización: Se eligen aleatoriamente k puntos en los datos, que
actuarán como los primeros centros (centroides).
12. Pasos del algoritmo k-means:
• Asignación: Cada objeto (o punto de datos) se asigna al centroide más
cercano.
13. Pasos del algoritmo k-means:
• Actualización: Los centroides se actualizan, tomando como nuevo
centro el promedio de los objetos que se asignaron a cada grupo.
14. Ventajas de k-means:
• Es rápido y sencillo de usar.
• Es útil para agrupar datos que no tienen etiquetas.
15. Aplicación del clustering
Algunos ejemplos de uso de las técnicas de clustering son:
Segmentación de clientes en grupos.
Determinar los distintos patrones climáticos de una región.
Agrupar artículos o noticias por temas.
Descubrir zonas con elevadas tasas de criminalidad.