SlideShare una empresa de Scribd logo
Clustering
¿Qué es la clasificación en Machine Learning?
Clustering
• Consiste en agrupar ítems en grupos con características similares y se
utiliza para determinar patrones climáticos, agrupar artículos por
temas o para segmentar clientes.
Clasificación
• Es una técnica usada en Machine Learning (aprendizaje automático)
para que las computadoras puedan predecir a qué grupo o categoría
pertenece un objeto, basándose en datos anteriores.
• Los datos que se usan para entrenar el modelo pueden tener
etiquetas (clasificación supervisada) o no tenerlas (clasificación no
supervisada).
Tipos de clasificación
• Supervisada: El modelo aprende a partir de datos que ya están
etiquetados. Es como darle al modelo fotos de perros y gatos,
diciéndole cuál es cuál, para que después pueda identificar nuevas
fotos.
• No supervisada: Aquí no se le da etiquetas al modelo. En vez de
decirle qué es un perro o un gato, el modelo intenta agrupar los datos
por su cuenta, basándose en similitudes.
• Semi-supervisada: Algunos datos están etiquetados y otros no. El
modelo usa las etiquetas que tiene para mejorar su agrupamiento de
los datos sin etiquetar.
Clasificación supervisada
• Detección de spam en correos electrónicos: Se entrena un modelo
con correos electrónicos etiquetados como "spam" o "no spam".
• Una vez entrenado, el modelo puede predecir si un nuevo correo es
spam.
• Diagnóstico médico: Se entrena un modelo con datos de pacientes
etiquetados como "enfermo" o "sano".
• Después, puede predecir si un nuevo paciente tiene una enfermedad
basándose en sus datos médicos.
Clasificación no supervisada
• Agrupación de clientes: En un negocio, los datos de clientes se
agrupan automáticamente en segmentos (por ejemplo, jóvenes,
adultos, mayores) según patrones de comportamiento sin etiquetas
previas.
• Agrupación de genes: En biología, se agrupan datos de genes según
similitudes en sus características, sin especificar etiquetas.
Clasificación semi-supervisada
• Clasificación de imágenes médicas: Se tiene un pequeño conjunto de
imágenes etiquetadas (por ejemplo, "tumor benigno" o "tumor
maligno") y muchas imágenes sin etiquetas.
• El modelo usa tanto las imágenes etiquetadas como las no
etiquetadas para mejorar su predicción.
• Reconocimiento de voz: Se tiene un conjunto de grabaciones de voz
donde algunas están etiquetadas con lo que se dijo y otras no.
• El modelo usa ambas para aprender y mejorar su precisión.
Algoritmo k-means
• Es una técnica para agrupar datos que no tienen etiquetas
(clasificación no supervisada).
• Este algoritmo agrupa los datos en k grupos, donde k es un número
que tú eliges.
• Cada grupo tiene un "centro" (centroide), y el algoritmo intenta
agrupar los datos alrededor de esos centros.
k-Means
• Uno de los principales algoritmos de clustering
• Un algoritmo de clustering muy extendido y que permite entender la
técnica de manera sencilla es el k-Means, el cual:
k-Means
• Determina las variables (características o propiedades) que se van a utilizar para agrupar los
datos.
• Selecciona k centroides (centros de los grupos, clusters o segmentos). La selección del
número de centroides k se puede hacer mediante la observación de las muestras o
métodos como el del codo (elbow). Este método consiste en la ejecución del algoritmo de
clustering k-Means para un rango de valores de k y luego calcula la varianza en la distancia
de los miembros del cluster a su centroide, el valor óptimo de k será aquel que satisfaga
que un incremento en el número de centroides k no mejore sustancialmente la varianza.
• Repite hasta que no haya cambios en los centroides.
• Asignar cada muestra al centroide más cercano: se pueden utilizar distintas métricas para
calcular la distancia a los centroides (euclídea, Manhattan, similitud de coseno…).
• Calcular la media del cluster para determinar centroides más exactos.
Pasos del algoritmo k-means:
• Inicialización: Se eligen aleatoriamente k puntos en los datos, que
actuarán como los primeros centros (centroides).
Pasos del algoritmo k-means:
• Asignación: Cada objeto (o punto de datos) se asigna al centroide más
cercano.
Pasos del algoritmo k-means:
• Actualización: Los centroides se actualizan, tomando como nuevo
centro el promedio de los objetos que se asignaron a cada grupo.
Ventajas de k-means:
• Es rápido y sencillo de usar.
• Es útil para agrupar datos que no tienen etiquetas.
Aplicación del clustering
Algunos ejemplos de uso de las técnicas de clustering son:
Segmentación de clientes en grupos.
Determinar los distintos patrones climáticos de una región.
Agrupar artículos o noticias por temas.
Descubrir zonas con elevadas tasas de criminalidad.

Más contenido relacionado

PPTX
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
PDF
Tema 5 APLICACION DE TECNICAS DE APRENDIZAJE NO SUPERVISADO BLOQUE I v1.pdf
PPT
Cluster No Jerarquico
PPT
Cluster No Jerarquico
PDF
Clase0005- Clasificacion mediante diferentes algoritmos
PPTX
IA Generativa introducción a la IA .pptx
PPTX
Aprendizaje no supervisado
PPTX
Presentacion mineria
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
Tema 5 APLICACION DE TECNICAS DE APRENDIZAJE NO SUPERVISADO BLOQUE I v1.pdf
Cluster No Jerarquico
Cluster No Jerarquico
Clase0005- Clasificacion mediante diferentes algoritmos
IA Generativa introducción a la IA .pptx
Aprendizaje no supervisado
Presentacion mineria

Similar a Aplicación del clustering Aplicación del clustering .pptx (20)

PDF
Introduccion a Machine Learning
PPTX
Problemas de agrupación Clustering y problemas de clasificacion
PPT
Resumen Muestreo
PDF
1.1 - Aprendizaje automático (machine learning) bases
PDF
Machine Learning para proyectos de seguridad(Pycon)
PDF
Aprendizaje automático I - Sesión 2 Caso Práctico.pdf
PPTX
Temario para la administración de almacenes.pptx
PPTX
Modelos predictivos con simulaciones en Python.
PPTX
1.1.1 Introducción a Machine Learning.pptx
PDF
Modelamiento predictivo en Analítica Predictiva
PPTX
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
PPT
Spss Tutorial 1
PDF
Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf
PDF
10 EnsamblesMMSMMSMSMSMMSMMSMSMSMMSMMSMSSMSMSM.pdf
PPSX
Aprendizaje Automàtico - Introduccion a Machine Learning
PPTX
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
PPTX
TIPOS DE MUESTREO
PDF
Prediccion de Rocas con Machine Learning.pdf
PPTX
Minería de datos
PDF
BigData 101 / Cursillo (Parte2)
Introduccion a Machine Learning
Problemas de agrupación Clustering y problemas de clasificacion
Resumen Muestreo
1.1 - Aprendizaje automático (machine learning) bases
Machine Learning para proyectos de seguridad(Pycon)
Aprendizaje automático I - Sesión 2 Caso Práctico.pdf
Temario para la administración de almacenes.pptx
Modelos predictivos con simulaciones en Python.
1.1.1 Introducción a Machine Learning.pptx
Modelamiento predictivo en Analítica Predictiva
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Spss Tutorial 1
Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf
10 EnsamblesMMSMMSMSMSMMSMMSMSMSMMSMMSMSSMSMSM.pdf
Aprendizaje Automàtico - Introduccion a Machine Learning
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
TIPOS DE MUESTREO
Prediccion de Rocas con Machine Learning.pdf
Minería de datos
BigData 101 / Cursillo (Parte2)
Publicidad

Más de anytrix (20)

PPTX
Trabajo y roles para empresas biodirenciadas.pptx
PPTX
Formatos xml para sitios web profesionales.pptx
PPTX
LIDERAZGO 20XXLIDERAZGO 20XXLIDERAZGO 20XXLIDERAZGO 20XXLIDERAZGO 20XX.pptx
PPTX
capas de soft capas de soft capas de soft.pptx
PPTX
agilidad express agilidad expressagilidad expressagilidad expressagilidad exp...
PPTX
Vistas_Funciones_y_as_Funciones_y as_Funciones_yProcedimientos_SQL.pptx
PPT
PROGRAMACIÓN CON JAVA MAVEN PROGRAMACIÓN CON JAVA MAVEN.ppt
PPTX
consultas bases de datos consultas bases de datos.pptx
PPTX
rentabilidades rentabilidades rentabilidadesrentabilidades.pptx
PPTX
estrategia rentables estrategia rentables.pptx
PPTX
marketing 3 digital en las empresas .pptx
PPTX
diseños cruciales y efectivos en la era .pptx
PPTX
controles de las versiones deldesarrollo.pptx
PPTX
relaciones de los diferentes estados .pptx
PPTX
diagramas de todos los procesos de la ingenieria.pptx
PPTX
administracion de de industrias archivos de nube.pptx
PPTX
Citas celebres en tiempos de pandemi.pptx
PPTX
INTELIGENCIA ARTIFICIAL Modelos de aprendizaje supervisado.pptx
PPTX
Clave del éxito en las empresas de manufactura.pptx
PPTX
reglamento de las bases de datos en ambientes agronomicos.pptx
Trabajo y roles para empresas biodirenciadas.pptx
Formatos xml para sitios web profesionales.pptx
LIDERAZGO 20XXLIDERAZGO 20XXLIDERAZGO 20XXLIDERAZGO 20XXLIDERAZGO 20XX.pptx
capas de soft capas de soft capas de soft.pptx
agilidad express agilidad expressagilidad expressagilidad expressagilidad exp...
Vistas_Funciones_y_as_Funciones_y as_Funciones_yProcedimientos_SQL.pptx
PROGRAMACIÓN CON JAVA MAVEN PROGRAMACIÓN CON JAVA MAVEN.ppt
consultas bases de datos consultas bases de datos.pptx
rentabilidades rentabilidades rentabilidadesrentabilidades.pptx
estrategia rentables estrategia rentables.pptx
marketing 3 digital en las empresas .pptx
diseños cruciales y efectivos en la era .pptx
controles de las versiones deldesarrollo.pptx
relaciones de los diferentes estados .pptx
diagramas de todos los procesos de la ingenieria.pptx
administracion de de industrias archivos de nube.pptx
Citas celebres en tiempos de pandemi.pptx
INTELIGENCIA ARTIFICIAL Modelos de aprendizaje supervisado.pptx
Clave del éxito en las empresas de manufactura.pptx
reglamento de las bases de datos en ambientes agronomicos.pptx
Publicidad

Último (20)

PDF
Tema 6.pdfjsjsjsjsjsjsjsjsjsjsjsjsjsjsjsjs
PDF
CURSO TRIBOLOGIA PARA PERSONAS QUE LO NECESITAN
PPTX
PPT - CORREGIDO - REGIMENES DE EXPORTACION-GRUPO 3.pptx
PDF
OBD - II LO MAXIMOMMMMMMMMMMMMMMMMMMMMMM
PPTX
Clases gestión financiera y gestión de clientes.pptx
PDF
respuesta inflamatoria y endotelial .pdf
PPTX
exposicion de una CÁMARA FRIGORIFICA.pptx
PPTX
QUE_ES_UNA_TRANSMISION_AUTOMATICA para vehículos
PPTX
El_Exodo_y_la_LiberacioOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOn.pptx
PPTX
BATERIA HV.pptxhgjjhgcxgjjhhgggggggfffhhjb
PPTX
Análisis_Protocolo_3_Violencia_Psicologica.pptx
PPTX
DIAPOSITIVAS DE RAÙL..pptxMMMMMMMMMMMMMM
PDF
Manual Usuario Automovil Volkswagen Taos 2023
PPTX
RESISTENCIAS Y SEMICONDUCTORES electronica.pptx
PPTX
MOTORES DE COMBUSTION INTERNA CICLO OTTO.pptx
PDF
Unidad 1 Mecánica Aplicada en el Mantenimiento Industrial.pdf
PPTX
BANDA DE BLOQUEO DE LA CAJA AUTOMATICA..pptx
DOCX
INFORME LOGROS DE APRENDIZAJE II BIMESTRE 2 GRADO PRIMARIA.docx
DOCX
Comprendiendo la Tecnología de Láser de Fibra.docx
PPTX
guiawsesdiverticulitisaguda-230703113038-7e7c3138.pptx
Tema 6.pdfjsjsjsjsjsjsjsjsjsjsjsjsjsjsjsjs
CURSO TRIBOLOGIA PARA PERSONAS QUE LO NECESITAN
PPT - CORREGIDO - REGIMENES DE EXPORTACION-GRUPO 3.pptx
OBD - II LO MAXIMOMMMMMMMMMMMMMMMMMMMMMM
Clases gestión financiera y gestión de clientes.pptx
respuesta inflamatoria y endotelial .pdf
exposicion de una CÁMARA FRIGORIFICA.pptx
QUE_ES_UNA_TRANSMISION_AUTOMATICA para vehículos
El_Exodo_y_la_LiberacioOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOn.pptx
BATERIA HV.pptxhgjjhgcxgjjhhgggggggfffhhjb
Análisis_Protocolo_3_Violencia_Psicologica.pptx
DIAPOSITIVAS DE RAÙL..pptxMMMMMMMMMMMMMM
Manual Usuario Automovil Volkswagen Taos 2023
RESISTENCIAS Y SEMICONDUCTORES electronica.pptx
MOTORES DE COMBUSTION INTERNA CICLO OTTO.pptx
Unidad 1 Mecánica Aplicada en el Mantenimiento Industrial.pdf
BANDA DE BLOQUEO DE LA CAJA AUTOMATICA..pptx
INFORME LOGROS DE APRENDIZAJE II BIMESTRE 2 GRADO PRIMARIA.docx
Comprendiendo la Tecnología de Láser de Fibra.docx
guiawsesdiverticulitisaguda-230703113038-7e7c3138.pptx

Aplicación del clustering Aplicación del clustering .pptx

  • 1. Clustering ¿Qué es la clasificación en Machine Learning?
  • 2. Clustering • Consiste en agrupar ítems en grupos con características similares y se utiliza para determinar patrones climáticos, agrupar artículos por temas o para segmentar clientes.
  • 3. Clasificación • Es una técnica usada en Machine Learning (aprendizaje automático) para que las computadoras puedan predecir a qué grupo o categoría pertenece un objeto, basándose en datos anteriores. • Los datos que se usan para entrenar el modelo pueden tener etiquetas (clasificación supervisada) o no tenerlas (clasificación no supervisada).
  • 4. Tipos de clasificación • Supervisada: El modelo aprende a partir de datos que ya están etiquetados. Es como darle al modelo fotos de perros y gatos, diciéndole cuál es cuál, para que después pueda identificar nuevas fotos. • No supervisada: Aquí no se le da etiquetas al modelo. En vez de decirle qué es un perro o un gato, el modelo intenta agrupar los datos por su cuenta, basándose en similitudes. • Semi-supervisada: Algunos datos están etiquetados y otros no. El modelo usa las etiquetas que tiene para mejorar su agrupamiento de los datos sin etiquetar.
  • 5. Clasificación supervisada • Detección de spam en correos electrónicos: Se entrena un modelo con correos electrónicos etiquetados como "spam" o "no spam". • Una vez entrenado, el modelo puede predecir si un nuevo correo es spam. • Diagnóstico médico: Se entrena un modelo con datos de pacientes etiquetados como "enfermo" o "sano". • Después, puede predecir si un nuevo paciente tiene una enfermedad basándose en sus datos médicos.
  • 6. Clasificación no supervisada • Agrupación de clientes: En un negocio, los datos de clientes se agrupan automáticamente en segmentos (por ejemplo, jóvenes, adultos, mayores) según patrones de comportamiento sin etiquetas previas. • Agrupación de genes: En biología, se agrupan datos de genes según similitudes en sus características, sin especificar etiquetas.
  • 7. Clasificación semi-supervisada • Clasificación de imágenes médicas: Se tiene un pequeño conjunto de imágenes etiquetadas (por ejemplo, "tumor benigno" o "tumor maligno") y muchas imágenes sin etiquetas. • El modelo usa tanto las imágenes etiquetadas como las no etiquetadas para mejorar su predicción. • Reconocimiento de voz: Se tiene un conjunto de grabaciones de voz donde algunas están etiquetadas con lo que se dijo y otras no. • El modelo usa ambas para aprender y mejorar su precisión.
  • 8. Algoritmo k-means • Es una técnica para agrupar datos que no tienen etiquetas (clasificación no supervisada). • Este algoritmo agrupa los datos en k grupos, donde k es un número que tú eliges. • Cada grupo tiene un "centro" (centroide), y el algoritmo intenta agrupar los datos alrededor de esos centros.
  • 9. k-Means • Uno de los principales algoritmos de clustering • Un algoritmo de clustering muy extendido y que permite entender la técnica de manera sencilla es el k-Means, el cual:
  • 10. k-Means • Determina las variables (características o propiedades) que se van a utilizar para agrupar los datos. • Selecciona k centroides (centros de los grupos, clusters o segmentos). La selección del número de centroides k se puede hacer mediante la observación de las muestras o métodos como el del codo (elbow). Este método consiste en la ejecución del algoritmo de clustering k-Means para un rango de valores de k y luego calcula la varianza en la distancia de los miembros del cluster a su centroide, el valor óptimo de k será aquel que satisfaga que un incremento en el número de centroides k no mejore sustancialmente la varianza. • Repite hasta que no haya cambios en los centroides. • Asignar cada muestra al centroide más cercano: se pueden utilizar distintas métricas para calcular la distancia a los centroides (euclídea, Manhattan, similitud de coseno…). • Calcular la media del cluster para determinar centroides más exactos.
  • 11. Pasos del algoritmo k-means: • Inicialización: Se eligen aleatoriamente k puntos en los datos, que actuarán como los primeros centros (centroides).
  • 12. Pasos del algoritmo k-means: • Asignación: Cada objeto (o punto de datos) se asigna al centroide más cercano.
  • 13. Pasos del algoritmo k-means: • Actualización: Los centroides se actualizan, tomando como nuevo centro el promedio de los objetos que se asignaron a cada grupo.
  • 14. Ventajas de k-means: • Es rápido y sencillo de usar. • Es útil para agrupar datos que no tienen etiquetas.
  • 15. Aplicación del clustering Algunos ejemplos de uso de las técnicas de clustering son: Segmentación de clientes en grupos. Determinar los distintos patrones climáticos de una región. Agrupar artículos o noticias por temas. Descubrir zonas con elevadas tasas de criminalidad.