SlideShare una empresa de Scribd logo
MINERÍA DE DATOS EN
SALUD: INTRODUCCIÓN
(DATA MINING IN HEALTHCARE )
Jairo Cesar Alexander 2017
MINERÍA DE DATOS - DATA MINING
• Procesos para
descubrir patrones
en grandes
conjuntos de datos
* Dengue grave en Colombia
PARA QUÉ USAMOS LA MINERÍA DE
DATOS?
Predecir
• Utilizar algunas variables o campos en una base de datos para predecir
valores desconocidos o futuros.
Comprender
• Encontrar o visualizar patrones que describan la información (interpretables
o entendibles por el profesional y el usuario lo mas importante)
* Hipotiroidismo congénito en Colombia
EJEMPLO: MINERÍA DE DATOS EN SALUD
• 70 indicadores de salud en Colombia monitorizados en tiempo real , con
generación de puntos de alarma y pronósticos automáticos vía web(sistema simple
pero funcional creado por el autor en pc de escritorio en software KNIME)
Nivel de atención Enfoque de
el nivel de
Intervención
Acciones practicas gracias a la minería de datos (ejemplos) Impacto
global a
largo
termino
Primer nivel de
atención
Promoción
de la salud
Prevención
Tratamiento
Rehabilitaci
ón
Enviar mensajes de texto PERSONALISADOS recordando la vacunación
de los niños
Las mamas pueden saber si las demás mamas están vacunado a sus
hijos y los médicos están al tanto.
seguir una epidemia (ejem H1N1) en tiempo real.
llamar proactivamente a alguien con riesgo alto de IAM
retroalimentar (útilmente)al medico en tiempo real en la consulta diaria
con analítica de toda la información suministrada
Dx de toda la población automática , en tiempo real , para todos, y
para la acción ya .
alto
Segundo nivel de
atención
Tratamiento retroalimentar al medico con medicamentos que nunca se reclaman en
farmacia
Gerencia puede evaluar la efectividad, eficiencia, eficacia de los ttos.
Evaluación del seguimiento de los protocolos recomendados por Min
Salud. Integración de información inter institucional de uso practico.
Detección de fraude concierta enfermedad de alto costo que se
aumento de repente un 200%, conformaciones de redes reales.
medio
Tercer nivel de
atención
Tratamiento Evaluacion de el riesgo de readminisión a UCI de un paciente
Responder a preguntas :Que tto tiene mas eficiencia?
Existe una nueva patología en nuestra población?
Como les va a otros usuarios como este medicamento?
bajo
EJEMPLO :DETECCION DE FRAUDE
EN HEMOFILIA
EJEMPLOS ÚTILES DE PREDICCIÓN
• Estratificar a los pacientes en grupos de
alto, medio o bajo riesgo. clave para el
éxito de cualquier iniciativa de gestión de
salud de la población.
• Para pacientes que llevan mucho riesgo
,sería más barato enviarles de forma
preventiva un médico ,en lugar de esperar
que ese paciente entre por urgencias
TRANSICIÓN NECESARIA
SISTEMA DE SALUD BASADO EN
ATENCIÓN DE URGENCIAS CENTRADO EN
EL ASEGURAMIENTO FINANCIERO
A
SISTEMA DE SALUD BASADO EN
PROMOCIÓN DE LA SALUD Y
PREVENCIÓN DE LA ENFEREMDAD
CENTRADO EN LA SALID DE EL USUARIO
RETOS - MINERÍA DE DATOS EN
SALUD
• Como analizar todas las historias clínicas , todos los registros farmacéuticos,
cirujas , procedimientos, interconsultas, y evolución DE FORMA INTEGRADA
para: promover la salud, prevenir la enfermedad , evaluar y mejorar los
tratamientos rehabilitación, etc
• Como lo hago en tiempo real, y para todos…(notificación nacional e
institucional automática en tiempo real – algoritmos de revisión,
verificación) todos significa retroalimentación desde el usuario -medico al
sistema y del sistema hasta el medico - usuario, también epidemiologia en
tiempo real para todos.
• Como usar las redes sociales para mis objetivos
TANTA INFORMACIÓN PARA
QUE ? PARA QUIEN ?
Dx individual Dx poblacional
Evaluación individual y E. poblacional
Terapéutica individual
y poblacional
y manejo de riesgo
Retroalimentación usuario y
generador de información
REDES SOCIALES
• COMERCIO (CERVECERAS TABACALARES)
• BANCA
• SECTOR POLITICO
• TELECOMUNICACIONES
• AEROLINEAS
• OTROS 30 SECTORES y hasta la delincuencia …
Y NOSOTROS QUE ?
FASES DE LA MINERÍA (CRISP-DM):
• (1) Comprensión del negocio (fenómenos de salud – las causas…..)
• (2) La comprensión de Datos (estadística)
• (3) Preparación de Datos (integración)
• (4) Modelado
• (5) Evaluación
• (6) El despliegue
FUENTES DE DATOS
• Bases de datos relacionales
• Bases de datos multidimensionales (DW)
• Bases de datos transaccionales
• Series temporales, secuencias y data streams
• Datos estructurados
• Datos espaciales y espaciotemporales
• Textos e hipertextos (p.ej. Web Redes sociales)
• Bases de datos multimedia (p.ej. Imágenes, microscopia RX etc.)
TAREAS DE LA MINERIA DE DATOS-
SALUD
• Caracterización: descriptiva, necesidades, prioridades
• Asociación: poblaciones similares, riesgo,
• Clasificación: diagnostico
• Análisis de grupos: inferencia
• Evolución y tendencias (en espacio-GIS o tiempo -series temporales –
predicción, interpolación, perspectivas, escenarios)
• Análisis de desviaciones o anomalías: fraude, brotes, picos, respuesta a
políticas, o programas, impacto.
ADVERTENCIA
Todas las técnicas estadísticas se basan en
la suposición de que los patrones
existentes continuarán en el futuro.
(o de que existen patrones)
COMO SE EVALUACIÓN LA
MINERÍA
Precisión
Claridad
Integración
16
QUE MÉTODO SELECCIONO?
• Existe una gran cantidad de métodos o
herramientas clasificadas de acuerdo a
su uso habitual. La selección de un
método depende de muchos factores:
el contexto, la pertinencia, la
disponibilidad de los datos históricos, el
grado de precisión deseable, el período
de tiempo que se prevé, el costo /
beneficio de la previsión, el tiempo
disponible para realizar el análisis, pero
sobre todo de lo que necesito
realmente.
Necesidad Conjunto Metodos Ejemplo
Visualizar Visualización Grafica de líneas
Grafica de pastel
Series de tiempo
Joint point
Describir las tendencias
del acné en Colombia y
si hay puntos de quiebre
estadísticamente
significativos, y mostrar
porcentajes por genero y
grupos de edad.
Predecir Clasificación Arbol C&R, QUEST, CHAID, C 5.0, Regresión,
lineal, logística, Cox, redes neuronal,
maquina de vectores, redes bayesianas,
lineal mixto generalizado, ARIMA, KNN,
Pre método PCA/Análisis factorial, filtros
Predecir la evolución de
la leishmaniosis en
Colombia para los
próximos 10 años.
Encontrar
patrones
Asociación A priori, CARMA, CARMA secuencial, reglas. Buscar una serie de
procesos con altas tasa
de eventos de riesgo.
Segmentar Clusters K medias, Kohonen Agrupar la población por
riesgo, detectar atípicos
en una población.
SELECCIÓN DEL MÉTODO ADECUADO : FÁCIL
MUCHOS MÉTODOS
• Árboles de Decisión
• Clasificación de Bayes
• Mínimos cuadrados ordinarios
• Regresión logística
• Máquinas de Vectores Soporte
• Métodos Ensemble
• Algoritmos de agrupación
• Análisis de Componentes Principales
• Análisis de Componentes Independientes
• Descomposición de valor singular
• Redes Neuronales Artificiales.
• Algoritmos Genéticos.
• Vecino más Cercano.
• otros
DESCRIPCIÓN DE ALGUNOS
MÉTODOS
MÉTODOS
• Árboles de decisión.
Herramientas analíticas
empleadas para el
descubrimiento de reglas y
relaciones.
Se construye partiendo el
conjuntos de dos (CART) o
más (CHAID).
Cada subconjunto a su vez
es particionado.
Se continua hasta no
encontrar diferencias
significativas de influencia.
Son modelos caja abierta,
permiten interpretación
21
MÉTODOS
• Reglas de asociación.
Derivan de un tipo de
análisis que extrae
información por
coincidencias.
Permite descubrir
correlaciones en los
sucesos de la base de
datos.
Usa reglas del tipo SI...
ENTONCES.
Permiten interpretación
del experto
22
MÉTODOS
• Redes neuronales.
Son capaces de
detectar y aprender
patrones y
características de los
datos.
Una vez adiestradas las
redes pueden hacer
pronósticos,
clasificaciones y
segmentación.
Son modelos cajas
negras
23
MÉTODOS
• Algoritmos genéticos.
Hacen uso de técnicas de
reproducción (mutación y
cruce) para ser utilizadas
para búsqueda y
optimización.
Se parte de una población
inicial, y se altera
optimizándola.
Esta herramienta se usa en
las primeras fases de la
minería .
24
MÉTODOS
• Lógica difusa.
Surge de la necesidad
de modelar la realidad
de forma mas exacta,
evitando el
determinismo y
exactitud.
Permite el tratamiento
de grises mas allá del
blanco y negro
Trata la existencia de
barreras difusas o
suaves entre grupos.
Genera y usa reglas
tipo: SI x es y en tal
grado entonces z en
tal grado
25
MÉTODOS
• Redes bayesianas.
Permiten aprender sobre
relaciones de dependencia y
causalidad.
Permiten combinar
conocimiento de datos.
Evitan el sobre-ajuste de
datos.
Permiten el manejo de bases
de datos incompletas, al igual
que las redes neuronales y la
lógica difusa.
Aprovechan el conocimiento
previo.
26
MÉTODOS
• Series temporales.
Estudian variables a través
del tiempo para que
partiendo de ese
conocimiento y con el
supuesto de no cambios
poder realizar predicciones.
Se basan en ciclos,
tendencias y estaciones.
(reconoce el azar)
Se puede aplicar enfoques
híbridos entre métodos
anteriores, o con otro tipo
de variables.
27
* Del trabajo del autor las tendencias del bajo peso al nacer en Colombia y los ciclos económicos
Fin
Medico Michel de Nôtre-Dame también llamado Nostradamus

Más contenido relacionado

PDF
Best Practices with the DMM
PDF
Data Governance Best Practices
PDF
Data Governance and Data Science to Improve Data Quality
PDF
DataEd Slides: Data Management Maturity - Achieving Best Practices Using DMM
PDF
Enterprise Architecture vs. Data Architecture
PDF
Data Catalogs Are the Answer – What is the Question?
PDF
Introduction to Data Governance
PDF
DAS Slides: Building a Future-State Data Architecture Plan - Where to Begin?
Best Practices with the DMM
Data Governance Best Practices
Data Governance and Data Science to Improve Data Quality
DataEd Slides: Data Management Maturity - Achieving Best Practices Using DMM
Enterprise Architecture vs. Data Architecture
Data Catalogs Are the Answer – What is the Question?
Introduction to Data Governance
DAS Slides: Building a Future-State Data Architecture Plan - Where to Begin?

La actualidad más candente (20)

PDF
Review of Data Management Maturity Models
PPT
Data Quality
PPTX
Data Governance for Enterprises
PPTX
Business Continuity Management
PPTX
Enterprise Data Architecture Deliverables
PDF
Scientific Data Stewardship Maturity Matrix
PDF
What We’ve Learned Building a Cyber Security Operation Center: du Case Study
PPTX
Knowledge Management: Processes and Systems
PPTX
Planning for security and security audit process
DOCX
Sistemas Mecanizados II
PPTX
Sei dmm-intro1
PPTX
Modelling Security Architecture
PDF
Data Management Maturity Assessment
PDF
Software Product Engineering Services | Digital Transformation
PPTX
Risk Assessment KPIs and KRIs:
PDF
Data Leadership - Stop Talking About Data and Start Making an Impact!
PPTX
Learn Togaf 9.1 in 100 slides!
PDF
Data Governance Takes a Village (So Why is Everyone Hiding?)
PPTX
Data Quality Management: Cleaner Data, Better Reporting
PDF
Enterprise Architecture vs. Data Architecture
Review of Data Management Maturity Models
Data Quality
Data Governance for Enterprises
Business Continuity Management
Enterprise Data Architecture Deliverables
Scientific Data Stewardship Maturity Matrix
What We’ve Learned Building a Cyber Security Operation Center: du Case Study
Knowledge Management: Processes and Systems
Planning for security and security audit process
Sistemas Mecanizados II
Sei dmm-intro1
Modelling Security Architecture
Data Management Maturity Assessment
Software Product Engineering Services | Digital Transformation
Risk Assessment KPIs and KRIs:
Data Leadership - Stop Talking About Data and Start Making an Impact!
Learn Togaf 9.1 in 100 slides!
Data Governance Takes a Village (So Why is Everyone Hiding?)
Data Quality Management: Cleaner Data, Better Reporting
Enterprise Architecture vs. Data Architecture
Publicidad

Similar a Mineria de datos en salud - Introducción - (20)

PDF
Ca732ov
PDF
Mortalidad Covid Mexico
PPTX
Mineria de Datos para analizar Mortalidad Covid en Mexico
PPTX
Mortalidad covid -Proyecto UAGRM
PPTX
Mortalidad del coivd-19 en México
PDF
Patrones de Crecimiento Covid
PPTX
Patrones decrecimientocovid - Proyecto de Mineria de Datos
PPTX
Mineria de Datos a los Patrones de Crecimiento covid Mexico
PPTX
Patrones decrecimientocovid
PPTX
Aplicacion de mineria de datos para analizar contagios del covic
PPTX
APLICACIÓN DE MINERÍA DE DATOS PARA ANALIZAR CONTAGIOS DEL COVID EN EL MUNDO
PPTX
Proyecto 2: APLICACION DE MINERIA DE DATOS PARA ANALIZAR CONTAGIOS DEL COVID ...
PPTX
Proyecto2: APLICACION DE MINERIA DE DATOS PARA ANALIZAR CONTAGIOS DEL COVID E...
PPTX
Mineríade datos
PDF
02 extraccion de conocimiento
PPTX
Proyecto nro 2 caso de estudio enfermedades cardiovasculares
PPTX
Mineria de datos detencion de enfermedades
PPTX
Minería de Datos Proyecto
PPTX
Caso de Estudio 2 - Grupo 4
PPT
Data Mining Snoop Consulting Arg
Ca732ov
Mortalidad Covid Mexico
Mineria de Datos para analizar Mortalidad Covid en Mexico
Mortalidad covid -Proyecto UAGRM
Mortalidad del coivd-19 en México
Patrones de Crecimiento Covid
Patrones decrecimientocovid - Proyecto de Mineria de Datos
Mineria de Datos a los Patrones de Crecimiento covid Mexico
Patrones decrecimientocovid
Aplicacion de mineria de datos para analizar contagios del covic
APLICACIÓN DE MINERÍA DE DATOS PARA ANALIZAR CONTAGIOS DEL COVID EN EL MUNDO
Proyecto 2: APLICACION DE MINERIA DE DATOS PARA ANALIZAR CONTAGIOS DEL COVID ...
Proyecto2: APLICACION DE MINERIA DE DATOS PARA ANALIZAR CONTAGIOS DEL COVID E...
Mineríade datos
02 extraccion de conocimiento
Proyecto nro 2 caso de estudio enfermedades cardiovasculares
Mineria de datos detencion de enfermedades
Minería de Datos Proyecto
Caso de Estudio 2 - Grupo 4
Data Mining Snoop Consulting Arg
Publicidad

Más de jairo cesar (11)

PDF
Holtwinters en r por jairo cesar alexander
PDF
Arima por jairo cesar alexander
PDF
Series temporales
PDF
Leishmaniasis
PDF
Trabajo de grado
PDF
Videos destacados JAIRO CESAR ALEXANDER
PDF
Software investigación cualitativa
PDF
Modelos explicativos de la salud y la enfermedad
PDF
Minería de datos en salud series temporales
PDF
Determinantes salud canada
PDF
Felicidad en colombia
Holtwinters en r por jairo cesar alexander
Arima por jairo cesar alexander
Series temporales
Leishmaniasis
Trabajo de grado
Videos destacados JAIRO CESAR ALEXANDER
Software investigación cualitativa
Modelos explicativos de la salud y la enfermedad
Minería de datos en salud series temporales
Determinantes salud canada
Felicidad en colombia

Último (20)

PPTX
3. SHOCK ANESTESIA II .pptx manejo del paciente
PPTX
tiroides, paratiroides y suprarrenal anatomia
PDF
Manual de orientacion y realizacion de pruebas de VIH, sifilis, Hepatitis B.pdf
PPTX
HISTORIA NATURAL DE LA ENFERMEDADEPS.pptx
PPTX
Anatomia y fisiologia Sistema_respiratorio.pptx
PDF
EXAMEN DE SERUM PARA EL AÑOS 2025 , PREGUNTAS POSIBLES
PPTX
Enfermedades de transmisión sexual ginecología
PDF
intervencio y violencia, ppt del manual
PDF
SESIÓN 15 - Imagenología Musculoesquelética.pdf
PPTX
Exploración de Pares Craneales_ Fundamentos y Práctica.pptx
PDF
ANESTESIOLOGÍA, ANESTESIO, BASES DE LA ANESTESIOLOGÍA
PDF
PRESENTACION DE ENF. GINECO OBSTETRICAS MAS COMUNES
PDF
SEPSIS Y CHOQUE SÉPTICO- SEMIOLOGIA Y FARMACO
PPTX
Introducción a la Prótesis Parcial Removible
PPTX
Aspectos históricos de la prostodoncia total
PDF
LA ARTRITIS -MAYERLY YAZURI RAMIREZ ESPINOZA
PDF
BIOLOGIA BUENOS APUNTES PREUNIVERSITARIOS
PPTX
Infecciones del aparato genital femenino.pptx
PPTX
LESION RENAL 2025.pptx MEDICINA UMSS AGUDA
PPTX
PRESENTACION RABDOMIOLISIS URGENCIAS.pptx
3. SHOCK ANESTESIA II .pptx manejo del paciente
tiroides, paratiroides y suprarrenal anatomia
Manual de orientacion y realizacion de pruebas de VIH, sifilis, Hepatitis B.pdf
HISTORIA NATURAL DE LA ENFERMEDADEPS.pptx
Anatomia y fisiologia Sistema_respiratorio.pptx
EXAMEN DE SERUM PARA EL AÑOS 2025 , PREGUNTAS POSIBLES
Enfermedades de transmisión sexual ginecología
intervencio y violencia, ppt del manual
SESIÓN 15 - Imagenología Musculoesquelética.pdf
Exploración de Pares Craneales_ Fundamentos y Práctica.pptx
ANESTESIOLOGÍA, ANESTESIO, BASES DE LA ANESTESIOLOGÍA
PRESENTACION DE ENF. GINECO OBSTETRICAS MAS COMUNES
SEPSIS Y CHOQUE SÉPTICO- SEMIOLOGIA Y FARMACO
Introducción a la Prótesis Parcial Removible
Aspectos históricos de la prostodoncia total
LA ARTRITIS -MAYERLY YAZURI RAMIREZ ESPINOZA
BIOLOGIA BUENOS APUNTES PREUNIVERSITARIOS
Infecciones del aparato genital femenino.pptx
LESION RENAL 2025.pptx MEDICINA UMSS AGUDA
PRESENTACION RABDOMIOLISIS URGENCIAS.pptx

Mineria de datos en salud - Introducción -

  • 1. MINERÍA DE DATOS EN SALUD: INTRODUCCIÓN (DATA MINING IN HEALTHCARE ) Jairo Cesar Alexander 2017
  • 2. MINERÍA DE DATOS - DATA MINING • Procesos para descubrir patrones en grandes conjuntos de datos * Dengue grave en Colombia
  • 3. PARA QUÉ USAMOS LA MINERÍA DE DATOS? Predecir • Utilizar algunas variables o campos en una base de datos para predecir valores desconocidos o futuros. Comprender • Encontrar o visualizar patrones que describan la información (interpretables o entendibles por el profesional y el usuario lo mas importante) * Hipotiroidismo congénito en Colombia
  • 4. EJEMPLO: MINERÍA DE DATOS EN SALUD • 70 indicadores de salud en Colombia monitorizados en tiempo real , con generación de puntos de alarma y pronósticos automáticos vía web(sistema simple pero funcional creado por el autor en pc de escritorio en software KNIME)
  • 5. Nivel de atención Enfoque de el nivel de Intervención Acciones practicas gracias a la minería de datos (ejemplos) Impacto global a largo termino Primer nivel de atención Promoción de la salud Prevención Tratamiento Rehabilitaci ón Enviar mensajes de texto PERSONALISADOS recordando la vacunación de los niños Las mamas pueden saber si las demás mamas están vacunado a sus hijos y los médicos están al tanto. seguir una epidemia (ejem H1N1) en tiempo real. llamar proactivamente a alguien con riesgo alto de IAM retroalimentar (útilmente)al medico en tiempo real en la consulta diaria con analítica de toda la información suministrada Dx de toda la población automática , en tiempo real , para todos, y para la acción ya . alto Segundo nivel de atención Tratamiento retroalimentar al medico con medicamentos que nunca se reclaman en farmacia Gerencia puede evaluar la efectividad, eficiencia, eficacia de los ttos. Evaluación del seguimiento de los protocolos recomendados por Min Salud. Integración de información inter institucional de uso practico. Detección de fraude concierta enfermedad de alto costo que se aumento de repente un 200%, conformaciones de redes reales. medio Tercer nivel de atención Tratamiento Evaluacion de el riesgo de readminisión a UCI de un paciente Responder a preguntas :Que tto tiene mas eficiencia? Existe una nueva patología en nuestra población? Como les va a otros usuarios como este medicamento? bajo
  • 6. EJEMPLO :DETECCION DE FRAUDE EN HEMOFILIA
  • 7. EJEMPLOS ÚTILES DE PREDICCIÓN • Estratificar a los pacientes en grupos de alto, medio o bajo riesgo. clave para el éxito de cualquier iniciativa de gestión de salud de la población. • Para pacientes que llevan mucho riesgo ,sería más barato enviarles de forma preventiva un médico ,en lugar de esperar que ese paciente entre por urgencias
  • 8. TRANSICIÓN NECESARIA SISTEMA DE SALUD BASADO EN ATENCIÓN DE URGENCIAS CENTRADO EN EL ASEGURAMIENTO FINANCIERO A SISTEMA DE SALUD BASADO EN PROMOCIÓN DE LA SALUD Y PREVENCIÓN DE LA ENFEREMDAD CENTRADO EN LA SALID DE EL USUARIO
  • 9. RETOS - MINERÍA DE DATOS EN SALUD • Como analizar todas las historias clínicas , todos los registros farmacéuticos, cirujas , procedimientos, interconsultas, y evolución DE FORMA INTEGRADA para: promover la salud, prevenir la enfermedad , evaluar y mejorar los tratamientos rehabilitación, etc • Como lo hago en tiempo real, y para todos…(notificación nacional e institucional automática en tiempo real – algoritmos de revisión, verificación) todos significa retroalimentación desde el usuario -medico al sistema y del sistema hasta el medico - usuario, también epidemiologia en tiempo real para todos. • Como usar las redes sociales para mis objetivos
  • 10. TANTA INFORMACIÓN PARA QUE ? PARA QUIEN ? Dx individual Dx poblacional Evaluación individual y E. poblacional Terapéutica individual y poblacional y manejo de riesgo Retroalimentación usuario y generador de información
  • 11. REDES SOCIALES • COMERCIO (CERVECERAS TABACALARES) • BANCA • SECTOR POLITICO • TELECOMUNICACIONES • AEROLINEAS • OTROS 30 SECTORES y hasta la delincuencia … Y NOSOTROS QUE ?
  • 12. FASES DE LA MINERÍA (CRISP-DM): • (1) Comprensión del negocio (fenómenos de salud – las causas…..) • (2) La comprensión de Datos (estadística) • (3) Preparación de Datos (integración) • (4) Modelado • (5) Evaluación • (6) El despliegue
  • 13. FUENTES DE DATOS • Bases de datos relacionales • Bases de datos multidimensionales (DW) • Bases de datos transaccionales • Series temporales, secuencias y data streams • Datos estructurados • Datos espaciales y espaciotemporales • Textos e hipertextos (p.ej. Web Redes sociales) • Bases de datos multimedia (p.ej. Imágenes, microscopia RX etc.)
  • 14. TAREAS DE LA MINERIA DE DATOS- SALUD • Caracterización: descriptiva, necesidades, prioridades • Asociación: poblaciones similares, riesgo, • Clasificación: diagnostico • Análisis de grupos: inferencia • Evolución y tendencias (en espacio-GIS o tiempo -series temporales – predicción, interpolación, perspectivas, escenarios) • Análisis de desviaciones o anomalías: fraude, brotes, picos, respuesta a políticas, o programas, impacto.
  • 15. ADVERTENCIA Todas las técnicas estadísticas se basan en la suposición de que los patrones existentes continuarán en el futuro. (o de que existen patrones)
  • 16. COMO SE EVALUACIÓN LA MINERÍA Precisión Claridad Integración 16
  • 17. QUE MÉTODO SELECCIONO? • Existe una gran cantidad de métodos o herramientas clasificadas de acuerdo a su uso habitual. La selección de un método depende de muchos factores: el contexto, la pertinencia, la disponibilidad de los datos históricos, el grado de precisión deseable, el período de tiempo que se prevé, el costo / beneficio de la previsión, el tiempo disponible para realizar el análisis, pero sobre todo de lo que necesito realmente.
  • 18. Necesidad Conjunto Metodos Ejemplo Visualizar Visualización Grafica de líneas Grafica de pastel Series de tiempo Joint point Describir las tendencias del acné en Colombia y si hay puntos de quiebre estadísticamente significativos, y mostrar porcentajes por genero y grupos de edad. Predecir Clasificación Arbol C&R, QUEST, CHAID, C 5.0, Regresión, lineal, logística, Cox, redes neuronal, maquina de vectores, redes bayesianas, lineal mixto generalizado, ARIMA, KNN, Pre método PCA/Análisis factorial, filtros Predecir la evolución de la leishmaniosis en Colombia para los próximos 10 años. Encontrar patrones Asociación A priori, CARMA, CARMA secuencial, reglas. Buscar una serie de procesos con altas tasa de eventos de riesgo. Segmentar Clusters K medias, Kohonen Agrupar la población por riesgo, detectar atípicos en una población. SELECCIÓN DEL MÉTODO ADECUADO : FÁCIL
  • 19. MUCHOS MÉTODOS • Árboles de Decisión • Clasificación de Bayes • Mínimos cuadrados ordinarios • Regresión logística • Máquinas de Vectores Soporte • Métodos Ensemble • Algoritmos de agrupación • Análisis de Componentes Principales • Análisis de Componentes Independientes • Descomposición de valor singular • Redes Neuronales Artificiales. • Algoritmos Genéticos. • Vecino más Cercano. • otros
  • 21. MÉTODOS • Árboles de decisión. Herramientas analíticas empleadas para el descubrimiento de reglas y relaciones. Se construye partiendo el conjuntos de dos (CART) o más (CHAID). Cada subconjunto a su vez es particionado. Se continua hasta no encontrar diferencias significativas de influencia. Son modelos caja abierta, permiten interpretación 21
  • 22. MÉTODOS • Reglas de asociación. Derivan de un tipo de análisis que extrae información por coincidencias. Permite descubrir correlaciones en los sucesos de la base de datos. Usa reglas del tipo SI... ENTONCES. Permiten interpretación del experto 22
  • 23. MÉTODOS • Redes neuronales. Son capaces de detectar y aprender patrones y características de los datos. Una vez adiestradas las redes pueden hacer pronósticos, clasificaciones y segmentación. Son modelos cajas negras 23
  • 24. MÉTODOS • Algoritmos genéticos. Hacen uso de técnicas de reproducción (mutación y cruce) para ser utilizadas para búsqueda y optimización. Se parte de una población inicial, y se altera optimizándola. Esta herramienta se usa en las primeras fases de la minería . 24
  • 25. MÉTODOS • Lógica difusa. Surge de la necesidad de modelar la realidad de forma mas exacta, evitando el determinismo y exactitud. Permite el tratamiento de grises mas allá del blanco y negro Trata la existencia de barreras difusas o suaves entre grupos. Genera y usa reglas tipo: SI x es y en tal grado entonces z en tal grado 25
  • 26. MÉTODOS • Redes bayesianas. Permiten aprender sobre relaciones de dependencia y causalidad. Permiten combinar conocimiento de datos. Evitan el sobre-ajuste de datos. Permiten el manejo de bases de datos incompletas, al igual que las redes neuronales y la lógica difusa. Aprovechan el conocimiento previo. 26
  • 27. MÉTODOS • Series temporales. Estudian variables a través del tiempo para que partiendo de ese conocimiento y con el supuesto de no cambios poder realizar predicciones. Se basan en ciclos, tendencias y estaciones. (reconoce el azar) Se puede aplicar enfoques híbridos entre métodos anteriores, o con otro tipo de variables. 27 * Del trabajo del autor las tendencias del bajo peso al nacer en Colombia y los ciclos económicos
  • 28. Fin Medico Michel de Nôtre-Dame también llamado Nostradamus