SlideShare una empresa de Scribd logo
Módulo 3 - 05: Técnicas de análisis de datos
Transformación digital
de los negocios
Tabla de contenidos
1. Técnicas de descubrimiento del conocimiento
2. Text Mining
3. Análisis de redes sociales
Modelo multidimensional (I)
Antes de analizar, identificar elementos
cuantitativos y cualitativos
Modelo multidimensional (II)
Cuantitativo
Representa la parte medible de un hecho. Equivale
a lo que conocemos como métricas.
Modelo multidimensional (III)
Cualitativo
Tienen características calificadoras o
diferenciadoras del hecho
Qué, a quién, dónde, cómo, cuándo…
Modelo multidimensional (IV)
Componente o dimensión
Tiempo, tipo de producto o canal de distribución
Tienen asociados diferentes métricas que lo
describen
Modelo multidimensional (V)
Las dimensiones pueden tener
diferentes niveles en función de las
necesidades o de las posibilidades
Modelo multidimensional (VI)
Dimensión:
área geográfica
Niveles:
Continente, País, Autonomía, Provincia
Modelo multidimensional (VII)
Bases de datos multidimensionales que
almacenan los datos en matrices o cubos
hiperdimensionales
Modelo multidimensional (VIII)
Analizamos los hechos desde la perspectiva de sus
componentes o dimensiones
1. Abarcando todos los niveles de sus dimensiones
2. Análisis en conjunto o de forma individualizada
3. Analizamos un componente o un conjunto de ellos
Modelo multidimensional (IX)
Modelo multidimensional (IX)
Tres tipos de ficheros
1. Dimensiones de la empresa: Eje del análisis; proporcionan
el índice a los datos
2. Tablas de hecho o ficheros transaccionales: recogen la
actividad diaria de los procesos
3. Cruce de dimensiones con las tablas de hecho: generan las
tablas agregadas o Datawarehouse
Modelo multidimensional (X)
Estructura de los ficheros basada en
1. Dimensión tiempo: Ejercicio o mes fiscal
2. Métricas: importes/cantidades
Modelo multidimensional (X)
Beneficios
1. Conjunto de datos centralizados
2. Disposición estructurada y ordenada de los datos
3. Acceso rápido y eficaz a los datos
4. Información histórica para realizar estudios de evolución
Generar datos de prueba
Aplicación Data Mining
Análisis en función de objetivos
Métodos (I)
Métodos (II)
Diferentes métodos para analizar datos
1. Predictivos
2. Descubrimiento estructuras
3. Minería de relaciones
Método Predictivo (I)
Clasificador
Método Predictivo (II)
Clasificador
Método Predictivo (III)
La clasificación es muy importante en minería de
datos
Permite obtener un modelo, patrón o función que
discrimine entre dos o más clases excluyentes
Utiliza el error (% de instancias mal clasificadas)
para evaluar los resultados
Método Predictivo (IV)
Árboles de decisión
• Plantea el problema desde distintas perspectivas de acción
• Analiza de manera completa todas las posibles soluciones
• Cuantifica el coste del resultado y su probabilidad de uso
• Facilita las mejoras decisiones en base a la información existente
• Analiza alternativas, eventos, probabilidades y resultados
Método Predictivo (V)
Árboles de decisión
Método Predictivo (VI)
Regresión
Descubriendo estructuras (I)
Clustering
Identifica agrupaciones o clústeres de elementos de
acuerdo a una medida de similitud entre ellos
Descubriendo estructuras (I)
Clustering
Descubriendo estructuras (II)
Clustering
Descubriendo estructuras (III)
Clustering jerárquico
Dendograma o árbol que representa las relaciones
de similitud entre los elementos
Aglometarivo: se comienza con tantos clústeres como individuos y
se van aglomerando según similitud
División: se comienza con un único clúster y se va dividiendo
según similitudes
Descubriendo estructuras (IV)
Clustering de partición
En torno a centroides
Realiza una distribución de los elementos entre un número
prefijado de clústeres o grupos
Recibe como entrada el número de clústers aemás de los
elementos a clasificar y la matriz de similitudes
Descubriendo estructuras (V)
Análisis factorial
Descubriendo estructuras (VI)
Análisis factorial
Reduce una matriz de datos a dimensiones
estructurales más pequeñas
Detecta patrones subyacentes
Descubriendo estructuras (VII)
Análisis factorial
Método clásico: Se basa en la creencia de que las correlaciones
observadas en la matriz son principalmente el resultado de alguna
regularidad subyacente a los datos
Componentes principales: Es un método de transformación
directa de un conjunto dado de variables dentro de un nuevo
conjunto de variables compuestas o componentes
Descubriendo estructuras (VIII)
Tipos de factores
General: variables cargan en un mismo factor
Grupo: solo algunas variables son salientes
Común: variables que miden el mismo factor
Unipolar: variables con un mismo signo
Bipolar: variables con signo + y –
Singular: una sola saliente
Nulo: no tiene saliente
Descubriendo estructuras (IX)
Aplicaciones del análisis factorial
Como técnica exploratoria: examinar estructura subyacente a una
Base de Datos
Como técnica confirmatoria: probar la hipótesis acerca de la
estructura subyacente en la Base de Datos
Como técnica de medición: construcción de índices a partir de los
coeficientes de las cargas factoriales
Descubriendo estructuras (IX)
Aplicaciones
Etapas Opciones Referencias
Matriz de datos Única (sujetos por
medidas)
Martiz tipo - X
Matriz de correlación Correlación entre las
medidas
Matriz tipo - R
Correlación entre
unidades
Matriz tipo - Q
Extracción de factores
iniciales
Factores definidos Análisis Componentes
Principales
Factores inferidos Análisis Factorial
Correspondencia
Rotación hasta la solución
final
Factores no-
correlacionados
Rotación ortogonal
Factores correlacionados Rotación oblicua
Descubriendo estructuras (X)
Social Network Analysis
Minería de relaciones (I)
Reglas de asociación
Encontrar hechos que ocurren en común dentro de un
conjunto de datos
Minería de relaciones (II)
Reglas de asociación
Minería de relaciones (III)
Reglas de asociación
Product Placement
Objetivo: identificar productos que muchos clientes
compran conjuntamente
Solución: Procesar los datos de las ventas
Minería de relaciones (IV)
Análisis correlacional
Minería de relaciones (V)
Análisis correlacional
Correlación bivariada (relación o asociación entre
dos variables) o múltiple (entre más de dos
variables)
Forma gráfica (dispersión, dispersigrama o nube de
puntos) o analítica (ecuación matemática de Karl
Pearson)
Minería de relaciones (VI)
Análisis correlacional
Minería de relaciones (VII)
Análisis correlacional
Minería de relaciones (VIII)
Patrones secuenciales
Minería de relaciones (IX)
Patrones secuenciales
Minería de patrones que ocurren frecuentemente
relacionados al tiempo o a otras secuencias
«Un cliente que compra un iPad, dos días después
probablemente comprará la funda y las
aplicaciones de ofimática»
Igual que reglas de asociación pero con orden
Minería de relaciones (X)
Patrones secuenciales
Aplicaciones
• Secuencias de compra del cliente
• Tratamientos médicos, desastres naturales, procesos de la
ingeniería y las ciencias, mercados y valores, etc.
• Patrones de llamadas telefónicas, flujos de navegación en la web,
etc.
• Estructuras de ADN y genes
Minería de relaciones (XI)
Análisis de causalidad
Muchas preguntas en la vida diaria requiere la
identificación y medida de efectos causales
• ¿El tabaco provoca cáncer?
• ¿La aspirina reduce el riesgo de infarto?
• ¿Los cursos de formación para desempleados ayudan a
encontrar empleo?
• ¿Cuál es el impacto del salario mínimo sobre el empleo?
• ¿Afectan los subsidios salariales o los impuestos a la oferta
de trabajo de los individuos?
Minería de relaciones (XII)
Podemos medir la correlación estadística, pero esta
no implica que exista causalidad
Análisis experimental
Tabla de contenidos
1. Técnicas de descubrimiento del conocimiento
2. Text Mining
3. Análisis de redes sociales
Introducción (I)
«De media, el 80% de la información de
una empresa está almacenada en forma
de documentos»
Introducción (II)
Se basa en aplicar técnicas que faciliten la
categorización de texto, el
procesamiento de lenguaje natural, la
extracción y recuperación de la
información o el aprendizaje automático
entre otras
Pasos
Paso 1: Obtención y agrupación del texto
Identificar todos los lugares donde se
encuentra la información (documentos, páginas
web, informes, etc) y agrupar para poder
comenzar a trabajar
Paso 2: Pre-procesamiento (I)
Eliminamos el ruido
- Texto equivocado
- Texto ambiguo
- Texto erróneo
- Ruido en el formato (tags, enlaces…)
- Multiplicidad de idiomas
- Sinónimos
- Frases típicas
Paso 2: Pre-procesamiento (II)
Paso 2: Pre-procesamiento (III)
Convertir el documento en un vector de palabras: tokenization
Paso 2: Pre-procesamiento (IV)
Con Weka….
1- Importamos los datos en CSV
2- Eliminamos caracteres como: ;,.:’ % ( ) {}
3- Aplicamos el filtro NominalToString
4- Aplicamos el filtro StringToWordDetector
Paso 3: Generación de atributos (I)
Representación del texto (bag of words)
Paso 3: Generación de atributos (II)
Se crea un diccionario de términos
Paso 4: Selección de atributos
En Weka…
1- Ir a Select attributes
2- Seleccionar Latent Semantic Analysis
3- Start
4- Guardar el nuevo Data Set
Paso 5: Minería de datos
Utilizaremos cualquiera de las técnicas vistas en el
punto anterior
1- Clasificación
2- Descubrimiento de estructuras
3-Reglas de asociación
Paso 6: Interpretación y evaluación
1- Interpretar
Descubrimiento de estructuras
2- Evaluar los resultados
Clasificación
Reglas de asociación
3- Sacar conclusiones o iterar sobre los pasos
anteriores
Herramientas (I)
Herramientas (II)
Aplicaciones prácticas
Tabla de contenidos
1. Técnicas de descubrimiento del conocimiento
2. Text Mining
3. Análisis de redes sociales
Análisis de redes sociales
No es solo análisis de Social Media (aunque puede
ser una parte)
Es sociología + matemáticas
Estudio numérico + representación gráfica
¿Qué se estudia?
Redes egocéntricas
Actor principal con sus relaciones hasta grado n (amigos de amigos
de amigos)
Redes completas
Número de nodos completos determinados por una característica
completa
Grandes redes
El investigador determina el límite
Elementos (I)
Actores
Nodos de la red (personas, países, actividades,…)
Vínculos
Lo que une a los actores. Definen propiedades o características de
la relación
Elementos (II)
Ejemplos (I)
Ejemplos (II)
Proyecto real leads (I)
Proyecto real: ETL
Proyecto real leads (II)
Proyecto real: Normalizar datos
Proyecto real leads (III)
Proyecto real: Clustering
Proyecto real leads (IV)
Proyecto real: Clustering
Proyecto real leads (V)
Proyecto real: Clustering
Tradución
www.smartup.es
gblanco@smartup.pe
Las Begonias 552,
ofc 35
San Isidro, Lima
T.: (511) 637 3013
T.: (511) 637 3015
agala@smartup.ph
B. Nagac Street,
Kauswagan,
Cagayan de Oro City,
Philippines, 9000
CP: +63 9054451917
Land-Line: 088-8802561
info@smartup.es
C/ Segunda, 43,
oficina 132.
37188 Carbajosa
de la Sagrada
Salamanca
T.: (+34) 923 015 199
mteixeira@smartup.pt
Avenida da Noruega.
São Diniz – Vila Real.
5000-508 Vila Real
T.: +351 910539930
cllano@smartup.com.co
Calle 93
No. 19B - 66 Of 204
Bogotá
T.: 3104449453
rnunez@smartup.mx
Chihuahua 230,
Colonia Roma, México,
Distrito Federal, 11800
T.: (+52) 1 5539736899
desteban@smartup.es
Unit 1010, 10/F,
Miramar Tower,
132 Nathan Road,
Tsim Sha Tsui,
Kowloon, Hong Kong
T.: +86 136 0277 9697
España Portugal Perú Colombia México Filipinas China
Emilio Rodríguez
(Analytics & SEO Director)
Smartup España
T. (+34) 923 015 199
M. (+34) 667 594 159
erodriguez@smartup.es
España
T. (+34) 923 015 199
C/ Segunda 43
Oficina 132
C.P: 37188
Carbajosa de la Sagrada
Salamanca

Más contenido relacionado

PPTX
Presentacion enfoques de investigación
PPT
La Hipotesis
PPTX
Recolección de información: Técnicas e instrumentos básicos
PPTX
Metodo comparativo o de constrastacion
PDF
Tipos de investigacion
PPTX
Caracteristicas de las bases de datos
PPTX
Investigación correlacional y explicativa
PPT
Análisis de Datos
Presentacion enfoques de investigación
La Hipotesis
Recolección de información: Técnicas e instrumentos básicos
Metodo comparativo o de constrastacion
Tipos de investigacion
Caracteristicas de las bases de datos
Investigación correlacional y explicativa
Análisis de Datos

La actualidad más candente (20)

PPT
Metodo De Observacion
PPT
Procesamiento de datos cuantitativos y cualitativos
PPTX
Diapositivas sobre BD (Base de Datos)
PPTX
elementos del proceso de la investigacion
PPTX
El investigador y sus características
PPTX
Metodologia cap 6 - formulacion de hipotesis
PDF
Presentación de resultados
PPTX
Conocimiento causal y diagnostico
PPTX
PPTX
Presentacion: Teoria Emergente
PPTX
LA CIENCIA, SU METODO Y SU FILOSOFIA
PPT
Ingeniería derequerimientos
PPTX
Ppt. LA ÉTICA EN LA INVESTIGACIÓN
PDF
DB1 Unidad 5: SQL Avanzado
PPTX
Investigación Correlacional por Carolina Lapo
PPTX
Evaluación del desarrollo del sistema
PPTX
Proyecto Final Base De Datos
PPTX
Tipos de investigación
PPTX
LEGISLACIÓN INFORMÁTICA EN MÉXICO.pptx
PPTX
NORMAS APA SEPTIMA EDICION COMPILADO MARCO PAREDES
Metodo De Observacion
Procesamiento de datos cuantitativos y cualitativos
Diapositivas sobre BD (Base de Datos)
elementos del proceso de la investigacion
El investigador y sus características
Metodologia cap 6 - formulacion de hipotesis
Presentación de resultados
Conocimiento causal y diagnostico
Presentacion: Teoria Emergente
LA CIENCIA, SU METODO Y SU FILOSOFIA
Ingeniería derequerimientos
Ppt. LA ÉTICA EN LA INVESTIGACIÓN
DB1 Unidad 5: SQL Avanzado
Investigación Correlacional por Carolina Lapo
Evaluación del desarrollo del sistema
Proyecto Final Base De Datos
Tipos de investigación
LEGISLACIÓN INFORMÁTICA EN MÉXICO.pptx
NORMAS APA SEPTIMA EDICION COMPILADO MARCO PAREDES
Publicidad

Similar a Técnicas de análisis de datos (20)

PPTX
Minería de datos
PDF
Charla big data y data mining para gestión de información y bibliotecas
DOCX
Data mining triptico
PDF
Mineria de datos
PDF
Cap 19 análisis cualitativo de datos
PDF
Cap 19 análisis cualitativo de datos(1)
DOC
Marisela labrador
PPT
Mineria De Datos
PDF
Modelos para la gestión de datos
PPTX
Análisis y procesamiento de datos para descubrir conocimiento
PPTX
Big data & data mining
PPT
Base de datos
DOCX
Web mining
PDF
Sistemas de informacion Geográfico metadatos
PDF
Electiva iii parcial 2 - 02-minería de datos
PPT
Mineria de Datos
PPT
Presentación de Base de datos II
PPTX
Clase 5 bases de datos
PPTX
Presentacion data mining (mineria de datos)- base de datos
PPT
Webinario sobre Periodismo de Datos
Minería de datos
Charla big data y data mining para gestión de información y bibliotecas
Data mining triptico
Mineria de datos
Cap 19 análisis cualitativo de datos
Cap 19 análisis cualitativo de datos(1)
Marisela labrador
Mineria De Datos
Modelos para la gestión de datos
Análisis y procesamiento de datos para descubrir conocimiento
Big data & data mining
Base de datos
Web mining
Sistemas de informacion Geográfico metadatos
Electiva iii parcial 2 - 02-minería de datos
Mineria de Datos
Presentación de Base de datos II
Clase 5 bases de datos
Presentacion data mining (mineria de datos)- base de datos
Webinario sobre Periodismo de Datos
Publicidad

Más de Emilio Rodríguez García (20)

PPTX
[PIAMD] US2. El futuro de los buscadores y las redes sociales en la era de la IA
PPTX
Brain & Code - Las novedades del algoritmo de Google.pptx
PPTX
Webinar - Smartup - ¿Cómo será el SEO en 2020?
PPTX
USAL - Masterclass - Analítica web 2021
PPTX
Big Data + Marketing Digital
PPTX
Google Analytics 4 - Webinar (Smartup)
PPTX
Bases de datos NoSQL en entornos Big Data
PPTX
2018 Google Mobile First Index - Speed up Apache & Web for SEO
PPTX
Exprimiendo Google Analytics
PPTX
Analítica y medición digital
PPTX
Business intelligence vs experiencia de usuario
PPTX
Business intelligence
PPTX
Inbound marketing
PPTX
PPTX
Plan de marketing digital
PPTX
Identidad digital y reputación online
PPTX
Capa de negocios tecnológicos - Modelos de negocios (IV)
PPTX
Los números también importan - Modelos de negocio (III)
PPTX
Modelos de negocio en la era digital - Modelos de negocio (II)
PPTX
Introducción a la transformación digital - Modelos de negocio (I)
[PIAMD] US2. El futuro de los buscadores y las redes sociales en la era de la IA
Brain & Code - Las novedades del algoritmo de Google.pptx
Webinar - Smartup - ¿Cómo será el SEO en 2020?
USAL - Masterclass - Analítica web 2021
Big Data + Marketing Digital
Google Analytics 4 - Webinar (Smartup)
Bases de datos NoSQL en entornos Big Data
2018 Google Mobile First Index - Speed up Apache & Web for SEO
Exprimiendo Google Analytics
Analítica y medición digital
Business intelligence vs experiencia de usuario
Business intelligence
Inbound marketing
Plan de marketing digital
Identidad digital y reputación online
Capa de negocios tecnológicos - Modelos de negocios (IV)
Los números también importan - Modelos de negocio (III)
Modelos de negocio en la era digital - Modelos de negocio (II)
Introducción a la transformación digital - Modelos de negocio (I)

Último (20)

PPTX
RAP02 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
PPTX
Sesion 1 de microsoft power point - Clase 1
PPTX
Presentación de Redes de Datos modelo osi
PPTX
Propuesta BKP servidores con Acronis1.pptx
PDF
Maste clas de estructura metálica y arquitectura
PPT
Que son las redes de computadores y sus partes
PPTX
COMO AYUDAN LAS TIC EN LA EDUCACION SUPERIOR.pptx
PDF
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
PDF
5.1 Pinch y Bijker en libro Actos, actores y artefactos de Bunch Thomas (coor...
PPTX
Presentación PASANTIAS AuditorioOO..pptx
PDF
Liceo departamental MICRO BIT (1) 2.pdfbbbnn
PPTX
RAP01 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
PDF
Plantilla para Diseño de Narrativas Transmedia.pdf
PPTX
IA de Cine - Como MuleSoft y los Agentes estan redefiniendo la realidad
PDF
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
PPTX
historia_web de la creacion de un navegador_presentacion.pptx
PDF
Calidad desde el Docente y la mejora continua .pdf
PDF
Estrategia de apoyo tecnología grado 9-3
PPTX
REDES INFORMATICAS REDES INFORMATICAS.pptx
PDF
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
RAP02 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
Sesion 1 de microsoft power point - Clase 1
Presentación de Redes de Datos modelo osi
Propuesta BKP servidores con Acronis1.pptx
Maste clas de estructura metálica y arquitectura
Que son las redes de computadores y sus partes
COMO AYUDAN LAS TIC EN LA EDUCACION SUPERIOR.pptx
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
5.1 Pinch y Bijker en libro Actos, actores y artefactos de Bunch Thomas (coor...
Presentación PASANTIAS AuditorioOO..pptx
Liceo departamental MICRO BIT (1) 2.pdfbbbnn
RAP01 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
Plantilla para Diseño de Narrativas Transmedia.pdf
IA de Cine - Como MuleSoft y los Agentes estan redefiniendo la realidad
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
historia_web de la creacion de un navegador_presentacion.pptx
Calidad desde el Docente y la mejora continua .pdf
Estrategia de apoyo tecnología grado 9-3
REDES INFORMATICAS REDES INFORMATICAS.pptx
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.

Técnicas de análisis de datos

  • 1. Módulo 3 - 05: Técnicas de análisis de datos Transformación digital de los negocios
  • 2. Tabla de contenidos 1. Técnicas de descubrimiento del conocimiento 2. Text Mining 3. Análisis de redes sociales
  • 3. Modelo multidimensional (I) Antes de analizar, identificar elementos cuantitativos y cualitativos
  • 4. Modelo multidimensional (II) Cuantitativo Representa la parte medible de un hecho. Equivale a lo que conocemos como métricas.
  • 5. Modelo multidimensional (III) Cualitativo Tienen características calificadoras o diferenciadoras del hecho Qué, a quién, dónde, cómo, cuándo…
  • 6. Modelo multidimensional (IV) Componente o dimensión Tiempo, tipo de producto o canal de distribución Tienen asociados diferentes métricas que lo describen
  • 7. Modelo multidimensional (V) Las dimensiones pueden tener diferentes niveles en función de las necesidades o de las posibilidades
  • 8. Modelo multidimensional (VI) Dimensión: área geográfica Niveles: Continente, País, Autonomía, Provincia
  • 9. Modelo multidimensional (VII) Bases de datos multidimensionales que almacenan los datos en matrices o cubos hiperdimensionales
  • 10. Modelo multidimensional (VIII) Analizamos los hechos desde la perspectiva de sus componentes o dimensiones 1. Abarcando todos los niveles de sus dimensiones 2. Análisis en conjunto o de forma individualizada 3. Analizamos un componente o un conjunto de ellos
  • 12. Modelo multidimensional (IX) Tres tipos de ficheros 1. Dimensiones de la empresa: Eje del análisis; proporcionan el índice a los datos 2. Tablas de hecho o ficheros transaccionales: recogen la actividad diaria de los procesos 3. Cruce de dimensiones con las tablas de hecho: generan las tablas agregadas o Datawarehouse
  • 13. Modelo multidimensional (X) Estructura de los ficheros basada en 1. Dimensión tiempo: Ejercicio o mes fiscal 2. Métricas: importes/cantidades
  • 14. Modelo multidimensional (X) Beneficios 1. Conjunto de datos centralizados 2. Disposición estructurada y ordenada de los datos 3. Acceso rápido y eficaz a los datos 4. Información histórica para realizar estudios de evolución
  • 17. Análisis en función de objetivos
  • 19. Métodos (II) Diferentes métodos para analizar datos 1. Predictivos 2. Descubrimiento estructuras 3. Minería de relaciones
  • 22. Método Predictivo (III) La clasificación es muy importante en minería de datos Permite obtener un modelo, patrón o función que discrimine entre dos o más clases excluyentes Utiliza el error (% de instancias mal clasificadas) para evaluar los resultados
  • 23. Método Predictivo (IV) Árboles de decisión • Plantea el problema desde distintas perspectivas de acción • Analiza de manera completa todas las posibles soluciones • Cuantifica el coste del resultado y su probabilidad de uso • Facilita las mejoras decisiones en base a la información existente • Analiza alternativas, eventos, probabilidades y resultados
  • 26. Descubriendo estructuras (I) Clustering Identifica agrupaciones o clústeres de elementos de acuerdo a una medida de similitud entre ellos
  • 29. Descubriendo estructuras (III) Clustering jerárquico Dendograma o árbol que representa las relaciones de similitud entre los elementos Aglometarivo: se comienza con tantos clústeres como individuos y se van aglomerando según similitud División: se comienza con un único clúster y se va dividiendo según similitudes
  • 30. Descubriendo estructuras (IV) Clustering de partición En torno a centroides Realiza una distribución de los elementos entre un número prefijado de clústeres o grupos Recibe como entrada el número de clústers aemás de los elementos a clasificar y la matriz de similitudes
  • 32. Descubriendo estructuras (VI) Análisis factorial Reduce una matriz de datos a dimensiones estructurales más pequeñas Detecta patrones subyacentes
  • 33. Descubriendo estructuras (VII) Análisis factorial Método clásico: Se basa en la creencia de que las correlaciones observadas en la matriz son principalmente el resultado de alguna regularidad subyacente a los datos Componentes principales: Es un método de transformación directa de un conjunto dado de variables dentro de un nuevo conjunto de variables compuestas o componentes
  • 34. Descubriendo estructuras (VIII) Tipos de factores General: variables cargan en un mismo factor Grupo: solo algunas variables son salientes Común: variables que miden el mismo factor Unipolar: variables con un mismo signo Bipolar: variables con signo + y – Singular: una sola saliente Nulo: no tiene saliente
  • 35. Descubriendo estructuras (IX) Aplicaciones del análisis factorial Como técnica exploratoria: examinar estructura subyacente a una Base de Datos Como técnica confirmatoria: probar la hipótesis acerca de la estructura subyacente en la Base de Datos Como técnica de medición: construcción de índices a partir de los coeficientes de las cargas factoriales
  • 36. Descubriendo estructuras (IX) Aplicaciones Etapas Opciones Referencias Matriz de datos Única (sujetos por medidas) Martiz tipo - X Matriz de correlación Correlación entre las medidas Matriz tipo - R Correlación entre unidades Matriz tipo - Q Extracción de factores iniciales Factores definidos Análisis Componentes Principales Factores inferidos Análisis Factorial Correspondencia Rotación hasta la solución final Factores no- correlacionados Rotación ortogonal Factores correlacionados Rotación oblicua
  • 38. Minería de relaciones (I) Reglas de asociación Encontrar hechos que ocurren en común dentro de un conjunto de datos
  • 39. Minería de relaciones (II) Reglas de asociación
  • 40. Minería de relaciones (III) Reglas de asociación Product Placement Objetivo: identificar productos que muchos clientes compran conjuntamente Solución: Procesar los datos de las ventas
  • 41. Minería de relaciones (IV) Análisis correlacional
  • 42. Minería de relaciones (V) Análisis correlacional Correlación bivariada (relación o asociación entre dos variables) o múltiple (entre más de dos variables) Forma gráfica (dispersión, dispersigrama o nube de puntos) o analítica (ecuación matemática de Karl Pearson)
  • 43. Minería de relaciones (VI) Análisis correlacional
  • 44. Minería de relaciones (VII) Análisis correlacional
  • 45. Minería de relaciones (VIII) Patrones secuenciales
  • 46. Minería de relaciones (IX) Patrones secuenciales Minería de patrones que ocurren frecuentemente relacionados al tiempo o a otras secuencias «Un cliente que compra un iPad, dos días después probablemente comprará la funda y las aplicaciones de ofimática» Igual que reglas de asociación pero con orden
  • 47. Minería de relaciones (X) Patrones secuenciales Aplicaciones • Secuencias de compra del cliente • Tratamientos médicos, desastres naturales, procesos de la ingeniería y las ciencias, mercados y valores, etc. • Patrones de llamadas telefónicas, flujos de navegación en la web, etc. • Estructuras de ADN y genes
  • 48. Minería de relaciones (XI) Análisis de causalidad Muchas preguntas en la vida diaria requiere la identificación y medida de efectos causales • ¿El tabaco provoca cáncer? • ¿La aspirina reduce el riesgo de infarto? • ¿Los cursos de formación para desempleados ayudan a encontrar empleo? • ¿Cuál es el impacto del salario mínimo sobre el empleo? • ¿Afectan los subsidios salariales o los impuestos a la oferta de trabajo de los individuos?
  • 49. Minería de relaciones (XII) Podemos medir la correlación estadística, pero esta no implica que exista causalidad Análisis experimental
  • 50. Tabla de contenidos 1. Técnicas de descubrimiento del conocimiento 2. Text Mining 3. Análisis de redes sociales
  • 51. Introducción (I) «De media, el 80% de la información de una empresa está almacenada en forma de documentos»
  • 52. Introducción (II) Se basa en aplicar técnicas que faciliten la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático entre otras
  • 53. Pasos
  • 54. Paso 1: Obtención y agrupación del texto Identificar todos los lugares donde se encuentra la información (documentos, páginas web, informes, etc) y agrupar para poder comenzar a trabajar
  • 55. Paso 2: Pre-procesamiento (I) Eliminamos el ruido - Texto equivocado - Texto ambiguo - Texto erróneo - Ruido en el formato (tags, enlaces…) - Multiplicidad de idiomas - Sinónimos - Frases típicas
  • 57. Paso 2: Pre-procesamiento (III) Convertir el documento en un vector de palabras: tokenization
  • 58. Paso 2: Pre-procesamiento (IV) Con Weka…. 1- Importamos los datos en CSV 2- Eliminamos caracteres como: ;,.:’ % ( ) {} 3- Aplicamos el filtro NominalToString 4- Aplicamos el filtro StringToWordDetector
  • 59. Paso 3: Generación de atributos (I) Representación del texto (bag of words)
  • 60. Paso 3: Generación de atributos (II) Se crea un diccionario de términos
  • 61. Paso 4: Selección de atributos En Weka… 1- Ir a Select attributes 2- Seleccionar Latent Semantic Analysis 3- Start 4- Guardar el nuevo Data Set
  • 62. Paso 5: Minería de datos Utilizaremos cualquiera de las técnicas vistas en el punto anterior 1- Clasificación 2- Descubrimiento de estructuras 3-Reglas de asociación
  • 63. Paso 6: Interpretación y evaluación 1- Interpretar Descubrimiento de estructuras 2- Evaluar los resultados Clasificación Reglas de asociación 3- Sacar conclusiones o iterar sobre los pasos anteriores
  • 67. Tabla de contenidos 1. Técnicas de descubrimiento del conocimiento 2. Text Mining 3. Análisis de redes sociales
  • 68. Análisis de redes sociales No es solo análisis de Social Media (aunque puede ser una parte) Es sociología + matemáticas Estudio numérico + representación gráfica
  • 69. ¿Qué se estudia? Redes egocéntricas Actor principal con sus relaciones hasta grado n (amigos de amigos de amigos) Redes completas Número de nodos completos determinados por una característica completa Grandes redes El investigador determina el límite
  • 70. Elementos (I) Actores Nodos de la red (personas, países, actividades,…) Vínculos Lo que une a los actores. Definen propiedades o características de la relación
  • 74. Proyecto real leads (I) Proyecto real: ETL
  • 75. Proyecto real leads (II) Proyecto real: Normalizar datos
  • 76. Proyecto real leads (III) Proyecto real: Clustering
  • 77. Proyecto real leads (IV) Proyecto real: Clustering
  • 78. Proyecto real leads (V) Proyecto real: Clustering Tradución
  • 79. www.smartup.es gblanco@smartup.pe Las Begonias 552, ofc 35 San Isidro, Lima T.: (511) 637 3013 T.: (511) 637 3015 agala@smartup.ph B. Nagac Street, Kauswagan, Cagayan de Oro City, Philippines, 9000 CP: +63 9054451917 Land-Line: 088-8802561 info@smartup.es C/ Segunda, 43, oficina 132. 37188 Carbajosa de la Sagrada Salamanca T.: (+34) 923 015 199 mteixeira@smartup.pt Avenida da Noruega. São Diniz – Vila Real. 5000-508 Vila Real T.: +351 910539930 cllano@smartup.com.co Calle 93 No. 19B - 66 Of 204 Bogotá T.: 3104449453 rnunez@smartup.mx Chihuahua 230, Colonia Roma, México, Distrito Federal, 11800 T.: (+52) 1 5539736899 desteban@smartup.es Unit 1010, 10/F, Miramar Tower, 132 Nathan Road, Tsim Sha Tsui, Kowloon, Hong Kong T.: +86 136 0277 9697 España Portugal Perú Colombia México Filipinas China Emilio Rodríguez (Analytics & SEO Director) Smartup España T. (+34) 923 015 199 M. (+34) 667 594 159 erodriguez@smartup.es España T. (+34) 923 015 199 C/ Segunda 43 Oficina 132 C.P: 37188 Carbajosa de la Sagrada Salamanca