ANÁLISIS PREVIO Y
EXPLORATORIO DE DATOS
INTRODUCCIÓN
En toda investigación, y antes de extraer conclusiones acerca de
los objetivos e hipótesis planteados, es necesario llevar a cabo un
análisis previo y exploratorio de los datos con objeto de detectar
errores en la codificación de las variables, eliminar inconsistencias,
evaluar la magnitud y tipo de datos perdidos (ausentes), conocer
características básicas de la distribución de las variables (normalidad,
igualdad de varianzas, presencia de valores atípicos, linealidad, etc) y
avanzar acerca de las relaciones entre ellas.
Análisis univariable
La mayoría de estos objetivos se alcanzan realizando un análisis descriptivo de las
variables. Concretamente utilizaremos medidas de tendencia central y de dispersión
para describir las características de las variables cuantitativas y tablas de frecuencias y
porcentajes para las variables cualitativas. Para ello utilizaremos, esencialmente, los
procedimiento de SPSS que aparecen en la última columna de la siguiente tabla:
Tipo de variable Índices analíticos Representaciones
gráficas
Procedimientos de
SPSS
Cuantitativa media, mediana,
moda, desviación
típica, rango, amplitud
intercuartílica, prueba
de normalidad
histograma, gráfico
de caja
Descriptivos,
Explorar, Tablas
Cualitativa frecuencias,
porcentajes, moda,
etc.
diagrama de barras,
diagrama de líneas,
diagrama de
sectores
Frecuencias, Tablas
INTRODUCCIÓN
Para llevar a cabo el análisis previo y exploratorio de
datos disponemos de un conjunto de procedimientos
estadísticos numéricos y gráficos que vamos a describir a lo
largo del presente curso y que están implementados en la
mayoría de los programas estadísticos (SPSS, SAS, S-PLUS,
LISREL, EQS, etc).
Vamos a entender por errores de codificación a todos aquellos valores que
están fuera del rango de las variables cuantitativas y a códigos numéricos o no
numéricos no definidos para representar a categorías de las variables cualitativas.
Ejemplo: Estamos interesados en estudiar si la opinión acerca de la ley de
matrimonios entre parejas del mismo sexo depende de la edad y del sexo. Para
ello seleccionamos una muestra de sujetos mayores de edad y les pedimos que
nos den su opinión acerca de la ley eligiendo una de las opciones de una escala
que va desde 1 (muy desfavorable) hasta 7 (muy favorable). Los datos los hemos
escrito en una archivo de spss y hemos realizado un análisis descriptivo básico
utilizando el procedimiento frecuencias para las todas las variables incluidas en el
archivo y el procedimiento descriptivos para las cuantitativas
1. Detectar errores en la codificación de las variables
cualitativas y cuantitativas:
Para realizar el análisis descriptivo hemos seleccionado las
opciones que aparecen en los cuadros siguientes y hemos obtenido las
siguientes tablas. A partir de la información que nos proporcionan las
tablas
¿podemos identificar errores de codificación en las variables medidas?
2. Caracterizar las distribuciones de las variables en cuanto a su
tendencia central, dispersión y forma (normalidad).
• Para ello utilizaremos tanto índices numéricos como gráficos.
• Estadísticos de tendencia central
– Media aritmética.
– Mediana: una vez ordenados los datos, es el valor que deja el mismo número
de observaciones a su derecha que a su izquierda.
– Media truncada: es la media de la variable eliminando el 5% de las colas
inferior y superior de la distribución, de esta forma se eliminan valores
extremos y es por tanto un estadístico robusto.
– M-estimadores: son estadísticos robustos pues se definen ponderando cada
valor de la distribución en función de su distancia al centro de la misma. Las
observaciones centrales se ponderan por el máximo valor (la unidad)
disminuyendo los coeficientes de ponderación a medida que las
observaciones se alejan del centro. Existen distintas formas de ponderar:
Humbert (pondera con valor uno los valores situados a menos de 1,339 de la
mediana), Tukey (pondera con cero los valores situados a 4,385 de la
mediana), Andrews (pondera con cero los situados a 4,2066 de la mediana),
etc.
2. Caracterizar las distribuciones de las variables en cuanto a
su tendencia central, dispersión y forma (normalidad).
• Estadísticos de dispersión:
• Rango
• Varianza
• Desviación tipo
• Amplitud intercuartílica (AI)
• Estadísticos de forma:
• Asimetría.
• Curtosis
• Prueba de normalidad de Kolmogorov
Histograma Gráfico de caja Gráfico Q-Q
DIG
15.0
12.5
10.0
7.5
5.0
2.5
0.0
16
14
12
10
8
6
4
2
0
Desv. típ. = 3.57
Media = 7.1
N = 49.00
2. Caracterizar las distribuciones de las variables en cuanto a su
tendencia central, dispersión y forma (normalidad).
Figura 1. Tipologías de histogramas
Figura 2. Tipologías de gráficos Q-Q
2. Caracterizar las distribuciones de las variables en cuanto
a su tendencia central, dispersión y forma (normalidad).
i
X
i
máx X
X −
+ )
1
(
i
X
10
log ( )
( )
i
máx X
X −
+1
log10
i
X
1
( )
( )
i
máx X
X −
+1
1
Para caracterizar a las variables cuantitativas utilizaremos el procedimiento Explorar de
SPSS con las variables cansancio emocional, despersonalización, realización personal
y depresión total medidas en una muestra de odontólogos. Los cuadros de diálogo con
las opciones básicas recomendadas son:
2. Caracterizar las distribuciones de las variables en cuanto a su
tendencia central, dispersión y forma (normalidad).
Con las opciones seleccionadas hemos obtenido información que nos
permite responder a las siguientes cuestiones de las variables
analizadas:
1. Identificar las medidas de tendencia central y de dispersión
2. Comparar la media con la mediana y con los estimadores robustos
3. Evaluar mediante inspección visual la normalidad de las variables
4. Evaluar utilizando la prueba de significación la normalidad de las
variables
2. Caracterizar las distribuciones de las variables en cuanto
a su tendencia central, dispersión y forma (normalidad).
Llamamos datos atípicos a aquellas observaciones que se encuentran
alejadas del resto de las observaciones en una variable (atípico univariable) o en
la distribución conjunta de dos o más variables (atípico multivariable). Los valores
atípicos multivariantes resultan de combinaciones de valores muy inusuales. Las
consecuencias de una sola observación atípica pueden ser graves pues pueden
distorsionar las medias y desviaciones típicas de las variables y destruir o construir
relaciones entre ellas. Ejemplo
Los valores atípicos pueden deberse a
2.1. Errores en la codificación de los valores de las variables, errores en la
codificación de valores perdidos, errores de medida, errores en la transcripción.
2.2. Observaciones que no proceden de la población de la que se ha extraído la
muestra.
2.3. Observaciones atípicas debidas a que la distribución de la variable en la
población tiene valores más extremos que los de una distribución normal.
Los valores atípicos debidos a 2.1. y 2.2., una vez detectados deben ser
eliminados o recodificados como valores perdidos. En el caso 2.3 suelen retenerse
y analizar su incidencia en los análisis posteriores.
3. Detectar datos atípicos:
3. Detectar datos atípicos:
• Para considerar a una observación como atípica existen diferentes criterios:
Se consideran atípica aquellas observaciones que están, en valores absolutos, a
más de 3 desviaciones tipo de la media (Z>3 o Z<-3) pero la aplicación de este
para criterio depende del tamaño de la muestra.
• En el gráfico de caja, como ya hemos vistos, son atípicos observaciones con
puntuaciones superiores o inferiores a 1,5*AI. A partir de 3*AI se califican de
extremos.
• Otra regla simple es considerar sospechosas aquellas observaciones tales que:
donde Med(x) es la mediana y MEDA(x) es la mediana de las desviaciones
absolutas de x con respeto a la mediana
( )
5
,
4
)
(

−
x
MEDA
x
med
xi
3. Detectar datos atípicos:
• Los criterios para detectar atípicos a nivel
univariante no tienen porque identificar atípicos
multivariantes. Para ello se puede utilizar, aunque
no exenta de problemas, la distancia de
Mahalanobis.
La distancia de Mahalanobis es la distancia al
centro de gravedad ponderada por la matriz de
varianzas covarianzas. Una observación
multivariante resultará sospechosa si su distancia
supera el valor de chi-cuadrado para k (número de
variables) y un nivel de significación de 0,001.
Algunos de los gráficos disponibles en SPSS
implementan los criterios anteriores para detectar
datos atípicos. Los siguientes cuadros de diálogo
corresponden a los gráficos recomendados para
detectar atípicos:
Con la secuencia de cuadros de diálogo sobre la
matriz obtenemos los siguientes gráficos
3. Detectar datos atípicos:
3. Detectar datos atípicos:
Caras de Chernoff
3. Detectar datos atípicos:
Gráficos de estrella
-4
-2
0
2
4
zcan
zdespe
zrea
zdepre
zsatisfa
fr
-5
-4
-3
-2
-1
0
1
2
3
4
zcan zdespe zrea zdepre zsatisfa
Gráficos de línea
sujeto 1
-2
-1
0
1
zcan
zdespe
zrea
zdepre
zsatisfa
sujeto 1
sujeto 2
-2
0
2
4
zcan
zdespe
zrea
zdepre
zsatisfa
4. Linealidad
Muchos procedimientos de análisis se basan en el patrón de correlaciones de Pearson
entre variables cuantitativas. El coeficiente de correlación mide el grado de asociación
lineal entre variables y no es adecuado utilizarlo cuando el patrón de covariación no es
lineal. Es importante también que los coeficientes de correlación sean fiables y, bajo
determinadas circunstancias, los coeficientes de correlación pueden ser mucho más
grandes o mucho más pequeños de lo que deberían ser.
Variables compuestas: En muchas investigaciones es frecuente utilizar variables
compuestas (sumas, promedios, etc) que se obtienen a partir de varios items, las
correlaciones entre variables compuestas que comparten items individuales en su
definición suelen estar infladas.
La presencia de valores atípicos: los valores atípicos como ya hemos demostrado
pueden inflar o reducir significativamente las correlaciones entre variables.
Restricción de rango: las correlaciones muestrales pueden ser inferiores a las
poblacionales cuando en la muestra el rango de respuestas de uno o ambas de las
variables analizadas está restringido.
• La herramienta más útil para obtener información, a nivel
exploratorio, de la relación entre dos variables
cuantitativas es el diagrama de dispersión, o nube de
puntos. Se construye representando, en el plano
cartesiano, los valores de las variables medidas. La
inspección visual del gráfico de dispersión nos permite
identificar valores atípicos y el tipo de relación entre las
variables.
4. Linealidad
0
20
40
60
80
100
0 1
-15
-10
-5
0
5
10
0
5
10
15
20
25
30
0
5
10
15
20
25
30
35
40
0 5 10 15 20
0
50
100
150
200
250
300
0 5 10 15 20
4. Linealidad
4. Linealidad
Gráfico
20,00 40,00 60,00 80,00 100,00
hrv_a
20,00
40,00
60,00
80,00
hrv_b
a) Diagrama de dispersión
por defecto
4. Linealidad
Análisis exploratorio de datos (II). Análisis de dos variables
cuantitativas. Diagrama de dispersión con SPSS
Gráfico
hrv_a hrv_b hrv_c hrv_d hrv_fa imp_a imp_b imp_c imp_d
imp_d
imp_c
imp_b
imp_a
hrv_fa
hrv_d
hrv_c
hrv_b
hrv_a
20,00 40,00 60,00 80,00 100,00
hrv_a
20,00
40,00
60,00
80,00
hrv_b
grup
ctrl
phob
4. Linealidad
análisis previo y exploratorio
Univariable Multivariado
a) Variable Cualitativa
b) Variable Cuantitativa
a) Dos Variables Cualitativas: Tablas de contingencia y
gráficos de barras
b) Una Variable Cuantitativa y otra Cualitativa: Explorar
c) Dos Variables Cuantitativa: correlaciones bivariadas,
gráficos de dispersión
Bivariado
Escobar, M. (2000). Análisis gráfico/Exploratorio. Cuadernos de
Estadística. Madrid: Editorial La Muralla.
Figueras, M y Gargallo, P. (2003): Análisis Exploratorio de Datos", [en
línea]. http://www.5campus.com/leccion/aed> [y añadir fecha
consulta]
Palmer, A. (1995). El análisis exploratorio de datos. Madrid: Eudema
Peña, D. (2002). Análisis de datos multivariantes. Madrid: McGraw Hill.
Rial, A.; Varela, J. y rojas, A. (2001). Depuración y análisis preliminares
de datos en SPSS. Sistemas informatizados para la investigación del
comportamiento. Madrid: RA-MA.
Bibliografía

Más contenido relacionado

PPTX
ANÁLISIS DE LOS DATOS CUANTITATIVOS
PPT
Estadística descriptiva aplicada a ciencias de la salud.ppt
PDF
Unidad I.pdf
PDF
Como presentar estadistica
PPTX
AGRUPACIÓN DE DATOS.pptx
PPTX
Presentación clase programación con temas
PDF
Curso de estadistica descriptiva
PPT
ESTADÍSTICA DESCRIPTIVA GRUPO 10
ANÁLISIS DE LOS DATOS CUANTITATIVOS
Estadística descriptiva aplicada a ciencias de la salud.ppt
Unidad I.pdf
Como presentar estadistica
AGRUPACIÓN DE DATOS.pptx
Presentación clase programación con temas
Curso de estadistica descriptiva
ESTADÍSTICA DESCRIPTIVA GRUPO 10

Similar a EL ANÁLISIS PREVIO Y EXPLORATORIO DE DATOS.pdf (20)

PDF
Guion_Descriptiva.pdf
PPT
UTPL-ESTADÍSTICA I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
PDF
Análisis Cuantitativo: Estadística Descriptiva
PDF
presentacionestadisticadescriptiva-150314070124-conversion-gate01.pdf
PPTX
Presentacion estadistica descriptiva
PDF
Estadistica
PPT
Clase10 analisisdedatos
PPTX
Estadistica descriptiva
PPT
Proceso de investigación y análisis de datos
PPT
Esta Di Stica Descriptiva
PPT
5 Semana Analisis Multivariante Parte II
PPTX
Estadística descriptiva
PPTX
Descriptivo
PDF
Análisis de datos
PPTX
EpidemiologíA Descriptiva Sin Fondo
PDF
Rey diapositiva diapositivas_c10
PPT
Moda Ppt
PPT
PPTX
Estadistica
Guion_Descriptiva.pdf
UTPL-ESTADÍSTICA I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
Análisis Cuantitativo: Estadística Descriptiva
presentacionestadisticadescriptiva-150314070124-conversion-gate01.pdf
Presentacion estadistica descriptiva
Estadistica
Clase10 analisisdedatos
Estadistica descriptiva
Proceso de investigación y análisis de datos
Esta Di Stica Descriptiva
5 Semana Analisis Multivariante Parte II
Estadística descriptiva
Descriptivo
Análisis de datos
EpidemiologíA Descriptiva Sin Fondo
Rey diapositiva diapositivas_c10
Moda Ppt
Estadistica
Publicidad

Más de SaulRamonestorres (7)

PDF
PROCESAMIENTO DE DATOS USANDO SPSS.pdf
PDF
EL ANÁLISIS DE MODELOS DE REGRESION LOGISTICA.pdf
PDF
LA MODA Y MEDIANA.pdf
PDF
MINERALES NO METALICOS Y SU COMERCIALIZACION.pdf
PDF
EÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdf
PDF
EL ENFOQUE CUANTITATIVO.pdf
PDF
LA MODA Y MEDIANA.pdf
PROCESAMIENTO DE DATOS USANDO SPSS.pdf
EL ANÁLISIS DE MODELOS DE REGRESION LOGISTICA.pdf
LA MODA Y MEDIANA.pdf
MINERALES NO METALICOS Y SU COMERCIALIZACION.pdf
EÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdf
EL ENFOQUE CUANTITATIVO.pdf
LA MODA Y MEDIANA.pdf
Publicidad

Último (20)

PDF
Aqui No Hay Reglas Hastings-Meyer Ccesa007.pdf
DOCX
Programa_Sintetico_Fase_4.docx 3° Y 4°..
PDF
MATERIAL DIDÁCTICO 2023 SELECCIÓN 1_REFORZAMIENTO 1° BIMESTRE_COM.pdf
PPTX
BIZANCIO. EVOLUCIÓN HISTORICA, RAGOS POLÍTICOS, ECONOMICOS Y SOCIALES
PDF
E1 Guía_Matemática_5°_grado.pdf paraguay
PDF
Aumente su Autoestima - Lair Ribeiro Ccesa007.pdf
PDF
LIBRO 2-SALUD Y AMBIENTE-4TO CEBA avanzado.pdf
PDF
Mi Primer Millon - Poissant - Godefroy Ccesa007.pdf
PDF
MATERIAL DIDÁCTICO 2023 SELECCIÓN 1_REFORZAMIENTO 1° BIMESTRE.pdf
PDF
Jodorowsky, Alejandro - Manual de Psicomagia.pdf
PDF
La Inteligencia Emocional - Fabian Goleman TE4 Ccesa007.pdf
PPTX
LAS MIGRACIONES E INVASIONES Y EL INICIO EDAD MEDIA
PDF
IPERC...................................
PDF
ciencia_tecnologia_sociedad Mitcham Carl. (1994)..pdf
PDF
Como Potenciar las Emociones Positivas y Afrontar las Negativas Ccesa007.pdf
PDF
Como usar el Cerebro en las Aulas SG2 NARCEA Ccesa007.pdf
PDF
2.0 Introduccion a processing, y como obtenerlo
DOC
4°_GRADO_-_SESIONES_DEL_11_AL_15_DE_AGOSTO.doc
DOCX
PLAN DE CASTELLANO 2021 actualizado a la normativa
PDF
Los10 Mandamientos de la Actitud Mental Positiva Ccesa007.pdf
Aqui No Hay Reglas Hastings-Meyer Ccesa007.pdf
Programa_Sintetico_Fase_4.docx 3° Y 4°..
MATERIAL DIDÁCTICO 2023 SELECCIÓN 1_REFORZAMIENTO 1° BIMESTRE_COM.pdf
BIZANCIO. EVOLUCIÓN HISTORICA, RAGOS POLÍTICOS, ECONOMICOS Y SOCIALES
E1 Guía_Matemática_5°_grado.pdf paraguay
Aumente su Autoestima - Lair Ribeiro Ccesa007.pdf
LIBRO 2-SALUD Y AMBIENTE-4TO CEBA avanzado.pdf
Mi Primer Millon - Poissant - Godefroy Ccesa007.pdf
MATERIAL DIDÁCTICO 2023 SELECCIÓN 1_REFORZAMIENTO 1° BIMESTRE.pdf
Jodorowsky, Alejandro - Manual de Psicomagia.pdf
La Inteligencia Emocional - Fabian Goleman TE4 Ccesa007.pdf
LAS MIGRACIONES E INVASIONES Y EL INICIO EDAD MEDIA
IPERC...................................
ciencia_tecnologia_sociedad Mitcham Carl. (1994)..pdf
Como Potenciar las Emociones Positivas y Afrontar las Negativas Ccesa007.pdf
Como usar el Cerebro en las Aulas SG2 NARCEA Ccesa007.pdf
2.0 Introduccion a processing, y como obtenerlo
4°_GRADO_-_SESIONES_DEL_11_AL_15_DE_AGOSTO.doc
PLAN DE CASTELLANO 2021 actualizado a la normativa
Los10 Mandamientos de la Actitud Mental Positiva Ccesa007.pdf

EL ANÁLISIS PREVIO Y EXPLORATORIO DE DATOS.pdf

  • 2. INTRODUCCIÓN En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis previo y exploratorio de los datos con objeto de detectar errores en la codificación de las variables, eliminar inconsistencias, evaluar la magnitud y tipo de datos perdidos (ausentes), conocer características básicas de la distribución de las variables (normalidad, igualdad de varianzas, presencia de valores atípicos, linealidad, etc) y avanzar acerca de las relaciones entre ellas.
  • 3. Análisis univariable La mayoría de estos objetivos se alcanzan realizando un análisis descriptivo de las variables. Concretamente utilizaremos medidas de tendencia central y de dispersión para describir las características de las variables cuantitativas y tablas de frecuencias y porcentajes para las variables cualitativas. Para ello utilizaremos, esencialmente, los procedimiento de SPSS que aparecen en la última columna de la siguiente tabla: Tipo de variable Índices analíticos Representaciones gráficas Procedimientos de SPSS Cuantitativa media, mediana, moda, desviación típica, rango, amplitud intercuartílica, prueba de normalidad histograma, gráfico de caja Descriptivos, Explorar, Tablas Cualitativa frecuencias, porcentajes, moda, etc. diagrama de barras, diagrama de líneas, diagrama de sectores Frecuencias, Tablas
  • 4. INTRODUCCIÓN Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos numéricos y gráficos que vamos a describir a lo largo del presente curso y que están implementados en la mayoría de los programas estadísticos (SPSS, SAS, S-PLUS, LISREL, EQS, etc).
  • 5. Vamos a entender por errores de codificación a todos aquellos valores que están fuera del rango de las variables cuantitativas y a códigos numéricos o no numéricos no definidos para representar a categorías de las variables cualitativas. Ejemplo: Estamos interesados en estudiar si la opinión acerca de la ley de matrimonios entre parejas del mismo sexo depende de la edad y del sexo. Para ello seleccionamos una muestra de sujetos mayores de edad y les pedimos que nos den su opinión acerca de la ley eligiendo una de las opciones de una escala que va desde 1 (muy desfavorable) hasta 7 (muy favorable). Los datos los hemos escrito en una archivo de spss y hemos realizado un análisis descriptivo básico utilizando el procedimiento frecuencias para las todas las variables incluidas en el archivo y el procedimiento descriptivos para las cuantitativas 1. Detectar errores en la codificación de las variables cualitativas y cuantitativas:
  • 6. Para realizar el análisis descriptivo hemos seleccionado las opciones que aparecen en los cuadros siguientes y hemos obtenido las siguientes tablas. A partir de la información que nos proporcionan las tablas ¿podemos identificar errores de codificación en las variables medidas?
  • 7. 2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad). • Para ello utilizaremos tanto índices numéricos como gráficos. • Estadísticos de tendencia central – Media aritmética. – Mediana: una vez ordenados los datos, es el valor que deja el mismo número de observaciones a su derecha que a su izquierda. – Media truncada: es la media de la variable eliminando el 5% de las colas inferior y superior de la distribución, de esta forma se eliminan valores extremos y es por tanto un estadístico robusto. – M-estimadores: son estadísticos robustos pues se definen ponderando cada valor de la distribución en función de su distancia al centro de la misma. Las observaciones centrales se ponderan por el máximo valor (la unidad) disminuyendo los coeficientes de ponderación a medida que las observaciones se alejan del centro. Existen distintas formas de ponderar: Humbert (pondera con valor uno los valores situados a menos de 1,339 de la mediana), Tukey (pondera con cero los valores situados a 4,385 de la mediana), Andrews (pondera con cero los situados a 4,2066 de la mediana), etc.
  • 8. 2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad). • Estadísticos de dispersión: • Rango • Varianza • Desviación tipo • Amplitud intercuartílica (AI) • Estadísticos de forma: • Asimetría. • Curtosis • Prueba de normalidad de Kolmogorov
  • 9. Histograma Gráfico de caja Gráfico Q-Q DIG 15.0 12.5 10.0 7.5 5.0 2.5 0.0 16 14 12 10 8 6 4 2 0 Desv. típ. = 3.57 Media = 7.1 N = 49.00 2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad).
  • 10. Figura 1. Tipologías de histogramas Figura 2. Tipologías de gráficos Q-Q 2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad). i X i máx X X − + ) 1 ( i X 10 log ( ) ( ) i máx X X − +1 log10 i X 1 ( ) ( ) i máx X X − +1 1
  • 11. Para caracterizar a las variables cuantitativas utilizaremos el procedimiento Explorar de SPSS con las variables cansancio emocional, despersonalización, realización personal y depresión total medidas en una muestra de odontólogos. Los cuadros de diálogo con las opciones básicas recomendadas son: 2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad).
  • 12. Con las opciones seleccionadas hemos obtenido información que nos permite responder a las siguientes cuestiones de las variables analizadas: 1. Identificar las medidas de tendencia central y de dispersión 2. Comparar la media con la mediana y con los estimadores robustos 3. Evaluar mediante inspección visual la normalidad de las variables 4. Evaluar utilizando la prueba de significación la normalidad de las variables 2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad).
  • 13. Llamamos datos atípicos a aquellas observaciones que se encuentran alejadas del resto de las observaciones en una variable (atípico univariable) o en la distribución conjunta de dos o más variables (atípico multivariable). Los valores atípicos multivariantes resultan de combinaciones de valores muy inusuales. Las consecuencias de una sola observación atípica pueden ser graves pues pueden distorsionar las medias y desviaciones típicas de las variables y destruir o construir relaciones entre ellas. Ejemplo Los valores atípicos pueden deberse a 2.1. Errores en la codificación de los valores de las variables, errores en la codificación de valores perdidos, errores de medida, errores en la transcripción. 2.2. Observaciones que no proceden de la población de la que se ha extraído la muestra. 2.3. Observaciones atípicas debidas a que la distribución de la variable en la población tiene valores más extremos que los de una distribución normal. Los valores atípicos debidos a 2.1. y 2.2., una vez detectados deben ser eliminados o recodificados como valores perdidos. En el caso 2.3 suelen retenerse y analizar su incidencia en los análisis posteriores. 3. Detectar datos atípicos:
  • 14. 3. Detectar datos atípicos: • Para considerar a una observación como atípica existen diferentes criterios: Se consideran atípica aquellas observaciones que están, en valores absolutos, a más de 3 desviaciones tipo de la media (Z>3 o Z<-3) pero la aplicación de este para criterio depende del tamaño de la muestra. • En el gráfico de caja, como ya hemos vistos, son atípicos observaciones con puntuaciones superiores o inferiores a 1,5*AI. A partir de 3*AI se califican de extremos. • Otra regla simple es considerar sospechosas aquellas observaciones tales que: donde Med(x) es la mediana y MEDA(x) es la mediana de las desviaciones absolutas de x con respeto a la mediana ( ) 5 , 4 ) (  − x MEDA x med xi
  • 15. 3. Detectar datos atípicos: • Los criterios para detectar atípicos a nivel univariante no tienen porque identificar atípicos multivariantes. Para ello se puede utilizar, aunque no exenta de problemas, la distancia de Mahalanobis. La distancia de Mahalanobis es la distancia al centro de gravedad ponderada por la matriz de varianzas covarianzas. Una observación multivariante resultará sospechosa si su distancia supera el valor de chi-cuadrado para k (número de variables) y un nivel de significación de 0,001. Algunos de los gráficos disponibles en SPSS implementan los criterios anteriores para detectar datos atípicos. Los siguientes cuadros de diálogo corresponden a los gráficos recomendados para detectar atípicos:
  • 16. Con la secuencia de cuadros de diálogo sobre la matriz obtenemos los siguientes gráficos 3. Detectar datos atípicos:
  • 17. 3. Detectar datos atípicos: Caras de Chernoff
  • 18. 3. Detectar datos atípicos: Gráficos de estrella -4 -2 0 2 4 zcan zdespe zrea zdepre zsatisfa fr -5 -4 -3 -2 -1 0 1 2 3 4 zcan zdespe zrea zdepre zsatisfa Gráficos de línea sujeto 1 -2 -1 0 1 zcan zdespe zrea zdepre zsatisfa sujeto 1 sujeto 2 -2 0 2 4 zcan zdespe zrea zdepre zsatisfa
  • 19. 4. Linealidad Muchos procedimientos de análisis se basan en el patrón de correlaciones de Pearson entre variables cuantitativas. El coeficiente de correlación mide el grado de asociación lineal entre variables y no es adecuado utilizarlo cuando el patrón de covariación no es lineal. Es importante también que los coeficientes de correlación sean fiables y, bajo determinadas circunstancias, los coeficientes de correlación pueden ser mucho más grandes o mucho más pequeños de lo que deberían ser. Variables compuestas: En muchas investigaciones es frecuente utilizar variables compuestas (sumas, promedios, etc) que se obtienen a partir de varios items, las correlaciones entre variables compuestas que comparten items individuales en su definición suelen estar infladas. La presencia de valores atípicos: los valores atípicos como ya hemos demostrado pueden inflar o reducir significativamente las correlaciones entre variables. Restricción de rango: las correlaciones muestrales pueden ser inferiores a las poblacionales cuando en la muestra el rango de respuestas de uno o ambas de las variables analizadas está restringido.
  • 20. • La herramienta más útil para obtener información, a nivel exploratorio, de la relación entre dos variables cuantitativas es el diagrama de dispersión, o nube de puntos. Se construye representando, en el plano cartesiano, los valores de las variables medidas. La inspección visual del gráfico de dispersión nos permite identificar valores atípicos y el tipo de relación entre las variables. 4. Linealidad
  • 21. 0 20 40 60 80 100 0 1 -15 -10 -5 0 5 10 0 5 10 15 20 25 30 0 5 10 15 20 25 30 35 40 0 5 10 15 20 0 50 100 150 200 250 300 0 5 10 15 20 4. Linealidad
  • 23. Gráfico 20,00 40,00 60,00 80,00 100,00 hrv_a 20,00 40,00 60,00 80,00 hrv_b a) Diagrama de dispersión por defecto 4. Linealidad
  • 24. Análisis exploratorio de datos (II). Análisis de dos variables cuantitativas. Diagrama de dispersión con SPSS Gráfico hrv_a hrv_b hrv_c hrv_d hrv_fa imp_a imp_b imp_c imp_d imp_d imp_c imp_b imp_a hrv_fa hrv_d hrv_c hrv_b hrv_a
  • 25. 20,00 40,00 60,00 80,00 100,00 hrv_a 20,00 40,00 60,00 80,00 hrv_b grup ctrl phob 4. Linealidad
  • 26. análisis previo y exploratorio Univariable Multivariado a) Variable Cualitativa b) Variable Cuantitativa a) Dos Variables Cualitativas: Tablas de contingencia y gráficos de barras b) Una Variable Cuantitativa y otra Cualitativa: Explorar c) Dos Variables Cuantitativa: correlaciones bivariadas, gráficos de dispersión Bivariado
  • 27. Escobar, M. (2000). Análisis gráfico/Exploratorio. Cuadernos de Estadística. Madrid: Editorial La Muralla. Figueras, M y Gargallo, P. (2003): Análisis Exploratorio de Datos", [en línea]. http://www.5campus.com/leccion/aed> [y añadir fecha consulta] Palmer, A. (1995). El análisis exploratorio de datos. Madrid: Eudema Peña, D. (2002). Análisis de datos multivariantes. Madrid: McGraw Hill. Rial, A.; Varela, J. y rojas, A. (2001). Depuración y análisis preliminares de datos en SPSS. Sistemas informatizados para la investigación del comportamiento. Madrid: RA-MA. Bibliografía