SlideShare una empresa de Scribd logo
ANÁLISIS DE DATOS MULTIVARIANTES
Daniel Peña
23 de enero de 2002
2
Índice General
0.1 Prefacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1 INTRODUCCIÓN 13
1.1 EL ANÁLISIS DE DATOS MULTIVARIANTES . . . . . . . . . . . . . . . 13
1.2 ESTRUCTURA DEL LIBRO . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 PROGRAMAS DE ORDENADOR . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 UN POCO DE HISTORIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5 LECTURAS COMPLEMENTARIAS . . . . . . . . . . . . . . . . . . . . . . 21
2 ÁLGEBRA MATRICIAL 23
2.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 VECTORES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 DeÞniciones básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2 Dependencia Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3 MATRICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.1 DeÞniciones básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.2 Productos entre matrices . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.3 Rango de una matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.4 Matrices Cuadradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.5 Matrices Particionadas . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.4 VECTORES Y VALORES PROPIOS . . . . . . . . . . . . . . . . . . . . . . 46
2.4.1 DeÞnición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.4.2 Valores y vectores propios de matrices simétricas . . . . . . . . . . . 49
2.4.3 Diagonalización de Matrices Simétricas . . . . . . . . . . . . . . . . . 52
2.4.4 Raiz cuadrada de una matriz semideÞnida positiva . . . . . . . . . . 54
2.4.5 Descomposición en valores singulares . . . . . . . . . . . . . . . . . . 56
2.4.6 (*)Diagonalización de Matrices generales . . . . . . . . . . . . . . . . 56
2.4.7 (*)Inversas Generalizadas . . . . . . . . . . . . . . . . . . . . . . . . 57
2.5 (*)PROYECCIÓN ORTOGONAL . . . . . . . . . . . . . . . . . . . . . . . 58
2.5.1 Matrices Idempotentes . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.5.2 Proyección Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.6 (*)DERIVADAS MATRICIALES . . . . . . . . . . . . . . . . . . . . . . . . 64
3
4 ÍNDICE GENERAL
3 DESCRIPCIÓN DE DATOS MULTIVARIANTES 67
3.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2 DATOS MULTIVARIANTES . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2.1 Tipos de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2.2 La matriz de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.2.3 Análisis univariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.3 MEDIDAS DE CENTRALIZACIÓN: EL VECTOR DE MEDIAS . . . . . . 72
3.4 LA MATRIZ DE VARIANZAS Y COVARIANZAS . . . . . . . . . . . . . . 74
3.4.1 Cálculo a partir de la matriz de datos centrados . . . . . . . . . . . . 75
3.4.2 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.4.3 Variables redundantes: El caso con Matriz S singular . . . . . . . . . 80
3.5 MEDIDAS GLOBALES DE VARIABILIDAD . . . . . . . . . . . . . . . . . 83
3.5.1 La variabilidad total y la varianza promedio . . . . . . . . . . . . . . 83
3.5.2 La Varianza Generalizada . . . . . . . . . . . . . . . . . . . . . . . . 83
3.5.3 La variabilidad promedio . . . . . . . . . . . . . . . . . . . . . . . . 85
3.6 VARIABILIDAD Y DISTANCIAS . . . . . . . . . . . . . . . . . . . . . . . 86
3.6.1 El concepto de distancia . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.6.2 La Distancia de Mahalanobis . . . . . . . . . . . . . . . . . . . . . . 88
3.6.3 La distancia promedio . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.7 MEDIDAS DE DEPENDENCIA LINEAL . . . . . . . . . . . . . . . . . . . 91
3.7.1 Dependencia por pares: La matriz de correlación . . . . . . . . . . . 91
3.7.2 Dependencia de cada variable y el resto: Regresión Múltiple . . . . . 92
3.7.3 Dependencia directa entre pares: Correlaciones parciales . . . . . . . 95
3.7.4 El coeÞciente de Dependencia . . . . . . . . . . . . . . . . . . . . . . 96
3.8 La matriz de precisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.9 COEFICIENTES DE ASIMETRÍA Y KURTOSIS . . . . . . . . . . . . . . . 99
4 ANALISIS GRAFICO Y DATOS ATIPICOS 107
4.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.2 REPRESENTACIONES GRÁFICAS . . . . . . . . . . . . . . . . . . . . . . 107
4.2.1 Histogramas y diagramas de dispersión . . . . . . . . . . . . . . . . . 107
4.2.2 Representación mediante Þguras . . . . . . . . . . . . . . . . . . . . . 111
4.2.3 (*)Representación de Proyecciones . . . . . . . . . . . . . . . . . . . 112
4.3 TRANSFORMACIONES LINEALES . . . . . . . . . . . . . . . . . . . . . . 114
4.3.1 Consecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3.2 Estandarización univariante . . . . . . . . . . . . . . . . . . . . . . . 115
4.3.3 (*)Estandarización multivariante . . . . . . . . . . . . . . . . . . . . 115
4.4 TRANSFORMACIONES NO LINEALES . . . . . . . . . . . . . . . . . . . 117
4.4.1 Simplicidad en las distribuciones . . . . . . . . . . . . . . . . . . . . 117
4.4.2 Simplicidad en las relaciones . . . . . . . . . . . . . . . . . . . . . . . 119
4.5 DATOS ATÍPICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.5.1 DeÞnición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.5.2 Los efectos de los atípicos . . . . . . . . . . . . . . . . . . . . . . . . 121
4.5.3 (*)IdentiÞcación de grupos de atípicos . . . . . . . . . . . . . . . . . 122
ÍNDICE GENERAL 5
4.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5 COMPONENTES PRINCIPALES 137
5.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.2 PLANTEAMIENTO DEL PROBLEMA . . . . . . . . . . . . . . . . . . . . 138
5.3 CALCULO DE LOS COMPONENTES . . . . . . . . . . . . . . . . . . . . . 141
5.3.1 Cálculo del primer componente . . . . . . . . . . . . . . . . . . . . . 141
5.3.2 Cálculo del segundo componente . . . . . . . . . . . . . . . . . . . . . 144
5.3.3 Generalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.4 PROPIEDADES DE LOS COMPONENTES . . . . . . . . . . . . . . . . . . 149
5.5 ANÁLISIS NORMADO O CON CORRELACIONES . . . . . . . . . . . . . 151
5.6 INTERPRETACIÓN DE LOS COMPONENTES . . . . . . . . . . . . . . . 155
5.6.1 Selección del número de componentes . . . . . . . . . . . . . . . . . . 158
5.6.2 Representación gráÞca . . . . . . . . . . . . . . . . . . . . . . . . . . 159
5.6.3 Datos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.6.4 Distribución de los componentes . . . . . . . . . . . . . . . . . . . . . 163
5.7 Generalizaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
5.8 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6 ESCALADO MULTIDIMENSIONAL 179
6.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
6.2 ESCALADOS MÉTRICOS: COORDENADAS PRINCIPALES . . . . . . . 180
6.2.1 Construcción de variables a partir de las distancias . . . . . . . . . . 180
6.3 Matrices compatibles con métricas euclídeas . . . . . . . . . . . . . . . . . . 183
6.3.1 Construcción de las Coordenadas Principales . . . . . . . . . . . . . . 186
6.4 RELACIÓN ENTRE COORDENADAS Y COMPONENTES PRINCIPALES 189
6.5 BIPLOTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
6.6 ESCALADO NO MÉTRICO . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
6.7 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
7 ANÁLISIS DE CORRESPONDENCIAS 201
7.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
7.2 BÚSQUEDA DE LA MEJOR PROYECCIÓN . . . . . . . . . . . . . . . . . 202
7.2.1 Proyección de las Filas . . . . . . . . . . . . . . . . . . . . . . . . . . 203
7.2.2 Proyección de las columnas . . . . . . . . . . . . . . . . . . . . . . . 210
7.2.3 Análisis Conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
7.3 LA DISTANCIA JI-CUADRADO . . . . . . . . . . . . . . . . . . . . . . . . 214
7.4 ASIGNACIÓN DE PUNTUACIONES . . . . . . . . . . . . . . . . . . . . . 220
7.5 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
8 ANÁLISIS DE CONGLOMERADOS 227
8.1 FUNDAMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
8.2 MÉTODOS CLÁSICOS DE PARTICIÓN . . . . . . . . . . . . . . . . . . . 228
8.2.1 Fundamentos del algoritmo de k-medias . . . . . . . . . . . . . . . . 228
8.2.2 Implementación del algoritmo . . . . . . . . . . . . . . . . . . . . . . 228
6 ÍNDICE GENERAL
8.2.3 Número de grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
8.3 MÉTODOS JERÁRQUICOS . . . . . . . . . . . . . . . . . . . . . . . . . . 240
8.3.1 Distancias y Similaridades . . . . . . . . . . . . . . . . . . . . . . . . 240
8.3.2 Algoritmos Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . 244
8.3.3 Métodos Aglomerativos . . . . . . . . . . . . . . . . . . . . . . . . . . 244
8.4 CONGLOMERADOS POR VARIABLES . . . . . . . . . . . . . . . . . . . 252
8.4.1 Medidas de distancia y similitud entre variables . . . . . . . . . . . . 252
8.5 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
9 DISTRIBUCIONES MULTIVARIANTES 257
9.1 CONCEPTOS BÁSICOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
9.1.1 Variables aleatorias vectoriales. . . . . . . . . . . . . . . . . . . . . . 257
9.1.2 Distribución conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
9.1.3 Distribuciones marginales y condicionadas . . . . . . . . . . . . . . . 259
9.1.4 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
9.1.5 La maldición de la dimensión . . . . . . . . . . . . . . . . . . . . . . 262
9.2 PROPIEDADES DE VARIABLES VECTORIALES . . . . . . . . . . . . . . 263
9.2.1 Vector de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
9.2.2 Esperanza de una función . . . . . . . . . . . . . . . . . . . . . . . . 264
9.2.3 Matriz de varianzas y covarianzas . . . . . . . . . . . . . . . . . . . . 264
9.2.4 Transformaciones de vectores aleatorios. . . . . . . . . . . . . . . . . 265
9.2.5 Esperanzas de transformaciones lineales . . . . . . . . . . . . . . . . . 266
9.3 Dependencia entre variables aleatorias . . . . . . . . . . . . . . . . . . . . . 267
9.3.1 Esperanzas condicionadas . . . . . . . . . . . . . . . . . . . . . . . . 267
9.3.2 Varianzas condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 268
9.3.3 Matriz de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
9.3.4 Correlaciones Múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . 270
9.3.5 Correlaciones Parciales . . . . . . . . . . . . . . . . . . . . . . . . . . 270
9.4 LA DISTRIBUCIÓN MULTINOMIAL . . . . . . . . . . . . . . . . . . . . . 271
9.5 LA DISTRIBUCIÓN DE DIRICHLET . . . . . . . . . . . . . . . . . . . . . 273
9.6 LA NORMAL k-DIMENSIONAL . . . . . . . . . . . . . . . . . . . . . . . . 274
9.6.1 Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . . 277
9.7 DISTRIBUCIONES ELÍPTICAS . . . . . . . . . . . . . . . . . . . . . . . . 281
9.7.1 Distribuciones esféricas . . . . . . . . . . . . . . . . . . . . . . . . . . 281
9.7.2 Distribuciones elípticas . . . . . . . . . . . . . . . . . . . . . . . . . 282
9.8 (*)LA DISTRIBUCIÓN DE WISHART . . . . . . . . . . . . . . . . . . . . . 283
9.8.1 Concepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
9.8.2 Propiedades de la distribución . . . . . . . . . . . . . . . . . . . . . . 285
9.9 LA T2
DE HOTELLING . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
9.10 DISTRIBUCIONES MEZCLADAS . . . . . . . . . . . . . . . . . . . . . . . 288
9.11 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
ÍNDICE GENERAL 7
10 INFERENCIA CON DATOS MULTIVARIANTES 295
10.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
10.2 Fundamentos de la Estimación Máximo Verosimil . . . . . . . . . . . . . . . 295
10.3 Estimación de los parámetros de variables normales p-dimensionales. . . . . 297
10.4 El método de la razón de verosimilitudes . . . . . . . . . . . . . . . . . . . . 299
10.5 Contraste sobre la media de una población normal . . . . . . . . . . . . . . . 301
10.6 Contrastes sobre la matriz de varianzas de una población normal . . . . . . . 303
10.6.1 Contraste de un valor particular . . . . . . . . . . . . . . . . . . . . . 304
10.6.2 Contraste de independencia . . . . . . . . . . . . . . . . . . . . . . . 305
10.6.3 Contraste de esfericidad . . . . . . . . . . . . . . . . . . . . . . . . . 305
10.6.4 (*)Contraste de esfericidad parcial . . . . . . . . . . . . . . . . . . . . 306
10.6.5 Ajustes en la distribución . . . . . . . . . . . . . . . . . . . . . . . . 307
10.7 Contraste de igualdad de varias medias: el Análisis de la Varianza Multivariante307
10.8 Contrastes de datos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
10.9 Contrastes de Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
10.9.1 Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
10.10Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
11 METODOS DE INFERENCIA AVANZADA MULTIVARIANTE 321
11.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
11.2 ESTIMACIÓN MV CON DATOS FALTANTES . . . . . . . . . . . . . . . . 322
11.2.1 Estimación MV con el algoritmo EM . . . . . . . . . . . . . . . . . . 323
11.2.2 Estimación MV de mezclas . . . . . . . . . . . . . . . . . . . . . . . . 325
11.2.3 Estimación de poblaciones normales con datos ausentes . . . . . . . . 331
11.3 ESTIMACIÓN ROBUSTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
11.4 ESTIMACIÓN BAYESIANA . . . . . . . . . . . . . . . . . . . . . . . . . . 337
11.4.1 Concepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
11.4.2 Distribuciones a priori . . . . . . . . . . . . . . . . . . . . . . . . . . 339
11.4.3 Cálculo de la Posterior . . . . . . . . . . . . . . . . . . . . . . . . . . 340
11.4.4 Estimación Bayesiana de referencia en el modelo normal . . . . . . . 341
11.4.5 Estimación con información a priori . . . . . . . . . . . . . . . . . . . 342
11.5 CONTRASTES BAYESIANOS . . . . . . . . . . . . . . . . . . . . . . . . . 344
11.5.1 Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
11.5.2 Comparación entre los contraste bayesianos y los clásicos . . . . . . . 346
11.6 Selección de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
11.6.1 El Criterio de Akaike . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
11.6.2 El criterio BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
11.6.3 Relación entre el BIC y EL AIC . . . . . . . . . . . . . . . . . . . . . 350
11.7 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
12 ANÁLISIS FACTORIAL 355
12.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
12.2 EL MODELO FACTORIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
12.2.1 Hipótesis básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
8 ÍNDICE GENERAL
12.2.2 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
12.2.3 Unicidad del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
12.2.4 Normalización del modelo factorial . . . . . . . . . . . . . . . . . . . 360
12.2.5 Número máximo de factores . . . . . . . . . . . . . . . . . . . . . . . 361
12.3 EL MÉTODO DEL FACTOR PRINCIPAL . . . . . . . . . . . . . . . . . . 362
12.3.1 Estimación de las comunalidades . . . . . . . . . . . . . . . . . . . . 363
12.3.2 Generalizaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
12.4 ESTIMACIÓN MÁXIMO VEROSÍMIL . . . . . . . . . . . . . . . . . . . . . 370
12.4.1 Estimación MV de los parámetros . . . . . . . . . . . . . . . . . . . . 370
12.4.2 Otros métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . 372
12.5 DETERMINACIÓN DEL NÚMERO DE FACTORES . . . . . . . . . . . . 374
12.5.1 Contraste de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . 374
12.5.2 Criterios de selección . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
12.6 ROTACIÓN DE LOS FACTORES . . . . . . . . . . . . . . . . . . . . . . . 379
12.7 ESTIMACIÓN DE LOS FACTORES . . . . . . . . . . . . . . . . . . . . . . 381
12.7.1 Los factores como parámetros . . . . . . . . . . . . . . . . . . . . . . 381
12.7.2 Los factores como variables aleatorias . . . . . . . . . . . . . . . . . . 382
12.8 DIAGNOSIS DEL MODELO . . . . . . . . . . . . . . . . . . . . . . . . . . 383
12.9 Análisis Factorial ConÞrmatorio . . . . . . . . . . . . . . . . . . . . . . . . . 386
12.10Relación con componentes principales . . . . . . . . . . . . . . . . . . . . . . 388
12.11Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
13 ANÁLISIS DISCRIMINANTE 397
13.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
13.2 CLASIFICACIÓN ENTRE DOS POBLACIONES . . . . . . . . . . . . . . . 398
13.2.1 Planteamiento del Problema . . . . . . . . . . . . . . . . . . . . . . . 398
13.2.2 Poblaciones Normales: Función lineal discriminante . . . . . . . . . . 401
13.2.3 Interpretación Geométrica . . . . . . . . . . . . . . . . . . . . . . . . 402
13.2.4 Cálculo de Probabilidades de error . . . . . . . . . . . . . . . . . . . 405
13.2.5 Probabilidades a posteriori . . . . . . . . . . . . . . . . . . . . . . . . 406
13.3 GENERALIZACIÓN PARA VARIAS POBLACIONES NORMALES . . . . 407
13.3.1 Planteamiento General . . . . . . . . . . . . . . . . . . . . . . . . . . 407
13.3.2 Procedimiento operativo . . . . . . . . . . . . . . . . . . . . . . . . . 409
13.4 POBLACIONES DESCONOCIDAS. CASO GENERAL . . . . . . . . . . . 412
13.4.1 Regla estimada de clasiÞcación . . . . . . . . . . . . . . . . . . . . . 412
13.4.2 Cálculo de Probabilidades de error . . . . . . . . . . . . . . . . . . . 414
13.5 VARIABLES CANÓNICAS DISCRIMINANTES . . . . . . . . . . . . . . . 415
13.5.1 El caso de dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
13.5.2 Varios Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
13.5.3 Variables canónicas discriminantes . . . . . . . . . . . . . . . . . . . 420
13.6 DISCRIMINACIÓN CUADRÁTICA. DISCRIMINACIÓN DE POBLACIONES
NO NORMALES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
13.7 DISCRIMINACIÓN BAYESIANA . . . . . . . . . . . . . . . . . . . . . . . 427
13.8 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
ÍNDICE GENERAL 9
14 DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFI-
CACIÓN 433
14.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
14.2 EL MODELO LOGIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
14.2.1 Modelos con respuesta cualitativa . . . . . . . . . . . . . . . . . . . . 434
14.2.2 El modelo logit con datos normales . . . . . . . . . . . . . . . . . . . 436
14.2.3 Interpretación del Modelo Logístico . . . . . . . . . . . . . . . . . . . 437
14.3 LA ESTIMACIÓN DEL MODELO LOGIT . . . . . . . . . . . . . . . . . . 438
14.3.1 Estimación MV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438
14.3.2 Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442
14.3.3 Diagnosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
14.4 EL MODELO MULTILOGIT . . . . . . . . . . . . . . . . . . . . . . . . . . 445
14.5 OTROS MÉTODOS DE CLASIFICACIÓN . . . . . . . . . . . . . . . . . . 446
14.5.1 Árboles de ClasiÞcación . . . . . . . . . . . . . . . . . . . . . . . . . 446
14.5.2 Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449
14.5.3 Métodos no Paramétricos . . . . . . . . . . . . . . . . . . . . . . . . 452
14.5.4 Otros Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
14.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
15 CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES 457
15.1 FUNDAMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457
15.2 EL METODO de K-MEDIAS para mezclas . . . . . . . . . . . . . . . . . . 458
15.2.1 Número de grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
15.3 ESTIMACIÓN DE MEZCLAS DE NORMALES . . . . . . . . . . . . . . . 464
15.3.1 Las ecuaciones de máxima verosimilitud para la mezcla . . . . . . . . 464
15.3.2 Resolución mediante el algoritmo EM . . . . . . . . . . . . . . . . . . 466
15.3.3 Aplicación al análisis de conglomerados . . . . . . . . . . . . . . . . . 468
15.4 MÉTODOS BAYESIANOS . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
15.4.1 Estimación Bayesiana de Mezclas de Normales . . . . . . . . . . . . . 470
15.5 MÉTODOS DE PROYECCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . 472
15.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
16 CORRELACIÓN CANÓNICA 477
16.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477
16.2 Construcción de las variables canónicas . . . . . . . . . . . . . . . . . . . . . 478
16.2.1 La primera variable canónica . . . . . . . . . . . . . . . . . . . . . . . 478
16.3 Las r variables canónicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
16.3.1 Propiedades de las variables y correlaciones canónicas . . . . . . . . . 482
16.4 ANÁLISIS MUESTRAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483
16.5 INTERPRETACIÓN GEOMÉTRICA . . . . . . . . . . . . . . . . . . . . . 487
16.6 CONTRASTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
16.7 EXTENSIONES A MÁS DE DOS GRUPOS . . . . . . . . . . . . . . . . . . 490
16.8 RELACIÓN CON OTRAS TÉCNICAS ESTUDIADAS . . . . . . . . . . . . 491
16.9 ANÁLISIS CANÓNICO ASIMÉTRICO . . . . . . . . . . . . . . . . . . . . 492
10 ÍNDICE GENERAL
16.9.1 CoeÞcientes de redundancia . . . . . . . . . . . . . . . . . . . . . . . 493
16.9.2 Análisis canónico asimétrico . . . . . . . . . . . . . . . . . . . . . . . 494
16.10Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
A Datos 505
0.1 Prefacio
El crecimiento de los ordenadores y la facilidad de adquirir y procesar grandes bancos de
datos en todas las ciencias ha estimulado el desarrollo y utilización del análisis estadístico
multivariante en muchas disciplinas. En las Ciencias Económicas y empresariales los métodos
estadísticos multivariantes se utilizan para cuantiÞcar el desarrollo de un país, determinar
las dimensiones existentes entre ingresos y gastos familiares, comprender el comportamiento
de los consumidores y medir la calidad de productos y servicios. En Ingeniería para diseñar
máquinas inteligentes que reconozcan formas o caracteres, para construir clasiÞcadores que
aprendan interactivamente con el entorno y para establecer sistemas de control de procesos.
En Ciencias de la computación para desarrollar sistemas de inteligencia artiÞcial. En Medi-
cina para construir procedimientos automáticos de ayuda al diagnóstico. En Psicología para
interpretar los resultados de pruebas de aptitudes. En Sociología y Ciencia Política para el
análisis de encuestas de actitudes y opiniones sociales y políticas.
Este libro presenta las técnicas actuales más utilizadas del Análisis multivariante. Su
contenido se ha seleccionado para que pueda ser útil a distintos tipos de audiencias, pero esta
especialmente orientado como texto en un curso orientado a las aplicaciones pero donde se
desee proporcionar al estudiante los fundamentos de las herramientas presentadas de manera
que se facilite su utilización inteligente conociendo sus posibilidades y limitaciones. Para
conseguir este objetivo, el libro incluye numerosos ejemplos de aplicación de la técnicas, pero
también presenta con cierto detalle los fundamentos estadísticos de las técnicas expuestas.
En la exposición se ha procurado prescindir de los detalles técnicos que tienen más interés
para especialistas, y este material se ha presentado en los apéndices y en los ejercicios al
Þnal de cada capítulo. Por otro lado, se recomienda que los estudiantes realizen un proyecto
donde apliquen los métodos estudiados a sus propios datos, para que adquieran la experiencia
práctica que les permitirá utilizarlos después con éxito en su trabajo profesional.
Este libro ha tenido una largo período de gestación. Mi interés por el Análisis Multivari-
ante se lo debo a Rafael Romero, Catedrático en la Universidad Politécnica de Valencia y
excelente profesor, de quien aprendí, a Þnales de los años 70, la potencia de estos métodos
como herramientas de investigación empírica y su inmenso campo de aplicación. La primera
versión de este libro tenía la mitad del tamaño actual y se redactó por primera vez a Þnales
de los años 80 para un curso de Doctorado en la Universidad Politécnica de Madrid. Desde
entonces, cada año el manuscrito ha ido sufrido revisiones y ampliaciones, fruto de su uso
como notas de clase en varias universidades, y especialmente en la Universidad Carlos III de
Madrid. Estoy agradecido a mis estudiantes del curso de doctorado sobre análisis multivari-
ante que han sugerido muchas mejoras y detectado errores y erratas de versiones anteriores.
En esa labor estoy especialmente en deuda con Ana Justel, Juan Antonio Gil, Juan Carlos
0.1. PREFACIO 11
Ibañez, Mónica Benito, Pilar Barrios, Pedro Galeano y Rebeca Albacete, por sus numerosas
sugerencias y cuidadosa lectura de versiones anteriores de estos capítulos. He tenido también
la fortuna de contar con excelentes comentarios de mis colegas Carlos Cuadras, Javier Girón,
Jorge Martinez, Alberto Muñoz, Rosario Romera, Juan Romo, Santiago Velilla, George Tiao,
Victor Yohai y Rubén Zamar, que me han ayudado a mejorar el texto en muchos aspectos.
El libro incorpora resultados recientes, fruto de investigaciones conjuntas con Javier Prieto
y Julio Rodriguez, con los que ha sido un placer trabajar y de los que ha aprendido mu-
cho. Además, Julio Rodriguez, me ha ayudado en la preparación de muchos de los ejemplos
y ha leído y comentado sucesivas versiones del manuscrito encontrando siempre formas de
mejorarlo.
12 ÍNDICE GENERAL
Capítulo 1
INTRODUCCIÓN
1.1 EL ANÁLISIS DE DATOS MULTIVARIANTES
Describir cualquier situación real, por ejemplo, las características físicas de una persona, la
situación política en un país, las propiedades de una imagen, el rendimiento de un proceso, la
calidad de una obra de arte o las motivaciones del comprador de un producto, requiere tener
en cuenta simultáneamente varias variables. Para describir las características físicas de una
persona podemos utilizar variables como su estatura, su peso, la longitud de sus brazos y de
sus piernas, etc. Para describir la situación política de un país, variables como la existencia
o no de un régimen democrático, el grado de participación política de los ciudadanos, el
número de partidos y sus aÞliados, etc. El análisis de datos multivariantes tienen por objeto
el estudio estadístico de varias variables medidas en elementos de una población. Pretende
los siguientes objetivos.
1. Resumir el conjunto de variables en una pocas nuevas variables, construidas como
transformaciones de las originales, con la mínima pérdida de información.
2. Encontrar grupos en los datos si existen.
3. ClasiÞcar nuevas observaciones en grupos deÞnidos.
4. Relacionar dos conjuntos de variables.
Vamos a explicar estos objetivos. El lector habrá encontrado que la descripción de una
realidad compleja donde existen muchas variables se simpliÞca mediante la construccíon de
uno o varios índices o indicadores que la resumen. Por ejemplo, el crecimiento de los precios
en una economía se resume en un índice de precios, la calidad de una universidad o de un
departamento se resume en unos pocos indicadores y las dimensiones del cuerpo humano se
resumen en la ropa de confección en unas pocas variables indicadoras del conjunto. Disponer
de estas indicadores tiene varias ventajas: (1) si son pocas podemos representarlas gráÞca-
mente y comparar distintos conjuntos de datos o instantes en el tiempo; (2) simpliÞcan el
análisis al permitir trabajar con un número menor de variables; (3) si las variables indicado-
ras pueden interpretarse, podemos mejorar nuestro conocimiento de la realidad estudiada.
El análisis multivariante de datos proporciona métodos objetivos para conocer cuántas vari-
ables indicadoras, que a veces se denomina factores, son necesarias para describir una realidad
compleja y determinar su estructura.
El segundo objetivo es identiÞcar grupos si existen. Si observamos un conjunto de vari-
13
14 CAPÍTULO 1. INTRODUCCIÓN
ables en empresas, esperamos los datos indiquen una división de las empresas en grupos
en función de su rentabilidad, su eÞcacia comercial o su estructura productiva. En muchas
situaciones los grupos son desconocidos a priori y queremos disponer de un procedimien-
to objetivo para obtener los grupos existentes y clasiÞcar las observaciones. Por ejemplo,
deseamos construir una tipología de clientes, de votantes o de procesos productivos.
Un tercer objetivo relacionado con el anterior aparece cuando los grupos están bien
deÞnidos a priori y queremos clasiÞcar nuevas observaciones. Por ejemplo, queremos clasiÞcar
a clientes que solicitan créditos como Þables o no, personas como enfermas o no, o diseñar
una máquina que clasiÞque monedas o billetes en clases preÞjadas.
Para alcanzar estos tres objetivos una herramienta importante es entender la estructura
de dependencia entre las variables, ya que las relaciones entre las variables son las que
permiten resumirlas en variables indicadoras, encontrar grupos no aparentes por las variables
individuales o clasiÞcar en casos complejos. Un problema distinto es relacionar dos conjuntos
de variables. Por ejemplo, podemos disponer de un conjunto de variables de capacidad
intelectual y otros de resultados profesionales y queremos relacionar ambos conjuntos de
variables. En particular, los dos grupos de variables pueden corresponder a las mismas
variables medidas en dos momentos distintos en el tiempo o en el espacio y queremos ver la
relación entre ambos conjuntos.
Las técnicas de análisis multivariante tienen aplicaciones en todos los campos cientíÞcos
y comenzaron desarrollándose para resolver problemas de clasiÞcación en Biología, se ex-
tendieron para encontrar variables indicadoras y factores en Psicometría, Marketing y las
Ciencias sociales y han alcanzado una gran aplicación en Ingeniería y Ciencias de la com-
putación como herramientas para resumir la información y diseñar sistemas de clasiÞcación
automática y de reconocimiento de patrones. Algunos ejemplos indicativos de sus aplica-
ciones en distintas disciplinas, muchos de los cuales serán objeto de análisis detallado en este
libro, son:
Administración de Empresas: Construir tipologías de clientes.
Agricultura: ClasiÞcar terrenos de cultivo por fotos aéreas.
Arqueología: ClasiÞcar restos arqueológicos.
Biometría: Identicar los factores que determinan la forma de un organismo vivo.
Ciencias de la Computación: Diseñar algoritmos de clasiÞcación automática.
Ciencias de la Educación: Investigar la efectividad del aprendizaje a distancia.
Ciencias del medio ambiente: Investigar las dimensiones de la contaminación ambiental.
Documentación: ClasiÞcar revistas por sus artículos y construir indicadores bibliométri-
cos.
Economía: IdentiÞcar las dimensiones del desarrollo económico.
Geología: ClasiÞcar sedimentos.
Historia: Determinar la importancia relativa de los factores que caracterizan los periodos
prerevolucionarios.
Ingeniería: Transmitir óptimamente señales por canales digitales.
Lingüística: Encontrar patrones de asociación de palabras.
Medicina: IdentiÞcar tumores mediante imágenes digitales.
Psicología: Determinar los factores que componen la inteligencia humana
Sociología y Ciencia Política: Consstruir tipologías de los votantes de un partido.
1.2. ESTRUCTURA DEL LIBRO 15
Algunas de esas aplicaciones han tenido una repercusión importante en la evolución del
análisis mutivariante, como veremos en la sección 1.4.
1.2 ESTRUCTURA DEL LIBRO
Los datos de partida para un análisis multivariante están habitualmente en una tabla de dos
o mas dimensiones y para trabajar con ellos es muy conveniente considerar la tabla como
una o varias matrices. El capítulo 2 presenta los fundamentos matemáticos de álgebra lineal
que son necesarios para trabajar con matrices y entender sus propiedades. Este capítulo
está diseñado de forma instrumental para proporcionar los conceptos básicos y las técnicas
necesarias para los análisis estadísticos presentados en los capítulos posteriores.
El análisis multivariante pude plantearse a dos niveles. En el primero, el objetivo es
utilizar sólo los datos disponibles y extraer la información que contienen. Los métodos
encaminados a este objetivo se conocen como métodos de exploración de datos, y se
presentan en la primera parte del libro que cubre los capítulos 3 al 8. A un nivel más
avanzado, se pretende obtener conclusiones sobre la población que ha generado los datos, lo
que requiere la construcción de un modelo que explique su generación y permita prever lo
datos futuros. En este segundo nivel hemos generado conocimiento sobre el problema que va
más allá del análisis particular de los datos disponibles. Los métodos encaminados a este
objetivo se conocen como métodos de inferencia, y se presentan en la segunda parte del
libro, capítulos 9 al 16 .
El primer paso en la descripción de datos multivariantes es describir cada variable y
comprender la estructura de dependencia que existe entre ellas. Este análisis se presenta
en el capítulo 3. Siempre que sea posible conviene utilizar técnicas gráÞcas para resumir y
representar la información contenida en los datos, y analizar la forma de medir las variables
para obtener una representación lo más simple posible. Estos problemas se estudian en el
capítulo 4. Estos dos capítulos extienden al caso multivariante la descripción habitual de
datos estadísticos estudiada en los textos básicos de Estadística.
El problema de resumir o condensar la información de un conjunto de variables se abor-
da, desde el punto de vista descriptivo, construyendo una nuevas variables indicadoras que
sinteticen la información contenida en las variables originales. Existen distintos métodos ex-
ploratorios para conseguir este objetivo. Con variables continuas, el método más utilizado se
conoce como componentes principales, y se estudia en el capítulo 5. Los componentes prin-
cipales nos indican las dimensiones necesarias para representar adecuadamente los datos.
Con ellos podemos hacer gráÞcos de los datos en pocas dimensiones, con mínima pérdida de
información, para entender su estructura subyacente.
El análisis de componentes principales puede generalizarse en dos direcciones: la primera
cuando los datos disponibles no corresponden a variables sino a similitudes o semejanzas entre
elementos. Interesa entonces investigar cuantas dimensiones tienen estas similitudes, este es
el objetivo de las escalas multidimensionales, que se estudian en el capítulo 6. La segunda
generalización de componentes principales es para datos cualitativos, que se presentan en una
tabla de contingencia, y esto conduce al análisis de correspondencias, que se presenta en el
capítulo 7. Esta técnica permite además cuantiÞcar de forma objetiva atributos cualitativos.
16 CAPÍTULO 1. INTRODUCCIÓN
El problema descriptivo de investigar si los elementos de nuestra muestra forman un grupo
homogéneo o no, y, en caso de que existan varios grupos de datos identicar que elementos
pertenecen a cada uno, se aborda con las herramientas de métodos de agrupamiento (cluster
methods en inglés). Por ejemplo, supongamos que tenemos una encuesta de los gastos en
los hogares españoles. Podemos encontrar que, de manera natural, la estructura de gastos
es distinta en los hogares unipersonales que en los que conviven adultos con niños pequeños,
y la relación entre distintas variables del gasto puede ser distinta en ambos. Conviene,
en estos casos, dividir la muestra en grupos de observaciones homogéneas y estudiarlos
separadamente. En otros casos el análisis de la homogeneidad de los datos tiene por objeto
construir tipologías: de consumidores, de artistas por su utilización del color, de productos,
o del tipo de consultas en una página web. Estos métodos se estudian en el capítulo 8.
Las técnicas descriptivas para resumir, condensar y clasiÞcar datos y relacionar variables
se conocen a veces como técnicas de exploración de datos multivariantes, y se han pop-
ularizado en los últimos años en ingeniería y ciencias de la computación con el nombre de
minería de datos, nombre que indica la capacidad de estas técnicas para extraer informa-
ción a partir de la matería prima datos. Los capítulos 3 al 8 forman pues un curso básico de
minería de datos. Sin embargo estas herramientas no permiten directamente obtener con-
clusiones generales respecto al proceso o sistema que genera los datos. Para ello necesitamos
los métodos presentados en la segunda parte del libro, que comprende los capítulos, 9 al
16, y allí se aborda el objetivo más ambicioso de crear conocimiento respecto al problema
mediante un modelo estadístico.
La construcción de un modelo estadístico requiere el concepto de probabilidad y las her-
ramientas básicas para la construcción de modelos para varias variables se exponen en el
capítulo 9. La construcción del modelo requiere estimar los parámetros del modelo a partir
de los datos disponibles, y contrastar hipótesis respecto a su estructura. Los fundamentos
de la inferencia multivariante se estudian en el capítulo 10. Algunos problemas de esti-
mación multivariante pueden formularse como estimación con valores ausentes, y un método
eÞciente para llevar a cabo esta estimación, el algoritmo EM, se presenta en el capítulo
11. Este capítulo aborda también la estimación (1) permitiendo la posibilidad de que una
pequeña fracción de los datos incluyan errores de medida o datos heterogeneos; (2) incorpo-
rando además información a priori respecto a los parámetros. En el primer caso tenemos la
estimación robusta y en el segundo la Bayesiana (que, como la clásica, puede además hac-
erse robusta). Este capítulo considera además el problema de seleccionar el mejor modelo
explicativo entre varios posibles.
Los modelos para generar conocimiento mediante una reducción del número de variables
se conocen como modelos de análisis factorial, y pueden verse como una generalización de
los componentes principales. Si podemos reemplazar un conjunto amplio de variables por
unos pocos factores o variables latentes, no observables, que permiten prever las variables
originales hemos aumentado nuestro conocimiento del problema. En primer lugar, descubri-
mos el mecanismo generador de los datos, en segundo podemos realizar predicciones respecto
a datos no observados pero generados por el mismo sistema. Este es el objeto del análisis
factorial que se presenta en el capítulo 12.
El problema de la homogeneidad se aborda desde el punto de vista inferencial según dos
puntos de vista principales. El primero es el problema de clasiÞcación o discriminación:
1.2. ESTRUCTURA DEL LIBRO 17
Objetivos Enfoque descriptivo (información) Enfoque inferencial (conocimiento
Resumir los datos Descripción de datos (Cap. 3 y 4) Constr. de modelos (Cap 9, 10 y1
Obtener indicadores Componentes principales (Cap. 5) Análisis Factorial (Cap. 12)
Escalas multid. (Cap.6)
Análisis de Correspon.(Cap. 7)
ClasiÞcar Análisis de Conglomerados (Cap. 8) A. Discriminante (Cap.13 y 14)
Construir grupos Análisis de Conglomerados (Cap. 8) Clas. con mezclas (Cap 15)
Relacionar Conj. variab. Regres. mul.(Cap 3) y Mult. (Cap 16) Correlación canónica (Cap. 16)
Tabla 1.1: ClasiÞcación de los métodos multivariantes estudiados en este libro
conocemos que los datos pueden provenir de una de dos (o más) poblaciones conocidas y se
desea clasiÞcar un nuevo dato en una de las poblaciones consideradas. Por ejemplo, se desea
clasiÞcar declaraciones de impuestos como correctas o fraudulentas, personas como enfermos
o sanos, empresas como solventes o no, billetes por su valor en una maquina automática,
cartas escritas a mano por su código postal en un máquina clasiÞcadora, preguntas a un
contestador telefónico por su contenido. Este es el objetivo de los métodos de análisis
discriminante presentados en los capítulos 13 y 14.
El segundo punto de vista es investigar si los datos disponibles han sido generados por
una sola o varias poblaciones desconocidas. Los métodos para clasiÞcar las observaciones se
conocen como métodos de clasiÞcación mediante mezclas, y se estudian en el capítulo 15.
Estos métodos generalizan los métodos de agrupamiento estudiados desde el punto de vista
descriptivo.
El problema inferencial multivariante de relacionar variables aparece cuando estas se
separan en dos conjuntos, y tiene varias variantes:
(1) Análisis de la varianza multivariante: el primero incluye variables cualitativas y
el segundo variables continuas, y queremos ver el efecto de las cualitativas sobre las del
segundo grupo. Por ejemplo, observamos en distintas clases de una universidad, deÞnidas
por variables cualitativas como titulación, curso etc, varias variables que miden los resultados
de las encuestas de evaluación docente y se desea investigar como los resultados varían en
las distintos clases. Este tema se estudia en el capítulo 10 como una aplicación directa de
los contrastes estadísticos multivariantes
(2) Regresión multivariante: el primer conjunto incluye variables continuas o discretas y
queremos utilizarlas para explicar las variables continuas del segundo grupo. Por ejemplo,
queremos relacionar un conjunto de variables de inversión con un grupo de variables resultado
en distintas empresas. Estos métodos se presentan brevemente en el capítulo 16.
(3) Correlación canónica: queremos encontrar indicadores del primer grupo que explique
lo más posible a los indicadores de las variables del segundo grupo. El número de relaciones
independientes entre los indicadores nos informa respecto a la dimensión de la relación. Por
ejemplo, queremos buscar indicadores de la inversión en empresas, medida por un conjunto
de variables, que explicen indicadores de resultado, construidos también como resumen de un
conjunto de variables de resultados económicos. Estos métodos se desarrollan en el capítulo
16.
La tabla1.1 resume la clasiÞcación de métodos multivariantes estudiados en el libro.
18 CAPÍTULO 1. INTRODUCCIÓN
omo
1.3 PROGRAMAS DE ORDENADOR
Es impensable aplicar el análisis multivariante sin utilizar el ordenador y recomendamos
al lector que reproduzca los ejemplos y realice los ejercicios del libro con cualquiera de los
programas estadísticos disponibles. En el libro se han utilizado, por orden de diÞcultad,los
siguientes:
(1) STATGRAPHICS que permite aplicar las herramientas básicas contenidas en el libro,
teniendo buenas capacidades gráÞcas fáciles de usar.
(2) MINITAB es un programa más completo, también de fácil manejo. Es más completo
que el anterior y más comodo para la manipulación de datos y la lectura de Þcheros en
distintos formatos.
(3) SPSS es un programa más avanzado y con mejores capacidades para el manejo de
datos. Está dirigido a investigadores sociales que desean analizar grandes encuestas con
variables de distintos tipos y permite mucha ßexibilidad en la entrada de los datos y en su
manipulación, así como en la presentación de los resultados. Además este programa tiene
algoritmos de cálculo bastante Þables y muy contrastados con distintas aplicaciones.
(4) S-PLUS está dirigido a un usuario con buena formación estadística, e incluye muchas
rutinas que el lector puede combinar para hacer análisis de datos más a su medida. Puede
programarse también fácilmente para implantar nuevos desarrollos, y contiene los métodos
más modernos que todavía no se han implantado en SPSS. El programa R es similar a
S-PLUS y tiene la ventaja de ser de distribución gratuita.
(5) MATLAB y GAUSS son programas con excelentes capacidades para la manipulación
matricial, por lo que son muy recomendables para los lectores que quieran escribir sus propios
programas y probar análisis nuevos, no incluidos en los paquetes tradicionales. Tienen la
ventaja de la ßexibilidad y el inconveniente de que son menos automáticos para análisis
tradicionales.
Además de estos programas existen otros muchos paquetes estadísticos, como SAS,
BMDP, STATA, etc, que estan también bien adaptados para aplicar las técnicas multi-
variantes descritas en este libro, pero sobre los que el autor tiene menos experiencia directa.
1.4 UN POCO DE HISTORIA
El primer método para medir la relación estadística entre dos variables es debido a Francis
Galton (1822-1911), que introduce el concepto de recta de regresión y la idea de correlación
entre variables en su libro Natural Inheritance, publicado en 1889 cuando Galton tenía 67
años. Estos descubrimientos surgen en sus investigaciones sobre la transmisión de los rasgos
hereditarios, motivadas por su interés en contrastar empíricamente la teoría de la evolución
de las especies, propuesta por su primo Charles Darwin en 1859. El concepto de correlación
es aplicado en las ciencias sociales por Francis Edgeworth (1845-1926), que estudia la normal
multivariante y la matriz de correlación. Karl Pearson (1857-1936), un distinguido estadístico
británico creador del famoso contraste ji-cuadrado que lleva su nombre, obtuvo el estimador
1.4. UN POCO DE HISTORIA 19
del coeÞciente de correlación en muestras, y se enfrentó al problema de determinar si dos
grupos de personas, de los que se conocen su medidas físicas, pertenen a la misma raza.
Este problema intrigó a Harold Hotelling (1885-1973), un joven matemático y economista
americano, que, atraído por la Estadística, entonces una joven disciplina emergente, viaja en
1929 a la estación de investigación agrícola de Rothamsted en el Reino Unido para trabajar
con el ya célebre cientíÞco y Þgura destacada de la estadística, R. A. Fisher (1890-1962).
Hotelling se interesó por el problema de comparar tratamientos agrícolas en función de
varias variables, y descubrió las semejanzas entre este problema y el planteado por Pearson.
Debemos a Hotelling (1931) el contraste que lleva su nombre, que permite comparar si dos
muestras multivariantes vienen de la misma población. A su regreso a la Universidad de
Columbia en Nueva York, Truman Kelley, profesor de pedadogía en Harvard, planteó a
Hotelling el problema de encontrar los factores capaces de explicar los resultados obtenidos
por un grupo de personas en test de inteligencia. Hotelling (1933) inventó los componentes
principales, que son indicadores capaces de resumir de forma óptima un conjunto amplio
de variables y que dan lugar posteriormente al análisis factorial. El problema de obtener el
mejor indicador resumen de un conjunto de variables había sido abordado y resuelto desde
otro punto de vista por Karl Pearson en 1921, en su trabajo para encontrar el plano de mejor
ajuste a un conjunto de observaciones astronómicas. Posteriormente, Hotelling generaliza
la idea de componentes principales introduciendo el análisis de correlaciones canónicas, que
permiten resumir simultaneamente dos conjuntos de variables.
El problema de encontrar factores que expliquen los datos fué planteado por primera vez
por Charles Spearman (1863-1945), que observó que los niños que obtenían buenas puntua-
ciones en un test de habilidad mental también las obtenían en otros, lo que le llevó a postular
queeran debidas a un factor general de inteligencia, el factor g (Spearman, 1904). L. Thur-
stone (1887-1955) estudió el modelo con varios factores y escribió uno de los primeros textos
de análisis factorial (Thurstone, 1947). El análisis factorial fué considerado hasta los años 60
como una técnica psicométrica con poca base estadística, hasta que los trabajos de Lawley y
Maxwell (1971) establecieron formalmente la estimación y el contraste del modelo factorial
bajo la hipótesis de normalidad. Desde entonces, las aplicaciones del modelo factorial se
han extendido a todas las ciencias sociales. La generalización del modelo factorial cuando
tenemos dos conjuntos de variables y unas explican la evolución de las otras es el modelo
LISREL, que ha sido ampliamente estudiado por Joreskov (1973), entre otros.
La primera solución al problema de la clasiÞcación es debida a Fisher en 1933. Fisher
inventa un método general, basado en el análisis de la varianza, para resolver un problema
de discriminación de cráneos en antropología. El problema era clasiÞcar un cráneo encon-
trado en una excavación arqueológica como perteneciente a un homínido o no. La idea de
Fisher es encontrar una variable indicadora, combinación lineal de las variables originales de
las medidas del cráneo, que consiga máxima separación entre las dos poblaciones en consid-
eración. En 1937 Fisher visita la India invitado por P. C. Mahalanobis (19***), que había
inventado la medida de distancia que lleva su nombre, para investigar las diferentes razas
en la India. Fisher percibe enseguida la relación entre la medida de Mahalanobis y sus
resultados en análisis discriminante y ambos consiguen uniÞcar estas ideas y relacionarlas
con los resultados de Hotelling sobre el contraste de medias de poblaciones multivariantes.
Unos años después, un estudiante de Mahalanobis, C. R. Rao, va a extender el análisis de
20 CAPÍTULO 1. INTRODUCCIÓN
Fisher para clasiÞcar un elemento en más de dos poblaciones.
Las ideas anteriores se obtienen para variables cuantitativas, pero se aplican poco de-
spués a variables cualitativas o atributos. Karl Pearson había introducido el estadístico que
lleva su nombre para contrastar la independencia en una tabla de contingencia y Fisher, en
1940, aplica sus ideas de análisis discriminante a estas tablas. Paralelamente, Guttman, en
psicometría, presenta un procedimiento para asignar valores numéricos (construir escalas) a
variables cualitativas que está muy relacionado con el método de Fisher. Como éste últi-
mo trabaja en Biometría, mientras Guttman lo hace en psicometría, la conexión entre sus
ideas ha tardado más de dos décadas en establecerse. En Ecología, Hill (1973) introduce
un método para cuantiÞcar variables cualitativas que esta muy relacionado con los enfoques
anteriores. En los años 60 en Francia un grupos de estadísticos y lingüistas estudian tablas
de asociación entre textos literarios y J. P. Benzecri inventa el análisis de corresponden-
cias con un enfoque geométrico que generaliza, y establece en un marco común, muchos
de los resultados anteriores. Benzecri visita la Universidad de Princeton y los laboratorios
Bell donde Carroll y Shepard están desarrollando los métodos de escalado multidimensional
para analizar datos cualitativos, que habían sido iniciados en el campo de la psicometría
por Torgeson (1958). A su vuelta a Francia, Benzecri funda en 1965 el Departamento de
Estadística de la Universidad de París y publica en 1972 sus métodos de análisis de datos
cualitativos mediante análisis de correspondencias.
La aparición del ordenador transforma radicalmente los métodos de análisis multivari-
ante que experimentan un gran crecimiento desde los años 70. En el campo descriptivo los
ordenadores hacen posible la aplicación de métodos de clasiÞcación de observaciones (análi-
sis de conglomerados o análisis cluster) que se basan cada vez más en un uso extensivo del
ordenador. MacQueen (1967) introduce el algoritmo de de k-medias. El primer ajuste de
una distribución mezclada fue realizado por el método de los momentos por K. Pearson y el
primer algortimo de estimación multivariante es debido a Wolfe (1970). Por otro lado, en el
campo de la inferencia, el ordenador permite la estimación de modelos soÞsticados de mezclas
de distribuciones para clasiÞcación, tanto desde el punto de vista clásico, mediante nuevos
algoritmos de estimación de variables ausentes, como el algoritmo EM, debido a Dempster,
Laird y Rubin (1977), como desde el punto de vista Bayesiano, con los métodos modernos
de simulación de cadenas de Markov, o métodos MC2
( Markov Chain Monte Carlo).
En los últimos años los métodos multivariantes están sufriendo una transformación en dos
direcciones: en primer lugar, las grandes masas de datos disponibles en algunas aplicaciones
están conduciendo al desarrollo de métodos de aproximación local, que no requieren hipóte-
sis generales sobre el conjunto de observaciones. Este enfoque permite construir indicadores
no lineales, que resumen la información por tramos en lugar de intentar una aproximación
general. En el análisis de grupos, este enfoque local esta obteniendo támbién ventajas apre-
ciables. La segunda dirección prescinde de las hipótesis sobre las distribuciones de los datos
y cuantiÞca la incertidumbre mediente métodos de computación intensiva. Es esperable que
las crecientes posibilidades de cálculo proporcionadas por los ordenadores actuales amplie el
campo de aplicación de estos métodos a problemas más complejos y generales.
1.5. LECTURAS COMPLEMENTARIAS 21
1.5 LECTURAS COMPLEMENTARIAS
Existe una excelente colección de textos de análisis multivariante en lengua inglesa. Entre
ellos destacaremos Flury (1997), Johnson and Wichern (1998), Mardia, Kent y Bibby (1979),
Gnandesikan (1997) y Seber (1984). Estos libros combinan la presentación de resultados
teóricos y ejemplos y cubren un material similar al aquí expuesto. Textos más aplicados son
Dillon y Goldstein (1984), Flury y Riedwyl (1988) y Hair et al (1995). En español, Cuadras
(1991), es un excelente texto. Otras referencias de interés son Escudero (1977), Lebart et
al (1985) y Batista y Martinez (1989). Hand et al (2000) es una buena referencia para la
relación entre minería de datos y estadística.
El libro de Krzanowski y Marriot (1994, 1995) contiene numerosas referencias históricas
del desarrollo de estos métodos. Otros textos más especíÞcos que comentan sobre los orí-
genes históricos de una técnica y presentan abundantes regerencias son Jackson (1991) para
componentes principales, Gower and Hand (1996), para los escalogramas multidimension-
ales, Greenacre (1984) para el análisis de correspondencias, Hand (1997) para los métodos de
clasiÞcación, Harman (1980) y Bartholomew (1995) para el análisis factorial, Bollen (1989)
para el modelo LISREL, McLachlan y Basford (1988) para los métodos de clasiÞcación me-
diante mezclas y Schafer (1997) para el algoritmo EM y los nuevos métodos MC2
de cálculo
intensivo. Efron y Tibshirani (1993) presentan interesantes ejemplos de las posibilidades del
bootstrap para el análisis multivariante.
22 CAPÍTULO 1. INTRODUCCIÓN
Capítulo 2
ÁLGEBRA MATRICIAL
2.1 INTRODUCCIÓN
La información de partida en el análisis multivariante es una tabla de datos correspondiente a
distintas variables medidas en los elementos de un conjunto. La manipulación de estos datos
se simpliÞca mucho utilizando el concepto de matriz y su propiedades, que se presentan en
este capítulo. La descripción de datos parte de las posiciones de las observaciones como
puntos en el espacio y las ideas que aquí se presentan pueden ayudar al lector a desarrollar
la intuición geométrica, de gran ayuda para visualizar y comprender la estructura de los
procedimientos del análisis multivariante. Por esta razón, recomendamos al lector dedicar
el tiempo necesario para comprender los conceptos básicos presentados en este capítulo.
Su estudio puede abordarse con dos objetivos distintos. Para los lectores interesados en
las aplicaciones y sin formación previa en álgebra lineal, recomendamos concentrarse en las
secciones 2.1, 2.2 y 2.3 y la introducción a la sección 2.4. Para los lectores que hayan seguido
ya un curso de álgebra, este capítulo puede servir de repaso de los conceptos básicos y de
profundización en el uso de valores y vectores propios y proyecciones ortogonales, que forman
la base de muchas de las técnicas estudiadas en este libro.
El concepto principal de este capítulo es el concepto de vector. Un conjunto de n datos
numéricos de una variable puede representarse geométricamente asociando cada valor de la
variable a una dimensión del espacio n dimensional, obteniendo un punto en ese espacio,
y también el vector que une el origen con dicho punto. Esta analogía entre variables y
vectores es útil, porque los métodos de descripción estadística de una variable tienen una
correspondencia clara con las operaciones básicas que realizamos con vectores.
Cuando en lugar de medir una variable en n elementos observamos en cada elemento los
valores de p variables, los datos pueden disponerse en una tabla rectangular con p columnas
y n Þlas, de manera que cada columna tenga los valores de una variable y cada Þla los
valores de las p variables en cada elemento. Si consideramos cada columna como un vector
n dimensional, este conjunto de p vectores se denomina matriz. Así como la descripción
univariante se asocia a operar con el vector de datos, la descripción de datos multivariantes
se asocia geométricamente a operar con la matriz de datos. En particular, el estudio de la
variabilidad y la dependencia lineal entre las p variables conduce al concepto de matrices
cuadradas, que son aquellas que contienen el mismo número de Þlas que de columnas. Las
23
24 CAPÍTULO 2. ÁLGEBRA MATRICIAL
matrices cuadradas son útiles para representar, por ejemplo, las varianzas y covarianzas
o correlaciones entre las p variables, y sobre ellas se deÞnen ciertas funciones escalares,
como el determinante y la traza, que veremos tienen una clara interpretación estadística:
el determinante es una medida de la dependencia lineal y la traza de la variabilidad, del
conjunto de las variables. Además, las matrices cuadradas tienen ciertas propiedades básicas,
asociadas al tamaño y la dirección de los vectores que la forman. El tamaño de una matriz
está relacionada con sus valores propios, y las direcciones con los vectores propios.
La estimación de parámetros mediante una muestra en modelos lineales puede verse
geométricamente como la proyección ortogonal del vector (o vectores) que representa la
muestra sobre un subespacio. Por esta razón se presentan con detalle algunos resultados
de proyecciones ortogonales que no suelen incluirse en textos introductorios de álgebra lin-
eal. Finalmente, este capítulo incluye algunos resultados básicos de cálculo diferencial con
vectores y matrices.
Para favorecer el aprendizaje del material de este capítulo al estudiante que se enfrenta
a él por primera vez hemos incluido ejercicios después de cada sección, y recomendamos
al lector que intente resolverlos. Las secciones marcadas con un asterístico son algo más
avanzadas y pueden saltarse en una primera lectura sin pérdida de continuidad. El lector
puede encontrar una explicación más detallada de los conceptos aquí expuestos en cualquier
texto de álgebra matricial. Un libro claro en español es Arvesú, Alvarez y Marcellán (1999),
y en inglés Hadi (1996) presenta una introducción muy sencilla y fácil de seguir con pocos
conocimientos básicos. Searle (1982) y Basilevsky (1983) están especialmente orientados a
las aplicaciones estadísticas. Noble y Daniel (1977) es una buena introducción de carácter
general.
2.2 VECTORES
Geométricamente un dato numérico puede representarse como un punto en un espacio de
dimensión uno. Si elegimos una recta con origen y dirección (positiva o negativa) deÞnidos,
podemos asociar a cada punto de la recta la magnitud del segmento que une el origen con
el punto. Un conjunto de n datos numéricos puede representarse como n puntos sobre una
recta pero también, y esta representación es muy útil, como un punto en el espacio de n
dimensiones. En dicho espacio podemos también asociar al conjunto de datos el vector que
une el origen de coordenadas con dicho punto. La longitud de un vector se denomina norma.
Existe una correspondencia entre las propiedades del conjunto de datos y las propiedades
del vector asociado. La media de los datos es proporcional a la proyección del vector de datos
sobre la dirección del vector constante (que se deÞne como el que tiene todas las coordenadas
iguales). La desviación típica es la distancia promedio entre el vector de datos y el vector
constante. La dependencia lineal entre dos variables se mide por la covarianza. El concepto
análogo vectorial es el de producto escalar, que es la herramienta principal para estudiar la
posición en el espacio de dos vectores. Con variables estandarizadas la covarianza se reduce
al coeÞciente de correlación, que es equivalente al producto escalar de dos vectores de norma
unitaria.
Cuando consideramos varios vectores, por ejemplo p variables medidas sobre n elementos
de una población, el concepto principal es la noción de dependencia lineal. La dependencia
2.2. VECTORES 25
lineal establece cuantas variables realmente distintas tenemos. Por ejemplo, si en un conjunto
de variables una de ellas representa salarios en euros y otra los mismos salarios pero medidos
en miles de euros, aunque ambas variables no sean idénticas (la primera es siempre mil
veces mas grande que la segunda), es claro que ambas miden la misma característica y
contienen la misma información: las dos variables son linealmente dependientes, ya que
conocida una podemos determinar el valor de la otra. Generalizando esta idea, diremos que
p variables son linealmente dependientes si podemos obtener los valores de una cualquiera
de ellas mediante una combinación lineal del resto. Por ejemplo, las tres variables, número
de hombres, número de mujeres y número de personas (que es la suma de las anteriores),
son linealmente dependientes, ya que podemos calcular el valor de cualquiera conocidos los
valores de las otras dos.
2.2.1 DeÞniciones básicas
Un conjunto de n números reales x puede representarse como un punto en el espacio de n
dimensiones, <n
. DeÞniremos el vector x como el segmento orientado que une el origen de
coordenadas con el punto x. La dirección es importante, porque no es lo mismo el vector x
que el −x. Con esta correspondencia, a cada punto del espacio en <n
le asociamos un vector.
Por ejemplo, en la Þgura 2.1 se representa dos vectores en el plano (<2
): el vector x =
¡3
2
¢
, y
el vector y =
¡−1
0
¢
. En adelante, representaremos un vector mediante x, para diferenciarlo del
escalar x, y llamaremos <n
al espacio de todos los vectores de n coordenadas o componentes.
En particular, un conjunto de números con todos los valores iguales se representará por un
vector constante, que es aquel con todas sus coordenadas iguales. Un vector constante
es de la forma c1, donde c es cualquier constante y 1 el vector con todas sus coordenadas
iguales a la unidad.
En Estadística podemos asociar a los valores de una variable en n elementos un vector
en <n
, cuyo componente iésimo es el valor de la variable en el elemento i. Por ejemplo, si
medimos las edades de tres personas en una clase y obtenemos los valores 20, 19 y 21 años,
esta muestra se representa por el vector tridimensional
x =


20
19
21


La suma (o diferencia) de dos vectores x, y, ambos en <n
, se deÞne como un nuevo
vector con componentes iguales a la suma (diferencia ) de los componentes de los sumandos:
x + y =



x1
...
xn


 +



y1
...
yn


 =



x1 + y1
...
xn + yn


 .
Es inmediato comprobar que la suma de vectores es asociativa (x + (y + z) = (x + y) + z)
y conmutativa (x + y = y + x).
La suma de dos vectores corresponde a la idea intuitiva de trasladar un vector al extremo
del otro y construir la línea que va desde el origen del primero al extremo del segundo. Por
ejemplo, la suma de los vectores x =
¡3
2
¢
e y =
¡−1
0
¢
,en la Þgura 2.1, es el vector z =
¡2
2
¢
.
26 CAPÍTULO 2. ÁLGEBRA MATRICIAL
y 3
2
x
z = x + y
2- 1
Figura 2.1. Suma de dos vectores
La operación suma (resta) de dos vectores da lugar a otro vector y estadísticamente
corresponde a generar una nueva variable como suma (resta) de otras dos anteriores. Por
ejemplo, si x representa el número de trabajadores varones en un conjunto de empresas e y
el número de trabajadoras, la variable x + y representa el número total de trabajadores y la
variable x − y la diferencia entre hombres y mujeres en cada empresa.
El producto de una constante por un vector, es un nuevo vector cuyos componentes
son los del vector inicial multiplicados por la constante.
z = kx =



kx1
...
kxn


 .
Multiplicar por una constante equivale a un cambio en las unidades de medición. Por
ejemplo, si en lugar de medir el número de trabajadores en unidades (variable x) lo hacemos
en centenas (variable z) entonces la variable z es igual a x/100.
Llamaremos vector transpuesto x0
, de otro x, a un vector con los mismos componentes,
pero escritos ahora en Þla:
x0
= (x1, ..., xn).
Al transponer un vector columna se obtiene un vector Þla. Generalmente los vectores Þla
se utilizan para describir los valores de p variables distintas en un mismo elemento de una
población.
El producto escalar o interno de dos vectores x, y, ambos en <n
, que escribiremos
x0
y o y0
x, es el escalar obtenido al sumar los productos de sus componentes.
x0
y = y0
x =
nX
i=1
xiyi.
Se llamará norma o longitud de un vector x, a la raíz cuadrada del producto escalar
x0
x. Se escribe kxk:
kxk =
√
x0x =
q
x2
1 + . . . + x2
n.
2.2. VECTORES 27
La norma es la longitud del segmento que une el origen con el punto x. Por ejemplo, la
norma del vector x en la Þgura 2.1 es
kxk =
√
32 + 22 =
√
13
que corresponde a la longitud de la hipotenusa en el triángulo rectángulo formado por el
vector y sus proyecciones sobre los ejes.
El producto escalar de dos vectores puede calcularse también como el producto de las
normas de los vectores por el coseno del ángulo que forman. Para ilustrar este concepto
consideremos la Þgura 2.1 donde se representan los vectores x =
¡a
0
¢
y y =
¡a
c
¢
. Observemos
que el producto escalar es x0
y =a2
y que este mismo resultado se obtiene multiplicando la
norma de ambos vectores, kxk = a y kyk =
√
a2 + c2 por el coseno del ángulo θ que forma,
dado por a/
√
a2 + c2. Observemos que el producto escalar puede también expresarse como el
producto de la norma de un vector por la proyección del otro sobre él. Si uno de los vectores
tiene norma uno, el producto escalar es directamente la proyección sobre él del otro vector.
Generalizando esta idea, se deÞne el ángulo entre dos vectores x, y por la relación:
cos θ =
x0
y
kxk kyk
.
Si dos variables tiene media cero, el coseno del ángulo que forman dos vectores es su coeÞ-
ciente de correlación. Como cos θ ≤ 1, se demuestra en general que:
|x0
y| ≤ kxk kyk .
que se conoce como la desigualdad de Schwarz.
Dos vectores son ortogonales, o perpendiculares, si y sólo si su producto escalar es cero.
Por la deÞnición de ángulo
x0
y = kxk kyk cos θ,
siendo θ el ángulo que forman los vectores. Si θ = 90◦
el coseno es cero y también lo será el
producto escalar.
28 CAPÍTULO 2. ÁLGEBRA MATRICIAL
θ
θ
ax
y
c
Figura 2.1: Coseno del ángulo entre dos vectores
El producto escalar tiene una clara interpretación estadística. Para describir una variable
tomamos su media. Para describir un vector podemos tomar su proyección sobre el vector
constante. El vector constante de modulo unitario en dimensión n es 1√
n
1, y la proyección
de x sobre este vector 1√
n
10
x =
P
xi/
√
n = x
√
n. El vector constante resultante de esta
proyección es 1√
n
1(x
√
n) =x1. Por tanto, la media es el escalar que deÞne el vector obtenido
al proyectar el vector de datos sobre la dirección constante. También puede interpretarse
como la norma estandarizada del vector obtenido al proyectar los datos en la dirección del
vector constante, donde para estandarizar la norma de un vector dividiremos siempre por√
n, siendo n la dimensión del espacio.
La variabilidad de los datos se mide por la desviación típica, que es la distancia entre el
vector de datos y el vector constante. La proyección del vector de datos sobre la dirección
del vector constante produce el vector x1, y la norma del vector diferencia, x−x1, mide la
distancia entre el vector de datos y el vector constante. Tomando la norma estandarizada,
dividiendo por la raíz de la dimensión del espacio
1
√
n
kx−x1k =
rP
(xi − x)2
n
La medida de dependencia lineal entre dos variables, x, y, es la covarianza. La covarianza
es el producto escalar estandarizado de los dos vectores medidos en desviaciones a la media,
o tomando sus diferencias respecto al vector constante. Si promediamos el producto escalar
de estos vectores
1
n
(x−x1)0
(y−y1) =
P
(xi − x)(yi − y)
n
se obtiene directamente la covarianza. Para variables con media cero, el producto escalar
promedio de los dos vectores que representan sus valores normalizado es directamente la
2.2. VECTORES 29
covarianza. Para variables estandarizadas, de media cero y desviación típica unidad, la
covarianza es el coeÞciente de correlación. Para vectores de norma unitaria, el producto
escalar es el coseno del ángulo que forman, que es la interpretación geométrica del coeÞciente
de correlación. La implicación estadística de ortogonalidad es incorrelación. Si dos variables
son ortogonales, es decir los vectores que las caracterizan forman un ángulo de 90 grados,
llamando r al coeÞciente de correlación como r = cos θ = 0, las variables están incorreladas.
2.2.2 Dependencia Lineal
Un conjunto de vectores x1, ..., xp es linealmente dependiente si existen escalares c1, ..., cp,
no todos nulos, tales que:
c1x1 + ... + cpxp = 0
donde 0 representa el vector nulo que tiene todos los componentes iguales a cero. En par-
ticular el vector de ceros, 0, es siempre linealmente dependiente de cualquier otro vector x
no nulo. En efecto, aplicando la deÞnición siempre podemos escribir para cualquier escalar
c no nulo
0x+c0 = 0
Intuitivamente, si los vectores son linealmente dependientes podemos expresar alguno de
ellos como combinación lineal de los demás. Por ejemplo, supuesto c1 6= 0 y llamando
ai = ci/c1, tenemos
x1 = a2x2 + . . . + apxp.
Si un conjunto de vectores no es linealmente dependiente diremos que los vectores son lin-
ealmente independientes. En el espacio <p
el número máximo de vectores linealmente
independientes es p. En efecto, si tenemos un conjunto de p + h vectores donde existen, al
menos, p linealmente independientes (xi, i = 1, ..., p) podemos expresar cualquier otro vector
del conjunto, xp+1, como
xp+1 =
p
X
i=1
aixi,
y resolviendo este sistema de p ecuaciones y p incógnitas obtendremos los coeÞcientes ai.
Por tanto, el máximo número de vectores linealmente independientes es p.
En Estadística un conjunto de vectores linealmente independientes corresponde a un
conjunto de variables que no están relacionadas linealmente de forma exacta. Por ejemplo,
si dos variables miden la misma magnitud pero en unidades distintas serán linealmente
dependientes. También serán linealmente dependientes si el conjunto de variables incluye
una que se ha generado como una combinación lineal de las otras (por ejemplo, tenemos p
variables que representan los precios en euros de p productos en n países de Europa (n > p) y
se incluye también como variable p+1 el precio ponderado de estos productos en los mismos
países).
30 CAPÍTULO 2. ÁLGEBRA MATRICIAL
Dado un conjunto de p vectores linealmente independientes (x1, ..., xp), en <n
(p ≤ n),
llamaremos espacio generado por este conjunto de vectores al espacio que contiene todos
los vectores z, en <n
, que pueden expresarse como combinación lineal de éstos. El conjunto
(x1, ..., xp) se llama base generadora del espacio, o simplemente base del espacio. Si z
pertenece a este espacio:
z = c1x1 + ... + cpxp.
Es fácil comprobar que z estará en un espacio de dimensión p: en efecto, podemos tomar
las primeras p coordenadas de z y obtener los coeÞcientes c1, ..., cp del sistema de p ecuaciones
y p incógnitas resultante. Las n − p coordenadas siguientes de z quedan determinadas, al
estarlo los ci, por lo que, obviamente, z sólo tiene p componentes independientes, estando,
por lo tanto, en un espacio de dimensión p. El espacio generado por un conjunto de variables
incluye a todas las variables que pueden generarse como índices o combinaciones lineales de
las originales.
La dimensión de un espacio Ep se deÞne como el número de vectores linealmente inde-
pendientes que lo generan.
Diremos que un vector x es ortogonal a un subespacio Ep si x es ortogonal a todo
vector de Ep, es decir, si y pertenece al subespacio Ep, que escribiremos y ∈Ep, entonces:
y0
x = 0.
Llamaremos complemento ortogonal de un subespacio Ep, de dimensión p, y lo deno-
taremos por C(Ep), al espacio que contiene todos los vectores ortogonales a Ep. Entonces,
si x ∈Ep, y ∈C(Ep) se veriÞca x0
y = 0. La dimensión de C(Ep) será n − p. En particular el
complemento ortogonal del espacio generado por un vector que contiene todos los vectores
ortogonales a él se denomina espacio nulo del vector.
Ejercicios 2.2
2.2.1 Dados los tres vectores
a =
¡1
2
¢
, b =
¡2
1
¢
, c =
¡−2
1
¢
a) Representarlos en el plano <2
.
b) Calcular los vectores suma y diferencia de a y b, a±b.
c) Calcular la norma de los tres vectores.
d) Calcular los productos escalares,ab , bc, ac.¿ Qué podemos deducir de estos produc-
tos?
e) Calcular la proyección del vector a sobre el b.
f) JustiÞcar si los tres vectores son linealmente independientes. Si no lo son, expresar
uno cualquiera como combinación lineal de los otros dos.
2.2.2 En <3
se denomina base canónica a la formada por los vectores a = (1, 0, 0)0
, b = (0, 1, 0)0
,
y c = (0, 0, 1). Se pide
a) Expresar el vector d = (1, 1, 2)0
, como suma de los vectores de la base canónica.
b) Calcular la proyección del vector d sobre cada uno de los vectores de la base canónica.
c) Calcular el coseno del ángulo entre el vector d y los vectores de la base canónica.
d) Indicar la dimensión del espacio generado por el vector d y obtener una base del
complemento ortogonal a ese espacio.
2.3. MATRICES 31
2.2.3 Dados los vectores en <3
, a = (1, 0, 2)0
, b = (1, 1, 2)0
, c = (2, 1, 6)0
.
a) Calcular los vectores −b, a + c, y b + c
b) Calcular la norma de los vectores, 4a y -2c.
c) Calcular el producto escalar, ab y bc.
d) Calcular la proyección del vector a sobre el b.
2.2.4 Calcular la dimensión del espacio generado por los tres vectores del ejercicio anterior
a) ¿Pertenece el vector d = (−2, 0, −8)0
al espacio generado por estos tres vectores? Si
es así expresarlo como suma de una base del espacio.
b) Indicar la dimensión del espacio complemento ortogonal al generado por estos tres
vectores.
c) Encontrar una base del complemento ortogonal.
d) Calcular el coseno de ángulo entre los vectores d y a.
2.2.5 Dados los tres vectores a = (1, 0, 0, 0, 1)0
, b = (1, 1, 0, 0, 0)0
, y c = (0, 0, 0, 1, 1), en
<5
.
a) Indicar la dimensión del espacio generado por estos vectores y obtener un nuevo vector
miembro de ese espacio.
b) Calcular la dimensión del espacio complemento ortogonal al generado por esos vectores.
c) Calcular una base del espacio complemento ortogonal.
d) Demostrar que los vectores a + b, a + c, y b + c también son linealmente independi-
entes.
2.2.6 Considerar las 9 variables que deÞnen los productos alimenticios en los datos
EUROALI del apéndice de datos como 9 vectores en un espacio de dimensión 25. Se pide:
a) Calcular el vector proyección de cada vector sobre el vector de constantes.
b) Calcular la distancia entre cada vector y el vector de constantes.
c) Calcular el producto escalar de los vectores correspondientes a las variables CR y CB.
d)Calcular el coseno del ángulo que forman los vectores CR y CB.
2.2.7 Considerar cada país de los datos EUROALI del apéndice de datos como un vectores
en un espacio de dimensión 9. Se pide:
a) Indicar si estos vectores son linealmente independientes
b) JustiÞcar que el número máximo de vectores linealmente independientes es ocho.
c) Calcular e interpretar el producto escalar entre Austria y Bélgica.
d) Determinar el ángulo que forman Austria y Bélgica.
e) Calcular la distancia de cada país al vector de constantes. Interpretar el resultado.
2.3 MATRICES
Para trabajar conjuntamente con p variables o vectores deÞnimos el concepto de matriz.
Una matriz es un conjunto de números dispuestos en Þlas y columnas y puede verse como un
conjunto de vectores columna o un conjunto de vectores Þla. Diremos que una matriz tiene
dimensiones n×p si tiene n Þlas y p columnas. Si en una matriz intercambiamos las Þlas por
las columnas, se obtiene una nueva matriz que se denomina la traspuesta de la primera. En
particular, un vector columna de orden n es una matriz de dimensiones n × 1(su traspuesta
es un vector Þla), y un escalar es una matriz de dimensiones 1 × 1 (e igual a su traspuesta).
32 CAPÍTULO 2. ÁLGEBRA MATRICIAL
La generalización del concepto de producto escalar entre dos vectores es el producto
matricial, que se deÞne como una nueva matriz que contiene todos los productos escalares
entre los vectores Þla de la primera matriz y los vectores columna de la segunda. Para que
este producto sea posible la primera matriz tiene que tener tantas columnas como Þlas la
segunda. Por la propia deÞnición de deduce que este producto no es conmutativo. Dire-
mos que premultiplicamos la matriz A por la B cuando realizamos el producto BA y que
postmultiplicamos la A por la B si realizamos el producto AB. Un producto matricial que
puede siempre aplicarse entre dos matrices cualesquiera es el producto de Kronecker.
Una propiedad básica de una matriz es el rango, que indica el número máximo de vectores
Þla o columna linealmente independientes que la forman. En una matriz de n Þlas y p
columnas (n > p), sus p columnas pueden ser vectores linealmente independientes en <n
,
pero sus n Þlas no, ya los vectores Þla pertenecen a <p
donde sólo pueden existir p < n
vectores Þla linealmente independientes. El rango máximo de la matriz es p y cuando esto
ocurre decimos que la matriz tienen rango completo. El rango de una matriz es igual al de
su traspuesta.
Las matrices cuadradas son aquellas que tienen el mismo número de Þlas que de columnas.
Las matrices cuadradas tienen ciertas propiedades similares a los escalares. Podemos deÞnir
la matriz inversa, y existen distintas formas de obtener una medida escalar de una matriz
cuadrada. La primera es la traza, la segunda el determinante y la tercera construir una
forma cuadrática a partir de la matriz. Veremos en el capítulo siguiente que todas estas
propiedades tienen una interpretación estadística en el análisis de datos multivariantes.
2.3.1 DeÞniciones básicas
Llamaremos matriz, A, de dimensiones (n × p) a un conjunto de n × p números reales,
ordenados en n Þlas y p columnas. Por ejemplo, si medimos p variables en n individuos de
una población podemos representar cada variable por un vector columna de dimensión n y
el conjunto de datos muestrales será una matriz n × p. En particular, cada vector columna
es pues una matriz (n × 1). Una matriz (n × p), puede verse como un conjunto de p vectores
columna en <n
, o como un conjunto de n vectores Þla en <p
. Llamaremos matriz traspuesta
A0
a la matriz obtenida a partir de A intercambiando Þlas por columnas. Si A es n × p, A0
será p × n. Se veriÞca:
(A0
)0
= A.
La suma de dos matrices se deÞne sólo cuando ambas tienen las mismas dimensiones.
Cada elemento de la matriz suma se obtiene sumando los elementos correspondientes de los
sumandos
A + B = C ⇒


a11 . . . a1p
... ...
an1 . . . anp

 +


b11 . . . b1p
... ...
bn1 . . . bnp

 =


c11 . . . c1p
... ...
cn1 . . . cnp


con cij = aij + bij. Se veriÞca:
(a) A + B = B + A
2.3. MATRICES 33
(b) (A + B)0
= A0
+B0
.
Sumar dos matrices equivale en términos estadísticos a sumar los valores de las variables
correspondientes a las columnas de las matrices. Por ejemplo, si la matriz A representa el
número de incidencias leves de p clases distintas en una empresa en n semanas y la B el
número de incidencias graves en las mismas semanas, la suma representa el número total de
incidencias.
2.3.2 Productos entre matrices
Vamos a estudiar dos tipos de productos entre matrices. El primero y más importante es
el producto matricial, lo representaremos por AB y sólo es posible cuando el número
de columnas de A es igual al número de Þlas de B. Entonces, si A(n × p) y B(p × h), el
producto es una matriz C(n × h) con términos:
cij =
p
X
m=1
aimbmj
Es decir, el término cij representa el producto escalar del vector a0
i, deÞnido por la i-ésima
Þla de A, por el vector bj, de la j-ésima columna de B. Si escribimos:
A =



a0
1
...
a0
n


 B = [b1...bh]
donde todos los vectores tienen dimensiones p, el producto matricial de estas dos matrices
es:
AB = C =



a0
1b1 . . . a0
1bh
...
...
a0
nb1 . . . a0
nbh



(n×h)
.
Observemos que el producto de dos matrices no es en general conmutativo, ya que si AB
existe (el número de columnas de A es igual al número de Þlas de B), el producto BA puede
no existir. Además, cuando existe, el producto AB es, en general, distinto de BA.
En particular, el producto de una matriz (n × p) por un vector (p × 1), Ax, será un
nuevo vector de dimensión (n × 1) cuyos componentes se obtienen por el producto escalar
de las Þlas de A por el vector x. Si
y = Ax,
la matriz A transforma un vector x en <p
en otro vector y en <n
. Como veremos más
adelante, los movimientos y deformaciones de vectores en el espacio son el resultado de
multiplicar el vector por una matriz.
DeÞnimos la matriz identidad de dimensión n, In , como la matriz de dimensiones n×n
que tiene unos en las posiciones ii y ceros fuera de ella. En general la dimensión está clara
34 CAPÍTULO 2. ÁLGEBRA MATRICIAL
por el contexto y utilizaremos la letra I para representar la matriz identidad de cualquier
dimensión:
I =



1 . . . 0
... 1
...
0 . . . 1


 .
El producto matricial tiene, entre otras, las propiedades siguientes, donde suponemos que
las matrices tienen las dimensiones adecuadas para que los productos están deÞnidos:
(a) A(B + C) = AB + AC
(b) (AB)0
= B0
A
(c) AI = IA = A
(*)Producto de Kronecker
El producto de Kronecker nos resuelve el problema de construir matrices grandes cuyos
elementos son matrices dadas más pequeñas y se deÞne para matrices cualesquiera. Dadas
dos matrices Ak×n y Bp×q, su producto de Kronecker, que representaremos con el símbolo ⊗,
se efectúa multiplicando cada elemento de la primera por todos los elementos de la segunda,
de manera que la matriz resultante tiene un número de Þlas igual al producto de las Þlas,
kp, y un número de columnas igual al producto de las columnas, nq. Este producto existe
siempre sean cual sean las dimensiones de las matrices, y se representa por :
A ⊗ B =





a11B a12B . . . a1nB
a21B a22B . . . a2nB
...
...
...
ak1B ak2B . . . aknB





.
donde la matriz producto es de orden kp × nq. Por ejemplo,
·
1
2
¸
⊗
£
1 0 3
¤
=
·
1 0 3
2 0 6
¸
Las propiedades siguientes son resultado directo de la deÞnición:
(a) si c es un escalar c ⊗ A = A⊗c = cA.
(b) si x e y son vectores:
x ⊗ y0
= y0
⊗ x
(c) (A ⊗ B)0
= A0
⊗ B0
(d) (A ⊗ B)(C ⊗ D) = AC ⊗ BD, supuesto que los productos AC y BD existen.
2.3. MATRICES 35
En estadística el producto de Kronecker se utiliza para construir matrices cuyos elementos
son a su vez matrices, con frecuencia repetidas. Por ejemplo, si queremos construir una matriz
que tenga como elementos diagonales la matriz A, deÞnimos el producto
I3⊗A =


A 0 0
0 A 0
0 0 A


donde si I3 es la matriz identidad y 0 es una matriz de ceros, ambas de dimensiónes 3×3.
2.3.3 Rango de una matriz
Una propiedad básica de una matriz es el rango, que indica el número máximo de vectores
Þla o columna linealmente independientes que contiene la matriz. En una matriz de n×
p , suponiendo n > p, el máximo número de vectores linealmente independientes es p. En
efecto, si consideramos los vectores formados por las p columnas, tenemos p vectores en <n
,
que pueden ser linealmente independientes. Sin embargo, si consideramos los n vectores Þla,
estos son vectores de <p
, y el máximo número de vectores independientes en este espacio es
p. Por tanto, el rango máximo de la matriz es p, y cuando esto ocurre decimos que la matriz
es de rango completo. Por la deÞnición es inmediato que el rango de una matriz y de su
transpuesta es el mismo.
En general, si llamamos rg(A) al rango de la matriz A se veriÞca:
1. rg(An×p) ≤ min(n, p). El rango es igual o menor que el menor de n y p.
2. Si rg(An×p) = n < p o rg(An×p) = p < n, se dice que A es de rango completo.
3. rg(A + B) ≤ rg(A) + rg(B).
4. rg(AB) ≤ mínimo(rg(A), rg(B))
5. rg(A0
A) = rg(AA0
) = rg(A).
Las dos primeras propiedades resultan de la deÞnición. Es fácil comprobar que el rango
de la suma no puede ser mayor que la suma de rangos. Por ejemplo en la suma
·
1 2 0
0 1 0
¸
+
·
−1 0 0
0 0 0
¸
=
·
0 2 0
0 1 0
¸
,
la primera matriz tiene rango dos, (los dos vectores columna no nulos son linealmente inde-
pendientes), la segunda rango uno (solo un vector es linealmente independiente) y la suma
tiene rango uno.
Si multiplicamos dos matrices, el rango de la matriz resultante no puede exceder a la de
menor rango. Por ejemplo, en el producto
·
1 −1 1
2 1 0
¸


1 1
1 0
0 −1

 =
·
0 0
3 2
¸
36 CAPÍTULO 2. ÁLGEBRA MATRICIAL
cada una de las matrices que se multiplican tiene rango dos, pero el producto tiene solo
rango uno. Finalmente, si multiplicamos una matriz por su transpuesta el producto tiene
el mismo rango que la matriz original. En Estadística el rango de una matriz de datos nos
indica la dimensión real necesaria para representar el conjunto de datos, o el número real de
variables distintas de que disponemos. Analizar el rango de una matriz de datos es la clave
para reducir el número de variables sin pérdida de información.
2.3.4 Matrices Cuadradas
Una matriz es cuadrada si n = p. Dentro de las matrices cuadradas se llaman simétricas
a las que tienen cada Þla igual a la correspondiente columna, es decir aij = aji. Una matriz
simétrica es, por tanto, idéntica a su traspuesta, y diremos que A es simétrica si
A0
= A.
Una clase de matrices cuadradas y simétricas muy importante son las matrices diago-
nales, que tienen únicamente términos no nulos en la diagonal principal. Un caso particular
importante de matriz diagonal es la matriz identidad o unidad, I, ya estudiada.
En particular, los productos AA0
y A0
A conducen a matrices simétricas. Las matrices
cuadradas aparecen de manera natural cuando consideramos estos productos en matrices de
datos. Si A es (n × p) y representa los valores de p variables de media cero en n individuos
de una población, la matriz cuadrada de orden p, A0
A/n, va a contener, como veremos en
el capítulo siguiente, las varianzas y covarianzas entre las variables. Otra matriz cuadrada
y simétrica de amplio uso en estadística es la matriz de correlación, que contiene unos en la
diagonal y fuera de ella los coeÞcientes de correlación entre las variables.
Sobre las matrices cuadradas podemos deÞnir dos medidas escalares que resumen su
tamaño global : el determinante y la traza. Ambas son medidas relativas, ya que se modiÞcan
si multiplicamos los elementos de la matriz por constantes, como veremos a continuación.
Determinante de una matriz
Dada una matriz A cuadrada y diagonal con términos aii se denomina determinante de la
matriz, y lo representaremos por |A|, al escalar resultante de multiplicar todos los términos
diagonales de la matriz. Supongamos inicialmente una matriz de orden dos como
A =
·
2 0
0 4
¸
si consideramos las columnas de esta matriz como vectores, cada vector está situado en uno
de los ejes coordenados. La Þgura 2.2 ilustra esta situación. El determinante de esta matriz
es 2×4=8, igual al área del rectángulo determinado por ambos vectores.
2.3. MATRICES 37
4
2
Figura 2.2: El determinante como área encerrada por los vectores columna de la matriz
Generalizando esta idea, dada una matriz A cuadrada de orden n con términos aij, se
denomina determinante de la matriz, y lo representaremos por |A|, al escalar obtenido
mediante la suma de todos los productos de n elementos de la matriz, a1i1 a2i2 , ..., anin , que
podemos formar de manera que en cada producto aparezca una vez un elemento de cada
Þla y uno de cada columna. Cada término tiene además un signo, que depende del número
de cambios entre dos subíndices consecutivos, que es necesario para poner los subíndices
i1, . . . , in de ese término en el orden natural 1, 2, . . . , n. Escribiremos :
|A| =
X
(−1)r
a1i1 a2i2 , ..., anin
donde el sumatorio está extendido a las n! permutaciones de los segundos índices. Los índices
i1, . . . in son una permutación de los números 1, 2, . . . , n y r es el número de cambios entre
dos subíndices necesario para ponerlos en el orden 1, 2, . . . , n.
Por ejemplo, en la matriz 2 × 2 el número de permutaciones de los números 1 y 2 es dos
((1,2) y (2,1)). La primera permutación está en el orden natural luego el número de cambios
es r = 0 y el término a11a22 será positivo. La segunda requiere permutar el uno y el dos, con
lo que r = 1 y el término a12a21 será negativo. El determinante será:
|A| = a11a22 − a12a21.
y, como demostraremos más adelante, puede interpretarse de nuevo como el área del paralel-
ogramo determinado por los vectores columna. La situación se ilustra en la Þgura ??. Esta
interpretación sugiere que si una columna es proporcional a la otra, los dos vectores estarán
en la misma dirección y el área encerrada por ambos, que es el determinante de la matriz,
será cero. La comprobación de esta propiedad es inmediata: si la primera columna es (a, b)0
y la segunda(λa, λb)0 el determinante será aλb − bλa = 0.
38 CAPÍTULO 2. ÁLGEBRA MATRICIAL
En una matriz 3×3 el determinante tiene 3! = 6 términos que se obtiene de las 6 posibles
permutaciones:
1 2 3
1 3 2
2 1 3
2 3 1
3 1 2
3 2 1
la primera permutación va en el orden natural, luego r = 0. Las dos siguientes podemos
ponerlos en orden natural con un solo cambio entre índices consecutivos, luego r = 1. Las
dos siguientes requieren dos cambios (por ejemplo, en la cuarta primero pasamos a 2,1,3 y
luego a 1,2,3). Finalmente, en la última son necesarios 3 cambios, con lo que tendrá signo
menos. En consecuencia:
|A| = a11a22a33 − a11a23a32 − a12a21a33 + a12a23a31 +
+a13a21a32 − a13a22a31,
y puede demostrarse que ahora el determinante es el volumen del paralepípedo generado por
las columnas de la matriz.
Para matrices mayores de 3, la interpretación del determinante como hipervolumen es
la misma, pero su cálculo es tedioso. Para obtenerlo utilizaremos el concepto de menor.
Llamaremos menor del elemento aij de una matriz cuadrada de orden n, mij, al determinante
de la matriz de orden n − 1 que resulta al eliminar de la matriz original A la Þla i y la
columna j. Se denomina adjunto del elemento aij al escalar (−1)i+j
mij. Se demuestra que
el determinante de una matriz puede calcularse multiplicando cada elemento de una Þla por
sus adjuntos. Entonces:
|A| =
nX
j=1
aij (−1)i+j
mij
para cualquier Þla i. Por ejemplo, en una matriz 3 × 3, desarrollando por los elementos de
la primera Þla
|A| = a11 (a22a33 − a23a32) − a12 (a21a33 − a23a31) + a13 (a21a32 − a22a31) ,
que coincide con el resultado anterior. Aplicando sucesivamente esta idea es posible calcular
el determinante de matrices grandes.
El determinante se calcula muy fácilmente cuando una matriz es diagonal, ya que en-
tonces, como hemos visto, el determinante es el producto de los términos diagonales de la
matriz. El mismo resultado se obtiene si la matriz es triangular, que es aquella que tiene
todos los elementos por encima o por debajo de la diagonal principal nulos. Por ejemplo,
una matriz diagonal de orden tres es


1 0 0
2 3 0
1 4 2


2.3. MATRICES 39
Para calcular el determinante desarrollamos por la primera Þla, con lo que obtenemos el
producto del primer término diagonal, 1, por su adjunto, que es otra matriz triangular
ahora de orden dos. Desarrollando de nuevo este matriz por su primera Þla tenemos el
producto del segundo término diagonal, 3, por un escalar, 2. Aplicando esta misma idea
a matrices de cualquier tamaño comprobamos que el determinante es el producto de los
términos diagonales.
Los determinantes tienen las propiedades siguientes:
(a) |λA| = λn
|A|
(b) |A0
| = |A|
(c) Si A y B son matrices cuadradas, |AB| = |A| |B| .
(d) Si permutamos dos Þlas o dos columnas entre sí, el determinante cambia sólo su signo.
(e) Si una Þla (o columna) de una matriz es una combinación lineal de las restantes Þlas
(o columnas), lo que supone que su rango es menor que n, la matriz es singular y el
determinante de la matriz es cero.
θ
θ
v1
v2
v1sen
θ
El determinante como area del paralelogramo formado por los dos vectores
La Þgura ?? ilustra la interpretación del determinante como area del paralelogramo
deÞnido por los dos vectores. Este area es el producto de la base, kv2k , por la altura,
kv1ksenθ. Consideremos el determinante de la matriz
|A| = |C0
C| =
¯
¯
¯
¯
·
v0
1
v0
2
¸
[v1v2]
¯
¯
¯
¯ =
¯
¯
¯
¯
·
v0
1v1 v0
1v2
v0
2v1 v0
2v2
¸¯
¯
¯
¯
entonces:
|A| = |C|2
= kv2k2
kv1k2
(senθ)2
40 CAPÍTULO 2. ÁLGEBRA MATRICIAL
y el determinante de la matriz formada por los dos vectores es kv1k kv2ksenθ, el área del
paralelogramo que forman. Observemos se obtiene el mismo resultado cuando los vectores
v1 y v2 son vectores de Rn
, ya que la matriz C0
C será cuadrada, y su determinante es
el cuadrado del área encerrada por los vectores. Si interpretamos los vectores v1 y v2
como variables, veremos en el capítulo 3 que el producto C0
C es su matriz de varianzas
y covarianzas, y su determinante, que es el área que forman, es una medida global de la
independencia entre las variables, como veremos en la sección 3.5. Por ejemplo, en el caso
general de p variables, si una variable es combinación lineal de las demás, las variables son
linealmente dependientes, la columna correspondiente a esa variable en la matriz de varianzas
y covarianzas será también combinación lineal de las demás columnas y el determinante de la
matriz de covarianzas será nulo. Por otro lado, si las variables estan incorreladas su matriz
de covarianzas es diagonal y el determinante será, en términos relativos, máximo. Por tanto
podemos concluir que cuanto mayor sea el determinante mayor es la independencia entre los
vectores.
Traza de una matriz
Se denomina diagonal principal de una matriz cuadrada C de orden n con elementos cij al
conjunto de elementos cii, i = 1, ..., n. La traza de una matriz cuadrada es la suma de los
elementos de la diagonal principal de la matriz, escribiremos:
tr(C) =
nX
i=1
cii
La traza es un operador lineal. En efecto, de la deÞnición se obtiene:
(a) tr(A + B) = tr(A) + tr(B).
(b) tr(λA) = λtr(A), donde λ es un escalar.
(c) Se demuestra que: tr(ABC) = tr(BCA) = tr(CAB), en el supuesto de que todos los
productos estén deÞnidos.
(d) Si la matriz C es simétrica, tr(C2
) = tr(CC) =
Pn
i=1
Pn
j=1 c2
ij.
La traza es una medida global de tamaño de la matriz que se obtiene sumando sus
elementos diagonales. Por ejemplo, la traza de una matriz de varianzas y covarianzas es
la suma de todas las varianzas de las variables. Al sumar los elementos diagonales es una
medida global de variabilidad, pero, a diferencia del determinante, no tiene en cuenta las
relaciones entre las variables.
Rango de una matriz cuadrada
El rango máximo de una matriz cuadrada de orden n es n. Cuando el rango es menor que n
una Þla o columna es combinación lineal de las demás y decimos que la matriz es singular.
Por otro lado, se comprueba que
2.3. MATRICES 41
1. Para matrices cuadradas del mismo orden, A, B y C, donde B y C son no singulares,
rg(CAB) = rg(A).
2. Si A y B son cuadradas de orden n y AB = 0, entonces rg(A) + rg(B) ≤ n.
Formas cuadráticas
Si transformamos un vector x mediante una transformación lineal, y = Bx, la norma al
cuadrado del nuevo vector será
y0
y = x0
B0
Bx = x0
Ax
donde A = B0
B es una matriz cuadrada y simétrica. En función del vector original la forma
resultante se denomina forma cuadrática. Llamaremos forma cuadrática a una expresión
escalar del tipo:
x0
Ax
donde x es un vector, x0
su transpuesto, y A una matriz cuadrada y simétrica. La forma
cuadrática es siempre un escalar. Su expresión general es:
nX
i=1
aiix2
i + 2
nX
i=1
nX
j=i+1
aijxixj.
Diremos que una matriz A es semideÞnida positiva si cualquier forma cuadrática
formada a partir de ella es un número no negativo, para cualquier vector x 6= 0. Si la forma
cuadrática es siempre un numero positivo diremos que la matriz A es deÞnida positiva. Se
demuestra que las formas escalares, como el determinante y la traza, que pueden obtenerse a
partir de matrices semideÞnidas positivas son números no negativos. Una matriz semideÞnida
positiva tiene pues propiedades similares a los números no negativos y una matriz deÞnida
positiva a los números positivos.
Matriz Inversa
Dada una matriz A cuadrada n×n, no singular, deÞnimos su inversa, A−1
, como una matriz
n × n tal que:
AA−1
= A−1
A = I
donde I es la matriz identidad, que tiene unos en la diagonal y ceros fuera de ella. Es decir,
escribiendo A con vector Þla a0
i, la matriz A−1
tendrá vectores columna bi tales que:



a0
1
...
a0
n



£
b1 . . . bn
¤
=



a0
1b1 . . . a0
1bn
...
...
a0
nb1 . . . a0
nbn


 =





1 0 . . . 0
0 1 . . . 0
...
...
...
0 . . . . . . 1





.
42 CAPÍTULO 2. ÁLGEBRA MATRICIAL
En consecuencia la matriz A−1
debe tener por columnas vectores b tales que: (1) bi es
ortogonal a aj,es decir el producto escalar b0
iaj es cero ∀j 6= i; (2) el producto escalar de los
vectores b0
iai = a0
ibi es uno.
Observemos que el cálculo de la matriz inversa resuelve el problema de calcular vectores
ortogonales a uno dado (o variables incorreladas con una dada). Por ejemplo, el espacio
ortogonal al vector a1 puede calcularse construyendo una matriz que tenga a este vector
como primera Þla y calculando la inversa de la matriz. Si llamamos b2, ...bn a los vectores
columna de la matriz inversa, estos vectores forman el espacio nulo del vector a1. Como
ilustración, dada la matriz
A =
·
2 1
0 4
¸
,
es fácil comprobar que la inversa es
A−1
=
·
.5 −.125
0 .25
¸
y el primer (segundo) vector columna de la inversa deÞne el espacio ortogonal al segundo
(primer) vector Þla de la matriz original.
La necesidad de calcular la inversa de una matriz aparece de manera natural al resolver
sistemas de ecuaciones lineales
Ax = b
donde A es una matriz conocida cuadrada de orden n, b un vector de constantes y x un
vector de n incógnitas. Para que este sistema tenga solución única las n ecuaciones deben
de ser distintas, lo que supone que no existe una Þla de A que sea combinación lineal de las
demás. Entonces A es no singular y la solución se obtiene mediante:
x = A−1
b.
El cálculo de la matriz inversa de una matriz dada es engorroso y debe realizarse mediante
un ordenador si la dimensión de A es alta. Se demuestra que la inversa de una matriz puede
calcularse por las tres operaciones siguientes:
1. Se sustituye cada elemento por su adjunto.
2. Se transpone la matriz resultante. Se obtiene una matriz que llamaremos adjunta de
la matriz A.
3. Se divide cada término de la matriz adjunta por el determinante de la matriz original.
Como ejemplo, calcularemos la inversa de la matriz
A =


1 1 0
−1 2 1
0 0 3


2.3. MATRICES 43
comenzaremos sustituyendo cada elemento por su adjunto. Por ejemplo, para el elemento
(1, 1) su adjunto es (−1)2
[2 × 3 − 1 × 0] = 6. Para el (1, 2), (−13
) [−1 × 3 − 1 × 0] = 3, etc.
Así obtenemos la matriz


6 3 0
−3 3 0
−1 −1 3

 ,
y al transponerla resulta la matriz adjunta :
Adj (A) =


6 −3 −1
3 3 −1
0 0 3

 .
Si dividimos ahora por el determinante de la matriz A
|A| = 6 + 3 = 9,
se obtiene la expresión de la inversa
A−1
=


2
3
−1
3
−1
9
1
3
1
3
−1
9
0 0 1
3


y podemos comprobar que A A−1
= I.
La inversa de una matriz A tiene las propiedades siguientes:
1. (AB)−1
= B−1
A−1
para matrices cuadradas no singulares.
2. (A0
)−1
= (A−1
)0
3. |A−1
| = |A|−1
4. si A es simétrica también lo es A−1
.
La matriz inversa de una matriz de varianzas y covarianzas tiene una interesante inter-
pretación en Estadística, como veremos en el siguiente capítulo. La matriz inversa recoge la
información de la dependencia conjunta de todas las variables de manera más completa que
la matriz de varianzas y covarianzas.
Inversas de sumas de matrices
Es muy útil poder calcular la inversa de una suma de matrices en función de las inversas
de los sumandos. La forma general es la siguiente: supongamos que las matrices A y C
son matrices cuadradas no singulares de orden n y p respectivamente, y B y D son matrices
rectangulares (n × p) y (p × n), se comprueba por multiplicación directa que
(A + BCD)−1
= A−1
− A−1
B(DA−1
B + C
−1
)−1
DA−1
. (2.1)
44 CAPÍTULO 2. ÁLGEBRA MATRICIAL
Si tomamos en esta expresión C =1 y las matrices B y D son vectores, que llamaremos
b y d0
, se obtiene que
(A + bd0
)−1
= A−1
− A−1
b(d
0
A−1
b+1)−1
d0
A−1
Cuando A y C tienen el mismo orden, se comprueba que la expresión de la inversa puede
escribirse como:
(A + C)−1
= C−1
(A−1
+ C
−1
)−1
A−1
. (2.2)
Veremos que estas fórmulas son muy útiles para estudiar el cambio de la matriz de
varianzas y covarianzas, y otros estadísticos relevantes, al eliminar observaciones o variables.
Matrices ortogonales
Llamaremos matriz ortogonal, C, a una matriz cuadrada, que representa un giro en el espacio.
Para caracterizar estas matrices, supongamos que dado un vector x le aplicamos una matriz
no singular C y obtenemos un nuevo vector y = Cx. Si esta operación es un giro, la norma
de y debe ser idéntica a la de x, lo que implica la condición :
y0
y = x0
C0
Cx = x0
x,
es decir, deberá veriÞcarse que :
C0
C = I.
De la deÞnición y = Cx deducimos que x = C−1
y. Por otro lado, multiplicando por C0
tenemos que C0
y = C0
Cx = x. De estas dos condiciones concluimos que la matriz inversa
debe ser igual a su traspuesta. Esta es la condición de ortogonalidad:
C0
= C−1
.
Una matriz ortogonal debe tener Þlas (o columnas) que son vectores ortogonales entre sí
y de longitud unidad, ya que:



c0
1
...
c0
n


 [c1. . . cn] =



c0
1c1 . . . c0
1cn
...
...
c0
nc1 . . . c0
ncn


 =



1 . . . 0
...
...
0 . . . 1



además: |C| = |C0
| =1, donde |C| es el determinante de C.
Por ejemplo, en <2
, la matriz
C =
µ
cos α −sen α
sen α cos α
¶
es ortogonal, ya que CC0
= I.
Los vectores de una matriz ortogonal de orden n forman una base ortonormal de <n
ya que son ortogonales y de norma uno.
2.3. MATRICES 45
2.3.5 Matrices Particionadas
Una matriz puede subdividirse en elementos que sean a su vez matrices y a los que se aplican
las reglas anteriores. Esta operación es importante cuando queremos dividir las variables en
bloques distintos. Por ejemplo, la matriz
A =


2 3 4
5 6 1
0 2 3

 ,
puede escribirse también como una matriz 2 × 2 particionada:
A =
·
A11 A12
A21 A22
¸
, (2.3)
donde:
A11 =
·
2
5
¸
, A12 =
·
3 4
6 1
¸
, A21 = 0, A22 = [2 3] .
Podemos obtener la inversa y el determinante de una matriz particionada en otra 2 × 2
de manera que los términos diagonales A11 y A22 sean matrices cuadradas no singulares. La
inversa de la matriz A dada por (2.3) se calcula mediante:
A−1
=
·
B−1
−B−1
A12A−1
22
−A−1
22 A21B−1
A−1
22 + A−1
22 A21B−1
A12A−1
22
¸
donde
B = (A11 − A12A−1
22 A21)
como puede comprobarse por multiplicación directa.
El determinante se obtiene mediante:
|A| = |A22||A11 − A12A−1
22 A21| = |A11||A22 − A21A−1
11 A12| = |A22| |B|
Observemos que si la matriz es diagonal por bloques y A12 = 0, A21 = 0, entonces A−1
se obtiene simplemente como
·
A−1
n 0
0 A−1
22
¸
y |A| = |A11| |A12| .
Ejercicios 2.3
2.3.1 Calcular el determinante de la matriz formada por los tres vectores del ejercicio 2.2.2,
a = (1, 0, 2)0
, b = (1, 1, 2)0
, c = (2, 1, 6)0
.¿Qué conclusiones podemos extraer de este resultado
respecto a la independencia lineal de estos vectores?
2.3.2 Dada la matriz rectangular A =


1 1
0 1
2 2

 , calcular la matriz A0
A y su determinante
y traza. Hacer lo mismo para la matriz AA0
.
46 CAPÍTULO 2. ÁLGEBRA MATRICIAL
2.3.3 Calcular la inversa de la matriz A0
A del ejercicio anterior. Dibujar en el plano los
vectores que forman esta matriz y su inversa y comentar sobre el resultado obtenido.
2.3.4 Demostrar que la matriz
· √
2/2 −
√
2/2√
2/2
√
2/2
¸
es ortogonal. Aplicarla al vector
¡1
1
¢
y
dibujar el resultado. ¿Qué giro produce esta matriz?
2.3.5 Se miden tres dimensiones físicas en un grupo de 10 personas y estos datos se
disponen en una matriz rectangular A, de dimensiones (10 × 3), justiÞcar las siguientes
aÞrmaciones:
a) El rango máximo de esta matriz es 3.
b) La operación A0
110, donde 110 es un vector (10×1) con todas sus componentes iguales
a uno proporciona un vector (3 × 1) cuyos componentes son la suma de los valores de cada
variable.
c) La operación 1
10
A0
110, proporciona un vector cuyos componentes son las medias de las
variables.
d) La operación 110( 1
10
A0
110)0
= 1
10
11010
10A, proporciona una matriz rectangular de di-
mensiones (10 × 3), cuyas columnas contienen la media de cada variable.
e) La matriz eA= A− 1
10
11010
10A proporciona una matriz rectangular de dimensiones (10×
3), cuyas columnas contienen las desviaciones de cada variable con respecto a su media.
f) La matriz eA0 eA proporciona una matriz cuadrada de dimensiones (3 × 3), cuyos tér-
minos diagonales son las sumas de las desviaciones a la media de cada variable al cuadrado.
2.3.6 Con la matriz de datos de EUROALI del apéndice de datos calcular las varianzas y
covarianzas de las variables y colocarlas en una matriz cuadrada y simétrica de orden nueve,
donde en la diagonal estén las varianzas y fuera de la diagonal las covarianzas. Calcular
la traza y el determinante y pensar en su interpretación. Repetirlo para las variables
estandarizadas. ¿Qué análisis le parece más informativo?
2.3.7 Calcule una base del espacio ortogonal al vector a0
1 =(1 0 0 0 -1) de la forma
siguiente: (1) construya una matriz arbitraria cuadrada de dimension 5 que tenga como
primera Þla el vector a0
1; (2) calcule la inversa de la matriz y tome el espacio generado por
las columnas 2 a la 5. JustiÞque el resultado obtenido.
2.3.8 Demuestre por multiplicación directa la fórmula (2.2). (Nota, utilice que (A−1
+ C
−1
)−1
A−1
puede escribirse como (I + AC−1
)−1
).
2.3.9 Demuestre por multiplicación directa que (I + C)−1
= I − (I + C−1
)−1
.
2.3.10 Demuestre por multiplicación directa la fórmula (2.1). (Nota, al sacar factor común
utilice que (DA−1
B + C
−1
)−1
puede escribirse como C(I + DA−1
BC)
−1
.
2.4 VECTORES Y VALORES PROPIOS
Dada una matriz cuadrada hay determinadas propiedades que esperamos sean invariantes
ante ciertas transformaciones lineales que preservan la información existente en la matriz.
Por ejemplo, si transponemos la matriz las propiedades básicas de los vectores que la forman
no varían, y hemos visto que ni la traza ni el determinante se modiÞcan. Si giramos los
vectores que la forman, es decir multiplicamos la matriz por una ortogonal, no se alteran ni
sus magnitudes ni sus posiciones relativas, por lo que esperamos que las propiedades básicas
2.4. VECTORES Y VALORES PROPIOS 47
de la matriz se mantengan. Por ejemplo, si en lugar de trabajar con los ingresos y los costes
decidimos trabajar con los beneÞcios, construidos como ingresos-costes, y el volumen de
actividad, deÞnido como ingresos más costes, hemos aplicado una transformación ortogonal.
Aunque la matriz cuadrada que representa las varianzas y covarianzas de las nuevas variables
sea distinta de la original, la esencia del problema es la misma, y esperamos que la matriz
de las nuevas variables tenga características idénticas a las de las variables originales. Para
precisar esta idea aparece el concepto de valores y vectores propios de una matriz cuadrada.
Los valores propios son las medidas básicas de tamaño de una matriz, que no se ven
alteradas si hacemos un cambio de coordenadas que equivale a una rotación de los ejes. Se
demuestra que las medidas globales de tamaño de la matriz, como la traza o el determinante,
son sólo función de los valores propios y, en consecuencia, serán también invariantes ante las
transformaciones que preservan los valores propios.
Los vectores propios representan las direcciones características de la matriz y no son
invariantes. Al aplicar una matriz cuadrada de orden n a un vector de dimensión n este
se transforma en dirección y magnitud. Sin embargo, para cada matriz cuadrada existen
ciertos vectores que al transformarlos por la matriz sólo se modiÞca su longitud (norma) y
no su posición en el espacio. Estos vectores se denominan vectores propios de la matriz.
2.4.1 DeÞnición
Llamaremos vectores propios de una matriz cuadrada de orden n a aquellos vectores cuya
dirección no se modiÞca al transformarlos mediante la matriz. Por tanto u es un vector
propio de la matriz A si veriÞca que :
Au = λu. (2.4)
donde λ es un escalar, que se denomina valor propio de la matriz. En esta relación suponemos
u 6= 0, ya que si no es trivialmente cierta. Si u es un vector propio de A y multiplicamos
(2.4) por cualquier a 6= 0, resulta que au será también un vector propio de A. Para evitar
esta indeterminación suponemos que los vectores propios están normalizados de manera que
kuk = 1. Sin embargo, el signo queda indeterminado: si u es un vector propio también lo es
−u.
Para calcular el vector propio podemos escribir la ecuación anterior como:
(A−λI)u = 0,
y este es un sistema homogéneo de ecuaciones que tendrá solución no nula si y solo si la matriz
del sistema, (A−λI), es singular. En efecto, si esta matriz fuese invertible multiplicando por
la inversa tendríamos que la única solución es u = 0. Por tanto, este sistema tiene solución
no nula si se veriÞca que
|A − λI| = 0.
Esta ecuación se denomina la ecuación característica de la matriz. Es una ecuación
polinómica en λ de orden n y sus n raíces se denominan valores propios de la matriz. Es
48 CAPÍTULO 2. ÁLGEBRA MATRICIAL
inmediato de la deÞnición que si una matriz es diagonal los valores propios son los elementos
de la diagonal principal. En efecto, tendremos:
|A − λI| =
¯
¯
¯
¯
¯
¯
¯



a1 . . . 0
... a2
...
0 ... an


 −



λ . . . 0
... λ
...
0 . . . λ



¯
¯
¯
¯
¯
¯
¯
=
¯
¯
¯
¯
¯
¯
¯



a1 − λ . . . 0
... a2 − λ
...
0 . . . an − λ



¯
¯
¯
¯
¯
¯
¯
|A−λI| = (a1 − λ)...(an − λ),
y las soluciones de esta ecuación polinómica son a1, ..., an.
Aunque una matriz de orden n tiene siempre n valores propios, estos pueden aparecer
repetidos. En general, una matriz tiene h ≤ n valores propios distintos. Si un valor propio
aparece repetido r veces se dice que tiene multiplicidad r. Por ejemplo, la matriz diagonal:
A =




2 0 0 0
0 3 0 0
0 0 0 0
0 0 0 0




tiene como valores propios 2, 3 y 0, este último valor con multiplicidad dos (aparece dos
veces).
A cada valor propio distinto de una matriz cuadrada podemos asociarle un único vector
propio que satisface (2.4). En efecto, dado λ podemos resolver el sistema y obtener u. Como
la matriz del sistema es singular, existen inÞnitas soluciones, ya que si u es una solución
también lo es au, lo que resolvemos tomando el vector de norma uno. Si un valor propio
es múltiple, es decir, la matriz no tiene n valores propios distintos, los vectores propios
asociados a valores propios con multiplicidad mayor de uno no están deÞnidos en general de
manera única. Para ilustrar esta idea, consideremos la matriz
A =


1 0 0
0 1 0
0 0 2


que tiene el valor propio 1 con multiplicidad 2. Los vectores u1 = (1, 0, 0)0
y u2 = (0, 1, 0)0
son vectores propios asociados al valor 1, pero también lo es u3 = γu1 + (1 − γ) u2, para
cualquier valor de γ. Los vectores propios están en un espacio igual a la multiplicidad del
valor propio, 2, y cualquier vector normalizado de este espacio de dimensión 2 es un vector
propio de A.
Cuando la matriz tiene n valores propios distintos, a cada valor propio le podemos
asociar un vector propio bien deÞnido y se demuestra que el conjunto de los n vectores
propios es linealmente independiente.
Los valores propios de una matriz tienen las propiedades siguientes:
1. Si λ es un valor propio de A, λr
es un valor propio de Ar
. En particular , si A−1
existe,
λ−1
es un valor propio de A−1
.
2.4. VECTORES Y VALORES PROPIOS 49
2. Los valores propios de una matriz y su transpuesta son los mismos.
3. La suma de los valores propios de A es igual a la traza.
tr(A) =
X
λi.
4. El producto de los valores propios de A es igual al determinante
|A| =
Y
λi.
5. Las matrices A y P−1
AP tiene los mismos valores propios.
6. Las matrices A y A ± I tienen los mismos vectores propios y si λ es un valor propio
de A, λ ± 1 es un valor propio de A ± I y la
7. Las matrices cuadradas ABC, BCA y CAB, donde las matrices A, B, y C son gen-
erales con la condición de que los productos existan, tienen los mismos valores propios
no nulos.
8. Si A es triangular los valores propios son los elementos diagonales.
9. Si A y B son cuadradas de órdenes n y p los np vectores propios de su producto de
Kronecker, A⊕ B, son el producto de Kronecker de los vectores propios de A y B.
La propiedad 1 se demuestra fácilmente ya que si Au = λu, multiplicando esta ecuación
por A−1
, resulta u =λA−1
u, es decir A−1
u =λ−1
u. Para comprobar la segunda escribiendo
Au = λu y A0
v = µv y multiplicando la primera por v0
y la segunda por u0
se tiene
v0
Au = λv0
u y u0
A0
v = µu0
v y como el primer miembro de ambas es el mismo (un escalar
es igual a su transpuesto) el segundo lo será y λ=µ. Las propiedades 3 y 4 son consecuencia
de las propiedades de diagonalización de matrices que comentamos a continuación. La 5
se comprueba fácilmente ya que si Au =λu, multiplicando ambos miembros por P−1
por
la derecha y P por la izquierda, se obtiene que P−1
A P u = λ u y las matrices tienen los
mismos valores propios. Los vectores propios de la matriz P−1
AP son P−1
u, siendo u un
vector propio de la matriz A. La propiedad 6 es consecuencia de que si Au = λu, entonces
Au + Iu = λu + u, es decir, (A + I)u = (1 + λ)u. Por otro lado si |A − λI| = 0, entonces
también |A + I − I − λI| = |A + I − (1 + λ)I| = 0. La 9 resulta de la deÞnición de producto
de Kronecker.
2.4.2 Valores y vectores propios de matrices simétricas
En este libro vamos a obtener vectores y valores propios principalmente de matrices simétri-
cas. En estas matrices:
(1) los valores propios son siempre reales;
(2) los vectores propios son ortogonales.
Para comprobar esta segunda propiedad observemos que si Aui = λiui y Auj = λjuj
son dos valores y vectores propios distintos, multiplicando la primera ecuación por u0
j y la
50 CAPÍTULO 2. ÁLGEBRA MATRICIAL
segunda por u0
j los primeros miembros son iguales y los segundos como λi 6= λj sólo serán
iguales si u0
jui = 0.
Para interpretar el signiÞcado de los valores y vectores propios de estas matrices consid-
eremos matrices simétricas de orden 2 cuyos vectores pueden dibujarse en un plano. Por
ejemplo la matriz simétrica
A1 =
·
a b
b a
¸
es fácil comprobar que sus valores propios se obtienen de (a − λ)2
= b2
y que sus vectores
propios están en las direcciones (1,1) y (1,-1), y normalizados a norma uno son los vectores
(0.7071, 0.7071)’ y ( 0.7071,- 0.7071)’ . Por ejemplo, si a = 3 y b = 1, de manera que la
matriz está formada por los dos vectores columna (3, 1)0 y (1, 3)0
, los valores propios son (4
y 2). Supongamos que construimos una elipse con centro en el origen y que pase por los
extremos de los dos vectores que forman la matriz, como indica la Þgura 2.3. Entonces los
valores propios representan la distancia del extremo de cada eje de la elipse al origen. Por
ejemplo el valor 4 indica que el eje principal de la elipse mide 4 unidades desde el origen,
o 8 en total. Analogamente, el valor 2 indica la longitud del otro semieje de la elipse. Los
vectores propios asociados a estos valores propios representan las direcciones de los ejes: el
asociado al mayor valor propio es un vector unitario en la dirección de la diagonal principal
y el segundo es perpendicular a el, como indica la Þgura 2.3. Si modiÞcamos los valores
de a y b los vectores propios no se modiÞcan pero sí los valores propios. Si aumentamos a
manteniendo Þjo b alejamos los extremos de los vectores y la elipse tiene cada vez los ejes más
similares. Por ejemplo, la matriz formada por los vectores columna (100, 1)0 y (1, 100)0
tiene
valores propios (101 y 99) y los mismos vectores propios. Por el contrario si aumentamos
b manteniendo Þjo a acercamos los extremos de los vectores y apuntamos más la elipse, lo
que aumentará la diferencia entre sus ejes. Por ejemplo, la matriz formada por los vectores
columna (1.2, 1)0 y (1, 1.2)0
tiene valores propios (2.2, 0,2) y los mismos vectores propios.
2.4. VECTORES Y VALORES PROPIOS 51
31
3
1
Figura 2.3: Representación de los valores y vectores propios de una matriz simétrica A1
En la matriz anterior al ser los elementos diagonales idénticos la orientación de la elipse
era según las bisectrices de los ejes. Esto no ocurrirá si los elementos diagonales son distintos.
Por ejemplo, la matriz
A2 =
·
4 1
1 2
¸
se encuentre representada en la Þgura 2.4. Ahora el eje mayor de la elipse esta mucho más
cerca del vector de módulo mayor y puede comprobarse que los vectores propios son (0.9239
0.3827) y (-0.3827 0.9239), y los valores propios (4.41, 1.59).
Generalizando este ejemplo, los valores propios de una matriz simétrica representan las
magnitudes de los ejes del elipsoide con centro el origen y determinado por los extremos de
los vectores. Los vectores propios indican las direcciones de estos ejes principales.
52 CAPÍTULO 2. ÁLGEBRA MATRICIAL
41
2
Figura 2.4: Representación de los valores y vectores propios de una matriz simétrica A2
2.4.3 Diagonalización de Matrices Simétricas
Una propiedad muy importante de las matrices simétricas es que pueden convertirse en
una matriz diagonal mediante una transformación ortogonal. Sea A una matriz cuadrada y
simétrica de orden n. Hemos visto que esta matriz tiene valores propios reales y vectores pro-
pios ortogonales. Entonces los vectores propios, u1, . . . , un, son linealmente independientes
y forman una base en <n
. Podemos escribir
A [u1, . . . , un] = [λ1u1, . . . , λnun] .
donde λ1, . . . λn son los valores propios que son números reales y que pueden no ser todos
distintos. En particular, algunos de estos valores propios pueden ser nulos. Esta ecuación
puede escribirse, llamando D a la matriz diagonal con términos λi, como
AU = UD
donde la matriz U es ortogonal. Multiplicando por U0
= U−1
, tenemos que
U0
AU = D (2.5)
y hemos transformado la matriz original en una matriz diagonal, D, mediante una matriz U
ortogonal. La ecuación (2.5) tiene una interesante interpretacion geométrica. Observemos
que U0
A es una rotación de los vectores que forman la matriz, y esta ecuación nos dice que
estos vectores rotados son iguales a DU0
, que es el resultado de multiplicar por los términos
de D a una base de vectores ortonormales. En otros términos, como A = UDU0
vemos como
se genera siempre una matriz simétrica: se parte de una base ortonormal de vectores, U0
,se
modiÞca la norma de cada vector de esta base, multiplicandolo por una matriz diagonal,
y luego se rotan de nuevo los vectores así obtenidos. Diagonalizar una matriz simétrica
2.4. VECTORES Y VALORES PROPIOS 53
consiste en recuperar esta operación y los valores propios representan las constantes por las
que se han multiplicado los vectores ortonormales iniciales y los vectores propios indican el
giro realizado.
Si tomamos determinantes en (2.5):
|U0
||A||U| = |D|,
y como |U| = |U0
| = 1, el determinante de A será el producto de sus raíces características.
Por lo tanto, si una de las raíces características es nula, el determinante será 0 y la matriz
singular.
Por otro lado, como en (2.5) las matrices U0
y U son no singulares, el rango de A será
igual al de D, que al ser diagonal será igual al número de términos diagonales no nulos, que
son los valores propios de A. Por tanto: El rango de una matriz simétrica es igual al número
de raíces características distintas de cero.
Al diagonalizar una matriz simétrica obtenemos su rango, observando el número de ele-
mentos no nulos en la diagonal principal de la matriz transformada D.
Descomposición espectral
Es interesante poder descomponer una matriz cuadrada simétrica en sus fuentes de variación
intrínsecas, es decir en las direcciones de los vectores propios con coeÞcientes que dependen
de los valores propios. Esto es lo que consigue la descomposión espectral. Premultiplicando
(2.5) por U y postmultiplicando por U0
se obtiene
A = UDU0
que, como hemos comentado en la sección anterior indica cómo se genera una matriz simétrica
a partir de una base ortonormal. Esta descomposición puede escribirse:
A = [u1,... ,un]



λ1u0
1
...
λnu0
n



de donde resulta:
A =
nX
i=1
λiuiu0
i (2.6)
que descompone la matriz A como suma de n matrices de rango uno uiu0
i con coeÞcientes
λi.
Si la matriz A tiene rango r la descomposición espectral (2.6) indica que puede expresarse
como suma de r matrices de rango unidad. La importancia de esta descomposición es
que si algunos valores propios son muy pequeños, podemos reconstruir aproximadamente A
utilizando los restantes valores y valores propios.
Observemos que la descomposición espectral de A−1
es
A−1
=
nX
i=1
λ−1
i uiu0
i
ya que A−1
tiene los mismos vectores propios que A y valores propios λ−1
i .
54 CAPÍTULO 2. ÁLGEBRA MATRICIAL
2.4.4 Raiz cuadrada de una matriz semideÞnida positiva
Una matriz cuadrada, simétrica y semideÞnida positiva puede siempre descomponerse como
producto de una matriz por su transpuesta:
A = H H0
,
en efecto, por la descomposición espectral de una matriz simétrica
A =
³
U D1/2
´ ¡
D1/2
U0
¢
y tomando H = U D1/2
se obtiene la descomposición. A la matriz H se la denomina una
raiz cuadrada de la matriz A. La raíz cuadrada de una matriz no es única, ya que si
A = H H0
también A = H∗
H0∗
donde H∗
= HC para cualquier matriz ortogonal C. Una
forma de deÞnir la raíz de manera única es exigir que la matriz H sea simétrica, con lo que
A = H H. Esto puede hacerse tomando
H = U D1/2
U0
Otra forma de hacer la descomposición de manera única es la descomposición de Cholesky
que estudiamos a continuación.
Descomposición de Cholesky (*)
Puede demostrarse que la raíz cuadrada de una matriz cuadrada, simétrica y deÞnida posi-
tiva puede obtenerse de manera que H = T sea triangular (T0
será también triangular) con
términos diagonales positivos. Entonces la descomposición es única y se denomina descom-
posición de Cholesky. Tenemos
A = TT0
Demostraremos la existencia de esta matriz por inducción, que tiene la ventaja de propor-
cionar además un método para su cálculo. Si la matriz es un escalar a trivialmente T =
√
a.
Supongamos que hemos encontrado esta descomposición para dimensión p y veamos como
obtenerla para dimensión p + 1. Sea
Ap= TpT0
p (2.7)
y vamos a obtener la descomposición para
Ap+1=
·
Ap a12
a0
12 a22
¸
donde a12 es un vector p × 1 y a22 un escalar. Vamos a demostrar que esta matriz puede
escribirse como Tp+1T0
p+1 donde, tomando Tp+1 como triangular inferior:
Tp+1=
·
Tp 0
t tp+1
¸
.
2.4. VECTORES Y VALORES PROPIOS 55
Entonces, la condición Ap+1= Tp+1T0
p+1 equivale a las condiciones:
a12 = Tpt,
y
a22 = t0
t+t2
p+1,
conjuntamente con (2.7). Como Tp es no singular, podemos obtener
t = T−1
p a12
y utilizando (2.7) podemos escribir
tp+1 =
q
a22 − a0
12A−1
p a12,
que debe ser positivo si la matriz es deÞnida positiva. Esta descomposición se utiliza mucho
en análisis numérico ya que puede calcularse iterativamente con el método propuesto. Por
ejemplo, supongamos que A es una matriz de la forma
A =
·
s2
1 s12
s12 s2
2
¸
con las varianzas y covarianzas de dos variables. Entonces Ap = a1 = s2
1, Tp = s1; t =s12/s1
T =
·
s1 0
s12/s1
p
s2
2 − s2
12/s2
1
¸
y contiene en la diagonal las desviaciones típicas de la primera variable y de la regresión de
la segunda dada la primera. Esta propiedad es general.
La descomposición de Cholesky proporciona un método eÞciente de calcular el determi-
nante de una matriz ya que si A = TT0
entonces |A| = |T| |T0
| =
P
t2
ii , siendo tii los
elementos diagonales de T o T0
.
Diagonalización de dos matrices simétricas (*)
Supongamos que A y B son dos matrices simétricas de la misma dimensión y A es además
deÞnida positiva. Entonces la matriz H = A−1/2
C, donde C contiene los vectores propios
de la matriz simétrica A−1/2
BA−1/2
veriÞca
H0
AH = I
y
H0
BH = D
donde la matriz D es diagonal.
Para comprobar esta propiedad observemos que como la matriz A−1/2
BA−1/2
es simétrica
la matriz C es ortogonal. Por tanto
H0
AH = C0
A−1/2
AA−1/2
C = I
y
H0
BH = C0
A−1/2
BA−1/2
C = D
donde la matriz D diagonal contiene los valores propios de la matriz A−1/2
BA−1/2
.
56 CAPÍTULO 2. ÁLGEBRA MATRICIAL
2.4.5 Descomposición en valores singulares
Para matrices rectangulares generales puede conseguirse una descomposición similar a la
descomposición espectral de una matriz simétrica. Como en el caso de matrices cuadradas
y simétricas, toda matriz rectangular A de dimensiones (n × p) y de rango r puede ex-
presarse como producto de tres matrices, dos con vectores ortogonales y una diagonal. La
descomposición es
A = U1D1/2
V0
1
donde U1 es (n × r), D es (r × r) y V0
1 es (r × p). La matriz diagonal D1/2
contiene las raíces
cuadradas de los valores propios no nulos de las matrices A A0
o A0
A, que son positivos.
Estos términos diagonales de D se denominan los valores singulares de la matriz A. La
matriz U1 contiene en columnas los vectores propios unidos a valores propios no nulos de
A A0
y V1 contiene en columnas los vectores propios unidos a valores propios no nulos de
A0
A. Las columnas de U1 son ortogonales entre sí y también lo serán las de V1. Los
elementos diagonales de D1/2
se denominan los valores singulares de la matriz A.
2.4.6 (*)Diagonalización de Matrices generales
Sea A una matriz cuadrada de orden n. Esta matriz es diagonalizable si, y sólo si, sus
vectores propios son linealmente independientes. En efecto, supongamos que los vectores
propios, u1, . . . , un, son linealmente independientes y forman una base en <n
. Podemos
escribir
A [u1, . . . , un] = [λ1u1, . . . , λnun] .
donde λ1, . . . λn son los valores propios que pueden no ser distintos. En particular, algunos
de estos valores propios pueden ser nulos. Esta ecuación puede escribirse, llamando D a la
matriz diagonal con términos λi, como
AU = UD
Como la matriz U es no singular si los vectores propios son linealmente independientes,
multiplicando por la inversa se obtiene
U−1
A U = D
y hemos diagonalizado la matriz A. Podemos también escribir
A = U D U−1
. (2.8)
Hemos comprobado que una matriz es diagonalizable si tiene n vectores propios linealmente
independientes. Entonces puede escribirse como (2.8), donde U contienen los vectores propios
y la matriz diagonal, D, los valores propios.
Se demuestra que una condición suÞciente para que una matriz sea diagonalizable es que
tenga valores propios distintos.
2.4. VECTORES Y VALORES PROPIOS 57
Consideremos ahora el caso general de una matriz cuadrada de orden n con p valores
propios λ1, . . . λp, con multiplicidad mi,
Pp
i=1 mi = n. Puede demostrarse que la condición
para que A tenga n vectores propios linealmente independientes es que el rango de la matriz
(A − λiI) = n−mi, y que esta condición se cumple si la matriz tiene valores propios distintos.
En efecto, los valores propios se obtienen de |A − λI| = 0, lo que implica que, si todos son
distintos, el rango de la matriz (A − λiI) es n − 1.
2.4.7 (*)Inversas Generalizadas
Se denomina matriz inversa generalizada de una matriz rectangular An×p a una matriz A−
de dimensiones p × n que veriÞca:
AA−
A = A.
En general existen muchas matrices que veriÞcan esta condición. Si además imponemos
las condiciones:
A−
AA−
= simétrica
A−
A = simétrica
AA−
= simétrica
entonces A−
es única y se denomina la matriz inversa generalizada Moore-Penrose (MP) de
A. Si n > p y A tiene rango completo, rg(A) = p, la matriz inversa MP es:
A−
= (A0
A)
−1
A0
. (2.9)
El lector puede comprobar que esta matriz veriÞca las propiedades anteriores. Si p > n
y rg (A) = n, esta matriz es:
A−
= A0
(AA0
)
−1
.
Si A no tiene rango completo esta expresión no es válida ya que ni (A0
A)−1
ni (AA0
)
−1
existen. La inversa MP se construye a partir de la descomposición espectral de la matriz A0
A
(supuesto n > p). Si λ1, . . . λr, r < p, son los valores propios no nulos de A0
A y u1, . . . ur
sus vectores propios asociados podemos escribir:
A0
A = UrDrU0
r,
donde Ur es rectangular p × r con los vectores ui en columnas y Dr es diagonal r × r e
incluye los valores propios no nulos. Entonces es fácil comprobar que
A−
= UrD−1
r U0
rA0
que es la generalización de (2.9) para matrices de rango no completo.
Ejercicios 2.4
2.4.1 Calcular los vectores y valores propios de la matriz A =
·
2 1
1 2
¸
y representarlos
gráÞcamente.
58 CAPÍTULO 2. ÁLGEBRA MATRICIAL
2.4.2 Escribir la representación espectral de la matriz A de 2.4.1
2.4.3 Calcular los vectores y valores propios de la matriz A−1
y su representación espec-
tral.
2.4.4 Demostrar que 0 es un valor propio de una matriz A si y solo si esta matriz es
singular.
2.4.5 Demostrar que los valores propios de una matriz son iguales a los de su transpuesta.
2.4.6 Dada la matriz A =


1 1 2
1 0 2
1 1 2

 calcular la matriz inversa generalizada.
2.4.7 Calcular la descomposición en valores singulares de la matriz A =


1 0
0 1
1 0

 .
2.4.8 Demostrar que |A + vv0
| = |A| (1 + v0
A−1
v0
), donde A es una matriz cuadrada no
singular y v un vector. Para ello utilizar que si llamamos λ1 al valor propio no nulo de la
matriz de rango uno A−1
vv0
, |(I + A−1
vv0
)| =
Q
(1 + λi) = 1 + λ1 = 1 + tr(v0
A−1
v).
2.4.5 Calcular la decomposición de Cholesky de la matriz deÞnida positiva A0
A, donde
A es la matriz del ejercicio 2.4.6
2.5 (*)PROYECCIÓN ORTOGONAL
2.5.1 Matrices Idempotentes
En un modelo lineal la estimación por mínimos cuadrados equivale a la proyección ortogonal
del vector de datos sobre el espacio generado por las variables explicativas. La proyección
ortogonal tiene una importancia capital en los métodos de estimación lineal y se realiza
multiplicando el vector que se desea proyectar por una matriz idempotente. Vamos a deÞnir
formalmente estas matrices.
Llamaremos matriz idempotente1
a una matriz cuadrada, simétrica, y que veriÞca la
propiedad:
AA = A = A0
A.
Es inmediato comprobar que una matriz idempotente o bien es singular (|A| = 0), con
rango r menor que el orden n de la matriz, o bien es la matriz identidad. En efecto, como
A es idempotente:
AA = A
si |A| 6= 0, existirá la matriz inversa A−1
, y multiplicando por A−1
A−1
AA = A = I.
1
Una matriz idempotente puede no ser simétrica, pero todas las matrices idempotentes que utilicemos
lo serán; por lo tanto, en adelante idempotente será simétrica e idempotente, sin que detallemos que es
simétrica.
2.5. (*)PROYECCIÓN ORTOGONAL 59
Por tanto, una matriz idempotente que no es la matriz I será singular. Comprobaremos
que las raíces características de una matriz idempotente son cero o la unidad. Llamemos λ
a sus raíces características y u a sus vectores característicos. Entonces:
Au = λu,
multiplicando por A, el primer miembro es:
AAu = Au =λu
y el segundo:
λAu =λ2
u,
es decir,
λu = λ2
u
de donde resulta:
¡
λ2
− λ
¢
u = 0.
Para que λ sea una raíz característica el vector u debe ser distinto de cero, entonces:
λ2
− λ = λ (λ − 1) = 0
que tiene como soluciones λ = 1 ó λ = 0. Por lo tanto, si se diagonaliza una matriz
idempotente –lo que siempre puede hacerse al ser simétrica– obtendremos en la diagonal
principal un número de unos igual al rango de la matriz y el resto de los elementos serán
cero.
Una conclusión inmediata de este resultado es que una matriz idempotente A es siempre
semideÞnida positiva. En efecto:
x0
Ax = x0
A0
Ax = (Ax)0
Ax ≥ 0.
Finalmente, si A es idempotente también lo es I − A ya que:
(I − A)(I − A) = I − A − A + AA = I − A
De las propiedades anteriores se deduce que si A es una matriz idempotente simétrica,
su rango es igual a su traza.
2.5.2 Proyección Ortogonal
Dado un vector y de n componentes diremos que v es la proyección ortogonal de y sobre un
subespacio Ep contenido en <n
y de dimensión p, p < n si:
1. y = v + w con v ∈Ep
60 CAPÍTULO 2. ÁLGEBRA MATRICIAL
2. v0
w = 0 para todo v ∈Ep.
Esta deÞnición indica que y puede descomponerse como suma de dos vectores perpen-
diculares: el primero, v, es la proyección ortogonal de y sobre Ep y pertenece, por tanto, a
Ep; el segundo, w, es ortogonal a todos los vectores de Ep (y por tanto a Ep), y pertenece,
en consecuencia, al espacio En−p, complemento ortogonal al Ep. Es fácil demostrar que esta
descomposición es única. La Þgura 2.5 ilustra esta situación.
y
v
w
E
Figura 2.5: Proyección ortogonal del vector y sobre el plano E
Como ilustración, sea Ep un espacio de dimensión uno engendrado por el vector x. En-
tonces la proyección del vector y sobre la dirección del vector x será:
v = cx
donde c es un escalar. Para determinar c, impondremos la condición de que la diferencia
w = y − v debe ser ortogonal a v, y por tanto a x:
x0
(y − v) = 0,
es decir, x0
y = x0
xc, que implica:
c = (x0
x)
−1
x0
y.
Sustituyendo este valor de c en la expresión de v, la proyección será:
v = x(x0
x)−1
x0
y = Ay
2.5. (*)PROYECCIÓN ORTOGONAL 61
es decir, la proyección de un vector y sobre otro x se obtiene multiplicando el vector por la
matriz A = x(x0
x)−1
x0
. Esta matriz A, es cuadrada (n×n), idempotente y de rango igual a
la dimensión del espacio sobre el que proyectamos, que es, en este caso, uno. Comprobemos
que es idempotente:
³
x (x0
x)
−1
x0
´ ³
x (x0
x)
−1
x0
´
= x (x0
x)
−1
x0
,
y que es de rango uno:
rg(A) = tr(A) = tr
³
(x0
x)
−1
x0
x
´
= tr(1) = 1
Observemos que en el caso particular en que el vector x tiene norma unitaria, (x0
x) = 1,
y la expresión del vector proyección es
v = xx0
y
que tiene una interpretación inmediata: el vector proyección estará en la dirección de x (lo
que implica es de la forma cx) y su norma viene dada por la longitud de la proyección que
es x0
y, (ya que x tiene norma unitaria).
A continuación generalizamos estos resultados a proyecciones más generales.
Teorema 2.1 Sea y ∈<n
y sea X una matriz (n × p) cuyas columnas son una base de un
cierto subespacio Ep. Entonces la proyección del vector y sobre el espacio Ep es Ay, donde
la matriz cuadrada A es simétrica, idempotente, de rango p, y tal que A = X(X0
X)−1
X0
.
Demostración La proyección de y sobre un subespacio debe ser siempre del tipo v = Ay,
donde A es idempotente. En efecto la proyección de v sobre dicho espacio, dada por Av,
tendrá que ser igual a v, ya que v pertenece al subespacio. Por tanto, si Av = v , resuta
que:
A(Ay) = Ay
para todo vector y, lo que requiere A = A2
, es decir, la matriz proyección debe ser idem-
potente. Demostraremos ahora que la matriz idempotente A que proyecta sobre el espacio
generado por las columnas de una matriz X, Ep, viene dada por:
A = X(X0
X)−1
X0
.
Probemos primero que A depende del subespacio Ep, pero no de la base elegida. En efecto,
si consideramos otra base B generadora del subespacio dada por:
B = XC
donde C es (p × p) y no singular, como (GP)−1
= P−1
G−1
para G y P matrices cuadradas
no singulares, tendremos que:
B(B0
B)−1
B0
= XC(C0
X0
XC)−1
C0
X0
= X(X0
X)−1
X0
= A
62 CAPÍTULO 2. ÁLGEBRA MATRICIAL
por tanto, A no depende de la base escogida. A continuación veremos que el vector v deÞnido
por:
v = X(X0
X)−1
X0
y,
veriÞca las condiciones de una proyección. Demostraremos, en primer lugar, que v está
contenido en Ep. Llamemos
β = (X0
X)−1
X0
y
a los coeÞcientes de la proyección de y sobre el espacio de las columnas de X, que repre-
sentaremos por x1, ..., xp. Entonces
v = Xβ = β1x1 + β2x2 + ... + βpxp,
y al ser v una combinación lineal de las columnas de X pertenece a Ep. Demostraremos
ahora que y − v es ortogonal a Ep. Todo vector de Ep puede expresarse como:
u = α1x1 + ... + αpxp = Xα
y por tanto,
u0
(y − v) = u0
(I − X(X0
X)−1
X0
)y = α0
(X0
− X0
X(X0
X)−1
X0
)y = 0
es decir, y − v es ortogonal a cualquier vector de Ep, lo que demuestra el teorema.
Teorema 2.2 La condición necesaria y suÞciente para que v = Ay, donde A es una matriz
cuadrada, sea la proyección ortogonal de y ∈ <n
sobre un cierto espacio Ep, es que A sea
idempotente (A = A0
, A2
= A) de rango p.
Demostración La condición es necesaria: si A deÞne una proyección, según el teorema
anterior puede expresarse como A = X(X0
X)−1
X0
, siendo X una matriz que contiene, en
columnas, una base del espacio, por lo que A es simétrica e idempotente.
La condición es suÞciente: supongamos que A es idempotente y hagamos
y = Ay + (I − A)y
Vamos a demostrar que el vector (I − A)y es ortogonal a todo vector que pertenezca a Ep.
Sea Ac un vector cualquiera que pertenece a Ep.
(Ac)0
(I − A)y = c0
(A0
− A)y = 0
por tanto, si A es idempotente, Ay es la proyección de y sobre el espacio generado por las
columnas de A.
Teorema 2.3 Si y ∈<n
, v es su proyección sobre Ep y z es cualquier otro vector de Ep, se
veriÞca, llamando kyk a la norma del vector y:
kyk2
= kvk2
+ ky − vk2
ky − zk2
= kv − zk2
+ ky − vk2
.
2.5. (*)PROYECCIÓN ORTOGONAL 63
Demostración Estas expresiones representan el teorema de Pitágoras en un espacio general.
Como, por deÞnición de proyección, v0
(y − v) = 0, entonces v0
y = v0
v. Por otro lado:
(y − v)0
(y − v) = y0
y − v0
y − y0
v + v0
v = y0
y − v0
v,
que escribiremos
y0
y = v0
v + (y − v)0
(y − v)
que es la primera igualdad. Para demostrar la segunda, partamos de la identidad
y − z = y − v + v − z
y multiplicando por el vector transpuesto y utilizando que y − v debe ser ortogonal a v − z,
por serlo a todos los vectores de Ep, el teorema queda demostrado.
Una consecuencia de este teorema es que podemos deÞnir la proyección ortogonal de un
vector y sobre un espacio Ep como aquel vector v de Ep tal que ky − vk es mínimo. En
este sentido el vector proyección es, el ”más próximo” al original. En efecto, como, para
cualquier vector z del plano:
ky − zk ≥ ky − vk
el vector v, proyección ortogonal, minimiza las distancias entre el espacio Ep y el vector y.
Teorema 2.4 Si y ∈ <n
, el cuadrado de la norma de su proyección sobre un espacio Ep
deÞnido por las columnas de la matriz X vendrá dado por y0
Ay, donde A es idempotente.
Demostración El vector proyectado será Ay, donde A es idempotente, y su norma será:
(Ay)0
(Ay) = y0
Ay.
Teorema 2.5 Si y ∈ <n
y proyectamos este vector sobre espacios ortogonales, E1, ..., Eh,
deÞnidos por matrices de proyección , A1, ...Ah, donde:
n =
hX
i=1
rg(Ai)
se veriÞca:
y0
y = y0
A1y + y0
A2y + ... + y0
Ahy.
Ejercicios 2.5
2.5.1 Calcule la proyección ortogonal del vector (1,1 3) sobre el espacio generado por las
dos variables (1 ,1,1) y (0, 1,2).
2.5.2 Exprese al vector anterior como combinación lineal de las dos variables.
2.5.3 Obtener el vector ortogonal al vector proyección.
2.5.4 Demuestre que el resultado anterior es equivalente a realizar la regresión simple
entre la variable (1,1 3) y la variable (0, 1,2).
2.5.5 Demostrar, utilizando el Teorema 2.1, que para calcular los coeÞcientes de regresión
múltiple entre una variable y un conjunto de variables incorreladas basta con calcular los
coeÞcientes de las regresiones simples.
64 CAPÍTULO 2. ÁLGEBRA MATRICIAL
2.6 (*)DERIVADAS MATRICIALES
DeÞnición 2.1 Dada un función f que depende de n variables, x1, ..., xn, que pueden con-
siderarse componentes de un vector x, la derivada de f respecto a x es un vector cuyos
componentes son la derivada de f respecto a cada componente de x.
Ejemplo 2.1 Si f = 5x1 + 2x2 + 3x3
∂f
∂x
=


5
2
3


Los siguientes resultados son consecuencia de la deÞnición
Corolario 2.1 Si f = a0
x tendremos que:
∂(a0
x)
∂x
= a
Corolario 2.2 Si f = x0
Ax, donde A es cuadrada y simétrica:
∂(x0
Ax)
∂x
= 2Ax
Demostración Resulta de aplicar la deÞnición anterior, como:
x0
Ax =
nX
i=1
aiix2
i + 2
X
j>i
aijxixj
tendremos que:
∂(xAx)
∂x1
= 2a11x1 + 2a12x2 + ... + 2a1nxn = 2a0
1x
donde a0
1 es la primera Þla de la matriz. Por tanto:
∂(xAx)
∂x
=





2a0
1x
2a0
2x
...
2a0
nx





= 2Ax
DeÞnición 2.2 Dada un función f que depende de np variables, x11, ..., xnp, que son los
componentes de una matriz rectangular n × p, X , la derivada de f respecto a X se deÞne
como la matriz cuyos componentes son la derivada de f respecto a cada componente de X0
.
La derivada es pues una matriz p × n con las dimensiones de X0
.
2.6. (*)DERIVADAS MATRICIALES 65
Los siguientes resultados se comprueban aplicando la deÞnición
Corolario 2.3 Corolario 2.4 Si f = a0
Xb
∂(a0
Xb)
∂X
= ba0
DeÞnición 2.3 Ejemplo 2.2 Corolario 2.5 Si f = a0
X0
Xb
∂(a0
X0
Xb)
∂X
= (ab0
+ ba0
)X0
DeÞnición 2.4 Dado un vector y cuyos componentes son funciones fi de un vector de
variables x0
= (x1, ..., xn), deÞnimos la derivada de y respecto a x como la matriz cuyas
columnas son las derivadas de los componentes fi respecto a x. Es decir, si:
y0
= (f1(x), ..., fn(x))
entonces:
∂y
∂x
=
·
∂f1
∂x
, . . . ,
∂fn
∂x
¸
=



∂f1
∂x1
. . . ∂fn
∂x1
...
...
∂f1
∂xn
. . . ∂fn
∂xn



Corolario 2.6 Si y = Ax, donde A es una matriz cualquiera.
∂ (Ax)
∂x
= A0
Demostración Para deducir este resultado de la deÞnición anterior, escribamos la matriz
A como:
A =



a0
1
...
a0
n



donde cada a0
1 es una Þla de la matriz. Entonces:
y = Ax =



a0
1x
...
a0
nx



con lo que:
∂fi
∂x
=
∂(a0
ix)
∂x
= ai
por tanto, según lo anterior:
∂y
∂x
= [a1, . . . , an] = A0
66 CAPÍTULO 2. ÁLGEBRA MATRICIAL
Otras propiedades
Puede deducirse, extendiendo las deÞniciones anteriores, que, si los elementos de la matriz
cuadrada y no singular X son distintos:
a)
∂ln |X|
∂X
= (X0
)−1
d)
∂tr (XB)
∂X
= B0
b)
∂ |X|
∂X
= |X| (X0
)−1
e)
∂tr (X0
AXB)
∂X
= BX0
A + B0
X0
A0
c) ∂tr(BXC)
∂X
= B0
C0
f)
∂tr(BX−1
)
∂X
= −
¡
X−1
BX−1
¢
además, si X es simétrica:
∂tr(XB)
∂X
= B + B0
−diag(B)
∂ |X|
∂X
= |X|
¡
2X−1
− diag
¡
X−1
¢¢
El lector interesado puede encontrar las demostraciones de estos resultados en Bibby y
Toutenterg (1977), Graybill (1983) y Pollock (1979).
Ejercicios 2.6
2.6.1 Calcular la derivada con respecto al vector x =(x1, x2)0
de las funciones siguientes
a) f1(x) = 2x1 + 3x2,
b) f2(x) = 4x2
1 − 3x1x2,
c) f3(x) = 3x4
1x3
2 + 2x2
1x2
2 − 7x1x3
2 + 6
2.6.2 Calcular la derivada con respecto al vector x =(x1, x2)0
de las funciones vectoriales
siguientes, construidas con la notación de 2.6.1
a)f1(x) = (f1(x), f2(x), f3(x))0
,
b)f2(x) = (2f1(x) + 5f2(x), −6f3(x))0
,
2.6.3 Si x =(x1, x2, x3, x4)0
y X =
·
x1 x2
x3 x4
¸
, comprobar que
∂ln |X|
∂x1
= x4
x1x4−x2x3
y
utilizar este resultado para conÞrmar la expresión de
∂ln |X|
∂X
.
2.6.4 En el ejercicio anterior comprobar que
∂ |X|
∂X
=
·
x4 −x3
−x2 x1
¸
. Utilizar esta expre-
sión para veriÞcar la ecuación dada de la derivada del determinante de una matriz cuadrada.
2.6.5 Si x =(x1, x2, x3)0
y X =
·
x1 x2
x2 x3
¸
, comprobar que
∂ |X|
∂X
=
·
x3 −2x2
−2x2 x1
¸
,
Utilizar este resultado para conÞrmar la expresión general de la derivada del determinante
de una matriz cuadrada.
Capítulo 3
DESCRIPCIÓN DE DATOS
MULTIVARIANTES
3.1 INTRODUCCIÓN
En este capítulo y en el siguiente vamos a estudiar como describir un conjunto de datos
multivariantes. Supondremos que hemos observado un conjunto de variables en un conjunto
de elementos de una población y en este capítulo presentaremos métodos para resumir los
valores de las variables y describir su estructura de dependencia. En el capítulo siguiente
completaremos el análisis descriptivo analizando como representar los datos gráÞcamente y
decidir respecto a posibles transformaciones de las variables originales que conduzcan a una
descripción más simple. También comentaremos el problema de limpiar los datos de valores
atípicos, que son observaciones debidas a errores de medida o otras causas de heterogeneidad.
El análisis descriptivo que presentamos en este capítulo debe siempre aplicarse como
primer paso para comprender la estructura de los datos y extraer la información que con-
tienen, antes de pasar a los métodos más complejos de los capítulos siguientes. Las her-
ramientas simples que describimos en estos dos capítulos pueden, en ocasiones, resolver el
problema que ha motivado la recogida de los datos. En particular, cuando el interés se centra
en la relación entre las variables o en la comparación de dos conjuntos de datos, los métodos
descriptivos pueden ser de gran ayuda antes de emprender estudios más complejos.
3.2 DATOS MULTIVARIANTES
3.2.1 Tipos de variables
La información de partida para los métodos estudiados en este libro puede ser de varios tipos.
La más habitual es una tabla donde aparecen los valores de p variables observadas sobre n
elementos. Las variables pueden ser cuantitativas, cuando su valor se exprese numéricamente,
como la edad de una persona, su estatura o su renta, o cualitativas, cuando su valor sea un
atributo o categoría, como el género, el color de los ojos o el municipio de nacimiento. Las
variables cuantitativas pueden a su vez clasiÞcarse en continuas o de intervalo, cuando pueden
tomar cualquier valor real en un intervalo, como la estatura, o discretas, cuando sólo toman
67
68 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
CO x1 x2 x3
A 1 0 0
V 0 1 0
C 0 0 1
N 0 0 0
Tabla 3.1: CodiÞcación de variables categóricas
valores enteros, como el número de hermanos. Las variables cualitativas pueden clasiÞcarse
en binarias, cuando toman únicamente dos valores posibles, como el género (mujer, hombre)
o generales, cuando toman muchos valores posibles, como el municipio de residencia.
Supondremos en adelante que las variables binarias se han codiÞcado como numéricas
(Por ejemplo, la variable género se convierte en numérica asignando el cero al varón y el uno a
mujer). Las variables cualitativas pueden también codiÞcarse numéricamente, pero requieren
un tratamiento distinto. Si los valores de las categorías no tienen relación entre sí, la forma
más útil de codiÞcarlas es convirtiéndolas en variables binarias. Por ejemplo, supongamos la
variable color de los ojos, CO, y para simpliÞcar supongamos que las categorías posibles son
azules (A), verdes (V), castaños (C) y negros (N). Tenemos p = 4 categorías que podemos
representar con p − 1 = 3 variables binarias deÞnidas como:
a) x1 = 1 si CO=A, x1 = 0 en otro caso.
b) x2 = 1 si CO=V, x2 = 0 en otro caso.
c) x3 = 1 si CO=C, x3 = 0 en otro caso.
La tabla 3.1 presenta la codiÞcación de la variable atributo CO en las tres variables
binarias cuantitativas, x1, x2, x3
Si el número de clases posibles de una variable cualitativa es muy grande este procedimien-
to siempre puede aplicarse pero puede lógicamente dar lugar a muchas variables. Conviene
entonces ver si podemos agrupar las clases o categorías para evitar tener variables que casi
siempre toman el mismo valor (cero si la categoría es poco frecuente o uno si lo es mucho).
Naturalmente la variable CO podría también haberse codiÞcado dando valores numéricos
arbitrarios a las categorías, por ejemplo, A=1, V=2, C=3, N=4, pero esta codiÞcación tiene
el inconveniente de sugerir una graduación de valores que puede no existir. Sin embargo,
cuando los atributos pueden interpretarse en función de los valores de una variable continúa
tiene más sentido codiÞcarla con números que indiquen el orden de las categorías. Por
ejemplo, si tenemos empresas pequeñas, medianas y grandes, en función del número de
trabajadores, tienen sentido codiÞcarlas con los números 1, 2, y 3, aunque conviene siempre
recordar que estos números sólo tienen un sentido de orden.
3.2.2 La matriz de datos
Supondremos en adelante que hemos observado p variables numéricas en un conjunto de n
elementos. Cada una de estas p variables se denomina una variable escalar o univariante y
el conjunto de las p variables forman una variable vectorial o multivariante. Los valores
de las p variables escalares en cada uno de los n elementos pueden representarse en una
matriz, X, de dimensiones (n × p), que llamaremos matriz de datos. Denotaremos por xij
3.2. DATOS MULTIVARIANTES 69
al elemento genérico de esta matriz, que representa el valor de la variable escalar j sobre el
individuo i. Es decir:
datos xij donde i = 1, ..., n representa el individuo;
j = 1, ..., p representa la variable
Algunos ejemplos de datos que se utilizan en el análisis multivariante son:
1. En 100 estudiantes de una universidad medimos la edad, el género (1 mujer, 0 hombre),
la caliÞcación media, el municipio de residencia (que se codiÞca en 4 categorías en
función del tamaño) y el curso más alto en que se encuentra matriculado. Los datos
iniciales se representan en una tabla de 100 Þlas, cada una de ellas correspondiente a los
datos de un estudiante. La tabla tendrá 5 columnas, cada una de ellas conteniendo los
valores de una de las 5 variables deÞnidas. De estas 5 variables 3 son cuantitativas, una
binaria (el género) y otra cualitativa general (municipio de residencia, que tomará los
valores 1, 2, 3, y 4). Alternativamente podríamos codiÞcar el municipio de residencia
con tres variables binarias, y entonces, la matriz de datos tendrá n =100 Þlas y p =
7 columnas correspondientes a las tres cuantitativas, el género, y las tres variables
binarias adicionales para describir el tamaño del municipio de residencia.
2. En cada una de las 138 empresas de una zona medimos el número de trabajadores, la
facturación, el sector industrial y la cantidad recibida en ayudas oÞciales. Si clasiÞ-
camos el sector en ocho clases con siete variables binarias la matriz de datos será de
dimensiones 138 × 10 con tres variables cuantitativas y siete binarias (que describen el
sector industrial).
3. En 400 puntos de una ciudad instalamos controles que proporcionan cada hora las
medidas de 30 variables ambientales y de contaminación atmosférica en dicho punto.
Cada hora tendremos una matriz de datos con 400 Þlas, los puntos de observación, y
30 columnas, las 30 variables observadas.
La matriz de datos, X, puede representarse de dos formas distintas. Por Þlas, como:
X =





x11 x12 . . . x1p
x21 . . . . . . x2p
...
xn1 . . . . . . xnp





=





x0
1
...
...
x0
n





donde cada variable x0
i es un vector Þla, p × 1, que representa los valores de las p variables
sobre el individuo i. Alternativamente, podemos representar la matriz X por columnas:
X =
£
x(1) . . . x(p)
¤
donde ahora cada variable x(j) es un vector columna, n × 1, que representa la variable
escalar xj medida en los n elementos de la población. Llamaremos x = (x1, ..., xp)0
a la
variable multivariante formada por las p variables escalares que toma los valores particulares
x1, ..., xn, en los n elementos observados.
70 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
3.2.3 Análisis univariante
Describir datos multivariantes supone estudiar cada variable aisladamente y además las
relaciones entre ellas. Supondremos que el lector está familiarizado con el análisis descriptivo
de una variable, y aquí expondremos únicamente las fórmulas que utilizaremos en otras partes
del libro. El estudio univariante de la variable escalar xj implica calcular su media:
xj =
1
n
nX
i=1
xij
que para una variable binaria es la frecuencia relativa de aparición del atributo y para
una numérica es el centro de gravedad o geométrico de los datos. Se calcula una medida
de variabilidad con relación a la media, promediando las desviaciones entre los datos y su
media. Si deÞnimos las desviaciones mediante dij = (xij − xj)2
, donde el cuadrado se toma
para prescindir del signo, se deÞne la desviación típica por:
sj =
rPn
i=1 dij
n
=
rPn
i=1(xij − xj)2
n
(3.1)
y su cuadrado es la varianza, s2
j =
Pn
i=1 dij/n . Para comparar la variabilidad de distintas
variables conviene construir medidas de variabilidad relativa que no dependan de las unidades
de medida. Una de estas medidas es el coeÞciente de variación
CVj =
s
s2
j
x2
j
donde de nuevo se toman los cuadrados para prescindir del signo y suponemos que xj es
distinto de cero. En tercer lugar, conviene calcular los coeÞcientes de asimetría, que miden
la simetría de los datos respecto a su centro, y que se calculan como:
Aj =
1
n
P
(xij − xj)3
s3
j
.
Este coeÞciente es cero para una variable simétrica. Cuando el valor absoluto del coeÞciente
es aproximadamente mayor que uno podemos concluir que los datos tienen una distribución
claramente asimétrica.
Una característica importante de un conjunto de datos es su homogeneidad. Si las desvia-
ciones dij son muy distintas, esto sugiere que hay datos que se separan mucho de la media
y que tenemos por tanto alta heterogeneidad. Una posible medida de homogeneidad es la
varianza de las dij, dada por:
1
n
nX
i=1
(dij − s2
j )2
ya que, según (3.1), la media de las desviaciones dj = s2
. Se calcula una medida adimensional
análoga al coeÞciente de variación dividiendo la varianza de las desviaciones por el cuadrado
3.2. DATOS MULTIVARIANTES 71
de la media, s4
, con lo que tenemos el coeÞciente de homogeneidad, que puede escribirse
Hj =
1
n
Pn
i=1(dij − s2
j )2
s4
j
.
Este coeÞciente es siempre mayor o igual a cero. Desarrollando el cuadrado del numerador
como
Pn
i=1(dij −s2
j )2
=
Pn
i=1 d2
ij +ns4
j −2s2
j
Pn
i=1 dij este coeÞciente puede escribirse también
como:
Hj =
1
n
P
(xij − xj)4
s4
j
− 1 = Kj − 1.
El primer miembro de esta expresión, Kj, es una forma alternativa de medir la homogeneidad
y se conoce como coeÞciente de kurtosis. Como Hj ≥ 0, el coeÞciente de kurtosis será igual o
mayor que uno. Ambos coeÞcientes miden la relación entre la variabilidad de las desviaciones
y la desviación media. Es fácil comprobar que :
1. Si hay unos pocos datos atípicos muy alejados del resto, la variabilidad de las desvia-
ciones será grande, debido a estos valores y los coeÞcientes de kurtosis o de homogeneidad
serán altos.
2. Si los datos se separan en dos mitades correspondientes a dos distribuciones muy
alejadas entre sí, es decir, tenemos dos conjuntos separados de datos distintos, la media de
los datos estará equidistante de los dos grupos de datos y las desviaciones de todos los datos
serán similares, con lo que el coeÞciente Hj será muy pequeño (cero en el caso extremo en
que la mitad de los datos son iguales a cualquier número, −a , y la otra mitad igual a a).
Un objetivo central de la descripción de datos es decidir si los datos son una muestra
homogénea de una población o corresponden a una mezcla de poblaciones distintas que deben
estudiarse separadamente. Como veremos en el capítulo siguiente, un caso especialmente
importante de heterogeneidad es la presencia de una pequeña proporción de observaciones
atípicas (outliers), que corresponden a datos heterogéneos con el resto. La detección de estas
observaciones es fundamental para una correcta descripción de la mayoría de los datos, ya
que. como veremos, estos valores extremos distorsionan los valores descriptivos del conjunto.
El coeÞciente de kurtosis puede ayudar en este objetivo, ya que tomará un valor alto, mayor
que 7 u 8. Por ejemplo, si contaminamos datos que provienen de una distribución normal
con un 1% de atípicos generados por otra distribución normal con la misma media, pero
una varianza 20 veces mayor, el coeÞciente de kurtosis será alrededor de 10. Siempre que
observemos un valor alto de la kurtosis para una variable esto implica heterogeneidad por
uno pocos atípicos muy alejados del resto.
Aparece un tipo distinto de heterogeneidad cuando tenemos una mezcla de dos pobla-
ciones, de manera que una proporción importante de los datos, entre el 25% y el 50%, son
heterogeneos con el resto. En este caso, el coeÞciente de kurtosis es pequeño, menor de dos,
y es fácil comprobar que si mezclamos a partes iguales dos distribuciones muy distintas, la
kurtosis de la distribución resultante tiende a uno, el valor mínimo del coeÞciente, cuando
aumenta la separación entre las poblaciones
La presencia posible de datos atípicos recomienda calcular junto a los estadísticos tradi-
cionales medidas robustas de centralización y dispersión de los datos. Para centralización
72 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
conviene calcular la mediana, que es el valor que se encuentra en la posición central al ordenar
los datos. Para la dispersión, la MEDA, que es la mediana de las desviaciones absolutas re-
specto a la mediana. Finalmente siempre conviene representar gráÞcamente las variables
continuas mediante un histograma o un diagrama de caja (véase por ejemplo Peña, 2001).
En el análisis inicial de los datos conviene siempre calcular la media y la mediana de cada
variable. Si ambas son similares, la media es un buen indicador del centro de los datos. Sin
embargo, si diÞeren mucho, la media puede no ser una buena medida del centro de los datos
debido a: (1) una distribución asimétrica, (2) la presencia de valores atípicos (que afectaran
mucho a la media y poco a la mediana) (3) heterogeneidad en los datos.
A continuación pasaremos al análisis multivariante de las observaciones. En este capí-
tulo presentaremos como obtener medidas conjuntas de centralización y dispersión para el
conjunto de variables y medidas de dependencia lineal entre pares de variables y entre todas
ellas.
3.3 MEDIDAS DE CENTRALIZACIÓN: EL VECTOR
DE MEDIAS
La medida de centralización más utilizada para describir datos multivariantes es el vector
de medias, que es un vector de dimensión p cuyos componentes son las medias de cada una
de las p variables. Puede calcularse, como el caso escalar, promediando las medidas de cada
elemento, que ahora son vectores:
x =
1
n
nX
i=1
xi =



x1
...
xp


 (3.2)
Su expresión a partir de la matriz de datos es :
x =
1
n
X0
1, (3.3)
donde 1 representará siempre un vector de unos de la dimensión adecuada. En efecto,
escribiendo la matriz X en términos de sus vectores Þla, que son vectores de dimensión 1 ×p
que contienen los valores de las p variables en cada elemento de la muestra, estos vectores
son las columnas de X0
, y tendremos que:
x =
1
n
[x1 . . . xn]



1
...
1


 , (3.4)
que conduce a (3.2). El vector de medias se encuentra en el centro de los datos, en el sentido
de hacer cero la suma de desviaciones:
nX
i=1
(xi − x) = 0.
3.3. MEDIDAS DE CENTRALIZACIÓN: EL VECTOR DE MEDIAS 73
ya que esta suma es
Pn
i=1 xi −nx, y aplicando la deÞnición (3.2) es inmediato que esta suma
es cero.
Las medidas de centralización escalares basadas en el orden de las observaciones no
pueden generalizarse fácilmente al caso multivariante. Por ejemplo, podemos calcular el
vector de medianas, pero este punto no tiene necesariamente una situación como centro de
los datos. Esta diÞcultad proviene de la falta de un orden natural de los datos multivariantes.
Ejemplo 3.1 La tabla A.5 del Apéndice de Datos, MEDIFIS, presenta ocho variables físicas
tomadas en un grupo de 27 estudiantes. Las variables son sexo (sex con 0 para mujer, 1 para
varón), estatura (est, en cm.), peso (pes, en kgr.), longitud de pie (lpie, en cm), longitud de
brazo (lbra, en cm), anchura de la espalda (aes, en cm), diámetro de cráneo (dcr, en cm) y
longitud entre la rodilla y el tobillo (lrt, en cm).
La tabla 3.2 presenta las medias y desviaciones típicas de las variables, así como otras
medidas de la distribución univariante de cada variable.
sex est pes lpie lbr aes dcr lrt
Medias .44 168.8 63.9 39.0 73.5 45.9 57.2 43.1
D. Típicas .53 10.0 12.6 2.8 4.9 3.9 1.8 3.1
Coef. asimetría .22 .15 .17 .27 .37 -.22 .16 .56
Coef. kurtosis 1.06 1.8 2.1 1.9 2.1 2.4 2.0 3.4
Coef. variación 1.2 .06 .20 .07 .07 .09 .03 .07
Tabla 3.2: Análisis descriptivo de las medidas físicas
En la variable binaria sexo la media es la proporción de unos (hombres) en los datos, la
desviación típica es
p
p(1 − p), donde p es la media. El lector puede comprobar que para
variables binarias el coeÞciente de kurtosis es
p3
+ (1 − p)3
p(1 − p)
y en este caso, como p = .44 el coeÞciente de kurtosis es 1.06. Para las variables continuas
las medias describen los valores centrales. Si miramos los coeÞcientes de variación se observa
que en las medidas de longitudes, como la estatura, la longitud del pie y las extremidades,
que vienen determinadas más por la herencia genética que por nuestros hábitos, la variabili-
dad relativa es del orden del 7% . El diámetro del cráneo es mucho más constante, con una
variabilidad relativa de menos de la mitad, el 3%. La variabilidad relativa de las variables
que dependen más de nuestros hábitos, como el peso, es mucho mayor, del 20%. Las dis-
tribuciones son aproximadamente simétricas, a juzgar por los bajos valores de los coeÞcientes
de asimetría. Los coeÞcientes de kurtosis son bajos, menores o iguales a dos para tres de
las variables, lo que puede indicar la presencia de dos poblaciones mezcladas, como veremos
en la sección 3.6. Ninguna variable tiene alta kurtosis, por lo que podemos descartar la
presencia de unos pocos valores atípicos grandes.
La tabla 3.3 presenta dos medidas robustas, las mediana (valor central de los datos) y la
MEDA o mediana de las desviación absolutas para cada variable. Estas medidas conÞrman
los comentarios anteriores.
74 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
est pes lpie lbr aes dcr lrt
medianas 168 65 39 73 46 57 43
medas 8.51 10.50 2.38 3.96 3.26 1.52 2.39
meda/mediana .05 .16 .05 .05 .07 .03 .06
Tabla 3.3: Análisis descriptivo robusto de las medidas físicas
Se observa que las medianas son muy similares a las medias y las medas a las desviaciones
típicas, lo que sugiere falta de valores extremos. Los coeÞcientes de variación robustos,
calculados como ratio entre la meda y la mediana son también básicamente similares a los
anteriores. Hay que señalar que, en general, la meda es más pequeña que la desviación típica,
y que, por tanto, estos coeÞcientes de variación serán más pequeños que los originales. Lo
importante es que la estructura es similar entre las variables. La Þgura 3.1 muestra el
histograma de la variable estatura donde se aprecia que los datos parecen ser la mezcla de
dos distribuciones. Esto es esperable, ya que tenemos juntos hombres y mujeres.
Figura 3.1: Histograma de las estaturas donde se observa una distribución mezclada
3.4 LA MATRIZ DE VARIANZAS Y COVARIAN-
ZAS
Como hemos comentado, para variables escalares la variabilidad respecto a la media se mide
habitualmente por la varianza, o su raíz cuadrada, la desviación típica. La relación lineal
entre dos variables se mide por la covarianza. La covarianza entre dos variables (xj, xk) se
3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS 75
calcula con:
sjk =
1
n
nX
i=1
(xij − xj)(xik − xk)
y mide su dependencia lineal. Esta información para una variable multivariante puede pre-
sentarse de forma compacta en la matriz de varianzas y covarianzas. DeÞnimos esta matriz
como:
S =
1
n
nX
i=1
(xi − x)(xi − x)0
(3.5)
que es una matriz cuadrada y simétrica que contiene en la diagonal las varianzas y fuera de
la diagonal las covarianzas entre las variables. En efecto, al multiplicar los vectores :



xi1 − x1
...
xip − xp


 [xi1 − x1, . . . , xip − xp] =



(xi1 − x1)2
. . . (xi1 − x1)(xip − xp)
...
...
(xip − xp)(xi1 − x1) . . . (xip − xp)2



se obtiene la matriz de cuadrados y productos cruzados de las p variables en el elemento i.
Al sumar para todos los elementos y dividir por n se obtienen las varianzas y covarianzas
entre las variables. La matriz de varianzas y covarianzas, que llamaremos para simpliÞcar
matriz de covarianzas, es la matriz simétrica de orden p con forma:
S =



s2
1 ... s1p
...
...
sp1 . . . s2
p


 .
3.4.1 Cálculo a partir de la matriz de datos centrados
La matriz S puede obtenerse directamente a partir de la matriz de datos centrados eX, que
se deÞne como la matriz resultado de restar a cada dato su media:
eX = X − 1x0
.
Sustituyendo el vector de medias por su expresión (3.3):
eX = X −
1
n
110
X = PX, (3.6)
donde la matriz cuadrada P está deÞnida por
P = I −
1
n
110
76 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
y es simétrica e idempotente (compruebe el lector que PP = P). La matriz P tiene rango
n − 1 (es ortogonal al espacio deÞnido por el vector 1, ya que P1 = 0) y proyecta los
datos ortogonalmente al espacio deÞnido por el vector constante (con todas las coordenadas
iguales). Entonces la matriz S puede escribirse:
S =
1
n
eX0 eX =
1
n
X0
PX. (3.7)
Algunos autores deÞnen la matriz de covarianzas dividiendo por n−1 en lugar de n para
tener un estimador insesgado de la matriz de la población. Este divisor aparece, como en el
caso univariante, porque para calcular la variabilidad no tenemos n desviaciones independi-
entes sino solamente n − 1. En efecto, los n vectores de desviaciones (xi − x) están ligados
por la ecuación
nX
i=1
(xi − x) = 0
y sólo podemos calcular n − 1 desviaciones independientes. Si dividimos la suma por ese
número se obtiene una estimación insesgada de la varianza. En este libro llamaremos matriz
de varianzas corregida, bS al estimador insesgado dado por
bS =
1
n − 1
eX0 eX
Ejemplo 3.2 La tabla A.7 del apéndice de datos ACCIONES presenta tres medidas de
rentabilidad de 34 acciones en bolsa durante un período de tiempo. La primera, x1 es la
rentabilidad efectiva por dividendos (dividendos repartidos por acción divididos por precio de
la acción), x2 es la proporción de beneÞcios que va a dividendos (beneÞcios repartidos en
dividendos sobre beneÞcios totales) y x3 es el cociente entre precio por acción y beneÞcios.
La tabla 3.4 presenta las medidas descriptivas de las tres variables.
x1 (rentab.) x2 (benef.) x3 (precio)
Medias 9.421 69.53 9.097
D. Típicas 5.394 24.00 4.750
Coef. asimetría 0.37 0.05 2.71
Coef. kurtosis 1.38 1.40 12.44
Tabla 3.4: Análisis descriptivo de la rentabilidad de las acciones
Las medidas de asimetría y kurtosis indican un alejamiento de la distribución normal
para las tres variables: las dos primeras tienen valores muy bajos de la kurtosis, lo que
indica alta heterogeneidad, posiblemente por la presencia de dos grupos de datos distintos, y
la tercera tiene alta kurtosis, lo que sugiere la presencia de valores atípicos.
Estas características son muy claras en los histogramas de las variables. La primera
variable, rentabilidad efectiva por dividendos, x1, muestra dos grupos de acciones con com-
portamiento distinto. El histograma de la segunda variable, x2, muestra también dos grupos
3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS 77
de acciones. Finalmente, la distribución de la tercera variable es muy asimétrica, con un
valor atípico muy destacado. La evidencia disponible indica que las acciones pueden proba-
blemente dividirse en dos grupos más homogéneos. Sin embargo, vamos a ilustrar el análisis
de todos los datos.
Histograma de la rentabilidad por dividendos.
Figura 3.2: Histograma de la proporción de beneÞcios que va a dividendos
78 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
Figura 3.3: Histograma del precio por acción con relación a los beneÞcios (per)
La matriz de varianzas y covarianzas de estas tres variables se presenta en la tabla 3.5
X1 X2 X3
29.1 100.4 -15.7
100.4 576 -18.5
-15.7 -18.5 22.6
Tabla 3.5: Matriz de covarianzas de las acciones
Los elementos diagonales de esta matriz son los cuadrados de las desviaciones típicas de
la tabla 3.4. Como las dimensiones de las variables son distintas, no tiene sentido calcular
medidas promedio.
Los histogramas de las tres variables han mostrado una clara falta de normalidad. Una
posibilidad, que estudiaremos con más detalle en el capítulo siguiente, es transformar las
variables para facilitar su interpretación. Tomando logaritmos, la matriz de covarianzas de
las variables transformadas, se indica en la tabla 3.6
logx1 logx2 logx3
.35 .15 -.19
.15 .13 -.03
-.19 -.03 .16
Tabla 3.6: Matriz de covarianzas de las acciones
Se observa que los logaritmos modiÞcan mucho los resultados. Los datos ahora son más
homogéneos y la variable de mayor varianza pasa a ser la primera, el logaritmo de la rentabil-
idad efectiva, mientras que la menor es la segunda, el logaritmo de la proporción de ben-
eÞcios que va a dividendos. La relación entre el logaritmo del ratio precio/beneÞcios (X3) y
3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS 79
la rentabilidad efectiva es negativa. Las otras relaciones son débiles. Una ventaja adicional
de los logaritmos es que hace las variables independientes de la escala de medida: Si mul-
tiplicamos las variables por una constante al tomar logaritmos esto es equivalente a sumar
una cantidad y sumar una constante a los datos no altera su variabilidad. Por tanto, al
tomar logaritmos en las variables las varianzas pueden compararse aunque los datos tengan
distintas dimensiones. La varianza media de las tres variables es
V ar =
.35 + .13 + .16
3
= .213
y parece describir razonablemente la variabilidad de las variables.
3.4.2 Propiedades
Así como la varianza es siempre un número no negativo, la matriz de varianzas y covarianzas
tiene una propiedad similar: es semideÞnida positiva. Esta propiedad asegura que si y es
cualquier vector, y0
Sy ≥ 0. También la traza, el determinante y los valores propios de esta
matriz son no negativos.
Demostración
Sea w cualquier vector de dimensión p, deÞnamos la variable escalar:
vi = w0
(xi − x). (3.8)
La media de esta variable será:
v =
1
n
nX
i=1
vi =
1
n
w0
nX
i=1
(xi − x) = 0,
y la varianza debe ser forzosamente no negativa, con lo que:
V ar(v) =
1
n
nX
i=1
v2
i =
1
n
nX
i=1
[w0
(xi − x)][(xi − x)0
w] ≥ 0
= w0
Sw ≥ 0.
Como la ecuación anterior es válida para cualquier vector w, concluimos que S es semi-
deÞnida positiva. Esta condición también implica que si Swi = λiwi,, entonces λi ≥ 0.
Finalmente, todos los menores principales son no negativos (en particular |S| ≥ 0).
80 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
3.4.3 Variables redundantes: El caso con Matriz S singular
Vamos a analizar las consecuencias de que la matriz S sea singular. Observemos que si existe
algún vector w tal que w0
Sw = 0, entonces la variable (3.8) tiene varianza nula y al tener
media cero esta variable siempre toma el valor cero. Por tanto para cualquier i:
p
X
j=1
wj(xij − xj) = 0 ∀ i.
Esta ecuación implica que las p variables no son independientes, ya que podemos despejar
una cualquiera en función de las demás:
xi1 = x1 −
w2
w1
(xi2 − x2) − ... −
wp
w1
(xip − xp).
Por tanto, si existe algún vector w que haga w0
Sw = 0, existe una relación lineal exacta
entre las variables. Lo contrario es también cierto. Si existe una relación lineal entre las
variables podemos escribir w0
(xi − x) = 0, para todo elemento, es decir
eXw = 0,
multiplicando esta expresión por la derecha por la matriz eX0
y dividiendo por n:
1
n
eX0 eXw = Sw = 0. (3.9)
Esta condición implica la matriz S tiene una raíz característica o autovalor igual a cero y
w es el vector característico asociado a la raíz característica cero. Multiplicado en (3.9) por
w0
se obtiene (eXw)0
(eXw) = 0, que implica eXw = 0, y concluimos que una variable es una
combinación lineal exacta de las otras. En consecuencia, es posible reducir la dimensionalidad
del sistema eliminando esta variable. Observemos, además, que las coordenadas del vector
w indican la combinación lineal redundante.
Ejemplo 3.3 La matriz de covarianzas siguiente corresponde a cuatro variables simuladas
de manera que tres de ellas son linealmente independientes, pero la cuarta es el promedio de
las dos primeras.
S =




.0947 .0242 .0054 .0594
.0242 .0740 .0285 .0491
.0054 .0285 .0838 .0170
.0594 .0491 .0170 .0543




Los autovalores de esta matriz calculados con Matlab son (0, 172 97; 0, 08 762, 0, 04 617 y
0, 00005). El menor valor propio es prácticamente cero comparado con los otros tres, por lo
que la matriz tiene, muy aproximadamente, rango 3. El vector propio asociado a este valor
propio nulo es ( .408 .408 .000 -.816 ). Dividiendo por el término mayor este vector propio
puede escribirse como (.5 .5 0 -1), que revela que la falta de rango completo de la matriz de
covarianzas es debido a que la cuarta variable es el promedio de las dos primeras.
3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS 81
Ejemplo 3.4 En la tabla A.2 del anexo de datos Þgura una base de datos denominada
EUROSEC compuesta por 26 países en los que se ha medido el porcentaje de población que
se dedica a cada uno de 9 sectores económicos. El cálculo de los autovalores de la matriz de
varianzas covarianzas correspondiente a estos datos se presenta a continuación y se observa
que hay un autovalor muy próximo a 0 (.0019). Si este autovalor no es exactamente cero es
debido a que en la tabla de datos la suma de las Þlas no es exactamente 100% en todos los
casos por errores de redondeo (varía entre 99,8% y 102%)
0.0019 0.0649 0.4208 1.0460 2.4434 5.6394 15.207 43.7017 303.458
Sin embargo, este autovalor tan pequeño deÞne una variable escalar que no tiene prác-
ticamente variabilidad. Para determinarla, obtenemos el vector propio ligado a este valor
propio, que es el vector (.335, .324, .337, .339, .325, .337, .334, .332, .334). Este vector
es aproximadamente el vector constante, lo que indica que la suma de todas las variables da
lugar a una variable escalar aproximadamente constante.
El segundo valor propio es también bastante pequeño. El vector propio correspondiente
es (-0.07, -0.29, -0.07, 0.91, 0.00, -0.10, -0.12, -0.05, -0.22). Este vector propio está deter-
minado por la variable cuarta, que tiene mucho más peso que las demás. Esto sugiere que la
variable cuarta, sector de la energía, debe tener un peso muy similar en todos los países. La
matriz de varianzas y covarianzas de las variables es:













241.6
0.53 0.94
−73.11 3.02 49.10
−2.33 0.14 1.01 0.14
−13.77 −0.04 5.70 0.03 2.70
−52.42 1.76 6.53 0.34 2.68 20.93
9.59 −1.20 −3.06 0.11 0.07 4.69 7.87
−79.29 −1.86 7.37 0.34 1.77 17.87 2.06 46.64
−12.22 0.21 3.41 0.19 0.88 1.19 −0.96 5.39 1.93














Se observa como la cuarta variable tiene mucha menor variabilidad que las demás.
Generalización
Este procedimiento puede extenderse para cualquier número de valores propios nulos: si S
tiene rango h < p, existen p − h variables redundantes que pueden eliminarse. Los vectores
asociados a autovalores nulos indican la composición de estas variables redundantes. En
efecto, si S tiene rango h ese será el número de valores propios no nulos, y existirán r = p−h
vectores que veriÞcan :
Sw1 = 0
...
...
Swr = 0
o lo que es equivalente, existen r relaciones del tipo
(xi − x)0
wj = 0, j = 1, ..., r
82 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
que implica la existencia de r combinaciones lineales exactas entre las variables. Podemos
pues representar las observaciones con h = p −r variables. Existen muchas posibles repre-
sentaciones, ya que cualquier vector del subespacio deÞnido por (w1, ..., wr) puede expresarse
como una combinación lineal de estos vectores y veriÞca:
S(a1w1 + ... + arwr) = 0
Los r vectores propios de S asociados a valores propios nulos constituyen una base orto-
normal (vectores perpendiculares y de módulo unitario) en dicho espacio. Observemos que
cuando hay más de una raíz nula, las relaciones lineales entre las variables no están deÞnidas
unívocamente, ya que dadas dos relaciones lineales nulas cualquier nueva relación que resulte
combinando estas dos tendrá la misma propiedad.
Una forma alternativa de analizar el problema es la siguiente. Como
S =
1
n
eX0 eX,
el rango de S coincide con la matriz eX, ya que para cualquier matriz A, si llamamos rg(A)
al rango de A, se veriÞca siempre que:
rg(A) = rg(A0
) = rg(A0
A) = rg(AA0
).
Por tanto si la matriz eX tiene rango p, éste será también el rango de S. Sin embargo, si
existen h combinaciones lineales entre las variables X, el rango de la matriz eX será p− h, y
éste será también el rango de la matriz S.
Ejemplo 3.5 Calculemos los vectores propios de la matriz de varianzas y covarianzas para
los datos de ACCIONES de la tabla A.7, que fueron analizados en el ejemplo 3.2. Los
valores propios de la matriz de las variables originales son (594.86, 29.82, 3.22) y vemos
que existe un valor propio muy grande y dos pequeños, en particular el valor más pequeño
esta ligado al vector propio ( 0.82, -0.13, 0.55). Para las variables en logaritmos los valores
propios son (0, 5208; 0, 1127 y 0.0065). Ahora existe un valor propio mucho más pequeño
que los otros dos, y su vector propio es (57,-.55,.60).
Para interpretar la variable deÞnida por este vector propio escribamos su expresión en
función de las variables originales. Recordando la deÞnición de las variables y llamando d a
los dividendos, p al precio, B al beneÞcio y N al número de acciones, suponiendo que la gran
mayoría de los beneÞcios que se reparten van a dividendos (lo que es sólo una aproximación)
podemos escribir,
y =.57log(d/p) − .55 log(dN/B) + .60 log(p/B/N)
y, redondeando, esta variable será, aproximadamente,
y = .6 log(d/p)(B/dN)(pN/B) = .6 log 1 = 0
Es decir, llamando Xi a las variables en logaritmos, la variable deÞnida por la combi-
nación X1 − X2 + X3 debe tomar valores pequeños. Si construimos esta variable a partir de
los datos, su media es .01 y su varianza .03, que es mucho menor que la de las variables
originales. Comprobamos que esta variable tiene poca variabilidad pero, al no ser constante,
3.5. MEDIDAS GLOBALES DE VARIABILIDAD 83
no hay una relación determinista entre las tres variables en logaritmos. Los beneÞcios repar-
tidos aparte de los dividendos aunque pequeños en promedio, no son despreciables para al-
gunas acciones. Observemos que esta información, que es revelada por el análisis de los
vectores propios de la matriz de covarianzas, puede pasar fácilmente desapercibida al lector
no experto que trabaja directamente con estas medidas de rentabilidad.
3.5 MEDIDAS GLOBALES DE VARIABILIDAD
Cuando las variables se miden en las mismas unidades (euros, km) o son adimensionales
(porcentajes, proporciones, etc) interesa encontrar medidas de la variabilidad promedio que
permitan comparar distintos conjuntos de variables. Vamos a obtener primero estas me-
didas globales como resumen de la matriz de varianzas y covarianzas y, en segundo lugar,
interpretaremos estas medidas mediante el concepto de distancias entre puntos.
3.5.1 La variabilidad total y la varianza promedio
Una forma de resumir la variabilidad de un conjunto de variables es mediante la traza de su
matriz de varianzas y covarianzas y se deÞne la variabilidad total de los datos por:
T = tr(S) =
p
X
i=1
s2
i
y la varianza promedio por
s2
=
1
p
p
X
i=1
s2
i . (3.10)
El inconveniente de esta medida es que no tienen en cuenta la estructura de dependencia
entre las variables. Para ilustrar el problema supongamos p = 2 y el caso extremo en que
ambas variables son la misma, pero en unidades distintas. Entonces, la variabilidad conjunta
de las dos variables en el espacio es nula, porque los puntos están siempre forzados a estar
sobre la recta que deÞne la relación lineal entre las dos variables, y, sin embargo, s2
puede
ser alta. En general, si la dependencia entre las variables es muy alta, intuitivamente la
variabilidad conjunta es pequeña, ya que conocida una variable podemos determinar aprox-
imadamente los valores de las demás. Este aspecto no queda recogido en esta medida, que
prescinde de las relaciones de dependencia existentes.
3.5.2 La Varianza Generalizada
Una medida mejor de la variabilidad global es la varianza generalizada, que es el determinante
de la matriz de varianzas y covarianzas, es decir
V G = |S|
Su raíz cuadrada se denomina desviación típica generalizada, y tiene las propiedades sigu-
ientes:
84 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
a) Está bien deÞnida, ya que el determinante de la matriz de varianzas y covarianzas es
siempre no negativo.
b) Es una medida del área (para p = 2), volumen (para p = 3) o hipervolumen (para
p > 3) ocupado por el conjunto de datos.
Para aclarar estas ideas, supongamos el caso p = 2. Entonces, S puede escribirse:
S =
·
s2
x rsxsy
rsxsy s2
y
¸
y la desviación típica generalizada es:
|S|1/2
= sxsy
√
1 − r2 (3.11)
Si las variables son independientes, la mayoría de sus valores estarán dentro de un rectán-
gulo de lados 6sx, 6sy ya que, por el teorema de Tchebychev, entre la media y 3 desviaciones
típicas deben estar, aproximadamente, al menos el 90% de los datos. En consecuencia, el área
ocupada por ambas variables es directamente proporcional al producto de las desviaciones
típicas.
Si las variables están relacionadas linealmente y el coeÞciente de correlación es distinto
de cero, la mayoría de los puntos tenderán a situarse en una franja alrededor de la recta de
regresión y habrá una reducción del área tanto mayor cuanto mayor sea r2
. En el límite,
si r2
= 1, todos los puntos están en una línea recta, hay una relación lineal exacta entre
las variables y el área ocupada es cero. La fórmula (3.11) describe esta contracción del área
ocupada por los puntos al aumentar el coeÞciente de correlación.
Un inconveniente de la varianza generalizada es que no sirve para comparar conjuntos
de datos con distinto número de variables, ya que tiene las dimensiones del producto de las
variables incluidas. Si añadimos a un conjunto de p variables que tiene una varianza general-
izada |Sp| una variable adicional, incorrelada con el resto y varianza s2
p+1, es fácil comprobar,
con los resultados del cálculo del determinante de una matriz particionada presentados en
2.3.5, que
|Sp+1| = |Sp| s2
p+1
y eligiendo las unidades de medida de la variable p + 1 podemos hacer que la varianza
generalizada aumente o disminuya a voluntad. Supongamos el caso más simple donde la
matriz S es diagonal y las variables van expresadas en las mismas unidades, por ejemplo
euros. Entonces
|Sp| = s2
1....s2
p
Supongamos que todas las varianzas en euros son mayores que la unidad. Entonces, si
añadimos una variable p + 1 , la nueva varianza generalizada será
|Sp+1| = s2
1....s2
ps2
p+1 = |Sp| s2
p+1 > |Sp|
3.5. MEDIDAS GLOBALES DE VARIABILIDAD 85
ya que s2
p+1 > 1. En este caso la varianza generalizada aumenta monotonamente al consid-
erar nuevas variables, es decir, llamando |Sj| a la varianza generalizada de las primeras j
variables, tenemos que
|Sp| > |Sp−1| .... > |S2| > s2
1
Supongamos ahora que expresamos las variables en miles de euros y con este cambio todas
las varianzas son ahora menores que la unidad. Entonces la varianza generalizada disminuye
monotonamente al incluir variables.
3.5.3 La variabilidad promedio
Para evitar estos inconvenientes, Peña y Rodríguez (2000) han propuesto como medida
global de variabilidad la variabilidad promedio, dada por
V P = |S|1/p
(3.12)
que tiene la ventaja de que cuando todas las variables van en las mismas dimensiones esta
medida tiene las unidades de la varianza. Para matrices diagonales esta medida es sim-
plemente la media geométrica de las varianzas. Observemos que, como el determinante es
el producto de los valores propios, la variabilidad promedio es la media geométrica de los
valores propios de la matriz S, que por ser semideÞnida positiva serán siempre no negativos.
Como la media geométrica de un conjunto de números es siempre menor que su media
aritmética esta medida será siempre menor que la varianza media. La variabilidad promedio
tiene en cuenta la dependencia conjunta, ya que si una variable fuese combinación lineal
de las demás al existir un valor propio nulo, la medida (3.12) es nula, mientras que la
varianza media, dada por (3.10) no lo será. Veremos en los capítulos siguientes que la
variabilidad promedio y la varianza media tienen una gran importancia en los procedimientos
multivariantes.
Análogamente podemos deÞnir la desviación promedio mediante
DP = |S|1/2p
.
Ejemplo 3.6 Partiendo de la matriz de covarianzas S para los logaritmos de las acciones,
datos A.7, ACCIONES, del ejemplo 3.5, obtenemos que
|S| = 0.000382
La variabilidad promedio es
V P = |S|1/3
= .0726
que podemos comparar con la media aritmética de las tres varianzas que calculamos en el
ejemplo 3.2:
tr(S)/3 = .2133
86 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
Como vemos, la fuerte dependencia entre las variables hace que la variabilidad real promedio,
cuando se tienen en cuenta las covarianzas, sea mucho menor que cuando se prescinde de
ellas y se calcula el promedio de las varianzas.
Para las desviaciones típicas
DP = |S|1/6
= .269
que podemos tomar como medida global de variabilidad en los datos originales.
Ejemplo 3.7 La matriz de varianzas y covarianzas para los datos de las medidas físicas es
S =
100.24 104.49 26.12 44.22 33.20 10.64 26.19
104.49 158.02 30.04 50.19 41.67 14.08 27.99
26.12 30.04 7.91 11.66 8.86 2.79 7.42
44.22 50.19 11.66 23.69 15.4 4.18 11.55
33.20 41.67 8.86 15.4 15.59 4.48 7.72
10.64 14.08 2.79 4.18 4.48 3.27 3.11
26.19 27.99 7.42 11.55 7.72 3.11 9.61
y la medida promedio V P = |S|1/7
=5.7783 y V P1/2
=2.4038. Como existe bastante de-
pendencia estas medidas son mucho menores de los promedios de las varianzas. Por ejemplo
tr(S)/7=45.48. Observemos que esta medida no tiene, en este ejemplo, clara interpretación,
al estar las variables en distintas unidades.
3.6 VARIABILIDAD Y DISTANCIAS
Un procedimiento alternativo para estudiar la variabilidad de las observaciones es utilizar el
concepto de distancias entre puntos. En el caso escalar, la distancia entre el valor de una
variable x en un punto, xi, y la media de la variable, x, se mide de manera natural mediantep
(xi − x)2, o, lo que es equivalente, por el valor absoluto de la diferencia, |xi − x| . La
desviación típica es un promedio de estas distancias entre los puntos y su media. Cuando
disponemos de una variable vectorial, cada dato es un punto en <p
, y podemos pensar en
construir medidas de variabilidad promediando las distancias entre cada punto y el vector de
medias. Esto requiere generalizar el concepto de distancia a espacios de cualquier dimensión.
El concepto de distancia entre puntos será importante en los capítulos siguientes.
3.6.1 El concepto de distancia
Dados dos puntos xi, xj pertenecientes a <p
, diremos que hemos establecido una distancia,
o una métrica, entre ellos si hemos deÞnido una función d con las propiedades siguientes:
1. d : <p
×<p
→ <+
, es decir, dados dos puntos en el espacio de dimensión p su distancia
con esta función es un número no negativo, d(xi, xj) ≥ 0;
2. d(xi, xi) = 0 ∀i, la distancia entre un elemento y sí mismo es cero.
3. d(xi, xj) = d(xj, xi), la distancia es una función simétrica en sus argumentos.
3.6. VARIABILIDAD Y DISTANCIAS 87
4. d(xi, xj) ≤ d(xi, xp) + d(xp, xj), la distancia debe veriÞcar que si tenemos tres puntos,
la suma de las longitudes de dos lados cualesquiera del triángulo formado por los tres
puntos debe siempre ser mayor que el tercer lado. Esta propiedad se conoce como la
propiedad triangular.
Estas propiedades generalizan la noción intuitiva de distancia entre dos puntos sobre una
recta. Una familia de medidas de distancia muy habituales en <p
es la familia de métricas
o distancias de Minkowski, que se deÞne en función de un parámetro r por
d
(r)
ij =
à p
X
s=1
(xis − xjs)r
!1/r
(3.13)
y las potencias más utilizadas son r = 2, que conduce a la distancia euclídea, o en L2,
dij =
à p
X
s=1
(xis − xjs)2
!1/2
= (xi − xj)0
(xi − xj)1/2
,
y r = 1, que se denomina distancia en L1:
dij = |xi − xj|0
1,
donde 10
= (1, . . . , 1).
La distancia más utilizada es la euclídea pero tiene el inconveniente de depender de las
unidades de medida de las variables. Por ejemplo, sea x la estatura de una persona en metros
e y su peso en kilogramos. Compararemos la distancia entre tres personas: A(1.80, 80),
B(1.70, 72) y C(1.65, 81). El cuadrado de la distancia euclídea del individuo A al B será:
d2
(A, B) = (1.80 − 1.70)2
+ (80 − 72)2
= .12
+ 82
= 64.01
y, análogamente d2
(A, C) = .152
+1 = 1.225. Por tanto, con la distancia euclídea el individuo
A estará mucho más cerca del individuo C que del B. Supongamos que, para hacer los
números más similares, decidimos medir la estatura en centímetros, en lugar de metros. Las
nuevas coordenadas de los individuos son ahora A(180, 80), B(170, 72) y C(165, 81), y las
distancias euclídeas entre los individuos se transforman en d2
(A, B) = 102
+ 82
= 164 y
d2
(A, C) = 152
+ 1 = 226. Con el cambio de unidades, el individuo A está con la distancia
euclídea más cerca del B que del C. La distancia euclídea depende mucho de las unidades de
medida, y cuando no existe una unidad Þja natural, como en este ejemplo, no está justiÞcado
utilizarla.
Una manera de evitar el problema de las unidades es dividir cada variable por un término
que elimine el efecto de la escala. Esto conduce a la familia de métricas euclídeas ponderadas,
que se deÞnen por
dij =
£
(xi − xj)0
M−1
(xi − xj)
¤1/2
(3.14)
88 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
donde M es una matriz diagonal que se utiliza para estandarizar las variables y hacer la
medida invariante ante cambios de escala. Por ejemplo, si colocamos en la diagonal de M
las desviaciones típicas de las variables, la expresión (3.14) se convierte en
dij =
à p
X
s=1
(
xis − xjs
ss
)2
!1/2
=
à p
X
s=1
s−2
s (xis − xjs)2
!1/2
que puede verse como una distancia euclídea donde cada coordenada se pondera inversamente
proporcional a la varianza. Por ejemplo, si suponemos que las desviaciones típicas de las
variables altura y peso son 10 cm y 10 kgr, las distancias estandarizadas al cuadrado entre
los individuos anteriores son
d2
(A, B) = (1 + 0, 82
) = 1, 64
y
d2
(A, C) = (1, 52
+ 0, 12
) = 2, 26.
Con esta métrica, que es más razonable, A está más próximo a B que a C.
En general la matriz M puede no ser diagonal, pero siempre debe ser una matriz no
singular y deÞnida positiva para que dij ≥ 0. En el caso particular en que tomemos M = I
se obtiene de nuevo la distancia euclídea. Si tomamos M = S se obtiene la distancia de
Mahalanobis que estudiamos a continuación.
3.6.2 La Distancia de Mahalanobis
Se deÞne la distancia de Mahalanobis entre un punto y su vector de medias por
di =
£
(xi − x)0
S−1
(xi − x)
¤1/2
Es frecuente referirse al valor d2
i también como distancia de Mahalanobis, en lugar de
como cuadrado de la distancia, y en este libro, para simpliÞcar, utilizaremos a veces esta
licencia, aunque estrictamente la distancia es di. Vamos a interpretar esta distancia y compro-
bar que es una medida muy razonable de distancia entre variables correladas. Consideremos
el caso p = 2. Entonces, escribiendo s12 = rs1s2, tenemos que
S−1
=
1
(1 − r2)
·
s−2
1 −rs−1
1 s−1
2
−rs−1
1 s−1
2 s−2
2
¸
y la distancia de Mahalanobis (al cuadrado) entre dos puntos (x1, y1), (x2, y2) puede escribirse
:
d2
M =
1
(1 − r2)
·
(x1 − x2)2
s2
1
+
(y1 − y2)2
s2
2
− 2r
(x1 − x2)(y1 − y2)
s1s2
¸
Si r = 0, esta distancia se reduce a la distancia euclídea estandarizando las variables por sus
desviaciones típicas. Cuando r 6= 0 la distancia de Mahalanobis añade un término adicional
3.6. VARIABILIDAD Y DISTANCIAS 89
que es positivo (y por lo tanto “separa” los puntos) cuando las diferencias entre las variables
tienen el mismo signo, cuando r > 0, o distinto cuando r < 0. Por ejemplo, entre el peso
y la altura hay correlación positiva: al aumentar la estatura de una persona en promedio
también lo hace su peso. Si consideramos las tres personas anteriores A(180, 80), B(170, 72)
y C(165, 81) con desviaciones típicas 10 cm y 10 kgr y el coeÞciente de correlación 0,7, los
cuadrados de las distancias de Mahalanobis serán
d2
M (A, B) =
1
0, 51
£
1 + 0, 82
− 1, 4 × 0, 8
¤
= 1.02
y
d2
M (A, C) =
1
0, 51
£
1, 52
+ 0, 12
+ 1, 4 × 1, 5 × 0, 1
¤
= 4.84,
concluimos que el individuo A está más cerca del B que del C con esta distancia. La distancia
de Mahalanobis tiene en cuenta que, aunque el individuo B es más bajo que el A, como hay
correlación entre el peso y la altura si su peso también disminuye proporcionalmente, el
aspecto físico de ambos es similar porque aunque cambia el tamaño global no cambia la
forma del cuerpo. Sin embargo, el individuo C es todavía más bajo que el A y además pesa
más, lo que implica que su aspecto físico es muy distinto del de A. Como consecuencia, la
distancia de A a C es mayor que a B. La capacidad de esta distancia para tener en cuenta la
forma de un elemento a partir de su estructura de correlación explica su introducción por P.
C. Mahalanobis, un eminente estadístico indio, en los años 30 para comparar medidas físicas
de razas en la India.
3.6.3 La distancia promedio
Podríamos plantearnos construir una medida global de la variabilidad respecto a la media
de una variable vectorial escogiendo promediando las distancias entre los puntos y la media.
Por ejemplo, si todas las variables van en las mismas unidades, podemos tomar la distancia
euclídea al cuadrado y promediar por el número de términos en la suma:
Vm =
1
n
nX
i=1
(xi − x)0
(xi − x). (3.15)
Como un escalar es igual a su traza, podemos escribir
Vm =
nX
i=1
tr
·
1
n
(xi − x)0
(xi − x)
¸
=
nX
i=1
tr
·
1
n
(xi − x)(xi − x)0
¸
= tr(S)
y el promedio de distancias es la variabilidad total. Si promediamos las distancias también
por la dimensión del vector, tenemos que:
Vm,p =
1
np
nX
i=1
(xi − x)0
(xi − x) = s2
(3.16)
90 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
y el promedio estandarizado de las distancias euclídeas entre los puntos y la media es el
promedio de las varianzas de las variables.
No tiene sentido deÞnir una medida de distancia promediando las distancias de Maha-
lanobis, ya que es fácil comprobar (véase ejercicio 3.12) que el promedio de las distancias de
Mahalanobis es siempre p, y el promedio estandarizado por la dimensión del vector es uno .
Ejemplo 3.8 La tabla adjunta presenta para los datos de las medidas físicas, MEDIFIS, las
distancias euclídeas al cuadrado de cada dato a su media, d2
e, las distancias de Mahalanobis
de cada dato a su media, D2
M , la máxima distancia euclídea entre cada punto y otro de la
muestra, d2
em, el orden del dato más alejado con esta distancia, Ie , la máxima distancia de
Mahalanobis entre cada punto y otro de la muestra, D2
Mm, y el orden del dato más alejado
con esta distancia, IM .
orden d2
e D2
M d2
em Ie D2
Mm IM
1.0000 3.8048 0.0226 29.0200 24.0000 29.0200 24.0000
2.0000 0.3588 0.0494 15.4800 24.0000 15.4800 24.0000
3.0000 0.2096 0.0447 10.0600 20.0000 10.0600 20.0000
4.0000 1.6899 0.0783 20.5925 24.0000 20.5925 24.0000
5.0000 2.2580 0.0759 23.8825 24.0000 23.8825 24.0000
6.0000 0.8336 0.0419 15.6000 24.0000 15.6000 24.0000
7.0000 2.8505 0.0830 23.5550 24.0000 23.5550 24.0000
8.0000 3.0814 0.0858 20.3300 20.0000 20.3300 20.0000
9.0000 3.6233 0.0739 21.7750 20.0000 21.7750 20.0000
10.0000 3.5045 0.0348 28.1125 24.0000 28.1125 24.0000
11.0000 2.0822 0.0956 20.2900 24.0000 20.2900 24.0000
12.0000 0.6997 0.1037 11.5425 20.0000 11.5425 20.0000
13.0000 6.2114 0.0504 34.7900 24.0000 34.7900 24.0000
14.0000 2.2270 0.0349 18.2700 20.0000 18.2700 20.0000
15.0000 4.2974 0.1304 23.2200 20.0000 23.2200 20.0000
16.0000 10.5907 0.1454 35.6400 20.0000 35.6400 20.0000
17.0000 1.7370 0.0264 16.9000 20.0000 16.9000 20.0000
18.0000 0.7270 0.0853 14.1100 24.0000 14.1100 24.0000
19.0000 4.5825 0.1183 30.5500 24.0000 30.5500 24.0000
20.0000 7.8399 0.0332 39.1100 24.0000 39.1100 24.0000
21.0000 4.4996 0.0764 23.9600 20.0000 23.9600 20.0000
22.0000 0.5529 0.0398 12.3100 20.0000 12.3100 20.0000
23.0000 3.9466 0.0387 29.3900 24.0000 29.3900 24.0000
24.0000 11.9674 0.0998 39.1100 20.0000 39.1100 20.0000
25.0000 0.4229 0.0745 10.6500 20.0000 10.6500 20.0000
26.0000 0.2770 0.0358 10.5850 20.0000 10.5850 20.0000
27.0000 0.9561 0.1114 17.6050 24.0000 17.6050 24.0000
Se observa que con la distancia euclídea los puntos más alejados de la media son el 24
y el 16, seguidos del 20. El punto más extremo para cada uno es el 24 o el 20, lo que
deÞne a estos puntos como extremos en el espacio con esta medida. Con las distancias de
Mahalanobis los más alejados de la media son los 15 y 16 pero, sin embargo, los puntos que
3.7. MEDIDAS DE DEPENDENCIA LINEAL 91
aparecen como extremos de la muestra son de nuevo los 20 y 24. Observando estos datos, el
24 correponde a un hombre muy alto, el mayor de la muestra, y el 20 a una mujer de baja
estatura y delgada, que constituye el extremo opuesto de los datos.
3.7 MEDIDAS DE DEPENDENCIA LINEAL
Un objetivo fundamental de la descripción de los datos multivariantes es comprender la
estructura de dependencias entre las variables. Estas dependencias pueden estudiarse: (1)
entre pares de variables; (2) entre una variable y todas las demás; (3) entre pares de variables
pero eliminando el efecto de las demás variables; (4) entre el conjunto de todas las variables.
Vamos a analizar estos cuatro aspectos.
3.7.1 Dependencia por pares: La matriz de correlación
La dependencia lineal entre dos variables se estudia mediante el coeÞciente de correlación
lineal o simple. Este coeÞciente para las variables xj, xk es:
rjk =
sjk
sjsk
y tiene las propiedades siguientes: (1) 0 ≤ |rjk| ≤ 1; (2) si existe una relación lineal exacta en-
tre las variables, xij = a+bxik, entonces |rjk| = 1; (3) rjk es invariante ante transformaciones
lineales de las variables.
La dependencia por pares entre las variables se mide por la matriz de correlación. Lla-
maremos matriz de correlación, R, a la matriz cuadrada y simétrica que tiene unos en la
diagonal principal y fuera de ella los coeÞcientes de correlación lineal entre pares de variables,
escribiremos:
R =



1 r12 . . . r1p
...
... . . .
...
rp1 rp2 . . . 1



Esta matriz es también semideÞnida positiva. Para demostrarlo, llamemos D = D(S) a
la matriz diagonal de orden p formada por los elementos de la diagonal principal de S, que
son las varianzas de las variables. La matriz D1/2
contendrá las desviaciones típicas y la
matriz R esta relacionada con la matriz de covarianzas, S, mediante:
R = D−1/2
SD−1/2
, (3.17)
que implica
S = D1/2
RD1/2
. (3.18)
La condición w0
Sw ≥ 0 equivale a:
w0
D1/2
RD1/2
w = z0
Rz ≥ 0
llamando z = D1/2
w al nuevo vector transformado por D1/2
. Por tanto, la matriz R es,
como la matriz S, semideÞnida positiva.
92 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
3.7.2 Dependencia de cada variable y el resto: Regresión Múltiple
Además de estudiar la relación entre pares de variables podemos estudiar la relación entre
una variable y todas las demás. Hemos visto que si una variable es combinación lineal de
las demás, y por lo tanto puede predecirse sin error con el resto, debemos eliminarla de
consideración. Es posible que, sin llegar a esta situación extrema, haya variables que sean
muy dependientes de las demás y conviene medir su grado de dependencia. Supongamos que
xj es la variable de interés y para simpliÞcar la notacion la llamaremos variable explicativa
o respuesta y la denotaremos por y. A continuación, consideremos su mejor predictor lineal
a partir de las restantes variables, que llamaremos variables explicativas o regresores. Este
predictor lineal tendrá la forma:
byi = y + bβ1(xi1 − x1) + ... + bβp(xip − xp), i = 1, ..., n (3.19)
y se comprueba que cuando las variables explicativas toman un valor igual a su media la
variable respuesta es también igual a su media. Los p − 1 coeÞcientes bβk, para k = 1, ..., p
con k 6= j, se determinan de manera que la ecuación proporcione, en promedio, la mejor
predicción posible de los valores de yi. Llamando residuos a los errores de predicción, ei =
yi − byi, es inmediato, sumando para los n datos en (3.19), que la suma de los residuos para
todos los puntos muestrales es cero. Esto indica que cualquiera que sean los coeÞcientes
bβj la ecuación (3.19) va a compensar los errores de predicción positivos con los negativos.
Como queremos minimizar los errores con independencia del signo, los elevamos al cuadrado
y calculamos los bβj minimizando:
M =
nX
i=1
e2
i ,
Derivando esta expresión respecto a los parámetros bβj, se obtiene el sistema de p − 1 ecua-
ciones, para k = 1, ..., p con k 6= j,:
2
nX
i=1
h
yi − y + bβ1(xi1 − x1) + ... + bβp(xi,p − xp)
i
(xik − xk)
que puede escribirse:
X
eixik = 0 k = 1, ..., p; k 6= j,
que tiene una clara interpretación intuitiva. Indica que los residuos, o errores de predicción,
deben de estar incorrelados con las variables explicativas, de manera que la covarianza entre
ambas variables sea cero. En efecto, si existiese relación entre ambas variables podría uti-
lizarse para prever los errores de predicción y reducirlos, con lo que la ecuación de predicción
no podría ser óptima. Geometricamente este sistema establece que el vector de residuos
debe ser ortogonal al espacio generado por las variables explicativas. DeÞniendo una matriz
XR de datos para la regresión de dimensiones (n × p − 1) que se obtiene de la matriz de
datos centrada, eX, eliminando la columna de esta matriz que corresponde a la variable que
3.7. MEDIDAS DE DEPENDENCIA LINEAL 93
queremos prever, que llamaremos y, el sistema de ecuaciones para obtener los parámetros
es:
X0
Ry = X0
RXR
bβ
que conduce a :
bβ = (X0
RXR)
−1
X0
Ry = S−1
p−1Sxy.
donde Sp−1 es la matriz de covarianzas de las p−1 variables explicativas y Sxy la columna de
la matriz de covarianzas correspondiente a las covarianzas de la variable seleccionada como
y con el resto. La ecuación obtenida con estos coeÞcientes se conoce como la ecuación de
regresión múltiple entre la variable y = xj y las variables, xk, con k = 1, ..., p;y k 6= j.
El promedio de los residuos al cuadrado con la ecuación de regresión múltiple para explicar
xj es:
s2
r(j) =
P
e2
i
n
(3.20)
y es una medida de la precisión de la regresión para prever la variable y = xj. Una medida
adimensional de la dependencia se construye partiendo de la identidad
yi − y = byi − y + ei
y elevando al cuadrado y sumando para todos los puntos se obtiene la descomposición básica
del análisis de la varianza, que podemos escribir como:
V T = V E + V NE
donde la variabilidad total o inicial de los datos, V T =
P
(yi − y)2
, se expresa como suma
de la variabilidad explicada por la regresión, V E =
P
(byi − y)2
, y la residual o no explicada
por la regresión, V NE =
P
e2
i . Una medida descriptiva de la capacidad predictiva del
modelo es el cociente entre la variabilidad explicada por la regresión y la variabilidad total.
Esta medida se llama coeÞciente de determinación, o coeÞciente de correlación múltiple al
cuadrado, y se deÞne por:
R2
j.1,...,p =
V E
V T
= 1 −
V NE
V T
(3.21)
donde el subíndice indica la variable que estamos explicando y los regresores. Utilizando
(3.20) podemos escribir
R2
j.1,...,p = 1 −
s2
r(j)
s2
j
(3.22)
Es immediato comprobar que en el caso de una única variable explicativa R2
es el cuadrado
del coeÞciente de correlación simple entre las dos variables. También se comprueba que es
el cuadrado del coeÞciente de correlación simple entre las variables y y by. El coeÞciente de
94 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
correlación múltiple al cuadrado puede ser mayor, menor o igual que la suma de los cuadrados
de las correlaciones simples entre la variable y y cada una de las variables explicativas (véase
Cuadras, 1993).
Según la ecuación (3.22) podemos calcular el coeÞciente de correlación múltiple entre
cualquier variable xi y las restantes si conocemos su varianza y la varianza residual de una
regresión de esta variable sobre las demás. Se demuestra en el apéndice 3.1 que los términos
diagonales de la inversa de la matriz de covarianzas, S−1
, son precisamente las inversas de
las varianzas residuales de la regresión de cada variable con el resto. Por tanto podemos
calcular fácilmente el coeÞciente de correlación múltiple al cuadrado entre la variable xj y
las restantes como sigue:
(1) Tomar el elemento diagonal j de la matriz S, sjj que es la varianza s2
j de la variable.
(2) Invertir la matriz S y tomar el elemento diagonal j de la matriz S−1
que llamaremos
sjj
. Este término es 1/s2
r(j), la varianza residual de una regresión entre la variable j y el
resto.
(3) Calcular R2
j , la correlación múltiple como
R2
j = 1 −
1
sjjsjj
Esta expresión permite obtener inmediatamente todos los coeÞcientes de correlación múltiple
a partir de las matrices S y S−1
.
Ejemplo 3.9 La matriz de correlación para las 7 variables físicas, tabla A.5, MEDIFIS, del
ejemplo 1.1. se presenta en la tabla 1.5. Las variables aparecen en el orden del ejemplo 1.1
R =










1 0.83 0.93 0.91 0.84 0.59 0.84
0.83 1 0.85 0.82 0.84 0.62 0.72
0.93 0.85 1 0.85 0.80 0.55 0.85
0.91 0.82 0.85 1 0.80 0.48 0.76
0.84 0.84 0.80 0.80 1 0.63 0.63
0.59 0.62 0.55 0.48 0.63 1 0.56
0.84 0.72 0.85 0.76 0.63 0.56 1










Se observa que la máxima correlación aparece entre la primera y la tercera variable (estatura
y longitud del pie) y es 0,93. La mínima es entre la longitud del brazo y el diámetro del
cráneo (0,48). En general las correlaciones más bajas aparecen entre el diámetro del cráneo
y el resto de las variables. La matriz S−1
es:
0.14 0.01 −0.21 −0.11 −0.07 −0.05 −0.07
0.01 0.04 −0.08 −0.03 −0.04 −0.04 −0.00
−0.21 −0.08 1.26 0.06 −0.05 0.18 −0.29
−0.11 −0.03 0.06 0.29 −0.04 0.13 −0.04
−0.07 −0.04 −0.05 −0.04 0.34 −0.13 0.15
−0.05 −0.04 0.18 0.13 −0.13 0.64 −0.15
−0.07 −0.00 −0.29 −0.04 0.15 −0.15 0.50
y utilizando los elementos diagonales de esta matriz y de la matriz S podemos calcular las
correlaciones múltiples al cuadrado de cada variable con el resto como sigue: (1) multipli-
camos los elementos diagonales de las matrices S y S−1
. El resultado de esta operacion es el
3.7. MEDIDAS DE DEPENDENCIA LINEAL 95
vector (14.3672, 5.5415, 9.9898, 6.8536, 5.3549, 2.0784, 4.7560). (2) A continuación, cal-
culamos las inversas de estos elementos, para obtener (0.0696 0.1805 0.1001 0.1459 0.1867
0.4811 0.2103). Finalmente, restamos a uno estos coeÞcientes para obtener (0.9304, 0.8195,
0.8999, 0.8541, 0.8133, 0.5189, 0.7897) y estos son los coeÞcientes de correlación múltiple
entre cada variable y el resto. Vemos que la variable más previsible por las restantes es la
estatura,(R2
= 0.9304) , despues el pié (R2
= 0.8999) y luego la longitud del brazo (R2
=
0.8541). La menos predecible es dcr, que tiene un coeÞciente de correlación múltiple con el
resto de 0.5189, o en otros términos, el resto de las variables explica el 52% de la variabilidad
de esta variable.
La ecuación para prever la estatura en función del resto de las variables se obtiene facil-
mente con cualquier programa de regresión. El resultado es
est = 0.9 - 0.094 peso+ 1.43pie + 0.733 lbr + 0.494 aes + 0.347 dcr + 0.506 lrt
que es la ecuación que permite prever con menor error la estatura de una persona dadas
el resto de las medidas. El R2
de esta regresión es = 0,93, resultado que habíamos obtenido
anteriormente. La ecuación para prever la longitud del pié es:
pie = 8.14 + 0.162 est + 0.0617 pes - 0.051 lbr + 0.037 aes - 0.144 dcr + 0.229lrt
que indica que para prever el pie las variables más relevantes parecen ser la estatura y
l alongitud rodilla tobillo. Podemos hacer regresiones tomando como variable explicativa el
sexo, entonces:
sexo = - 3.54 - 0.0191 est - 0.0013 pes + 0.141 pie + 0.0291 lbr + 0.0268 aes
- 0.0439 dcr + 0.0219 lrt
La variable más importante para prever el sexo de una persona parece ser el pie que es la
que tiene un coeÞciente más alto.
3.7.3 Dependencia directa entre pares: Correlaciones parciales
La dependencia directa entre dos variables controlando el efecto de las restantes se mide por
el coeÞciente de correlación parcial. Se deÞne el coeÞciente de correlación parcial entre dos
variables, (x1, x2), dadas las variables (x3, ..., xp), y se denota por r12.3..p, como el coeÞciente
de correlación entre las partes de x1 y x2 que están libres de los efectos de las variables
(x3, ..., xp). Este coeÞciente se obtiene en dos etapas. Primero, hay que obtener la parte de
cada variable que no es explicada por (o está libre de los efectos de) el grupo de variables que
se controlan. Esta parte es el residuo de la regresión sobre el conjunto de variables (x3, ..., xp),
ya que, por construcción, el residuo es la parte de la respuesta que no puede preverse o es
independiente de los regresores. Segundo, se calcula el coeÞciente de correlación simple entre
estos dos residuos. Se demuestra en el apéndice 3.3 que los coeÞcientes de correlación parcial
entre cada par de variables se obtienen estandarizando los elementos de la matriz S−1
. En
concreto, si llamamos sij
los elementos de S−1
, el coeÞciente de correlacion parcial entre las
variables xjxk se obtiene como
rjk.12,...,p = −
sij
√
siisjj
(3.23)
96 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
Los coeÞcientes de correlación parcial pueden calcularse a partir de los coeÞcientes de cor-
relación múltiple mediante la relación, que se demuestra en el apéndice 3.3:
1 − r2
12.3..p =
1 − R2
1.2,...,.p
1 − R2
1.3,...,p
,
donde r2
12.3..p es el cuadrado del coeÞciente de correlación parcial entre las variables (x1, x2)
cuando se controlan las variables (x3, ..., xp) , R2
1.2,...,p es el coeÞciente de determinación o coe-
Þciente de correlación múltiple al cuadrado en la regresión de x1 con respecto a (x2, x3, ..., xp)
y R2
1.3,...,p es el coeÞciente de determinación o coeÞciente de correlación múltiple al cuadrado
en la regresión de x1 con respecto a (x3, ..., xp). (El resultado es equivalente si intercambiamos
x1 por x2). Esta expresión indica una relación simple entre términos del tipo 1 − r2
, que,
según la expresión (3.21), representan la proporción relativa de variabilidad no explicada.
Se deÞne la matriz de correlaciones parciales, P, como aquella que contiene los coeÞcientes
de correlación parcial entre pares de variables eliminando el efecto de las restantes. Por
ejemplo, para cuatro variables, la matriz de correlaciones parciales, :
P4 =




1 r12.34 r13.24 r14.23
r21.34 1 r23.14 r24.13
r31.24 r32.14 1 r34.12
r41.23 r42.13 r43.12 1




donde, por ejemplo, r12.34 es la correlación entre las variables 1 y 2 cuando eliminamos el
efecto de la 3 y la 4, o cuando las variables 3 y 4 permanecen constantes. De acuerdo con
(3.23) está matriz se obtiene como
P = (−1)diag
D(S−1
)−1/2
S−1
D(S−1
)−1/2
donde D(S−1
) es la matriz diagonal obtenida seleccionando los elementos diagonales de la
matriz S−1
y el término (−1)diag
indica que cambiamos el signo de todos los elementos de la
matriz menos de los elementos diagonales que serán la unidad. La expresión (3.23) es similar
a la (3.17), pero utilizando la matriz S−1
en lugar de S. Observemos que D(S−1
)−1/2
no es
la inversa de D(S)−1/2
= D−1/2
, y que, en consecuencia, P no es la matriz inversa de R.
3.7.4 El coeÞciente de Dependencia
Para obtener una medida conjunta de la dependencia entre las variables podemos utilizar el
determinante de la matriz de correlación, que mide el alejamiento del conjunto de variables de
la situación de perfecta dependencia lineal. Se demuestra en el apéndice 3.2 que 0 ≤ |R| ≤ 1
y:
(1) Si las variables están todas incorreladas R es una matriz diagonal con unos en la
diagonal y |R| = 1.
(2) Si una variable es combinación lineal del resto hemos visto que S y R son singulares
y |R| = 0
(3) En el caso general, se demuestra en el apéndice 3.3 que:
|Rp| =
¡
1 − R2
p.1...p−1
¢ ¡
1 − R2
p−1.1···p−2
¢
...
¡
1 − R2
2.1
¢
. (3.24)
3.7. MEDIDAS DE DEPENDENCIA LINEAL 97
es decir, el determinante de la matriz de correlación es el producto de p − 1 términos. El
primero representa la proporción de variabilidad no explicada en una regresión múltiple
entre la variable p y las restantes variables, p − 1, p − 2, ..., 1. El segundo la proporción de
variabilidad no explicada en una regresión múltiple entre la variable p − 1 y las variables
restantes siguientes, p − 2, p − 3, ..., 1. El último representa la proporción de variabilidad no
explicada en una regresión simple entre las variables dos y uno.
De acuerdo con la propiedad anterior |Rp|1/p−1
representa la media geométrica de la
proporción de variabilidad explicada por todas las regresiones anteriores. Observemos que
también es la media geométrica de los valores propios de la matriz Rp, teniendo en cuenta
que sólo tenemos p − 1 valores propios independientes ya que están ligados por
P
λi = p .
A partir de estas propiedades Peña y Rodríguez (2000) han propuesto como medida de
dependencia lineal global la Dependencia, deÞnida por :
D(Rp) = 1 − |Rp|1/(p−1)
(3.25)
Por ejemplo, para p = 2 como |R2| = 1 − r2
12, esta medida coincide con el cuadrado del
coeÞciente de correlación lineal entre las dos variables. Para p > 2 podemos escribir de
(3.24) y (3.25):
1 − D(Rp) =
£¡
1 − R2
p.1...p−1
¢ ¡
1 − R2
p−1.1···p−2
¢
...
¡
1 − R2
2.1
¢¤1/(p−1)
y vemos que la dependencia es el coeÞciente de correlación necesario para que la variabilidad
no explicada en el problema sea igual a la media geométrica de todas las posibles variabili-
dades no explicadas. El coeÞciente de correlación promedio estará dado por
ρ(Rp) = D(Rp)1/2
=
q
1 − |Rp|1/(p−1)
.
En el caso particular en que p = 2, el coeÞciente de correlación promedio coincide con el
valor absoluto del coeÞciente de correlación simple.
Ejemplo 3.10 Vamos a construir la matriz de correlaciones parciales para las 7 variables
físicas, tabla A.5, MEDIFIS. Podemos construir la matriz de correlaciones parciales a partir
de S−1
estandarizandola por los elementos diagonales para obtener:
P =
1.00 −0.19 0.48 0.52 0.32 0.17 0.27
−0.19 1.00 0.37 0.30 0.34 0.26 0.00
0.48 0.37 1.00 −0.11 0.07 0.20 0.37
0.52 0.30 −0.11 1.00 0.13 −0.31 0.10
0.32 0.34 0.07 0.13 1.00 0.29 −0.37
0.17 0.26 0.20 −0.31 0.29 1.00 0.27
0.27 0.00 0.37 0.10 −0.37 0.27 1.00
Esta matriz muestra que las relaciones parciales más fuertes se dan entre la estatura y
las longitudes del pie (0,48) y del brazo (0,52). Por ejemplo este coeÞciente se interpreta que
si consideramos personas con el mismo peso, pie, anchura de espalda, diámetro del cráneo y
longitud rodilla tobillo, hay una correlación positiva entre la estatura y la longitud del brazo
de 0,52. La tabla muestra que para personas de la misma estatura, peso y demás medidas
físicas, la correlación entre la anchura de la espalda y la longitud rodilla tobillo es negativa.
98 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
Para obtener una medida de dependencia global, como el determinante de R es 1.42×10−4
y el coeÞciente global de dependencia es
D = 1 − |R|1/6
= 1 −
6
√
1.42 × 10−4 = 0.771
Podemos concluir que, globalmente, la dependencia lineal explica 77% de la variabilidad
de este conjunto de datos.
Ejemplo 3.11 Calcularemos el coeÞciente global de dependencia para los datos del Anexo
de Datos en las unidades originales en que se presentan,
EUROALI EUROSEC EPF INV EST MUNDODES ACCION
D . 51 . 80 . 62 .998 .82 .61
Se observa que en INVEST la dependencia conjunta es muy fuerte. Esto sugiere que puede
reducirse el número de variables necesarias para describir la información que contienen.
3.8 La matriz de precisión
Se denomina matriz de precisión a la inversa de la matriz de varianzas y covarianzas. Esta
matriz juega un papel importante en muchos procedimientos estadísticos, como veremos
en capítulos sucesivos. Un resultado importante es que la matriz de precisión contiene la
información sobre la relación multivariante entre cada una de las variable y el resto. Este
resultado es a primera vista sorprendente, ya que la matriz de varianzas y covarianzas sólo
contiene la información sobre las relaciones por pares de las variables, pero se explica por las
propiedades de la matriz inversa (véase 2.3.4). Puede demostrarse, (véase el apéndice 3.1)
que la inversa de la matriz de covarianzas contiene :
(1) Por Þlas, y fuera de la diagonal términos proporcionales a los coeÞcientes de regresión
múltiple de la variable correspondiente a esa Þla explicada por todas las demás. Los términos
de la matriz son estos coeÞcientes cambiados de signo y multiplicados por la inversa de la
varianza residual en esa regresión. Es decir, si llamamos sij
a los elementos de la matriz de
precisión:
sij
= −bβij/s2
r(i)
donde bβij es el coeÞciente de regresión de la variable j para explicar la variable i, y s2
r(i) la
varianza residual de la regresión.
(2) En la diagonal las inversas de las varianzas residuales de cada variable en su regresión
con el resto. Es decir:
sii
= 1/s2
r(i)
(3) Si estandarizamos los elementos de esta matriz para que tenga unos en la diagonal, los
elementos fuera de la diagonal son los coeÞcientes de correlación parcial entre estas variables.
Es decir
rij.R = −
sij
√
siisjj
3.9. COEFICIENTES DE ASIMETRÍA Y KURTOSIS 99
donde R se reÞere al resto de las variables, es decir el conjunto de p − 2 variables xk con
k = 1, ..., p y k 6= i, j.
Por ejemplo, con cuatro variables, la primera Þla de la matriz inversa de varianzas y
covarianzas es
s−2
R (1), −s−2
R (1)bβ12, −s−2
R (1)bβ13, −s−2
R (1)bβ14
donde s2
R(1) es la varianza residual de una regresión entre la primera variable y las otras tres
y bβ12, bβ13, bβ14 son los coeÞcientes de regresión en la ecuación
bx1 = bβ12x2 + bβ13x3 + bβ14x4
donde hemos supuesto, sin pérdida de generalidad, que las variables tienen media cero. Por
tanto, la matriz S−1
contiene toda la información de las regresiones de cada variable en las
demás.
Ejemplo 3.12 Calculemos e interpretemos la matriz de precisión de los datos de los loga-
ritmos de las acciones, tabla A: ACCIONES, del ejemplo 3.5. Esta matriz es
S−1
=


52.0942 −47.9058 52.8796
−47.9058 52.0942 −47.1204
52.8796 −47.1204 60.2094


Por ejemplo, la primera Þla de esta matriz puede escribirse como 52.0942×(1.0000, −0.9196, 1.0151)
que indica que la varianza residual de una regresión entre la primera variables y las otras
dos es 1/52.0942 = .0192, y los coeÞcientes de regresión de las variables X2 y X3 en una
regresión para explicar X1 son −0.9196 y 1.0151 respectivamente. Observemos que, de nuevo,
aparece que la relación z = X1 −X2+ X3 tiene poca variabilidad. La varianza de la regresión
, 0.019, es menor que la de la variable z, ya que representa una variabilidad condicionada
cuando se conocen las variables X2 y X3.
3.9 COEFICIENTES DE ASIMETRÍA Y KURTOSIS
La generalización de los coeÞcientes de asimetría y kurtosis al caso multivariante no es
inmediata. Una de las propuestas más utilizadas es debida a Mardia (1970), que propone
calcular las distancias de Mahalanobis para cada par de elementos muestrales (i, j) :
dij = (xi − x)0
S−1
(xj − x) .
y deÞne el coeÞciente de asimetría multivariante en la distribución conjunta de las p variables
como
Ap =
1
n2
nX
i=1
nX
j=1
d3
ij,
100 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
y el de kurtosis
Kp =
1
n
nX
i=1
d2
ii.
Estos coeÞcientes tienen las propiedades siguientes:
1. Para variables escalares Ap = A2
. En efecto, entonces
Ap =
1
n2
nX
i=1
nX
j=1
(xi − x)3
(xj − x)3
/s6
=
(
Pn
i=1(xi − x)3
)2
n2s6
= A2
2. El coeÞciente de asimetría es no negativo y será cero si los datos están distribuidos
homogéneamente en una esfera.
3. Para variables escalares K = Kp. El resultado es inmediato porque entonces d2
ii =
(xi − x)4
/s4
.
4. Los coeÞcientes son invariantes ante transformaciones lineales de los datos. Si y =
Ax + b, los coeÞcientes de asimetría y kurtosis de y y de x son idénticos.
Ejemplo 3.13 Calcularemos los coeÞcientes de asimetría y kurtosis multivariantes para los
datos sobre de rentabilidad de las acciones . Se comprueba que si tomamos los datos en su
métrica original, el coeÞciente de asimetría multivariante es: Ap = 16.76.. Este valor será, en
general, mayor que los coeÞcientes univariantes, que son, respectivamente, 0,37, 0,04, y 2,71.
Si tomamos logaritmos a los datos Ap = 7.5629 , mientras que los univariantes son 0,08,
-0,25 y 1,02. Podemos concluir que , efectivamente, la transformación logarítmica ha servido
para simetrizar más estos datos. El coeÞciente de kurtosis multivariante es Kp = 31.26, que
debe compararse con los valores univariantes de 1,38, 1,40, y 12,44. Al tomar logaritmos
el coeÞciente multivariante es Kp = 21.35, mientras que los univariantes son 1,43, 1,75, y
4,11, con lo que vemos que también se reduce la kurtosis tomando logaritmos.
EJERCICIOS
Ejercicio 3.1 Calcular el vector de medias y el de medianas para las tres variables de las
ACCIONES, tabla A.7. Comparar sus ventajas como medidas de centralización de estas
variables.
Ejercicio 3.2 Se dispone de 3 indicadores económicos X1, X2, X3, que se miden en cuatro
países, con los resultados siguientes:
X1 X2 X3
2 3 -1
1 5 -2
2 2 1
2 3 1
Calcular el vector de medias, la matriz de varianzas y covarianzas, la varianza generalizada,
la matriz de correlación y la raíz y vector característico mayor de dichas matrices.
3.9. COEFICIENTES DE ASIMETRÍA Y KURTOSIS 101
Ejercicio 3.3 A partir de los tres indicadores económicos X1, X2, X3 del problema 1 se
construyen dos nuevos indicadores
y1 = (1/3)x1 + (1/3)x2 + (1/3)x3
y2 = x1 − 0, 5x2 − 0, 5x3
Calcular el vector de medias para y0
= (y1, y2), su matriz de varianzas y covarianzas, la
matriz de correlación y la varianza generalizada.
Ejercicio 3.4 Demostrar que la matriz
·
1 r
r 1
¸
tiene autovalores 1+r y 1−r y autovectores
(1, 1) y (1, −1).
Ejercicio 3.5 Demostrar que si una matriz es de la forma C =
·
A 0
0 B
¸
los autovectores
son de la forma (u1, 0) y (0, u2), donde u1 y u2 son autovectores de A y B, respectivamente.
Ejercicio 3.6 Cuál es la relación entre los autovalores de C y los de A y B en el ejercicio
5?.
Ejercicio 3.7 Demostrar que si Y = XA donde Y es n × m y X es n × p las matriz de
covarianzas de Y está relacionada con la de X por Sy = A0
SxA.
Ejercicio 3.8 Calcular los coeÞcientes de correlación múltiple entre cada variable y todas
las demás para los datos de INVES.
Ejercicio 3.9 Calcular la matriz de correlaciones parciales para los datos de INVES.
Ejercicio 3.10 Demostrar que la varianza residual de una regresión múltiple entre una vari-
able y y un conjunto de x puede escribirse como s2
y(1 − R2
) donde s2
y es la varianza de la
variable y y R2
el coeÞciente de correlación múltiple.
Ejercicio 3.11 Calcular los coeÞcientes de correlación parcial entre las variables del conjun-
to de acciones mediante regresiones y utilizando los elementos de la matriz S−1
y comprobar
la equivalencia.
Ejercicio 3.12 Calcular el coeÞciente de asimetría multivariante para un vector de dos vari-
ables incorreladas entre si. ¿Cuál es la relación entre el coeÞciente de asimetría multivariante
y los univariantes?
Ejercicio 3.13 Repetir el ejercicio anterior para los coeÞcientes de kurtosis.
Ejercicio 3.14 Demostrar que para un conjunto de datos 1
np
Pn
i=1(xi − x)0
S−1
(xi − x) = 1
(sugerencia, tome trazas y utilice que tr[
Pn
i=1(xi − x)0
S−1
(xi − x)] = tr [S−1
Pn
i=1(xi − x)(xi − x)0
]).
102 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
Ejercicio 3.15 Demostrar que podemos calcular la matriz de distancias euclídeas entre los
puntos con la operación diag(XX0)1 +1diag(XX0) − 2X0
X, donde X es la matriz de datos,
diag(XX0) el vector que tiene por componentes los elementos diagonales y 1 es un vector de
unos.
Ejercicio 3.16 Demostrar que podemos calcular la matriz de distancias de Mahalanobis
entre los puntos con la operación diag(XS−1
X0)1 + 1diag(XS−1
X0) − 2X0
S−1
X, donde X
es la matriz de datos, diag(XS−1
X0) el vector que tiene por componentes los elementos
diagonales de la matriz XS−1
X0, y 1 es un vector de unos.
APÉNDICE 3.1: LA ESTRUCTURA DE LA MA-
TRIZ DE PRECISIÓN
Particionemos la matriz S separando las variables en dos bloques: la variable 1 que
llamaremos y, y el resto, que llamaremos R. Entonces:
S =
·
s2
1 c0
1R
c1R SR
¸
donde s2
1 es la varianza de la primera variable, c1R el vector de covarianzas entre la primera
y el resto y SR la matriz de varianzas y covarianzas del resto. Su inversa, utilizando los
resultados del capítulo anterior sobre la inversa de una matriz particionada, será:
S−1
=
· ¡
s2
1 − c0
1RS−1
R c1R
¢−1
A12
A21 A22
¸
.
Supongamos para simpliÞcar que la media de todas las variables es cero. Entonces la
regresión de la primera variable sobre el resto tiene de coeÞcientes:
bβ1R = S−1
R c1R,
Para encontrar la relación que buscamos, utilizaremos la identidad básica del análisis de la
varianza (ADEVA):
1
n
V T =
1
n
V E +
1
n
V NE
Apliquemos esta descomposición a la primera variable. El primer término es s2
1, la varianza
de la primera variable, y el segundo, como by = XR
bβ1R, puede escribirse:
1
n
V E =
1
n
(by0
by) = bβ
0
1RSR
bβ1R
= c0
1RS−1
R SRS−1
R c1R = c0
1RS−1
R c1R,
y el tercero, V NE/n =
P
e2
1R/n = s2
r(1), donde hemos llamado e1R a los residuos de
la regresión de la primera variable respecto a las demás, y s2
r(1) a la varianza residual, sin
3.9. COEFICIENTES DE ASIMETRÍA Y KURTOSIS 103
corregir por grados de libertad, de esta regresión. Sustituyendo estos términos en la identidad
básica de ADEVA, obtenemos que la varianza residual puede calcularse como:
s2
r(1) = s2
1 − c0
1RS−1
R c1R.
Si comparamos esta expresión con el primer término de la matriz S−1
concluimos que el
término diagonal primero de S−1
es la inversa de la varianza de los residuos (dividida por
n y sin corrección por grados de libertad) en una regresión entre la primera variable y el
resto. Como este análisis puede hacerse para cualquiera de las variables, concluimos que
los términos diagonales de S−1
son las inversas de las varianzas residuales en las regresiones
entre cada variable y el resto.
Para obtener la expresión de los términos de fuera de la diagonal en S−1
aplicaremos la
fórmula para la inversa de una matriz particionada:
A12 = −
£
s2
r(1)
¤−1
c0
1RS−1
R = −
£
s2
r(1)
¤−1 bβ
0
1R,
y, por tanto, las Þlas de la matriz S−1
contienen los coeÞcientes de regresión (cambiados de
signo) de cada variable con relación a las restantes divididos por la varianza residual de la
regresión (sin corregir por grados de libertad).
En resumen, S−1
puede escribirse:
S−1
=





s−2
r (1) −s−2
r (1)bβ
0
1R
. . . . . .
. . . . . .
−s−2
r (p)bβ
0
pR s−2
r (p)





,
donde bβjR representa el vector de coeÞcientes de regresión al explicar la variable j por las
restantes. Observemos que en esta matriz el subíndice R se reÞere al conjunto de p −
1 variables que queda al tomar como variable respuesta la que ocupa el lugar de la Þal
correspondiente ne la matriz. Por ejemplo, bβ
0
pR es el vector de coeÞcientes de regresión entre
la p y las (1, ...p − 1).
APÉNDICE 3.2 LOS DETERMINANTES DE S Y R.
Vamos a obtener expresiones para los determinantes de la matriz de varianzas y covari-
anzas y de correlación, utilizando los resultados para matrices particionadas del capítulo 2.
Escribamos la matriz de varianzas y covarianzas como:
Sp =
·
s2
1 c0
1R
c1R Sp−1
¸
donde s2
1 es la varianza de la primera variable, c0
1R contiene las covarianzas entre la primera
y utilizamos ahora la notación Sp para referirnos a la matriz de varianzas y covarianzas de
las correspondientes p variables. Aplicando la fórmula para el determinante de una matriz
particionada, podemos escribir
|Sp| = |Sp−1| s2
1
¡
1 − R2
1.2...p
¢
104 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
donde R2
1.2...p es el coeÞciente de correlación múltiple entre la primera variable y el resto que
viene dado, utilizando los resultados del apéndice 3.1, por
R2
1.2...p =
1
s2
1
c0
1RSp−1c1R
Análogamente si escribimos la matriz de correlación particionada como
Rp =
·
1 r0
1R
r1R Rp−1
¸
donde r1R y Rp−1 son, respectivamente, el vector de correlaciones de la primera variable con
el resto y la matriz de correlación entre el resto de las variables. Entonces,
|Rp| = |Rp−1|
¡
1 − R2
1.2...p
¢
, (3.26)
ya que, también
R2
1.2...p = r0
1RRp−1r1R.
Para demostrar esta igualdad, observemos que la relación entre los vectores de correla-
ciones y covarianzas es r1R = D
−1/2
p−1 c1R/s1, donde D
−1/2
p−1 contiene las inversas de las desvia-
ciones típicas de las p − 1 variables. Como Rp−1 = D
−1/2
p−1 Sp−1D
−1/2
p−1 , tenemos que
r0
1RRp−1r1R = (c0
1R/s1)D
−1/2
p−1 D
1/2
p−1S−1
p−1D
1/2
p−1D
−1/2
p−1 (c1R/s1) =
1
s2
1
c0
1RS−1
p−1c1R = R2
1.2...p
Aplicando sucesivamente la ecuación (3.26), se obtiene que
|Rp| =
¡
1 − R2
1.2...p
¢ ¡
1 − R2
2.3···p
¢
...
¡
1 − r2
p−1.p
¢
.
APÉNDICE 3.3 CORRELACIONES PARCIALES
El coeÞciente de correlación parcial es el coeÞciente de correlación simple en una regresión
entre residuos. Su cuadrado puede interpretarse de la forma habitual como la proporción de
variación explicada respecto al total, siendo en este caso la variación total la no explicada
por otra regresión previa. Vamos a utilizar esta interpretación para obtener la relación entre
los coeÞcientes de correlación parcial y múltiple.
Supongamos p variables y vamos a obtener el coeÞciente de correlación parcial entre las
variables x1, y x2, cuando se controlan x3, ..., xp. Para ello haremos una regresión simple
entre dos variables: la primera es e1.3..p, los residuos de una regresión entre x1 y x3, ..., xp, y la
segunda e2.3..p, los residuos de una regresión entre x2 y x3, ..., xp. El coeÞciente de correlación
simple de esta regresión entre residuos, r12.3...p , es el coeÞciente de correlación parcial. Por
construcción este coeÞciente es simétrico entre el par de variables, pero suponiendo que
tomamos la primera variable como dependiente en la regresión, la ecuación estimada entre
los residuos es
e1.3,...,p = b12.3,...,pe2.3,..,.p
3.9. COEFICIENTES DE ASIMETRÍA Y KURTOSIS 105
y el coeÞciente de correlación de esta regresión, que es el de correlación parcial, será
r12.3...p = b12.3,...,p
s(e1.3,...,p)
s(e2.3,..,.p)
Vamos a comprobar que estos términos los podemos obtener de la matriz S−1
. En esta matriz
s12
= −s−2
r (1)bβ12.3,...,p = s21
= −s−2
r (2)bβ12.3,...,p ya que la matriz es simétrica. dividiendo
por la raiz de los elementos s11
y s22
. Se obtiene
−
s12
s22s11
=
s−2
r (1)bβ12.3,...,p
s−1
r (1)s−1
r (2)
= bβ12.3,...,p
sr(2)
sr(1)
y puede comprobarse que esta expresión es r12.3...p , el coeÞciente de correlación parcial.
En la regresión entre los residuos el cociente entre la variabilidad no explicada y la total
es uno menos el cuadrado del coeÞciente de correlación. La variabilidad no explicada en
esta regresión es la variabilidad no explicada de la primera variable respecto a todas, que
llamaremos V NE1.23...p (e1.3..p contenía la parte no explicada por las variables 3, .., p y ahora
hemos añadido la x2). La variabilidad total de la regresión es la de los residuos, e1.3..p, es
decir la no explicada en la regresión de x1 respecto a x2, ..., xp. Por tanto, podemos escribir:
1 − r2
12.3...p =
V NE1.2,3,...,p
V NE1.3...p
Vamos a expresar estas V NE en función de los coeÞcientes de correlación múltiple de las
correspondientes regresiones. Llamando R2
1.3...p al coeÞciente de determinación en la regresión
múltiple de x1 respecto a x3, ..., xp :
1 − R2
1.3...p =
V NE1.3,..,.p
V T1
donde V T1 es la variabilidad de la primera variable. Analogamente, en la regresión múltiple
entre la primera variable y todas las demás, x2, x3, ..., xp tenemos que
1 − R2
1.23...p =
V NE1.2,3,...,p
V T1
.
De estas tres ecuaciones deducimos que
1 − r2
12.3...p =
1 − R2
1.23...p
1 − R2
1.3...p
(3.27)
que permite calcular los coeÞcientes de correlación parcial en función de los coeÞcientes de
correlación múltiple. Aplicando reiteradamente esta expresión podemos también escribir
¡
1 − R2
1.23...p
¢
=
¡
1 − r2
12.3...p
¢ ¡
1 − r2
13.4...p
¢
...
¡
1 − r2
1p−1.p
¢ ¡
1 − r2
1p
¢
También puede demostrarse (véase Peña, 2002) que el coeÞciente de correlación parcial
entre las variables (x1, x2) cuando se controlan las variables (x3, ..., xp) puede expresarse en
106 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES
función del coeÞciente de regresión de la variable x2 en la regresión de x1 con respecto a
(x2, x3, ..., xp), y su varianza. La expresión es:
r12.3...p = bβ12.3...p
Ãr
bβ
2
12.3...p + (n − p − 1)s2
h
bβ12.3...p
i
)
!
donde bβ12.3...p y su varianza, s2
h
bβ12.3...p
i
se obtienen en la regresión entre variables de media
cero:
bx1 = bβ12.3...px2 + bβ13.2...px3 + ... + bβ1p.2...p−1xp
Capítulo 4
ANALISIS GRAFICO Y DATOS
ATIPICOS
4.1 INTRODUCCIÓN
En este capítulo vamos a continuar la descripción de datos multivariantes, estudiando su
representación gráÞca y posibles transformaciones de las variables que conduzcan a una
descripción más simple de los datos. También introduciremos un análisis inicial de la homo-
geneidad de la muestra mediante el estudio de los posibles valores atípicos, debidos a errores
de medida, o otras causas de heterogeneidad.
Obtener buenas representaciones gráÞcas de datos multivariantes es un problema difí-
cil, y en este capítulo introduciremos los métodos más simples que se complementarán con
los análisis gráÞcos presentados en capítulos posteriores. Recordemos que las correlaciones
miden las relaciones lineales entre las variables, y pueden ser má interpretadas cuando las
relaciones son no lineales. Por esa razón se intenta transformar las variables para que las
variables transformadas tengan relaciones aproximadamente lineales, y veremos como gener-
alizar las transformaciones univariantes para conseguir este objetivo. Por último, los datos
multivariantes contienen con freuencia observaciones que son heterogeneas con el resto y, que
si no son detectadas, pueden alterar completamente el análisis descriptivo de las variables
originales. En este capítulo presentaremos métodos para detectar los datos atípicos.
4.2 REPRESENTACIONES GRÁFICAS
4.2.1 Histogramas y diagramas de dispersión
El primer paso de cualquier análisis multivariante es representar gráÞcamente las variables
individualmente, mediante un histograma o un diagrama de caja. Estas representaciones son
muy útiles para detectar asímetrías, heterogeneidad, datos atípicos etc. En segundo lugar
conviene construir los diagramas de dispersión de las variables por pares, y esta posibilidad
se incluye ya en muchos programas de ordenador. Con p variables existen p(p−1)/2 gráÞcos
posibles que pueden disponerse en forma de matriz y son muy útiles para entender el tipo
de relación existente entre pares de variables, e identiÞcar puntos atípicos en la relación
107
108 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
bivariante. En particular, estos gráÞcos son importantes para apreciar si existen relaciones
no lineales, en cuyo caso la matriz de covarianzas puede no ser un buen resumen de la
dependencia entre las variables.
Podemos simular gráÞcos de tres variables presentando en la pantalla de un ordenador
proyecciones adecuadas de esta relación girando el punto de vista del observador para dar
idea del espacio tridimensional. Estas representaciones gráÞcas se conocen con el nombre
de Gran Tour de los datos y pueden ser muy útiles, utilizados interactivamente con un
ordenador, pero no pueden construirse para dimensiones superiores a tres. También para
variables discretas podemos construir diagramas de barras tridimensionales y para variables
continuas podemos construir los equivalentes multidimensionales de los histogramas. La
Þgura 4.3 presenta un ejemplo de estas representaciones.
Ejemplo 4.1 La Þgura muestra los gráÞcos de dispersión de los datos de medidas de desar-
rollo del mundo, MUNDODES, del Anexo I.
TasaNat.
5 10 15 20 25 40 50 60 70 0 10000 30000
1020304050
51020
TasaMort
MortInf
050100
40506070
EspHom
EspMuj
4050607080
10 20 30 40 50
01000030000
0 50 100 150 40 50 60 70 80
PNB
Figura 4.1: Matriz de dispersión para los datos MUNDOES.
La Þgura 4.1 ilustra claramente que existen relaciones de dependencia fuerte entre las
variables, muchas de carácter no lineal. Por ejemplo, la relación entre las variables primera
y segunda, tasa de natalidad y de mortalidad, es claramente no lineal y se observa un valor
atípico muy destacado en la relación. En toda la primera Þla (o columna) que indica las
relaciones de la primera variable (tasa de natalidad) con las restantes las relaciones parecen
no lineales y , en algunos casos, heterocedástica. Comentarios similares se aplican a la
segunda variable. En otros casos parece que la relación entre dos variables es diferente para
distintos grupos de países. Por ejemplo, en prácticamente todas las relaciones en que aparece
la sexta variable, riqueza del país medida por el PNB, parecen existir dos tipos de países. En
unos parece no existir relación entre la variable demográÞca y el PNB, mientras que en los
otros parece existir una clara relación positiva (como con la tasa de mortalidad) o negativa
(como con la mortalidad infantil) entre las variables demográÞcas y el PNB.
4.2. REPRESENTACIONES GRÁFICAS 109
Esta Þgura muestra además que algunas de las relaciones son heterocedásticas, es decir,
que la variabilidad de la relación aumenta al aumentar los niveles de las variables. Por
ejemplo, en la relación entre tasa de natalidad y mortalidad infantil, donde además se aprecia
claramente un valor atípico. Este punto aparece muy claramente en la relación entre las dos
primeras variables (posiciones 1,2 y 2,1 de la matriz) y en los gráÞcos de la segunda Þla y
columna, indicando que el punto es atípico en las dos primeras variables.
Finalmente algunas relaciones son muy fuertes y lineales como entre las esperanzas de
vida y la mortalidad infantil.
Ejemplo 4.2 El gráÞco siguiente presenta los diagramas de dispersión para los datos de las
ACCIONES.
X1
30
40
50
60
70
80
90
100
2.0 4.5 7.0 9.5 12.0 14.5 17.0
30 40 50 60 70 80 90 100
X2
2.0
4.5
7.0
9.5
12.0
14.5
17.0
X3
5
10
15
20
25
30
5 10 15 20 25 30
1
11
1
1 1
34
34
Figura 4.2: Matriz de dispersión de los datos de ACCIONES
En la Þgura 4.2 se observa como la primera observación aparece como un valor atípico
en todos los diagramas de dispersión. En los gráÞcos con la tercera variable este punto es un
valor muy extremo en la relación, mientras que en los gráÞco de las otras dos variables aparece
como atípico, pero no parece muy inßuyente en la relación lineal entre ambas variables. La
acción 34 aparece, al igual que la 1, como una observación aislada heterogénea con el resto.
En este caso podemos hacer una representación en tres dimensiones de las tres variables.
En la Þgura 4.3 se observa que la relación entre las variables x1 y x2 depende del nivel de la
x3. El gráÞco ilustra también con claridad el carácter claramente atípico de las observaciones
1 y 34 que aparecen muy separadas del resto. Por otro lado, se observa en el gráÞco tridi-
mendional que las observaciones se agrupan en dos conjuntos distintos. Esta característica,
que se apunta en los gráÞcos bidimensionales, aparece claramente de maniÞesto en la repre-
sentación tridimendional, ilustrando las ventajas de construir estas representaciones cuando
sea posible.
110 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
34
1
Figura 4.3: Representacion Tridimensional de los datos de ACCIONES
En la Þgura 4.4 se presenta la matriz de datos de dispersión para los datos de las acciones
ahora en los logaritmos de las variables. Se observa que la transformación en logaritmos
aporta mayor linealidad a las relaciones entre variables dos a dos y reduce algo el efecto de
la primera observación que es atípica.
X1
3.4 3.6 3.8 4.0 4.2 4.4 4.6
1.52.02.5
3.43.84.24.6
X2
1.5 2.0 2.5 1.5 2.0 2.5 3.0
1.52.02.53.0
X3
Figura 4.4: Matriz de dispersión para los logartimos de los datos de ACCIONES.
Ejemplo 4.3 La Þgura 4.5 representa los datos A.4, INVEST, para las publicaciones cien-
tíÞcas. Se observa que existe una fuerte relación entre todas las variables. Las relaciones son
aproximadamente lineales, si bien en algunos casos se observa cierta curvatura que podría
4.2. REPRESENTACIONES GRÁFICAS 111
resolverse tomando logaritmos. No hay valores atípicos muy destacados.
INTER.A
6 8 10 12 6 7 8 9 10 4 6 8 10 6 7 8 9 10 12
791113
6810
INTER.F
AGRIC.
6810
6810
BIOLO.
MEDIC.
7911
4812
QUIMI.
INGEN.
6810
7 8 9 11 13
681012
6 7 8 9 10 7 8 9 11 6 7 8 9 10
FISICA
Figura 4.5: Representación como matriz de dispersión de los datos de INVES
Ejemplo 4.4 La Þgura 4.6 presenta los gráÞcos de dispersión para los datos de medidas
Þsicas del banco de datos MEDIFIS. Las relaciones son aproximadamente lineales y no se
detecta la presencia de datos atípicos destacados.
4.2.2 Representación mediante Þguras
Para más de tres variables se utilizan principalmente dos tipos de métodos gráÞcos. El
primero, es mostrar los datos mediante Þguras planas, asociando cada variable a una carac-
terística del gráÞco. El segundo, es buscar conjuntos de proyecciones en una y dos dimen-
siones que revelen aspectos característicos de los datos. Vamos a presentar en esta sección
el primer enfoque, en la sección siguiente hablaremos del segundo.
Existen muchas alternativas posibles para representar los datos mediante Þguras. Cher-
noff ha propuesto la utilización de caras, que tienen la ventaja de nuestra facilidad para
reconocer patrones en este formato y el inconveniente de que la representación es muy de-
pendiente de las variables escogidas para representar cada rasgo. Por ejemplo, la boca y la
forma de la cabeza son rasgos más llamativos que las orejas o la longitud de la nariz, y el
mismo conjunto de datos puede sugerir distintos patrones de similitud entre las observaciones
según la asociación elegida entre rasgos y variables. La Þgura 4.7 presenta un ejemplo.
Si asociamos cada variable a un rasgo de una Þgura plana, podemos representar cada
elemento en la muestra por una Þgura geométrica. En estas representaciones las similitudes
112 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
entre Þguras indican las similitudes entre los elementos, y los valores atípicos aparecerán
como Þguras discordantes con el resto. Una Þgura muy utilizada es la estrella. Por ejemplo,
para representar cinco variables, podemos escoger una estrella de cinco radios y asociar cada
variable a cada uno de estos radios o ejes. Cada observación dará lugar a una estrella.
Normalmente las variables se estandarizan de manera que tengan media cero y desviación
típica unitaria. Entonces, se marca el cero sobre cada eje y se representa el valor de la
variable en unidades de desviaciones típicas. La Þgura 4.8 presenta un ejemplo de su uso.
Ejemplo 4.5 La Þgura 4.7 presenta una representación gráÞca de los datos de investigación,
INVEST, con las Caras de Chernoff. Cada observación es convertida en una cara, y cada
variable es asignada a una característica de la misma. Para el siguiente ejemplo se ha uti-
lizado el programa Splus, que asigna las variables a las siguientes características: (1) área de
la cara; (2) forma de la cara; (3) longitud de la nariz; (4) localización de la boca; (5) curva
de la sonrisa; (6) grosor de la boca; (7a 11) localización, separación, ángulo, forma y grosor
de los ojos, etc. Se puede representar más de 15 características, y, originalmente, Chernoff
logró representar 18 variables en una cara. En la Þgura 4.7 se han representado los países
contenidos en la base de datos INVEST pero eliminado EEUU, ya que este país distorsion-
aría la representación gráÞca por tomar un valor muy extremo en todas las variables. En
este tipo de gráÞcos podemos o bien ver el comportamiento por separado de cada variable o
bien la similitud global de cada dato multivariado. Por ejemplo, la variable MEDIC se ha
asignado a la curva de la sonrisa y vemos que los primeros cuatro países son claramente
diferentes en cuanto a esta característica. Sin embargo, juzgando globalmente, notamos que
el comportamiento más parecido lo presentan los cinco primeros países.
La representación de las caras de Chernoff nos permite observar las diferencias entre
los países en cuanto al volumen de publicaciones. Para observar las diferencias entre los
patrones de publicación de los distintos países deberíamos aplicar logaritmos a los datos para
reducir la asimetría en las distribuciones univariantes, observada en la Þgura 4.10, y para
linealizar más las relaciones.
Ejemplo 4.6 Para representar los países con las variables en logaritmos se ha optado por
un gráÞco de estrellas. Como se explicó anteriormente, cada radio de la estrella está asociado
a una variable, en el ejemplo que trataremos fue utilizado Splus, este programa comienza a
asignar variables desde la derecha en el sentido opuesto a las agujas del reloj. En la Þgura 4.8
se presenta cómo es esta asignación para las variables de la base INVEST.En la Þgura 4.9
se siguen observando diferencias de tamaño entre los primeros cinco países y el resto, pero
se aprecian ciertos patrones en los que se distinguen países con tendencia a la investigación
en algunas áreas frente a otras.
4.2.3 (*)Representación de Proyecciones
En lugar de intentar representar las variables originales por pares podríamos intentar repre-
sentar parejas de variables que resuman en algún sentido el conjunto de variables. Esperamos
así obtener una mayor intuición visual de las propiedades de los datos. Una forma simple de
resumir un vector de variables es construir una variable escalar como combinación lineal de
4.2. REPRESENTACIONES GRÁFICAS 113
sus valores. Por ejemplo, si x0
= (x1, ..., xp) representa el precio de un conjunto de productos
en un mercado, una medida resumen de estos precios es:
y = a0
x =
p
X
j=1
ajxj. (4.1)
Si aj = 1/p, la combinación lineal resultante es la media de los precios. Si aj 6= 1/p, pero
aj ≥ 0 y
P
aj = 1 la nueva variable es una media ponderada de las variables originales con
pesos aj. En general (4.1) deÞne una nueva variable que informa globalmente del conjunto
de variables X.
La variable escalar obtenida mediante una combinación lineal puede siempre interpretarse
geométricamente como una proyección. El producto escalar del vector x, en <p
, por otro
vector a de <p
viene dado por:
a0
x = |a||x| cos α (4.2)
y si el vector de ponderación, a, se toma de manera que su norma sea uno, |a| = 1, el
producto escalar es directamente la proyección del vector x sobre la dirección del vector a.
En consecuencia, si elegimos una dirección con |a| = 1, la nueva variable escalar
yi = a0
xi (4.3)
que tomará valores (y1, ..., yn), puede interpretarse como la proyección de los datos X sobre
la dirección indicada por el vector a. El conjunto de los n valores de la nueva variable y
pueden englobarse en un vector y (n × 1) que vendrá dado por
y = Xa, (4.4)
donde X es la matriz de datos n × p.
Como construir un indicador a partir de variables multivariantes puede interpretarse
como proyectar los datos sobre cierta dirección, es natural preguntarse por direcciones de
proyección que sean informativas para revelarnos la disposición de los puntos en el espacio.
Para ello tenemos que deÞnir un criterio de proyección y encontrar la dirección donde ese
criterio se maximiza. Las técnicas diseñadas con este objetivo se conocen como búsqueda de
proyecciones (projection pursuit), y se aplican como sigue:
1. Escoger la dimensión del espacio sobre el que vamos a proyectar (normalmente 2), y el
criterio que se desea maximizar.
2. Encontrar la dirección que maximiza el criterio analiticamente. Si no es posible en-
contrar la dirección de forma analítica hacerlo de manera aproximada, por ejemplo
seleccionando un número grande de direcciones (a1, ..., aN ), evaluando el criterio en
cada una y seleccionando la dirección de este conjunto donde el criterio toma el valor
máximo.
3. Encontrar una dirección ortogonal a la primera que maximice el criterio. Esto puede
hacerse por ejemplo proyectando los datos sobre el espacio ortogonal a la primera
dirección, a, lo que supone transformales con Y = (I − aa0)X y aplicar el algortimo
del punto 2 a los nuevos datos Y.
114 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
4. Representar los datos sobre el plano deÞnido por las dos direcciones de proyección.
Se suelen considerar interesantes las proyecciones que muestren relaciones no lineales
entre las variables, o distribuciones multimodales que pueden indicar la presencia de clusters
o grupos de observaciones. Inicialmente las funciones objetivo utilizadas se basaban en la
teoría de la información. Por ejemplo, una medida de diversidad o heterogeneidad es la
entropía de Shannon
I(x) =
Z
log f(x)f(x)dx
que, entre las distribuciones continuas, se minimiza con la distribución normal. Si maxi-
mizamos esta función esperamos obtener proyecciones donde la distribución resultante se
aparte más de la normal, en cierto sentido, lo que puede resultar en combinaciones intere-
santes y estructuras inesperadas entre las variables. Naturalmente otros muchos criterios son
posibles, y en la sección 4.5 utilizaremos otro criterio para buscar direcciones que muestren
la presencia de atípicos. En el capítulo siguiente utilizaremos estas ideas para obtener proye-
ciones que mantengan lo más posible las distancias entre los puntos en el espacio. Los
capítulos 5, 6 y 7 presentan más ejemplos de estas técnicas gráÞcas.
4.3 TRANSFORMACIONES LINEALES
4.3.1 Consecuencias
Muchas propiedades importantes de los datos son independientes de las unidades de medida
de las variables y no cambiarán si pasamos de euros a dólares o de centímetros a metros. Va-
mos a estudiar como afectan cambios en las unidades de medida a los estadísticos estudiados
en el capítulo 3. Por ejemplo, supongamos que en lugar de medir una variable bidimen-
sional x =(x1, x2)0
en euros y en unidades lo hacemos en dólares y en miles de unidades,
y = (y1, y2)0
. La relación entre ambas variables será:
y = Ax (4.5)
donde A es una matriz diagonal que tiene como términos diagonales los factores de conversión
de euros a dólares y de unidades a miles de unidades (1/1000). Para el conjunto de las n
observaciones la relación será:
Y = X A (4.6)
donde X e Y son n×p, y A es una matriz diagonal p×p. Aplicando la deÞnición de vector
de medias
y =
1
n
Y0
1 = A0 1
n
X0
1 =A
0
x (4.7)
y como A = A0
, el vector de medias se transforma de la misma forma que los hacen las
variables.
4.3. TRANSFORMACIONES LINEALES 115
Las matrices de varianzas y covarianzas estarán relacionadas por:
Sy =
1
n
Y0
PY = A0
(
1
n
X0
PX)A =A
0
SxA. (4.8)
El cambio de unidades es un caso particular de una transformación lineal de las vari-
ables para simpliÞcar su interpretación. Una transformación lineal importante es la es-
tandarización de las variables, que puede hacerse de dos formas distintas, como veremos a
continuación.
4.3.2 Estandarización univariante
Llamando x al vector p × 1 de la variable vectorial, la transformación lineal
y = D−1/2
(x−x)
donde la matriz D−1/2
es cuadrada y diagonal con términos:
D−1/2
=


s−1
1 0 . . . 0
0 s−1
2 . . . 0
0 0 . . . s−1
p

 ,
convierte las variables originales, x, en otras nuevas variables, y, de media cero y vari-
anza unidad. Cada componente del vector x, xj para j = 1, ..., p, se transforma con
yj = (xj − xj)/sj. La matriz de varianzas y covarianzas de las nuevas variables será la
matriz de correlación de las variables primitivas. Esta transformación es la estandarización
univariante de las variables.
4.3.3 (*)Estandarización multivariante
Dada una matriz deÞnida positiva, Sx, puede deÞnirse su raíz cuadrada S
1/2
x , por la condición
Sx = S1/2
x (S1/2
x )0
(4.9)
La matriz S
1/2
x no es única (véase 2.4.2). En efecto si S
1/2
x veriÞca la condición (4.9)
también la veriÞca S
1/2
x M, donde M es cualquier matriz ortogonal. La matriz S
1/2
x puede
construirse a partir de la descomposición espectral
Sx = ADA0
donde D es diagonal y contiene los valores propios de Sx y A es ortogonal y contiene los
vectores propios. Sea D1/2
la matriz diagonal cuyos términos son las raíces cuadradas de los
términos de D, que son positivos. DeÞniendo la raiz cuadrada por la matriz simétrica:
S1/2
x = AD1/2
A0
(4.10)
116 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
la variable
y = S−1/2
x (x−x)
tiene media cero y matriz de varianzas y covarianzas identidad, ya que
Sy = S−1/2
x SxS−1/2
x = I
Con esta transformación pasamos de variables correladas, con matriz de covarianza Sx, a
variable incorreladas, con matriz de varianzas identidad. El nuevo conjunto de variables
viene dado por
Y = eXS−1/2
x = eXAD−1/2
A0
Esta estandarización se denomina multivariante, ya que utiliza todas las covarianzas para
estandarizar cada variable. Observemos que la estandarización univariante utiliza sólo los
términos diagonales de Sx para construir D−1/2
, y no tiene en cuenta las covarianzas, mientras
que la multivariante utiliza toda la matriz.
Ejemplo 4.7 La tabla A.4 de los daos de INVEST presenta el número de publicaciones
recogidas en un trienio en 8 bases de datos de producción cientíÞca para los países de la
OCDE. (La descripción de las fuentes se encuentra en el apéndice de datos). En la Þgura
4.10 se presenta un diagrama de cajas múltiple (Boxplot) que permite, además de la explo-
ración de cada una de las variables, comparar los rangos de todas ellas de forma conjunta.
0200000400000600000800000
INTER.A INTER.F AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FISICA
Figura 4.10: Diagrama de cajas de las variables de INVEST.
En el gráÞco se observa la existencia de un atípico en todas las variables (EEUU) y una
asimetría en la distribución de todas las variables que puede estar producida por éste dato.
4.4. TRANSFORMACIONES NO LINEALES 117
INTER.A INTER.F AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FISICA
EE.UU 4.2223 4.0650 3.9773 3.5825 4.1091 3.3889 4.1696 4.0846
UK 0.4845 0.5640 1.2398 1.4429 0.5513 0.2697 -0.1532 0.4831
JP 0.1627 0.4247 0.1562 0.4567 0.4788 2.2109 0.9060 0.6573
F 0.2375 0.3930 0.1480 0.0406 0.3755 0.5152 -0.0054 0.5237
G 0.0782 0.5000 0.0417 0.7273 0.2177 0.0305 0.0491 0.1381
C -0.0269 0.0698 0.1594 0.4540 -0.1104 0.3521 0.0793 -0.0716
I -0.1975 -0.1687 -0.1545 0.2062 0.0336 -0.2367 -0.1770 -0.1643
A -0.2363 -0.2594 0.0765 -0.0645 -0.3089 -0.3865 -0.2156 -0.3065
H -0.2719 -0.3102 -0.2232 -0.2395 -0.2811 -0.3561 -0.2611 -0.2931
S -0.2796 -0.3325 -0.3551 -0.0918 -0.2606 -0.3982 -0.3194 -0.3839
CH -0.2914 -0.3527 -0.3861 -0.5353 -0.3287 -0.3895 -0.3124 -0.3210
E -0.3490 -0.3854 -0.4009 -0.5092 -0.3994 -0.4237 -0.3660 -0.4081
B -0.3440 -0.3857 -0.3932 -0.5069 -0.3831 -0.4554 -0.3448 -0.3877
D -0.3590 -0.5216 -0.4241 -0.3817 -0.3782 -0.4348 -0.3686 -0.4276
AU -0.3803 -0.3692 -0.4856 -0.6308 -0.4224 -0.5026 -0.3636 -0.4197
FI -0.3800 -0.4502 -0.4552 -0.4506 -0.4260 -0.5032 -0.3767 -0.4369
N -0.3911 -0.4626 -0.4667 -0.5608 -0.4428 -0.5150 -0.3803 -0.4598
Y -0.4162 -0.4925 -0.4550 -0.7199 -0.4971 -0.4996 -0.3849 -0.4315
GR -0.4217 -0.4950 -0.5235 -0.7124 -0.5024 -0.5412 -0.3810 -0.4454
IR -0.4042 -0.5257 -0.5368 -0.7256 -0.5053 -0.5620 -0.3964 -0.4574
P -0.4360 -0.5050 -0.5391 -0.7810 -0.5197 -0.5627 -0.3976 -0.4722
Tabla 4.1: Estandarización univariante de INVEST
Vamos a estudiar para estos datos las dos estandarizaciones propuestas:
Se observa que la estandarización univariante resalta el valor atípico de EEUU, pero
mantiene sin cambios importantes las variables, que sufren solamente un cambio de escala.
La estandarización multivariante transforma totalmente las variables originales. En la
primera variable EEUU sigue siendo atípico, pero en las siguientes esta característica desa-
parece. En el capítulo siguiente, componentes principales, interpretaremos las propiedades
de estas nuevas variables transformadas.
4.4 TRANSFORMACIONES NO LINEALES
4.4.1 Simplicidad en las distribuciones
El análisis de un conjunto de datos multivariante es más simple cuando su distribución es
simétrica y las relaciones entre las variables son lineales, y la mayoría de los métodos multi-
variantes hacen estas hipótesis. En estas condiciones, la matriz de varianzas y covarianzas
es un buen resumen de las relaciones de dependencia existentes.
Al elegir las variables conviene tener en cuenta que la misma variable puede medirse de
muchas formas, en principio igualmente válidas. Por ejemplo, el consumo de gasolina de un
automóvil se expresa en Europa en litros cada 100 kilómetros (x) mientras que en EE.UU
118 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
y1 y2 y3. y4 y5 y6 y7 y8
EE.UU 4.15 -0.36 1.53 -0.22 -0.46 -0.12 0.12 0.05
UK 0.64 -2.14 -2.70 2.18 0.00 -0.25 0.18 0.44
JP 0.70 3.81 -1.77 0.18 -0.43 -0.34 -0.60 0.25
F 0.29 0.58 0.02 1.78 3.29 0.11 0.32 -0.81
G 0.23 -0.70 -1.11 -2.88 1.90 1.81 -0.65 -0.57
C 0.11 0.18 -1.40 -0.64 -1.47 1.72 1.96 -0.36
I -0.11 -0.48 -0.61 -1.33 0.34 -2.79 -1.84 0.19
A -0.22 -0.66 -0.28 0.52 -1.76 0.92 -2.36 -0.56
H -0.29 -0.23 0.05 -0.03 -0.42 -0.29 -0.66 -1.06
S -0.32 -0.35 -0.28 -1.14 -0.06 -1.25 1.71 0.94
CH -0.38 0.08 0.62 0.32 0.24 -0.06 0.22 0.92
E -0.42 0.01 0.40 0.18 -0.01 0.34 0.36 2.03
B -0.42 -0.05 0.48 0.12 -0.04 0.14 -0.18 0.91
D -0.43 -0.07 0.12 -0.19 -0.48 -1.67 1.41 -1.15
AU -0.47 0.05 0.73 -0.02 0.34 0.80 -0.50 2.10
FI -0.46 -0.12 0.31 -0.32 -0.17 -0.33 0.65 -0.96
N -0.48 -0.03 0.51 -0.04 -0.20 -0.07 0.26 0.90
Y -0.51 0.14 0.77 0.68 -0.27 0.47 -0.59 -0.62
GR -0.53 0.12 0.81 0.23 -0.11 0.33 -0.17 -1.38
IR -0.54 0.09 0.86 0.26 -0.14 -0.00 0.70 -1.31
P -0.55 0.15 0.93 0.36 -0.09 0.52 -0.35 0.06
Tabla 4.2: Estandarización multivariante de INVEST
se expresa en km recorridos con 1 litro (o galón) de gasolina (y). La relación entre ambas
medidas es no lineal, ya que y = 100/x. Como segundo ejemplo, para medir el crecimiento
de una variable Ct en el tiempo podemos calcular las diferencias Ct − Ct−1, pero en general
resulta más relevante considerar las diferencias relativas (Ct −Ct−1)/Ct−1 o (Ct −Ct−1)/Ct. Si
expresamos la variable en logaritmos, sus diferencias en dicha escala son una buena medida
del crecimiento relativo, ya que:
ln Ct − ln Ct−1 = ln
Ct
Ct−1
= ln
µ
1 +
Ct − Ct−1
Ct−1
¶
'
Ct − Ct−1
Ct−1
utilizando que ln(1 + x) es aproximadamente x, si x es pequeño. Además, es fácil demostrar
que, supuesto Ct ≥ Ct−1:
Ct − Ct−1
Ct
≤ ln
Ct
Ct−1
≤
Ct − Ct−1
Ct−1
y las diferencias de las variables en logaritmos son una medida promedio de las dos formas
posibles de medir el crecimiento relativo. El logaritmo es una de las transformaciones más
utilizadas para datos positivos ya que:
(1) Las distribuciones que describen el tamaño de las cosas (renta de países o familias
habitantes en las principales ciudades del mundo, tamaño de empresas, consumo de energía
4.4. TRANSFORMACIONES NO LINEALES 119
en hogares, etc), son generalmente muy asimétricas, pero se convierten en aproximadamente
simétricas al expresar la variable en logaritmos.
(2) Cuando las diferencias relativas entre los valores de la variable sean importantes,
conviene expresar las variables en logaritmos, ya que las diferencias entre logaritmos equivalen
a diferencias relativas en la escala original.
(3) La variabilidad de las variable transformada es independiente de las unidades de
medida.
Para comprobar esta última propiedad, supongamos una variable escalar x que transfor-
mamos con y = log x y la variable transformada tiene media y y varianza s2
y. Si cambiamos
las unidades de medida de x multiplicando por una constante, z = kx, entonces la variable
logz tiene media y + log k y la misma varianza que la variable log x.
4.4.2 Simplicidad en las relaciones
Es frecuente con datos económicos observar fuertes relaciones no lineales entre las variables.
En estos casos, el análisis de los datos se simpliÞca mucho si transformamos las variables
de manera que las nuevas variables tengan relaciones lineales. Por ejemplo, una relación
frecuente es del tipo proporcional
y = kxb
(4.11)
que implica que si la variable x aumenta en una unidad la variable y aumenta (supuesto b > 0)
una cantidad que depende del valor de x, pero el incremento proporcional de y cuando x
aumenta un 1% es constante e igual al b%. Esta relación suele ir unida a heterocedasticidad
en la relación, manifestada en una mayor variabilidad en el gráÞco de dispersión cuando las
variables toman valores altos que en la zona de valores bajos. La relación puede convertirse
en lineal y homocedástica (varianza constante) transformando las variables en logaritmos.
En efecto, tomando logaritmos en (4.11) y llamando y∗
= log y, x∗
= log x tenemos una
relación lineal entre las nuevas variables (x∗
y∗
). A la hora de decidir si transformar o no
las variables es importante tener en cuenta la interpretación de las nuevas variables.
Las transformaciones habituales de las variables individuales pueden escribirse mediante
la familia potencial de Box-Cox:
y(λ)
=
xλ
− 1
λ
, para λ 6= 0
y(λ)
= log x, para λ = 0.
Un estudio más detallado de esta transformación incluyendo la estimación del parámetro λ
se realizará en el capítulo 10. La transformación puede extenderse para tratar de transformar
conjuntamente el vector de variables para que todas las distribuciones conjuntas de grupos
de variables sean simétricas. (vease Gnanadesikan, 1997).
Ejemplo 4.8 La Þgura 4.11 presenta los diagramas de dispersión de las variables de INVES
en logaritmos con los histogramas de las variables en la diagonal principal. Este gráÞco se
ha hecho con Matlab. Se observa que la transformación logarítmica hace las relaciones más
lineales y los histogramas de todas las variables más simétricos.
120 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
Ejemplo 4.9 La Þgura 4.12 muestra la representación de los datos de EPF en logaritmos.
Se observa que las relaciones son aproximadamente lineales y los histogramas simétricos.
4.5 DATOS ATÍPICOS
4.5.1 DeÞnición
Llamaremos datos atípicos a aquellas observaciones que parecen haberse generado de forma
distinta al resto de los datos. Pueden ser causadas por errores de medición o transcripción,
cambios en el instrumento de medición o a heterogeneidad intrínseca de los elementos obser-
vados. Por ejemplo, supongamos que estamos estudiando las características de las viviendas
en una zona urbana donde la gran mayoría son pisos, pero se ha incluido en la muestra
una gran vivienda unifamiliar con jardín. Esta observación será atípica y corresponde a una
heterogeneidad real de los datos. Es importante detectarla ya que obtendremos una mejor
descripción de los datos separando ambos tipos de viviendas.
Los análisis efectuados sobre datos recogidos en condiciones de estrecho control, revelan
que es frecuente que aparezcan entre un 1% y un 3% de observaciones atípicas respecto al
resto de la muestra. Cuando los datos se han recogido sin un cuidado especial, la proporción
de datos atípicos puede llegar al 5% y ser incluso mayor.
La caracterización de un sólo valor atípico es simple ya que, por deÞnición, debe estar
alejado del resto, con lo que la distancia entre el atípico y el resto de las observaciones será
grande. Alternativamente, podemos deÞnir una atípico como aquel punto que se encuentra
lejos del centro de los datos. Llamando x al vector de medias y utilizando como medida de
distancia la distancia euclídea, una observación xi será atípica en esta métrica si
dE(xi,x) =
£
(xi−x)0
(xi−x)
¤1/2
es grande. Para identiÞcar las observaciones atípicas podríamos hacer un histograma de
estas distancias y ver si existen puntos mucho más alejados que los demás. Sin embargo,
como hemos visto, esta medida de distancia no es razonable cuando exista dependencia
entre las observaciones. La Þgura 4.13 ilustra una situación donde el punto + es claramente
atípico y, sin embargo, ni está a una distancia euclídea grande del centro de los datos, ni
aparecerá como atípico al analizar cada variable aisladamente. El problema es que, como
vimos, la distancia euclídea no tiene en cuenta la estructura de correlación de los datos,
y una posibilidad mejor es estandarizar previamente los datos de forma multivariante. De
esta manera los datos transformados tienen media cero y matriz de covarianzas identidad, y
podemos buscar atípicos con la distancia euclídea, eliminando el problema de la correlación
entre las variables. DeÞniendo, como antes, las variables estandarizadas multivariantemente
por:
y = S−1/2
x (x−x)
La distancia euclídea al cuadrado entre una observación, yi, y su media, cero, será
d2
E(yi, 0) = y0
iyi = (xi−x)0
S−1
x (xi−x) = d2
M (xi,x)
4.5. DATOS ATÍPICOS 121
y la distancia euclídea entre las variables incorreladas equivale a la distancia de Mahalanobis
entre las variables originales. Podríamos entonces identiÞcar datos atípicos calculando las
distancias de Mahalanobis para todos ellos y viendo si existe algún punto con una distancia
mucho mayor que el resto.
4.5.2 Los efectos de los atípicos
Las consecuencias de una sola observación atípica pueden ser graves: distorsionar las medias
y desviaciones típicas de las variables y destruir las relaciones existentes entre ellas. Para
ilustrar este problema, supongamos que en una muestra multivariante de tamaño n se
introduce un valor atípico, xa, donde xa es un vector de falsas observaciones. Llamando x
y S al vector de medias y matriz de covarianzas sin la observación xa, y xc y Sc a los de la
muestra contaminada con este dato atípico, es fácil comprobar (veáse ejercicio 4.4) que
xc = x +
(xa−x)
n + 1
(4.12)
y
Sc =
n
n + 1
S +
(xa−x)(xa−x)0
n + 1
(
n
(n + 1)
). (4.13)
Estas fórmulas indican que un solo dato atípico puede afectar mucho al vector de medias
y a todas las varianzas y covarianzas entre las variables. El efecto del atípico depende de
su tamaño, medido por su distancia euclídea al centro del resto de las observaciones, pero
también de su posición, ya que los términos más afectados de la matriz S dependen de la
posición del atípico en el espacio. En general, si el tamaño del atípico es grande, lo que
supone |xa−x| grande, la media, varianzas y covarianzas de las variables pueden estar muy
distorsionadas.
Para analizar con más detalle la distorsión de los coeÞcientes de correlación, consideremos
el caso más simple de p = 2 y supongamos que x = 0, S = I, y n no muy pequeño de manera
que, para simpliÞcar la presentación, tomaremos n w n+1. Sea xa= (a1, a2)0
y supongamos
para simpliÞcar que xc w x = 0. Llamando sc
ij a los elementos de Sc y tomando n w n + 1,
en (4.13) tendremos que
sc
ii w 1 +
a2
i
n
, i = 1, 2 (4.14)
y
sc
ij w
aiaj
n
, i 6= j
con lo que el coeÞciente de correlación entre las dos variables será:
rc w
a1a2
(n + a2
1)1/2(n + a2
2)1/2
.
Esta expresión muestra que si a1 y a2 tienen el mismo signo y son grandes con relación a
√
n
el coeÞciente tiende a uno, mientras que si tienen signos opuestos, el coeÞciente tiende hacia
122 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
menos uno. Vemos que la distorsión que produce el atípico depende no sólo de su tamaño
sino también de su posición en el espacio.
La conclusión de este ejercicio es que una sola observación puede distorsionar arbitrari-
amente los coeÞcientes de correlación entre las variables. En la Þgura 4.14 hemos añadido
a dos variables incorreladas una observación atípica, marcada por a, con a = (9, 9)0
. Como
indica la teoría que hemos visto, esta única observación introduce una alta correlación entre
las variables, creando una relación inexistente.
La Þgura 4.15 ilustra cómo una única observación puede ocultar una relación existente:
la observación atípica a destruye la fuerte correlación existente entre las variables.
Cuando existe más de un atípico en los datos, puede producirse el efecto conocido como
enmascaramiento, que consiste en que observaciones atípicas similares se ocultan entre sí.
Por ejemplo, supongamos que en la Þgura 4.13 en la posición del atípico hay tres puntos
idénticos. Aunque eliminemos el primero, los otros dos continuarán distorsionando el cálculo
de las medias y varianzas, haciendo muy difícil su identiÞcación, ya que cada punto enmascara
a los otros.
4.5.3 (*)IdentiÞcación de grupos de atípicos
Hay dos Þlosofías para tratar con la heterogeneidad. La primera es utilizar estimadores
robustos, que son estimadores diseñados para verse poco afectados por cierta contaminación
de atípicos. Comentaremos estos estimadores en el capítulo 11. La segunda es detectar los
atípicos, y aplicar el cálculo de los estimadores a las muestras limpias de atípicos. Ambos
enfoques son complementarios, y en esta sección introduciremos el segundo.
El procedimiento para detectar grupos de atípicos es eliminar de la muestra todos los
puntos sospechosos, de manera que evitemos el enmascaramiento y podamos calcular el
vector de medias y la matriz de covarianzas sin distorsiones. A continuación identiÞcaremos
con estos estimadores la distancia de cada punto sospechoso respecto al centro de los datos, y
consideraremos atípicos a los muy alejados. El primer paso para identiÞcar las observaciones
sospechosas es detectar aquellas que lo sean claramente respecto a una variable. Para ello
podemos utilizar el histograma o los diagramas de caja, como hemos visto en los ejemplos
anteriores. Una regla simple y automática es considerar sospechosas aquellas observaciones
tales que
|xi − med(x)|
Meda(x)
> 4, 5,
donde med(x) es la mediana de las observaciones, que es un estimador robusto del centro
de los datos, y Meda(x) es la mediana de las desviaciones absolutas |xi − med(x)| , que es
una medida robusta de la dispersión. Este método puede verse como una estandarización
robusta de los datos.
Esta detección univariante no identiÞcará muchos atípicos multivariantes. Por ejemplo, el
punto (-1,1) marcado con + en el gráÞco 4.13 es claramente atípico, pero no aparecerá como
tal en los análisis univariantes. Con frecuencia los atípicos multivariantes corresponden
a situaciones con efectos pequeños sobre todas las variables, como un error sistemático de
observación en todas ellas, en lugar de un efecto importante sobre una variable. Si el número
4.5. DATOS ATÍPICOS 123
de variables no es muy grande, los diagramas de dispersión pueden ayudar visualmente a
determinar datos atípicos en dos dimensiones. Para dimensiones mayores no es recomendable
utilizar la distancia de Mahalanobis, ya que si existen grupos de atípicos, pueden distorsionar
la estimación del centro y la dispersión de los datos enmascarando los atípicos y quizás
señalando como atípicos a puntos que no lo son.
Para evitar este problema podemos buscar proyecciones de los datos que muestren las
observaciones atípicas. Observemos que cualquier observación atípica multivariante debe
aparecer como atípica al menos en una dirección de proyección: la deÞnida por la recta
que une el centro de los datos con el dato atípico. En base a esta idea, Stahel (1981) y
Donoho (1982) propusieron generar muchas direcciones al azar, proyectar los puntos sobre
estas direcciones y marcar como datos atípicos a aquellas observaciones que aparecen como
extremas en estas proyecciones. Para generar direcciones al azar pueden tomarse muestras
al azar de p puntos, calcular el plano que las contiene y tomar como dirección el vector
ortogonal al plano.
Este método funciona bien con pocas variables, pero al aumentar la dimensión del proble-
ma el número de direcciones que necesitamos generar para cubrir razonablemente el espacio
y tener garantías de éxito aumenta exponencialmente. Una solución propuesta por Peña y
Prieto (2001), es proyectar los datos sobre ciertas direcciones especíÞcas, escogidas de manera
que tengan alta probabilidad de mostrar los atipicos cuando existan. Hemos comentado que
en muestras univariantes una pequeña proporción de atípicos hace aumentar el coeÞciente
de kurtosis, lo que sugiere investigar las direcciones donde los puntos proyectados tengan
máxima kurtosis univariante. Por otro lado, un grupo grande de atípicos puede producir
bimodalidad y baja kurtosis, por lo que conviene también explorar las direcciones donde
los puntos proyectados tengan mínima kurtosis. La idea del procedimiento es buscar p di-
recciones ortogonales de máxima kurtosis y p direcciones ortogonales de mínima kurtosis,
eliminar provisionalmente los datos extremos en estas direcciones, calcular la media y la ma-
triz de covarianzas con los datos no sospechosos y después identiÞcar los datos atípicos como
aquellos que son extremos con la distancia de Mahalanobis calculada con las estimaciones no
contaminadas. Dada la muestra multivariante (x1, ..., xn), el proceso se realiza como sigue:
1. Sean x y S el vector de medias y la matriz de covarianzas de los datos. Estandarizar
los datos de forma multivariante y sean zi = S
−1/2
x (xi− x) los datos estandarizados
con media cero y matriz de covarianzas identidad. Tomar j = 1 y z
(1)
i = zi.
2. Calcular la dirección dj con norma unidad que maximiza el coeÞciente de kurtosis
univariante de los datos proyectados. Llamando y
(j)
i = d0
jz
(j)
i , a las datos proyectado
sobre la dirección dj, esta dirección se obtiene como solución de:
max
X
(y
(j)
i − y(j)
)4
+ λ(d´d − 1)
que puede resolverse como se indica en el apéndice 4.1.
3. Proyectar los datos sobre un espacio de dimensión p − j deÞnido como el espacio
ortogonal a la dirección dj. Para ello tomar z(j+1)
= (I − djd0
j)z(j)
. Hacer j = j + 1.
4. Repetir (2) y (3) hasta obtener las p direcciones, d1, ..., dp.
124 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
5. Repetir (2) y (3) pero ahora minimizando la kurtosis en lugar de maximizarla para
obtener otras p direcciones, dp+1, ..., d2p
6. Considerar como sospechosos aquellos puntos que en alguna de estas 2p direcciones
están claramente alejados del resto, es decir, veriÞcan
¯
¯
¯y
(j)
i − med(y(j)
)
¯
¯
¯
Meda(y(j))
> 5
A continuación se eliminan todos los valores sospechosos detectados y se vuelve a 2 para
analizar los datos restantes. La estandarización multivariante ahora se realizará con la nueva
media y matriz de covarianzas de los datos restantes. Los pasos 2 a 6 se repiten hasta que
no se detecten más datos atípicos o se haya eliminado una proporción de datos preÞjada,
por ejemplo un máximo del 40% de los datos.
Una vez que la muestra no contenga más valores sospechosos con el criterio anterior se
calcula el vector de medias, xR, y la matriz de covarianzas, SR, de los datos no sospechosos,
y las distancias de Mahalanobis para los sospechosos como:
d2
R(xi,xR) = (xi−xR)S−1
R (xi−xR)0
Por razones que veremos más adelante al estudiar contrastes de valores atípicos en el capítulo
10, aquellos valores mayores que p + 3
√
2p se consideran atípicos (recordemos que el valor
promedio de la distancia de Mahalanobis es p). Algunos puntos del conjunto de sospechosos
serán atípicos y otros no. Los atípicos son desechados, y los buenos incoporados al conjunto
de puntos. Finalmente, se calculará un vector de medias, xf , y una matriz de covarianzas,
Sf , con los puntos no atípicos, que serán las estimaciones Þnales obtenidas de los datos.
En el capítulo 11 presentaremos métodos formales para contrastar si unos datos son
atípicos respecto a un modelo. En el apéndice 4.1 se detalla el cálculo de las direcciones que
maximizan la kurtosis. El procedimiento converge rápidamente en general. Un programa de
ordenador en Matlab para ejecutar este algoritmo puede bajarse de la dirección http:/******
Los datos detectados como potencialmente atípicos deben ser estudiadas con detalle para
determinar las causas de la heterogeneidad. Si estos datos no tienen un error detectable,
conviene, cuando sea posible, investigar las causas de su tamaño anómalo ya que puede
llevar a importantes descubrimientos. Si no hay un error en el dato y, sin embargo, es
muy distinto de los demás, hay que sospechar que sobre esa observación ha actuado alguna
causa que no ha estado activa en el resto de las observaciones. Por ejemplo, una variable no
incluída en el estudio ha tomado un valor distinto en esa observación y es responsable del
cambio observado. El descubrimiento de esta variable insospechada puede ser el resultado
más importante del estudio estadístico. Muchos descubrimientos cientíÞcos importantes,
(por ejemplo la penicilina) y muchas patentes industriales, han surgido de la investigación
para determinar las razones de un dato anómalo.
Ejemplo 4.10 Buscaremos datos atípicos en los datos de la EPF. En primer lugar calcu-
lamos las distancias de Mahalanobis de cada dato al centro de todos ellos. Estas distancias
se presentan en el histograma de la Þgura 4.16. Las provincias más alejadas del centro de
4.6. LECTURAS COMPLEMENTARIAS 125
los datos son, por este orden, Madrid (D=4.29), Gerona (D=3.98) y Navarra (3.97). Si
aplicamos ahora el procedimiento de buscar direcciones extremas en la kurtosis, obtenemos
los gráÞcos de las Þguras 4.17, 4.18, 4.19 y 4.20. Si eliminamos estos nueve posibles datos
extremos y calculamos las distancias de Mahalanobis con las medias y covarianzas calcu-
ladas sin estos datos obtenemos el histograma de la Þgura 4.21 . Las dos observaciones
claramente extremas corresponden a Madrid y Barcelona. Observemos que en el análisis
inicial Barcelona quedaba oculta (enmascarada) por la presencia de Madrid, pero aparece
claramente como atípica cuando se elimina el efecto de Madrid.
Ejemplo 4.11 Vamos analizar los datos de los sectores industriales en Europa. EUROSEC.
Como las variables suman 100 aproximadamente eliminaremos la última y trabajaremos por
tanto con ocho variables. La Þgura 4.22 presenta el histograma de estas distancias. Hay tres
países muy alejados del resto que son Yugoeslavia (D = 4.17), Luxemburgo (D = 4.16) y
Turquía (D = 4.02). Estos tres países están separados del resto y son atípicos en su estructura
de empleo.
Para entender la razón dividiremos los valores de cada uno de estos tres países por la
media. La tabla siguiente presenta los valores medios, el país más próximo en la distancia
de Mahalanobis a esta estructura media (Francia, D = 1.4) y los cocientes entre los valores
del país más extremo y los valores medios.
Media 19.1 1.25 27.00 0.91 8.16 12.95 4.00 20.02
Francia /Med 0.56 0.64 1.01 .99 1.09 1.30 1.50 1.13
Yugoes/Med 2.54 1.19 0.62 1.21 0.60 0.49 2.82 0.26
En esta tabla aparece claramente el carácter atípico de Yugoslavia: tiene más del doble
de población empleada en Agricultura y Þnanzas que el país medio y la mitad de empleo en
los servicios.
Vamos a comparar este resultado con el que se obtendría buscando posibles grupos de
atípicos. Las Þguras 4.23, 4.24, y ?? presentan las proyecciones sobre la dirección que
maximiza la kurtosis de los datos y dos direcciones ortogonales a ella.
En la primera dirección aparece como extremo el punto 7 (Luxemburgo), en la segunda
el 26 (Yugoeslavia) y en la tercera el 15 (España) y el 18 (Turquía). Es interesante que si
eliminamos estos cuatro puntos y calculamos las distancias de Mahalanobis del resto a estos
cuatro países, España aparece más alejada que Luxemburgo.
4.6 Lecturas complementarias
El libro de Gnanadesikan (1997) amplía el material de este capítulo incluyendo otros métodos
gráÞcos para los datos, como las curvas de Andrews, donde cada observación se representa
for una función f(t). Este libro también considera con detalle la transformación Box- Cox
multivariante, que ha sido estudiada, entre otros por Velilla (1993,1995) y Atkinson (19 ). La
detección de atípicos multivariantes ha sido objeto de numeros trabajos. Algunas referencias
recientes son Rousseeuw y van Zomeren (1990), Atkinson (1994), Maronna y Yohai (1995),
, Rocke y Woodruff (1996) y Juan y Prieto (2001). Volveremos sobre este tema al presentar
los estimadores robustos en el capítulo 11.
EJERCICIOS
4.1 Construir los diagramas de dispersión con un programa de ordenador como Matlab,
Minitab o Spss para los datos de EUROSEC.
4.2 Demostrar que un cambio de medida de las variables que equivale a una transforma-
ción lineal no modiÞca su matriz de correlación.
4.3 Demostrar que la estandarización univariante no modiÞca la matriz de correlación de
las variables.
4.3 Demostrar que la estandarización multivariante hace cero los coeÞcientes de cor-
relación parcial entre las nuevas variables.
4.4 Demostrar que si introducimos un dato atípico en una muestra con vector de medias
126 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
est
50 60 70 80 90 70 75 80 54 56 58 60
160180
507090
pes
pie
343842
707580
lbr
aes
404550
54565860
dcr
160 170 180 190 34 36 38 40 42 44 40 45 50 38 42 46 50 38424650
drt
Figura 4.6: Matriz de dispersión para los datos de la medidas físicas (MEDIFIS)
4.6. LECTURAS COMPLEMENTARIAS 127
UK
JP
F
G
C
I
A
H
S
CH
E
B
D
AU
FI
N
Y
GR
IR
P
Figura 4.7: Representación de las contribuciones cientíÞcas de los países de INVEST en caras
de Chernoff
INTER.A
IN
TER
.F
AGRIC.
BIO
LO
.
MEDIC.
Q
U
IM
I.
INGEN.
FISIC
A
Figura 4.8: Esquema de asignación de los radios de la estrella a la variables para los datos
de la investigación de los países de la OCEDE
128 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
UK
JP
F
G
C
I
A
H
S
CH
E
B
D
AU
FI
N
Y
GR
IR
P
Figura 4.9: Representación mediante estrellas de los países de INVEST en logaritmos una
vez eliminado EEUU.
Figura 4.11: Distribuciones conjuntas y marginales de las variables de INVES en logaritmos.
4.6. LECTURAS COMPLEMENTARIAS 129
Figura 4.12: Los datos de EPF en logaritmos. Representaciones bivariantes e histogramas.
Figura 4.13: Una observación atípica multivariante que no aparece como tal en los análisis
univariantes.
130 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
Figura 4.14: En esta Þgura las variables estaban originalmente casi incorreladas (r = −.11),
pero la presencia del valor atípico ha creado una fuerte correlación positiva (r = .71).
Figura 4.15: En esta Þgura el coeÞciente de correlación sin el dato atipico es de 0,91 y
disminuye hasta 0,41 por la presencia del atípico marcado con a.
4.6. LECTURAS COMPLEMENTARIAS 131
1.5 2 2.5 3 3.5 4 4.5
0
1
2
3
4
5
6
7
8
Figura 4.16: Distribución de las distancias de Mahalanobis entre cada dato y el centro para
los datos de la EPF
0 10 20 30 40 50 60
-2
0
2
4
6
8
10
12
14
x 10
4
Ceuta
Navarra
Figura 4.17: Primera proyección en la dirección de máxima kurtosis para los datos de la
EPF
132 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
0 10 20 30 40 50 60
-14
-12
-10
-8
-6
-4
-2
x 10
4
Madrid
Cantabria
Huelva
Figura 4.18: Segunda proyección en la dirección de máxima curtosis para los datos de la
EPF
0 10 20 30 40 50 60
-8
-6
-4
-2
0
2
4
6
x 10
4
Gerona
Figura 4.19: Tercera proyección en la dirección de máxima curtosis para los datos de la EPF
4.6. LECTURAS COMPLEMENTARIAS 133
0 10 20 30 40 50 60
-8
-6
-4
-2
0
2
4
x 10
4
Barcelona
TenerifeLas Palmas
Figura 4.20: Cuarta proyección sobre la dirección de máxima curtosis para los datos de la
EPF
1 2 3 4 5 6 7 8
0
2
4
6
8
10
12
14
16
18
Figura 4.21: Distancias de Mahalanobis para los datos de la EPF calculadas de manera
robusta, eliminando los datos extremos.
134 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
1 1.5 2 2.5 3 3.5 4 4.5
0
0.5
1
1.5
2
2.5
3
3.5
4
Figura 4.22: Distancias de Mahalanobis de cada dato al centro de la muestra para los datos
de EUROSEC.
0 5 10 15 20 25 30
-0.5
0
0.5
1
1.5
2
Figura 4.23: Proyección sobre la dirección de máxima curtosis
4.6. LECTURAS COMPLEMENTARIAS 135
0 5 10 15 20 25 30
22
24
26
28
30
32
34
Figura 4.24: Proyección sobre la segunda dirección de máxima curtosis ortogonal a la primera
136 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
Capítulo 5
COMPONENTES PRINCIPALES
5.1 INTRODUCCIÓN
Un problema central en el análisis de datos multivariantes es la reducción de la dimen-
sionalidad: si es posible describir con precisión los valores de p variables por un pequeño
subconjunto r < p de ellas, se habrá reducido la dimensión del problema a costa de una
pequeña pérdida de información.
El análisis de componentes principales tiene este objetivo: dadas n observaciones de p
variables, se analiza si es posible representar adecuadamente esta información con un número
menor de variables construidas como combinaciones lineales de las originales. Por ejemplo,
con variables con alta dependencia es frecuente que un pequeño número de nuevas variables
(menos del 20% de las originales ) expliquen la mayor parte (más del 80%) de la variabilidad
original.
La técnica de componentes principales es debida a Hotelling (1933), aunque sus orígenes
se encuentran en los ajustes ortogonales por mínimos cuadrados introducidos por K. Pearson
(1901). Su utilidad es doble:
1. Permite representar óptimamente en un espacio de dimensión pequeña, observaciones
de un espacio general p-dimensional. En este sentido componentes principales es el
primer paso para identiÞcar posibles variables ”latentes” o no observadas, que están
generando la variabilidad de los datos.
2. Permite transformar las variables originales, en general correladas, en nuevas variables
incorreladas, facilitando la interpretación de los datos.
En este capítulo presentamos únicamente esta técnica como una herramienta exploratoria
para facilitar la descripción e interpretación de los datos. El problema de inferir si las
propiedades de reducción de la dimensión encontradas en los datos puede extenderse a una
población se estudiara en el capítulo de análisis factorial.
137
138 CAPÍTULO 5. COMPONENTES PRINCIPALES
5.2 PLANTEAMIENTO DEL PROBLEMA
Supongamos que se dispone de los valores de p-variables en n elementos de una población
dispuestos en una matriz X de dimensiones n×p, donde las columnas contienen las variables
y las Þlas los elementos. Supondremos en este capítulo que previamente hemos restado a
cada variable su media, de manera que las variables de la matriz X tienen media cero y su
matriz de covarianzas vendrá dada por 1/n X0
X.
El problema que se desea resolver es cómo encontrar un espacio de dimensión más re-
ducida que represente adecuadamente los datos. El problema puede abordarse desde tres
perspectivas equivalentes.
a) Enfoque descriptivo
Se desea encontrar un subespacio de dimensión menor que p tal que al proyectar sobre él los
puntos conserven su estructura con la menor distorsión posible. Veamos cómo convertir esta
noción intuitiva en un criterio matemático operativo. Consideremos primero un subespacio
de dimensión uno, una recta. Se desea que las proyecciones de los puntos sobre esta recta
mantengan, lo más posible, sus posiciones relativas. Para concretar, consideremos el caso
de dos dimensiones (p = 2). La Þgura 5.1 indica el diagrama de dispersión y una recta
que, intuitivamente, proporciona un buen resumen de los datos, ya que las proyecciones de
los puntos sobre ella indican aproximadamente la situación de los puntos en el plano. La
representación es buena porque la recta pasa cerca de todos los puntos y estos se deforman
poco al proyectarlos. Esta propiedad puede concretarse exigiendo que las distancias entre
los puntos originales y sus proyecciones sobre la recta sean lo más pequeñas posibles. En
consecuencia, si consideramos un punto xi y una dirección a1 = (a11, ..., a1p)0
, deÞnida por
un vector a1 de norma unidad, la proyección del punto xi sobre esta dirección es el escalar:
zi = a11xi1 + . . . + a1pxip = a0
1xi (5.1)
y el vector que representa esta proyección será zia1. Llamando ri a la distancia entre el punto
xi, y su proyección sobre la dirección a1, este criterio implica:
minimizar
nX
i=1
r2
i =
nX
i=1
|xi − zia1|2
, (5.2)
donde |u| es la norma euclídea o módulo del vector u.
5.2. PLANTEAMIENTO DEL PROBLEMA 139
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
r1
x1
z1
Figura 5.1: Ejemplo de la recta que minimiza las distancias ortogonales de los puntos a ella.
La Þgura (5.1) muestra que al proyectar cada punto sobre la recta se forma un triángulo
rectángulo donde la hipotenusa es la distancia al origen del punto al origen, (x0
ixi)1/2
, y los
catetos la proyeccion del punto sobre la recta (zi) y la distancia entre el punto y su proyección
(ri). Por el teorema de Pitágoras, podemos escribir:
x0
ixi = zi
2
+ r2
i , (5.3)
y sumando esta expresión para todos los puntos, se obtiene:
nX
i=1
x0
ixi =
nX
i=1
z2
i +
nX
i=1
r2
i . (5.4)
Como el primer miembro es constante, minimizar
Pn
i=1 r2
i , la suma de las distancias a
la recta de todos los puntos, es equivalente a maximizar
Pn
i=1 z2
i , la suma al cuadrado de
los valores de las proyecciones. Como las proyecciones zi son, por (9.21) variables de media
cero, maximizar la suma de sus cuadrados equivale a mazimizar su varianza. Este resultado
es intuitivo: la recta de la Þgura 5.1 parece adecuada porque conserva lo más posible la
variabilidad original de los puntos. El lector puede convencerse considerando una dirección
de proyección perpendicular a la de la recta en esta Þgura: los puntos tendrían muy poca
variabilidad y perderiamos la información sobre sus distancias en el espacio.
El objetivo de proyectar los puntos con mínima deformación puede abordarse desde otro
punto de vista que conduce al mismo resultado Þnal. En el espacio de p-dimensiones, lo
característico de la nube de puntos son sus distancias relativas. Tratemos de encontrar un
subespacio de dimensión 1, es decir, un recta tal que los puntos proyectados conserven lo
más posible sus distancias relativas. Si llamamos d2
ij = x0
ixj a los cuadrados de las distancias
originales entre los puntos y bd2
ij = (zi − zj)2
a las distancias entre los puntos proyectados
140 CAPÍTULO 5. COMPONENTES PRINCIPALES
sobre una recta, deseamos que
D =
X
i
X
j
(d2
ij − bd2
ij)
sea mínima. Como la suma de las distancias originales es Þja, minimizar D require maximizarP
i
P
j
bd2
ij, las distancias entre los puntos proyectados. Se demuestra en el apéndice 5.1 que
la dirección es la misma que proporciona una variable escalar de varianza máxima.
b) Enfoque estadístico:
Representar puntos p dimensionales con la mínima pérdida de información en un espacio de
dimensión uno es equivalente a sustituir las p variables originales por una nueva variable,
z1, que resuma óptimamente la información. Esto supone que la nueva variable debe tener
globalmente máxima correlación con las originales o, en otros términos, debe permitir prever
las variables originales con la máxima precisión. Esto no será posible si la nueva variable
toma un valor semejante en todos los elementos, y, se demuestra en el apéndice 5.2, que
la condición para que podamos prever con la mínima pérdida de información los datos
observados, es utilizar la variable de máxima variabilidad.
Volviendo a la Þgura 5.1 se observa que la variable escalar obtenida al proyectar los
puntos sobre la recta sirve para prever bien el conjunto de los datos. La recta indicada en
la Þgura no es la línea de regresión de ninguna de las variables con respecto a la otra, que
se obtienen minimizando las distancias verticales u horizontales, sino que al minimizar las
distancias ortogonales o de proyección se encuentra entre ambas rectas de regresión.
Este enfoque puede extenderse para obtener el mejor subespacio resumen de los datos
de dimensión 2. Para ello calcularemos el plano que mejor aproxima a los puntos. El
problema se reduce a encontrar una nueva dirección deÞnida por un vector unitario, a2,
que, sin pérdida de generalidad, puede tomarse ortogonal a a1, y que veriÞque la condición
de que la proyección de un punto sobre este eje maximice las distancias entre los puntos
proyectados. Estadísticamente esto equivale a encontrar una segunda variable z2, incorrelada
con la anterior, y que tenga varianza máxima. En general, la componente zr(r < p) tendrá
varianza máxima entre todas las combinaciones lineales de las p variables X originales, con
la condición de estar incorrelada con las z1, ..., zr−1 previamente obtenidas.
c) enfoque geométrico
El problema puede abordarse desde un punto de vista geométrico con el mismo resultado
Þnal. Si consideramos la nube de puntos de la Þgura 5.1 vemos que los puntos se sitúan
siguiendo una elipse y podemos describir su orientación dando la dirección del eje mayor de
la elipse y la posición de los punto por su proyección sobre esta dirección. Puede demostrarse
que este eje es la recta que minimiza las distancias ortogonales y volvemos al problema que
ya hemos resuelto. En varias dimensiones tendremos elipsoides y la mejor aproximación a
los datos es la proporcionada por el eje mayor del elipsoide. Considerar los ejes del elipsoide
como nuevas variables originales supone pasar de variables correladas a variables ortogonales,
como veremos a continuación.
5.3. CALCULO DE LOS COMPONENTES 141
5.3 CALCULO DE LOS COMPONENTES
5.3.1 Cálculo del primer componente
El primer componente principal será la combinación lineal de las variables originales que
tenga varianza máxima. Los valores de este primer componente en los n individuos se
representarán por un vector z1, dado por
z1 = Xa1.
Como las variables originales tienen media cero también z1 tendrá media nula. Su vari-
anza será:
V ar(z1) =
1
n
z0
1z1 =
1
n
a0
1X0
Xa1 = a0
1Sa1 (5.5)
donde S es la matriz de varianzas y covarianzas de las observaciones. Es obvio que podemos
maximizar la varianza sin limite aumentando el módulo del vector a1. Para que la maxi-
mización de (5.5) tenga solución debemos imponer una restricción al módulo del vector a1,
y, sin pérdida de generalidad, impondremos que a0
1a1 = 1 . Introduciremos esta restricción
mediante el multiplicador de Lagrange:
M = a0
1Sa1 − λ(a0
1a1 − 1)
y maximizaremos esta expresión de la forma habitual derivando respecto a los componentes
de a1 e igualando a cero. Entonces
∂M
∂a1
= 2Sa1 − 2λa1 = 0
cuya solución es:
Sa1 = λa1, (5.6)
que implica que a1 es un vector propio de la matriz S, y λ su correspondiente valor propio.
Para determinar qué valor propio de S es la solución de la ecuación (5.6) tendremos en cuenta
que, multiplicando por la izquierda por a0
1 esta ecuación,
a0
1Sa1 = λa0
1a1 = λ
y concluimos, por (5.5), que λ es la varianza de z1. Como esta es la cantidad que queremos
maximizar, λ será el mayor valor propio de la matriz S. Su vector asociado, a1, deÞne los
coeÞcientes de cada variable en el primer componente principal.
Ejemplo 5.1 Ilustraremos con detalle el cálculo de la primera componente principal con los
datos de los logaritmos de las ACCIONES, tabla A.7. Los paquetes estadísticos habituales
(Minitab, SPSS, Statgraphics, etc) proporcionan directamente los componentes principales,
pero vamos a indicar con detalle como se realizan los cálculos para el lector interesado.
142 CAPÍTULO 5. COMPONENTES PRINCIPALES
La matriz de varianzas y covarianzas de estos datos en logaritmos, que ya utilizamos en
el ejemplo 3.5, es,
S =


0.35 0.15 −0.19
0.15 0.13 −0.03
−0.19 −0.03 0.16


Para el cálculo de los autovalores tenemos que calcular las raíces de la ecuación:
0 = |S − λI| =
=
¯
¯
¯
¯
¯
¯


0.35 0.15 −0.19
0.15 0.13 −0.03
−0.19 −0.03 0.16

 −


λ 0 0
0 λ 0
0 0 λ


¯
¯
¯
¯
¯
¯
=
= 0, 000382 − 0, 0628λ + 0, 64λ2
− λ3
Las raíces del polinomio, obtenidas con MATLAB son λ1 = 0.521, λ2 = 0.113, λ3 =
6.51×10−3
. El autovector asociado a λ1 nos da los pesos de la primera componente principal.
Para calcular el primer autovector resolvemos el sistema
Sa1 = λ1a1
que conduce a:


0.35 0.15 −0.19
0.15 0.13 −0.03
−0.19 −0.03 0.16




a11
a12
a13

 = 0.521 ×


a11
a12
a13




−0.171a11 + 0.15a12 − 0.19a13
0.15a11 − 0.391a12 − 0.03a13
−0.19a11 − 0.03a12 − 0.361a13

 =


0
0
0


el sistema es compatible indeterminado. Para encontrar una de las inÞnitas soluciones
tomemos la primera variable como parámetro, x, y resolvamos el sistema en función de
x. La solución es,
{a11 = x, a12 = 0.427x, a13 = −0.562x}
El valor de x se obtiene ahora imponiendo que el vector tenga norma unidad, con lo que
resulta:
a1 =


−0.817
−0.349
0.459


y el primer componente es
Z1 = −0.817X1 − 0.349X2 + 0.459X3
5.3. CALCULO DE LOS COMPONENTES 143
donde X1, X2 y X3 son las variables en logaritmos. Por ejemplo, el valor de esta nueva
variable, la primera componente principal, para la primera observación (la primera acción)
es
z1 = −0.817 × log(3.4) − 0.349 × log(89.7) + 0.459 × log(30.2) = −1.0049
El primer componente principal puede aproximadamente escribirse
Z1
∼= −0.82X1 + 0.35(X3 − X2) + 0.11X3
y utilizando la deÞnición de las variables originales este componente puede escribirse
Z1
∼= −0.82 log(d/p) + 0.35 log(p/d) + 0.11 log(pN/b)
es decir,
Z1
∼= −1.17 log(d/p) + 0.11 log(pN/b)
que indica que este primer componente depende basicamente de la variable X1, la rentabilidad
por dividendos. Llamando z1 = log Z1 este primer componente puede escribirse también como
z1 =
p1.27
d1.16
(
N
B
).09
que es, aproximadamente, de nuevo la variable x1, el cociente entre el precio de la acción
y los dividendos recibidos. Esta variable es la que explica mejor la variabilidad conjunta de
las acciones.
Ejemplo 5.2 La encuesta de presupuestos familiares en España (Tabla A.3 ) presenta
los gastos medios de las familias españolas en nueve epígrafes: X1 = alimentación, X2 =
vestido y calzado, X3 = vivienda, X4 = mobiliario doméstico, X5 = gastos sanitarios, X6 =
transportes, X7 = enseñanza y cultura, X8 = turismo y ocio, X9 = otros gastos, para las
51 provincias españolas (Ceuta y Melilla aparecen unidas como una provincia). La matriz
de covarianzas resume la variabilidad de estas 9 variables en los 51 elementos observados.
Como las distribuciones de los gastos son muy asimétricas, las variables se han expresado
en logaritmos. El vector propio asociado al mayor valor propio, 0,348, deÞne la siguiente
variable:
z1 = 0, 12x1 + 0, 18x2 + 0, 30x3 + 0, 31x4 + 0, 46x5 + 0, 34x6
+0, 50x7 + 0, 31x8 + 0, 31x9
Se observa que z1 es una suma ponderada de todos los gastos con mayor peso en los gastos
en enseñanza y cultura (x7) y gastos sanitarios (x5). El menor peso lo tiene el gasto en
alimentación (x1).
Si calculamos las coordenadas z1 para las provincias españolas y las ordenamos por esta
nueva variable las provincias quedan prácticamente ordenadas por su renta. La primera
componente principal tiene pues en este caso una explicación inmediata: redescubre la renta
de cada provincia.
144 CAPÍTULO 5. COMPONENTES PRINCIPALES
5.3.2 Cálculo del segundo componente
Vamos a obtener el mejor plano de proyección de las variables X. Lo calcularemos estable-
ciendo como función objetivo que la suma de las varianzas de z1= Xa1 y z2= Xa2 sea
máxima, donde a1 y a2 son los vectores que deÞnen el plano. La función objetivo será:
φ = a0
1Sa1 + a0
2Sa2 − λ1(a0
1a1 − 1) − λ2(a0
2a2 − 1) (5.7)
que incorpora las restricciones de que las direcciones deben de tener módulo unitario (a0
iai) =
1, i = 1, 2. Derivando e igualando a cero:
∂φ
∂a1
= 2Sa1 − 2λ1a1 = 0
∂φ
∂a2
= 2Sa2 − 2λ2a2 = 0
La solución de este sistema es:
Sa1 = λ1a1, (5.8)
Sa2 = λ2a2 (5.9)
que indica que a1 y a2 deben ser vectores propios de S. Tomando los vectores propios de
norma uno y sustituyendo en (5.7), se obtiene que, en el máximo, la función objetivo es
φ = λ1 + λ2 (5.10)
es claro que λ1 y λ2 deben ser los dos autovalores mayores de la matriz S y a1 y a2 sus
correspondientes autovectores. Observemos que la covarianza entre z1 y z2, dada por a0
1 S
a2 es cero ya que a0
1a2 = 0, y las variables z1 y z2 estarán incorreladas. Puede demostrarse
(véase el ejercicio 5.7) que si en lugar de maximizar la suma de varianzas, que es la traza de la
matriz de covarianzas de la proyección, se maximiza la varianza generalizada (el determinante
de la matriz de covarianzas) se obtiene el mismo resultado.
Ejemplo 5.3 El segundo componente principal para las variables de gastos de la EPF deÞnidas
en el ejemplo 5.1 es el asociado al segundo valor propio mayor que es 0,032. El vector propio
asociado a este valor propio deÞne la nueva variable:
z2 = 0, 05x1 + 0, 16x2 − 0, 17x3 + 0, 07x4 − 0, 21x5 + 0, 29x6 −
0, 40x7 − 0, 17x8 + 0, 78x9 =
(0, 05x1 + 0, 16x2 + 0, 07x4 + 0, 29x6 + 0, 78x9) −
(0, 17x3 + 0, 21x5 + 0, 40x7 + 0, 17x8)
Esta variable puede verse como la diferencia entre dos medias ponderadas de los gastos. La
primera da sobre todo peso a otros gastos (x9), y transporte (x6). En la variable otros gastos
5.3. CALCULO DE LOS COMPONENTES 145
están incluidas las transferencias fuera de la provincia a miembros de la familia mayores de
14 años que no residan en ella, podemos conjeturar esta variable separa las provincias que
reciben transferencias de las que las envian. Es también signiÞcativo que estas provincias
tienen altos gastos en transporte. La primera media ponderada puede considerarse un indi-
cador de como esta provincia envía recursos a otras. La segunda media da mayor peso a las
variables enseñanza y cultura (x7) y gastos sanitarios (x5).
Este segundo componente va a separar a provincias que envian recursos a otras (alto
valor de x9) y que tienen también altos gastos de transporte, respecto a las que transÞeren
relativamente poco y tienen altos gastos de educación y sanidad. Las provincias con valores
más altos de este componente son Zamora, León, Lugo, Toledo, Huesca, Lérida, Segovia,
Soria y Palencia. Estas provincias no han tenido tradicionalmente universidad, por lo que
tienen que enviar los estudiantes fuera y tienen bajos costes de educación. Por el contrario,
las provincias con valores bajos de este componente z2 incluyen a Madrid y Barcelona, cen-
tros receptores netos de estudiantes de otras provincias, así como a Salamanca, Zaragoza y
Tenerife. La Tabla 5.1 presenta la ordenación de las provincias según el primer y segundo
componente. La Þgura ?? representa cada provincia en el plano de las dos primeras compo-
nentes principales. Cada punto aparece representado por sus coordenadas respecto a los ejes
deÞnidos por las componentes principales y puede interpretarse como la proyección de los
puntos, que están en un espacio de dimensión 9, tantos como variables, sobre el plano que
mejor mantiene sus distancias relativas, que es el deÞnido por las dos primeras componentes.
Proyección de los datos de la EPF sobre el plano deÞnido por las dos primeras componentes
principales
5.3.3 Generalización
Puede demostrarse análogamente que el espacio de dimensión r que mejor representa a los
puntos viene deÞnido por los vectores propios asociados a los r mayores autovalores de S.
Estas direcciones se denominan direcciones principales de los datos y a las nuevas variables
por ellas deÞnidas componentes principales. En general, la matriz X ( y por tanto la S) tiene
146 CAPÍTULO 5. COMPONENTES PRINCIPALES
Comp. 1 Comp. 2
Navarra Zamora
Madrid León
Barcelona Lugo
Lérida Toledo
Vizcaya Huesca
Gerona Murcia
Baleares Navarra
Tarragona Lérida
Guipuzcoa Segovia
Las Palmas Soria
...
...
Ciudad Real Málaga
Cuenca Salamanca
Ávila Cádiz
Teruel Madrid
Castellón Badajoz
Orense Jaén
Zamora Ceuta y Melilla
Badajoz Zaragoza
Ceuta y Melilla Huelva
Salamanca Tenerife
Jaén Barcelona
Tabla 5.1: Ordenación de las provincias de la EPF, según los dos primeros componentes
rango p, existiendo entonces tantas componentes principales como variables que se obtendrán
calculando los valores propios o raíces características, λ1, . . . , λp, de la matriz de varianzas
y covarianzas de las variables, S, mediante:
|S − λI| = 0 (5.11)
y sus vectores asociados son:
(S − λiI)ai = 0. (5.12)
Los términos λi son reales, al ser la matriz S simétrica, y positivos, ya que S es deÞnida
positiva. Por ser S simétrica si λj y λh son dos raíces distintas sus vectores asociados son
ortogonales. En efecto:
a0
hSaj = (a0
hSaj)0
= a0
jSah
a0
hSaj = a0
jλhah
y si λj 6= λh, a0
haj = a0
jah = 0 y son ortogonales.
Si S fuese semideÞnida positiva de rango p < p, lo que ocurriría si p − p variables fuesen
combinación lineal de las demás, habría solamente p raíces características positivas y el resto
serían ceros.
5.3. CALCULO DE LOS COMPONENTES 147
Llamando Z a la matriz cuyas columnas son los valores de los p componentes en los n
individuos, estas nuevas variables están relacionadas con las originales mediante:
Z = XA
donde A0
A = I. Calcular los componentes principales equivale a aplicar una transformación
ortogonal A a las variables X (ejes originales) para obtener unas nuevas variables Z incorre-
ladas entre sí. Esta operación puede interpretarse como elegir unos nuevos ejes coordenados,
que coincidan con los ”ejes naturales” de los datos.
Ejemplo 5.4 Los restantes valores propios de la matriz de covarianzas de los datos de la
EPF son 0.027, 0.0175, 0.0126, 0.0107, 0.010, 0.0059, y 0.00526. A partir del tercero son
muy pequeños y de valor similar. El tercer componente principal es
z3 = 0, 12x1 + 0, 05x2 + 0, 34x3 + 0, 11x4 − 0, 85x5 + 0, 04x6 −
0, 30x7 + 0, 20x8 + 0, 003x9 =
(0, 12x1 + 0, 05x2 + 0, 34x3 + 0, 11x4 + 0, 04x6 + 0, 20x8) −
(0, 85x5 + 0, 30x7)
y puede de nuevo interpretarse como la diferencia entre dos medias ponderadas. La
primera da sobre todo peso a las variables 3, vivienda, 8, turismo y ocio, 1, alimentación y 4
, mobiliario doméstico. La segunda a la 5, gastos sanitarios, y a la 7, enseñanza y cultura.
Separá provincias con bajos costes en sanidad y altos en vivienda y ocio de las que tengan la
estructura opuesta. La Þgura ?? representa las observaciones proyectadas sobre el plano de
las componentes primera y tercera. Se observa que la tercera dimensión es independiente de
la primera (riqueza o renta) y separa provincias con altos gastos en sanidad, como Salamanca
y Palencia, de otras de aquellas con gastos relativamente bajos en esta magnitud y más en
vivienda y ocio.
Representación de los datos de la EPF em el plano deÞnido por loso componentes primero
y tercero.
148 CAPÍTULO 5. COMPONENTES PRINCIPALES
Ejemplo 5.5 La tabla 5.2 presenta la matriz de varianzas y covarianzas entre nueve indi-
cadores económicos medidos en distintas empresas.
x1 x2 x3 x4 x5 x6 x7 x8 x9
177 179 95 96 53 32 -7 -4 -3
419 245 131 181 127 -2 1 4
302 60 109 142 4 .4 11
158 102 42 4 3 2
137 96 4 5 6
128 2 2 8
34 31 33
39 39
48
Tabla 5.2: Matriz de varianzas covarianzas de los nueve indicadores
Las raíces características de esta matriz se presentan en la tabla 5.3.
Componente 1 2 3 4 5 6 7 8 9
λi 878,5 196,1 128,6 103,4 81,2 37,8 7,0 5,7 3,5
Tabla 5.3: Autovalores de la matriz tabla 5.2
La suma de los valores propios de la matriz es 1441, 8, prácticamente igual, salvo por
errores de redondeo, a la suma de las varianzas de las variables, que es 1442. Ya veremos
que esta concordancia ocurre siempre. Los vectores propios de los tres primeros componentes
se indican en la tabla 5.4. Se observa que el primer componente principal es una media
ponderada de las primeras seis variables. El segundo contrapone la primera, la segunda y la
cuarta a la tercera y la sexta. El tercer componente contrapone las tres primeras al resto de
las variables.
Estos resultados son consistentes con la matriz de la tabla 5.2. El rasgo más característico
de esta tabla es la distinta magnitud de las seis primeras variables respecto al resto. Esto
lo recoge el primer componente principal. El segundo rasgo es la presencia de covarianzas
negativas en las Þlas de las dos primeras variables y esto se recoge en el segundo componente.
El tercero incorpora por un lado las tres últimas variables y, por otro, contrapone las tres
primeras variables frente al resto.
Componente x1 x2 x3 x4 x5 x6 x7 x8 x9
1 0.30 0.66 0.48 0.26 0.32 0.27 0.00 0.00 0.01
2 -0.48 -0.15 0.58 -0.49 -0.04 0.37 0.06 0.04 0.08
3 -0.41 -0.18 -0.23 0.45 0.49 0.27 0.26 0.28 0.29
Tabla 5.4: Vectores propios de la matriz tabla 5.2
5.4. PROPIEDADES DE LOS COMPONENTES 149
5.4 PROPIEDADES DE LOS COMPONENTES
Los componentes principales como nuevas variables tienen las propiedades siguientes:
1. Conservan la variabilidad inicial: la suma de las varianzas de los componentes es igual
a la suma de las varianzas de las variables originales, y la varianza generalizada de los
componentes es igual a la original.
Comprobemos el primer punto. Como V ar (zh) = λh y la suma de las raíces carac-
terísticas es la traza de la matriz:
tr(S) = V ar (x1) + . . . + V ar (xp) = λ1 + . . . + λp
por tanto
Pp
i=1 V ar(xi) =
P
λi =
Pp
i=1 V ar(zi). Las nuevas variables zi tienen con-
juntamente la misma variabilidad que las variables originales, la suma de varianzas es
la misma, pero su distribución es muy distinta en los dos conjuntos.
Para comprobar que los componentes principales también conservan la Varianza gen-
eralizada, valor del determinante de varianzas y covarianzas de las variables, como el
determinante es el producto de las raíces características, tenemos que, llamando Sz a
la matriz de covarianzas de los componentes, que es diagonal con términos λi :
|Sx| = λ1 . . . λp = Πp
i=1V ar(zi) = |Sz| .
2. La proporción de variabilidad explicada por un componente es el cociente entre su
varianza, el valor propio asociado al vector propio que lo deÞne, y la suma de los
valores propios de la matriz.
En efecto, como la varianza del componente h es λh, el valor propio que deÞne el
componente, y la suma de todas las varianzas de las variables originales es
Pp
i=1 λi, igual
como acabamos de ver a la suma de las varianzas de los componentes, la proporción
de variabilidad total explicada por el componente h es λh/
P
λi.
3. Las covarianzas entre cada componente principal y las variables X vienen dadas por
el producto de las coordenadas del vector propio que deÞne el componente por el valor
propio:
Cov(zi; x1, . . . xp) = λiai = (λiai1, . . . , λiaip)
donde ai es el vector de coeÞcientes de la componente zi.
Para justiÞcar este resultado, vamos a calcular la matriz p × p de covarianzas entre los
componentes y las variables originales. Esta matriz es:
Cov(z, x) = 1/nZ0
X
y su primera Þla proporciona las covarianzas entre la primera componente y las p
variables originales. Como Z = XA, sustituyendo
Cov(z, x) = 1/nA0
X0
X = A0
S = DA0
,
150 CAPÍTULO 5. COMPONENTES PRINCIPALES
donde A contiene en columnas los vectores propios de S y D es la matriz diagonal
de los valores propios. En consecuencia, la covarianza entre, por ejemplo, el primer
componente principal y las p variables vendrá dada por la primera Þla de A0
S, es decir
a0
1S o también λ1a0
1, donde a0
1 es el vector de coeÞcientes de la primera componente
principal.
4. Las correlación entre un componente principal y una variable X es proporcional al
coeÞciente de esa variable en la deÞnición del componente, y el coeÞciente de propor-
cionalidad es el cociente entre la desviación típica del componente y la desviación típica
de la variable.
Para comprobarlo:
Corr(zi; xj) =
Cov(zixj)
p
V ar(zi)V ar(xj)
=
λiaij
q
λis2
j
= aij
√
λi
sj
5. Las r componentes principales (r < p) proporcionan la predicción lineal óptima con r
variables del conjunto de variables X.
Esta aÞrmación puede expresarse de dos formas. La primera demostrando que la mejor
predicción lineal con r variables de las variables originales se obtiene utilizando las r
primeras componentes principales. La segunda demostrando que la mejor aproximación
de la matriz de datos que puede construirse con una matriz de rango r se obtiene
construyendo esta matriz con los valores de los r primeros componentes principales.
La demostración de estas propiedades puede verse en el apéndice 5.1.
6. Si estandarizamos los componentes principales, dividiendo cada uno por su desviación
típica, se obtiene la estandarización multivariante de los datos originales.
Estandarizando los componentes Z por sus desviaciónes típicas, se obtienen las nuevas
variables
Yc= ZD−1/2
= XAD−1/2
donde D−1/2
es la matriz que contienen las inversas de las desviaciónes típicas de las com-
ponentes. Hemos visto en el capítulo anterior que la estandarización multivariante de una
matriz de variables X de media cero viene dada por se deÞne como:
Ys = XAD−1/2
A0
y ambas variables están incorreladas y tienen matriz de covarianzas identidad. Se diferencian
en que unas pueden ser una rotación de las otras, lo que es indiferente al tener todas las
mismas varianzas. Por tanto,la estandarización multivariante puede interpretarse como :
(1) obtener los componentes principales;
(2) estandarizarlos para que tengan todos la misma varianza.
Esta relación se presenta gráÞcamente en la Þgura 5.2. La transformación mediante
componentes principales conduce a variables incorreladas pero con distinta varianza, puede
5.5. ANÁLISIS NORMADO O CON CORRELACIONES 151
interpretarse como rotar los ejes de la elipse que deÞnen los puntos para que coincidan
con sus ejes naturales. La estandarización multivariane produce variables incorreladas con
varianza unidad, lo que supone buscar los ejes naturales y luego estandarizarlos. En conse-
cuencia, si estandarizamos los componentes se obtiene las variables estandarizadas de forma
multivariante.
Z=XA
X
Z
(0,0)
Y=ZD
-1/2
Y=XS-1/2
Y
(0,0)
(0,0)
Figura 5.2: Representación gráÞca de la relación entre componentes principales y es-
tandarización multivariante.
5.5 ANÁLISIS NORMADO O CON CORRELACIONES
Los componentes principales se obtienen maximizando la varianza de la proyección. En
términos de las variables originales esto supone maximizar:
M =
p
X
i=1
a2
i s2
i + 2
p
X
i=1
p
X
j=i+1
aiajsij (5.13)
con la restricción a0
a = 1. Si alguna de las variables, por ejemplo la primera, tiene una vari-
anza s2
1, mayor que las demás, la manera de aumentar M es hacer tan grande como podamos
la coordenada a1 asociada a esta variable. En el límite si una variable tiene una varianza mu-
cho mayor que las demás el primer componente principal coincidirá muy aproximadamente
con esta variable.
Cuando las variables tienen unidades distintas esta propiedad no es conveniente: si dis-
minuimos la escala de medida de una variable cualquiera, de manera que aumenten en
152 CAPÍTULO 5. COMPONENTES PRINCIPALES
magnitud sus valores numéricos (pasamos por ejemplo de medir en km. a medir en metros),
el peso de esa variable en el análisis aumentará, ya que en (5.13):
(1) su varianza será mayor y aumentará su coeÞciente en el componente, a2
i , ya que con-
tribuye más a aumentar M;
(2) sus covarianzas con todas las variables aumentarán, con el consiguiente efecto de in-
crementar ai.
En resumen, cuando las escalas de medida de las variables son muy distintas, la maxi-
mización de (5.13) dependerá decisivamente de estas escalas de medida y las variables con
valores más grandes tendrán más peso en el análisis. Si queremos evitar este problema,
conviene estandarizar las variables antes de calcular los componentes, de manera que las
magnitudes de los valores numéricos de las variables X sean similares.
La estandarización resuelve otro posible problema. Si las variabilidades de las X son
muy distintas, las variables con mayor varianza van a inßuir más en la determinación de la
primera componente. Este problema se evita al estandarizar las variables, ya que entonces
las varianzas son la unidad, y las covarianzas son los coeÞcientes de correlación. La ecuación
a maximizar se transforma en:
M0
= 1 + 2
pX
i=1
pX
j=i+1
aiajrij (5.14)
siendo rij el coeÞciente de correlación lineal entre las variables ij. En consecuencia la solución
depende de la correlaciones y no de las varianzas.
Los componentes principales normados se obtiene calculando los vectores y valores propios
de la matriz R, de coeÞcientes de correlación. Llamando λR
p a las raíces características de
esa matriz, que suponemos no singular, se veriÞca que:
p
X
i=1
λR
i = traza(R) = p (5.15)
Las propiedades de los componentes extraídos de R son:
1. La proporción de variación explicada por λR
p será:
λR
p
p
(5.16)
2. Las correlaciones entre cada componente zj y las variables X originales vienen dados
directamente por a0
j
p
λj siendo zj = Xaj.
Estas propiedades son consecuencia inmediata de los resultados de la sección 5.4.
Cuando las variables X originales están en distintas unidades conviene aplicar el análisis
de la matriz de correlaciones o análisis normado. Cuando las variables tienen las mismas
5.5. ANÁLISIS NORMADO O CON CORRELACIONES 153
unidades, ambas alternativas son posibles. Si las diferencias entre las varianzas de las vari-
ables son informativas y queremos tenerlas en cuenta en el análisis no debemos estandarizar
las variables: por ejemplo, supongamos dos índices con la misma base pero uno ßuctua mu-
cho y el otro es casi constante. Este hecho es informativo, y para tenerlo en cuenta en el
análisis, no se deben estandarizar las variables, de manera que el índice de mayor variabilidad
tenga más peso. Por el contrario, si las diferencias de variabilidad no son relevantes podemos
eliminarlas con el análisis normado. En caso de duda, conviene realizar ambos análisis, y
seleccionar aquel que conduzca a conclusiones más informativas.
Ejemplo 5.6 La matriz de correlación de los nueve indicadores económicos del ejemplo5.4
es
R =














1 .66 .41 .57 .34 .21 −.09 −.05 −.03
1 .69 .51 .76 .55 −.01 .01 .03
1 .28 .54 .72 .04 .00 .09
1 .69 .30 .05 .03 .02
1 .73 .06 .07 .07
1 .03 .03 .10
1 .85 .82
1 .90
1














Los valores propios son:
λi 3.70 2.72 1.06 .70 .30 .23 .16 .09 .03
y los vectores propios asociados a los tres primeros valores propios son:
λ x1 x2 x3 x4 x5 x6 x7 x8 x9
3.7 .34 .46 .41 .36 .46 .40 .06 .06 .08
2.72 -.11 -.07 -.03 -.04 -.02 -.01 .56 .58 .57
1.06 -.54 -.05 .38 -.52 .07 .53 -.04 -.07 .00
Tabla 5.5: Vectores propios de la matriz de correlaciones
Si comparamos estos resultados con los del ejemplo 5.4 vemos que el primer vector propio
cambia apreciablemente. Con la matriz de varianzas las variables con más peso en el compo-
nente eran las que tenían una mayor varianza: la 2, luego la 3 y Þnalmente las 1,4,5 y 6 con
un peso parecido. Estos pesos siguen estrechamente la relación relativa entre las varianzas
de las variables. Sin embargo, al utilizar la matriz de correlaciones este efecto desaparece,
y el peso de las variables está más relacionado con las correlaciones. La proporción de vari-
abilidad explicada por el primer componente cambia mucho: de 878, 5/1441, 8 = 60, 9% a
3.7/9 = 41%
El segundo componente cambia completamente: ahora está prácticamente asociado a las
tres últimas variables. La proporción de variabilidad que explica ha aumentado considerable-
mente, del 196/1441, 8 = 13, 6% a 2.72/9 = 30% . El tercer vector propio es también distinto
en ambas matrices.
154 CAPÍTULO 5. COMPONENTES PRINCIPALES
Ejemplo 5.7 Consideremos los datos de INVEST publicaciones cientíÞcas en los países de
la OCDE. Los datos tienen magnitudes muy distintas (unos bancos de datos tienen muchos
más trabajos que otros). Si deseamos conservar esta propiedad, que esta asociada a que en
algunos campos cientíÞcos se publica mucho más que en otros, haremos el análisis sobre
la matriz de covarianzas. Si no queremos dar más peso a unos campos que a otros, es
conveniente realizar el análisis normado o sobre la matriz de correlación. Los resultados en
este último caso se indican en la tabla 5.6
Comp. λh Ph
Ph
i=1 Ph
1 7.630 0.954 0.954
2 0.207 0.026 0.980
3 0.121 0.015 0.995
4 0.019 0.002 0.997
5 0.017 0.002 0.999
6 0.004 0.001 1.000
7 0.001 0.000 1.000
8 0.000 0.000 1.000
Tabla 5.6: Variabilidad explicada por los componentes principales
Se observa que el primer componente principal explica una proporción muy alta de la vari-
abilidad, el 95,4%. Con los tres primeros componentes se explica el 99,5% de la variabilidad.
Además, después del tercer vector propio la variabilidad explicada disminuye claramente,
(véase la tabla 5.6 y la Þgura 5.3 )lo que indica que sólo debemos preocuparnos de los tres
primeros componentes ya que los siguientes tienen poca capacidad explicativa. En la tabla
5.7 se indican los valores de los componentes para estos tres vectores propios.
Comp. 1 Comp. 2 Comp. 3
INTER.A 0.358 -0.173 0.36
INTER.F 0.360 -0.098 0.08
AGRIC. 0.355 -0.366 -0.10
BIOLO. 0.346 -0.359 -0.69
MEDIC. 0.361 -0.070 0.15
QUIMI. 0.334 0.786 -0.41
INGEN. 0.354 0.268 0.40
FISICA 0.361 0.054 0.17
Tabla 5.7: Vectores propios de los tres primeros componentes
Ejemplo 5.8 Para interpretar los componentes consideramos sus coordenadas en las vari-
ables. Estas se indican en la tabla 5.7 y en la Þgura 5.4. Se observa que el primer componente
es un factor de tamaño, ya que es una media ponderada de todas las variables con mayor
peso de los bancos interdisciplinarios y del banco médico. El segundo componente es un fac-
tor de forma y contrapone la investigación en Química e Ingeniería frente a la realizada en
5.6. INTERPRETACIÓN DE LOS COMPONENTES 155
Figura 5.3: GráÞco para la selección del número de componentes.
Agricultura y Biología. El tercero contrapone ingeniería, física y el banco interA con respecto
a Biología y Química.
5.6 INTERPRETACIÓN DE LOS COMPONENTES
Componentes de tamaño y forma
Cuando existe una alta correlación positiva entre todas las variables, el primer componente
principal tiene todas sus coordenadas del mismo signo y puede interpretarse como un prome-
dio ponderado de todas las variables (véase el ejercicio 5.2). Se interpreta entonces como
un factor global de ”tamaño”. Los restantes componentes se interpretan como factores ”de
forma” y típicamente tienen coordenadas positivas y negativas, que implica que contraponen
unos grupos de variables frente a otros. Estos factores de forma pueden frecuentemente es-
cribirse como medias ponderadas de dos grupos de variables con distinto signo y contraponen
las variables de un signo a las del otro. Por ejemplo el segundo componente principal de
los datos de la EPF del ejercicio 5.3 puede escribirse aproximadamente, despreciando los
coeÞciente pequeños (menores que 0,1):
z2 = (0, 05x1 + 0, 16x2 + 0, 07x4 + 0, 29x6 + 0, 78x9) −
(0, 17x3 + 0, 21x5 + 0, 40x7 + 0, 17x8) ' I0 − IS
156 CAPÍTULO 5. COMPONENTES PRINCIPALES
Figura 5.4: Representación de los pesos de las dos componentes.
donde
I0 = 0, 16x2 + 0, 29x6 + 0, 78x9
es un indicador de los gastos de transporte y transferencias a otras provincias y
IS = 0, 17x3 + 0, 21x5 + 0, 40x7 + 0, 17x8
es un indicador de gastos en servicios (educación y sanidad). Además, cuando las vari-
ables van en logaritmos, los componentes suelen poder escribirse como ratios de promedios
geométricos de las variables. Por ejemplo, supongamos que un componente tiene la expresión
z1 = −0.5 log x1 + 0.3 log x2 + 0.2 log x3
este componente puede escribirse también como
z1 = 0.3 log
x2
x1
+ 0.2 log
x3
x1
que indica que es un promedio de estos dos ratios (véase el ejemplo 5.1).
La interpretación de los componentes se simpliÞca suponiendo que los coeÞcientes pequeños
son cero y redondeando los coeÞcientes grandes para expresar el componente como cocientes,
diferencias o sumas entre variables. Estas aproximaciones son razonables si modiÞcan poco
la estructura del componente y mejoran su interpretación. Una medida del cambio introduci-
do al modiÞcar un vector propio de ai a aiM es el cambio en la proporción de variabilidad
explicada por el componente. Si el valor propio asociado a ai es λi, el componente explica el
5.6. INTERPRETACIÓN DE LOS COMPONENTES 157
λi/
P
λj de la variabilidad. Si ahora modiÞcamos el vector a aiM , la varianza de la proyec-
ción de los datos sobre este componente es λiM = a0
iM SaiM = (eXaiM )0
(eXaiM )/n, la varianza
del componente, y la proporción de variabilidad explicada será λiM /
P
λj. El cambio relativo
será (λi − λiM )/λi, ya que siempre λi ≥ λiM , y si este cambio es pequeño, esta justiÞcada la
modiÞcación si favorece la interpretación.
Ejemplo 5.9 Vamos a calcular el cambio relativo que experimenta el segundo componente
principal de los datos de la EPF si despreciamos los coeÞcientes más pequeños, la varianza del
segundo componente modiÞcado es 0,0319. La varianza del componente original es 0,0320,
por lo que el cambio de explicación por tomar el coeÞciente simpliÞcado es sólo de (0,0320-
0,0319)/0,0320=1/320=0,0031.
Ejemplo 5.10 Supongamos 6 observaciones x1, . . . , x6 en dos dimensiones, cada obser-
vación corresponde a un rectángulo y las variables son longitud de la base y altura del rec-
tángulo. GráÞcamente las observaciones son,
1
2 3
4
5 6
que corresponden a la matriz de datos,
X =








2 2
1.5 0.5
0.7 0.5
0.5 1.5
0.5 0.7
0.7 0.7








aplicamos logaritmos a estos datos para facilitar la interpretación de las componentes,
log(X) =








0.301 0.301
0.176 −0.301
−0.155 −0.301
−0.301 0.176
−0.301 −0.155
−0.155 −0.155








cuya matriz de varianzas covarianzas es,
S =
·
6.39 1.41
1.41 6.39
¸
.10−2
Los autovalores y autovectores de la descomposición espectral de esta matriz son,
λ1 = 0.78 λ2 = 0, 0498
a1 =
·
0.707
0.707
¸
a2 =
·
0.707
−0.707
¸
158 CAPÍTULO 5. COMPONENTES PRINCIPALES
las dos primeras componentes son
Z1 = Xa1 = 0.707 log(X1) + 0.707 log(X2) = 0.707 log(X1X2) =








0.426
−0.088
−0.322
−0.088
−0.322
−0.219








Z2 = Xa2 = 0.707 log(X1) − 0.707 log(X2) = 0.707 log(
X1
X2
) =








0
0.337
0.103
−0.337
−0.103
0








Si ordenamos los rectángulos según el valor de la primera y segunda componente obten-
emos,
1
1
2
2
3
3
4
4
5
5
6
6
La primera ordenación coincide con la inducida por el volumen de los rectángulos, es
una transformación creciente del producto de la base por la altura, y el primer componente
describe el tamaño. El segundo componente relaciona la base con la altura y ordena las
observaciones en función de su forma.
5.6.1 Selección del número de componentes
Se han sugerido distintas reglas para seleccionar el número de componentes a mantener:
(1) Realizar un gráÞco de λi frente a i. Comenzar seleccionando componentes hasta que los
restantes tengan aproximadamente el mismo valor de λi. La idea es buscar un ”codo”
en el gráÞco, es decir, un punto a partir del cual los valores propios son aproximada-
mente iguales. El criterio es quedarse con un número de componentes que excluya los
asociados a valores pequeños y aproximadamente del mismo tamaño.
(2) Seleccionar componentes hasta cubrir una proporción determinada de varianza, como el
80% o el 90%. Esta regla es arbitraria y debe aplicarse con cierto cuidado. Por ejemplo,
5.6. INTERPRETACIÓN DE LOS COMPONENTES 159
es posible que un único componente de ”tamaño” recoja el 90% de la variabilidad y
sin embargo pueden existir otros componentes que sean muy adecuados para explicar
la ”forma” de las variables.
(3) Desechar aquellos componentes asociados a valores propios inferiores a una cota, que
suele Þjarse como la varianza media,
P
λi/p. En particular, cuando se trabaja con
la matriz de correlación, el valor medio de los componentes es 1, y esta regla lleva a
seleccionar los valores propios mayores que la unidad. De nuevo esta regla es arbitraria:
una variable que sea independiente del resto suele llevarse un componente principal
(véase ejercicio 5.8) y puede tener un valor propio mayor que la unidad. Sin embargo,
si esta incorrelada con el resto puede ser una variable poco relevante para el análisis,
y no aportar mucho a la comprensión del fenómeno global.
5.6.2 Representación gráÞca
La interpretación de los componentes principales se favore representando las proyecciones de
las observaciones sobre un espacio de dimensión dos, deÞnido por parejas de los componentes
principales más importantes. Este punto se ha ilustrado en los ejemplos anteriores, donde se
ha indicado que la proyección de cualquier observación sobre un componente es directamente
el valor del componente para esa observación. La representación habitual es tomar dos
ejes ortogonales que representen los dos componentes considerados, y situar cada punto
sobre ese plano por sus coordendas con relación a estos ejes, que son los valores de los dos
componentes para esa observación. Por ejemplo, en el plano de los dos primeros componentes,
las coordenadas del punto xi son z1i = a0
1xi y z2i = a0
2xi.
La interpretación se favorece representando en el mismo plano además de las observa-
ciones las variables originales. Esto puede hacerse utilizando como coordenadas su coeÞciente
de correlación con cada uno de los ejes. El vector de correlaciones entre el primer compo-
nente y las variables originales viene dado por λ
1/2
1 a0
1D, donde D es una matriz diagonal
cuyos términos son las inversas de las desviaciones típicas de cada variable. La matriz de
correlaciones Rcv entre los p componentes y las p variables tendrá como Þlas los términos
λ
1/2
j a0
jD y puede escribirse
Rcv = Λ1/2
AD
donde A es la matriz de vectores propios, Λ1/2
es la matriz diagonal con términos
√
λi y En
el análisis normado como las variables se estandarizan a varianza unidad las correlaciones
será simplemente Λ1/2
A.
Una representación equivalente es el biplot que presentamos en la sección siguiente. Tiene
la ventaja de representar al mismo tiempo las variables y las observaciones en un mismo
gráÞco.
Conviene investigar si transformando las variables se obtiene una interpretación más sim-
ple. Como regla general, cuando al tomar logaritmos las variables X tienen una distribución
aproximadamente simétrica, conviene realizar el análisis de componentes principales sobre
los logaritmos de las variables.
160 CAPÍTULO 5. COMPONENTES PRINCIPALES
Es importante recordar que las covarianzas (o correlaciones) miden únicamente las rela-
ciones lineales entre las variables. Cuando entre ellas existan relaciones fuertes no lineales el
análisis de componentes principales puede dar una información muy parcial de las variables.
Ejemplo 5.11 La Þgura 5.5 presenta la proyección de los datos de INVEST, los países de
la OCDE, sobre el plano formado por los dos primeros componentes principales extraídos de
la matriz de correlación, que se estudiaron en el ejemplo 5.6. Se observa que el primer eje
ordena a los países por su cantidad de investigación, mientras que el segundo tiene en cuenta
sus características: separa a Japón, con gran énfasis en investigación tecnológica, del Reino
Unido, que tiene más énfasis en la investigación biomédica
Figura 5.5: Proyección de las observaciones en las dos primeras componentes principales.
Como indicamos en el Capítulo la observación de EEUU es atípica y existe una marcada
asimetría en las distribuciones de las variables. Vamos a presentar los datos excluyendo
a EEUU y con una transformación logarítmica de las variables para reducir la asimetría.
La Þgura 5.6 muestra el nuevo diagrama de cajas múltiple.Como la varianza de las nuevas
variables transformadas es similar, el análisis de componentes principales se realizará direc-
tamente sobre la matriz de varianzas covarianzas. Los resultados obtenidos Þguran en las
tablas 5.8 y5.9
Los tres primeros componentes explican el 97% de la variabilidad y tienen la siguiente
interpretación. El primero es una media ponderada de todos los bancos con mayo peso del
5.6. INTERPRETACIÓN DE LOS COMPONENTES 161
4681012
INTER.A INTER.F AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FISICA
Figura 5.6: Diagrama de cajas de los logaritmos de las variables de INVEST una vez elimi-
nado EEUU.
λh Ph
Ph
i=1 Ph
Comp. 1 14.98 0.90 0.90
Comp. 2 0.83 0.05 0.94
Comp. 3 0.50 0.03 0.97
Comp. 4 0.21 0.01 0.99
Comp. 5 0.10 0.01 0.99
Comp. 6 0.08 0.00 1.00
Comp. 7 0.02 0.00 1.00
Comp. 8 0.02 0.00 1.00
Tabla 5.8: Variabilidad explicada por los componentes principales
162 CAPÍTULO 5. COMPONENTES PRINCIPALES
banco químico. El segundo, contrapone la investigación en Química frente a la general del
banco INTER.F y a la de ingeniería y física. El tercero contrapone el banco INTER.F y
Química al resto.
Comp. 1 Comp. 2 Comp. 3
INTER.A 0,31 0,05 -0,40
INTER.F 0,37 0,63 0,63
AGRIC. 0,30 0,07 -0,14
BIOLO. 0,27 -0,06 -0,30
MEDIC. 0,32 0,01 -0,25
QUIMI. 0,56 -0,70 0,41
INGEN. 0,28 0,25 -0,18
FÍSICA 0,32 0,21 -0,26
Tabla 5.9: Pesos de las tres primeras componentes principales
Los países proyectados en estos tres componentes se presentan en la Þgura 5.7. Se ha
añadido también la proyección sobre el cuarto componente, que separa completamente a UK
de Japón.
5.6.3 Datos atípicos
Antes de obtener los componentes principales conviene asegurarse de que no existen datos
atípicos, ya que, como hemos visto en el capítulo anterior, los atípicos pueden distorsionar
totalmente la matriz de covarianzas.
Para ilustrar su efecto sobre los componentes, supongamos el caso más simple en que un
error de medida en una variable introduce un valor atípico grande en la primera variable. Su
efecto será aumentar mucho la varianza de esta variable y disminuir las covarianzas con las
restantes, con lo que, si hacemos el atípico muy grande, la matriz S será, aproximadamente:
·
σ2
1 . . . 00
0 S22
¸
donde 00
= (0, 0, ..., 0). Esta matriz tiene un vector propio (1, 0, . . . , 0) unido al valor propio
σ2
1 y si σ2
1 es muy grande este será el primer componente principal. Por tanto, un valor
atípico suÞcientemente grande distorsiona todos los componentes que podemos obtener de
la matriz afectada (véase el ejemplo 5.9).
El resultado anterior sugiere que las componentes principales podrían utilizarse para
detectar datos atípicos multivariantes, ya que un valor muy extremo se llevara un componente
principal y aparecerá como extremo sobre esta componente. Desgraciadamente, aunque los
componentes pueden identiÞcar atípicos aislados, no hay garantía de que funcionen cuando
existen grupos de atípicos, debido al problema de enmascaramiento. Por esta razón conviene
utilizar para detectarlos el método presentado en el capítulo anterior, basado en proyecciones
sobre las direcciones extremas de kurtosis, que al ser capaz de identiÞcar todos los posibles
atípicos permite calcular una la matriz de covarianzas libre de distorsiones graves.
5.6. INTERPRETACIÓN DE LOS COMPONENTES 163
Comp. 1
Comp.2
-5 0 5
-2-1012
UK
JP
F
G
CIA
H
SCH
E
B
D
AU
FIN
Y
GR
IR
P
Comp. 1
Comp.3
-5 0 5
-2.0-1.00.01.0
UK
JPFG
C
IA
HS
CH
E
B
D
AU
FI
N
Y
GR
IR
P
Comp. 1
Comp.4
-5 0 5
-1.0-0.50.00.5
UK
JP
F
G
C
I
A
H
S
CH
E
B
DAU
FI
N
Y
GR
IR
P
Comp. 2
Comp.3
-2 -1 0 1 2
-2.0-1.00.01.0
UK
JP F G
C
IA
HS
CH
E
B
D
AU
FI
N
Y
GR
IR
P
Comp. 2
Comp.4
-2 -1 0 1 2
-1.0-0.50.00.5
UK
JP
F
G
C
I
A
H
S
CH
E
B
D AU
FI
N
Y
GR
IR
P
Comp. 3
Comp.4
-2.0 -1.0 0.0 0.5 1.0
-1.0-0.50.00.5
UK
JP
F
G
C
I
A
H
S
CH
E
B
D AU
FI
N
Y
GR
IR
P
Figura 5.7: Representación de las observaciones de INVEST en losplanos deÞnidos por las
cuatro primeras componentes.
5.6.4 Distribución de los componentes
Los componentes principales pueden verse como un conjunto nuevo de variables y estudiar
su distribución individual y conjunta. Por construcción estarán incorrelados, pero pueden
exitir fuertes relaciones no lineales entre ellos.
Ejemplo 5.12 Vamos a calcular los componentes principales de la matriz de correlación
de las 27 medidas físicas, MEDIFIS. Aunque todas las variables van en centímetros, los
tamaños de las variables son muy distintos, lo que aconseja utilizar la matriz de correlación.
La proporción de varianza que explica cada vector propio se indica en la tabla 5.10
Para decidir cuántos componentes tomar utilizaremos la Þgura 5.8 que indica que a partir
del tercer componente hay una caída en la capacidad predictiva. Los tres primeros compo-
nentes explican conjuntamente el 93.5% de la variabilidad.
164 CAPÍTULO 5. COMPONENTES PRINCIPALES
λh 5.56 0.62 0.39 0.17 0.14 0.10 0.05
Ph% 78.96 8.87 5.65 2.48 1.98 1.37 0.68
Tabla 5.10: Variabilidad explicada por las componentes
Figura 5.8: GràÞco para seleccionar el número de componentes.
Los tres primeros vectores propios son:
est pes pie lbr aes dcr drt
Comp. 1 .41 .39 .40 .39 .38 .29 .37
Comp. 2 -.16 .04 -.20 -.30 .11 .89 -.15
Comp. 3 .04 -.29 .13 -.15 -.57 .20 .71
El primer componente es una media de todas las medidas físicas, y por tanto una medida del
tamaño del cuerpo, siendo la variable con menor peso el diámetro del cráneo. La segunda
variable es de forma, y esta dominada por el diámetro del cráneo. Observemos que esta
variable está poco correlada con el resto y, por lo tanto, arrastra ella sola un componente
principal, ya que no puede explicarse como combinación de otras. El tercer componente
principal diferencia longitud frente a anchura: da mayor peso a la longitud de la pierna (drt)
y lo contrapone al peso y a la anchura de la espalda.
La Þgura 5.9 presenta un gráÞco de las observaciones sobre el plano de los dos primeros
componentes principales. Las coordenadas son las puntuaciones estandarizadas z∗
i = X∗
ai, i =
1, 2, donde X∗
es la matriz de variables estandarizadas (de media cero y varianza uno). En
este gráÞco cada punto se indica con un 1, cuando la observación corresponde a un varón
y un 0 cuando es mujer. Puede verse que la primera componente de ”tamaño” separa casi
perfectamente los hombres de las mujeres. El segundo componente no parece reßejar ningún
efecto del sexo. Observemos que la primera componente es capaz, por si misma, de explicar
casi el 80% de variabilidad. Dado que el diámetro del cráneo está poco correlado con el resto
5.6. INTERPRETACIÓN DE LOS COMPONENTES 165
de las variables, siendo casi en exclusiva responsable de una dimensión, vamos a repetir el
análisis eliminando esta variable.
Figura 5.9: Proyección de las observaciones en las dos primeras componentes principales.
Los resultados de eliminar la variable diámetro del cráneo del análisis se presentan en la
tabla siguiente. Se incluyen los dos primeros valores y vectores propios que explican por sí
mismos el 92% de la variabilidad.
λh Ph% est pes pie lbr aes drt
5.1 85 .43 .41 .42 .41 .39 .38
.4 7 .08 -.32 .17 -.04 -.60 .71
Corr(z1xi) .97 .93 .95 .93 .88 .86
Corr(z2xi) .05 -.20 .11 -.030 -.38 .45
El primer componente es de nuevo una media ponderada que indica el tamaño de las personas,
dando el mayor peso a la estatura de la persona. El segundo es de forma, ya que contrapone
la longitud de la pierna a la anchura de la espalda y tiene peso positivo en las longitudes (del
pie y estatura), y negativo en el peso. La proyección de los datos sobre el plano deÞnido por
los dos componentes se presenta en la Þgura 5.10. Se observa que el primer componente de
”tamaño” separa como antes los hombres de las mujeres, y que el segundo componente al ser
166 CAPÍTULO 5. COMPONENTES PRINCIPALES
ortogonal al tamaño no parece depender del sexo. Este componente separa para ambos sexos
pesonas con constitución delgada de gruesa.
La Þgura 5.11 presenta de forma gráÞca las correlaciones entre el primer y segundo com-
ponente y cada variable, calculadas como
p
λhahj. Se observa que el primer componente está
correlado con la altura y las restantes longitudes, mientras que el segundo está especialmente
relacionado con la longitud de la pierna y la anchura de la espalda.
Figura 5.10: Proyección de las observaciones en las dos primeras componentes principales.
Ejemplo 5.13 Vamos a analizar la base de datos de MUNDODES (tabla A.6 del Anéxo).
Esta matriz de datos está constituida por 91 países en los que se han observado 9 variables:
X1: ratio de natalidad, X2: ratio de mortalidad, X3: mortalidad infantil, X4: esperanza de
vida en hombres X5: esperanza de vida de mujeres y X6: PNB per capita.
La representación gráÞca de las variables dos a dos, presentada en el capítulo anterior,
muestra relaciones claramente no lineales. Aplicando transformaciones logarítmicas a las
variables mejoramos la linealidad en estas relaciones dos a dos.
Como las variables están medidas en distintas unidades se debe realizar un análisis de
componentes principales normado (basado en la matriz de correlaciones), los resultados se
presentan en la Þgura 5.12.
La Þgura 5.13 presenta el gráÞco en forma de codo para seleccionar el número de compo-
nentes. El primer valor propio es 4.7278, y explica el 78,8% de la variabilidad. El segundo
es 0.7261, y explica el 12%. Hay un valor propio de 0,002 que corresponde a una variable
que es practicamente constante. Los vectores propios se presentan a continuación.
5.6. INTERPRETACIÓN DE LOS COMPONENTES 167
Figura 5.11: Correlación de las variables con las componentes principales.
variable PC1 PC2 PC3 PC4 PC5 PC6
X1 -0.454 0.034 -0.130 0.159 0.378 0.780
X2 0.416 0.196 0.513 0.683 0.233 0.067
X3 0.341 -0.680 -0.524 0.307 0.225 -0.031
X4 0.440 -0.052 0.222 -0.632 0.578 0.145
X5 -0.452 0.085 -0.029 0.114 0.639 -0.605
X6 -0.326 -0.699 0.628 -0.039 -0.100 0.002
168 CAPÍTULO 5. COMPONENTES PRINCIPALES
Comp. 1 Comp. 2 Comp. 3 Comp. 4 Comp. 5 Comp. 6
01234
p p p
Variances
0.796
0.923
0.967
0.988 0.997 1
Figura 5.12: Proporción de variabilidad explicada por cada componente para los datos de
MUNDODES.
Figura 5.13:
El primer componente explica el 79% de la variabilidad, el segundo corresponde a un
valor propio inferior a 1, pero lo incluiremos para interpretarlo. La primera componente se
puede interpretar como una medida de desarrollo de un país, dado que las variables con peso
5.6. INTERPRETACIÓN DE LOS COMPONENTES 169
positivo son las esperanzas de vida de hombres y mujeres y la renta, mientras que las de peso
negativo son la mortalidad infantil y las tasas de natalidad y mortalidad, que son bajas en
los países más desarrollados. El segundo componente esta asociado a la mortalidad infantil
y a la renta, con lo que resulta de diÞcil interpretación ya que mide una dimensión que está
incorrelada con el primer término de desarrollo. Para interpretarla, la Þgura 5.14 muestra los
paises en el plano de los dos componentes. Se observa que existe una fuerte relación no lineal
entre ambos y aunque los componentes están incorrelados no son claramente independientes.
El primer componente podemos suponer que ordena a los países por desarrollo y el segundo
tiene en cuanta la mortalidad infantil y tiene una relación no lineal con la renta.
Figura 5.14: Representacion de los dos primeros componentes para los datos de Mundodes
En los diagramas de dispersión vimos que relaciones entre las variables eran no lineales,
por lo que vamos a repetir el análisis para las variables en logaritmos. Los valores propios de
la matriz de correlaciones de las variables en logaritmos no cambian mucho, pero los vectores
propios sí lo hacen. Son ahora:
PC1 PC2 PC3 PC4 PC5 PC6
0.403 0.435 -0.376 -0.436 -0.562 0.033
0.307 -0.831 0.011 -0.457 -0.077 -0.020
0.433 0.267 -0.023 -0.331 0.793 0.051
-0.441 0.147 0.224 -0.531 0.019 -0.672
-0.446 0.071 0.213 -0.454 -0.012 0.738
-0.403 -0.149 -0.873 -0.057 0.223 -0.008
El primero sigue siendo una medida de desarrollo pero ahora el segundo esta sobre todo
ligado a la tasa de mortalidad. Separa paises con alta tasa de mortalidad de los de baja.
Vemos que el último vector propio también tiene una interesante interpretación. Nos dice
que la diferencia en logaritmos entre las esperanzas de vida de hombres y mujeres es prácti-
camente constante en todos los países, ya que el valor propio que corresponde a este vector
170 CAPÍTULO 5. COMPONENTES PRINCIPALES
propio es muy pequeño (0,015). Los pesos asociados a cada una de las variables se presentan
en la Þgura 5.15
EspMuj EspHom MortInf PNB TasaNat. TasaMort
-0.40.2
Comp. 1
TasaMort TasaNat. MortInf PNB EspHom EspMuj
-0.40.4
Comp. 2
Figura 5.15: Pesos de las variables en los dos primeros componentes para los datos de
MUNDODES
La Þgura 5.16 presenta la representación de los paises en los dos primeros componentes.
El primero es una medida del desarrollo y el segundo depende principalmente de la tasa de
mortalidad, y separa paises que tienen alto (o bajo) valor aparente de desarrollo de otros
que tienen una mortalidad mucho mayor de la que correspondería de acuerdo a su nivel
de desarrollo. Ambas dimensiones estan incorreladas pero no son independientes, como se
observa en la Þgura. Sin embargo, el grado de dependencia entre las variables es menor que
con las variables sin transformar.
Figura 5.16: GraÞco de los datos de Mundodes sobre los dos primeros componentes princi-
pales de los datos en logaritmos.
5.7. GENERALIZACIONES 171
5.7 Generalizaciones
La idea de componentes principales puede extenderse para buscar representaciones no lin-
eales de los datos que expliquen su estructura. Este enfoque es especialmente interesante
si sospechamos que los datos pueden disponerse siguiendo una determinada superÞcie en
el espacio. Como hemos visto los vectores propios ligados a valores propios próximos a
cero sonmuy importantes porque revelan relaciones de poca variabilidad de los datos. Por
ejemplo, supongamos para simpliÞcar una variable bidimensional donde, aproximadamente,
f(x1) + f(x2) = c. Entonces, si hacemos componentes principales de las cuatro variables
(x1, x2, f(x1), f(x2), ) encontraremos un valor propio muy próximo a cero con un vector pro-
pio de la forma (0,0, 1,1).
Generalizando esta idea, si existe una relación cualquiera no lineal entre las variables,
como esta relación podemos aproximarla por una relación polinómica
f(x1, ..., xp) =
X
aixi +
X
bijxixj +
X
cijkxixjxk + ...
si incluimos nuevas variables adicionales como x2
1, ..., x2
p o productos de variables x1x2 etc
y extraemos los componentes principales de la matriz de correlaciones entre todas estas
variables, si los puntos tienen una relación no lineal esta se detectará ligada a un valor propio
próximo a cero. Este enfoque se conoce a veces como componentes principales generalizados,
y el lector interesado puede encontrar ejemplos de su aplicación en Gnandesikan (1977).
El inconveniente de introducir nuevas variables, transformaciones de las iniciales, es que
inmediatamente aumenta mucho la dimensión del problema con lo que si la muestra no es muy
grande podemos tener una matriz de correlaciones singular. Por otro lado la interpretación
de los resultados de este análisis, salvo en casos muy especiales, no suele ser fácil, con lo que
esta herramienta no suele ayuda mucho en para la exploración de datos multivariantes.
5.8 Lecturas complementarias
Todos los textos generales de análisis multivariante que se indican en las referencias estudian
componentes principales. Johnson y Wichern (1998) y Rechner (1998) son buenas presenta-
ciones con similar Þlosofía a la utilizada en el libro mientras que Flury (1997) presenta un
enfoque distinto al aquí expuesto. Componentes principales es un caso particular de los
métodos de proyección introducidos en la sección 4.2.3 que se conocen como Projection Pur-
suit (Búsqueda de la Proyección). Véase Krzanowski y Marriot (1994) para más detalles.
Un excelente tratado sobre componentes principales y sus extensiones es el libro de Jackson
(1991), que contiene numerosas referencias. La idea de componentes principales puede ex-
tenderse al caso no lineal, y Gnanadesikan (1997) es una buena referencia. Los componentes
principales puede aplicarse para investigar si varios grupos de datos tienen componentes
comunes. Este aspecto ha sido investigado por Krzanowski (1979) y Flury (1984, 1986).
Cuadras, C.M. (1991) y Aluja, T. y Morineau, A. (1999) son buenas referencias en español.
EJERCICIOS
172 CAPÍTULO 5. COMPONENTES PRINCIPALES
Ejercicio 5.1 Dada la matriz de covarianzas
S =


1 + d 1 1
1 1 + d 1
1 1 1 + d


encontrar los componentes principales. Calcular la proporción de variabilidad explicada por
cada uno y las correlaciones entre los componentes y las variables. Interpretar los compo-
nentes en función del tamaño de d.
Ejercicio 5.2 Dada la matriz de correlación:
S =




1 d d d
d 1 d d
d d 1 d
d d d 1




encontrar la primera componente principal. (Nota, utilizar que
P
= [d.1.10
+ (1 − d)I] para
encontrar los componentes y discutir su interpretación).
Ejercicio 5.3 Supongamos que Z, X1, ..., Xp tienen una distribución normal (p + 1) dimen-
sional. Sean Y1, ..., Yp los componentes principales de X1, ..., Xp. Demostrar que el coeÞciente
de correlación múltiple de las regresiones:
Z =
X
aiXi
Z =
X
biYi
es idéntico.
Ejercicio 5.4 Demostrar que si S =
·
A 0
0 B
¸
, donde A y B son no singulares de rango
rA y rB los vectores propios de S son de la forma (u1, 0) y (0, u2), donde u1 es un vector
propio de A y u2 un vector propio de B.
Ejercicio 5.5 Indicar las implicaciones del resultado del ejercicio 5.4 para calcular compo-
nentes principales.
Ejercicio 5.6 Demostrar que si S =
·
A 0
0 B
¸
los valores propios de S son los de A más
los de B.
Ejercicio 5.7 Demostrar que el espacio que maximiza la varianza generalizada de la proyec-
ción es el deÞnido por z1 = Xa1 y z2 = Xa2 donde z1 y z2 son los dos primeros componentes
principales.
5.8. LECTURAS COMPLEMENTARIAS 173
Ejercicio 5.8 Demostrar que si una variable x1 está incorrelada con el resto de manera que
la matriz S tiene la forma S =
·
s2
1 00
0 S2
¸
donde 0 y 00
son vectores de ceros, la matriz S
tiene un componente principal asociado únicamente a la primera variable, es decir, el vector
(1, 0...0) es un vector propio de S.
Ejercicio 5.9 Demostrar que la dirección donde la variabilidad de la proyección es mínima
es la dada por el vector propio ligado al menor valor propio de la matriz de covarianzas.
Ejercicio 5.10 Demostrar la siguiente acotación para formas cuadráticas : λminw0
w ≤
w0
Bw ≤ λmaxw0
w, donde λmin y λmax son el menor y el mayor valor propio de la matriz
B. (Sugerencia, maximizar la forma cuadrática como se hizo para obtener el primer compo-
nente principal)
APÉNDICE 5.1. DISTANCIAS ENTRE PUNTOS Y
PROYECCIONES
Vamos a demostrar que maximizar las distancias al cuadrado entre los puntos proyectados
equivale a maximizar la varianza de la variable deÞnida por las proyecciones de los puntos.
Sea zi = a0
1xi la proyección de una observación sobre la dirección a1, donde suponemos a0
1a1 =
1. La variable zi tendrá media cero ya que si las x tienen media cero
Pn
i=1 zi =
Pn
i=1 a0
1xi =
a0
1
Pn
i=1 xi = 0. La suma de las distancias al cuadrado entre los puntos proyectados es
Dp =
nX
i=1
nX
h=i+1
(zi − zh)2
.
Para interpretar este sumatorio observemos que cada término zi aparece al cuadrado
n − 1, veces ya que cada punto se compara con los otros n − 1, y que habrá tantos dobles
productos como parejas de puntos, es decir
¡n
2
¢
= n(n − 1)/2. Por tanto:
Dp = (n − 1)
nX
i=1
z2
i − 2
nX
i=1
nX
h=i+1
zizh = n
X
z2
i − B
siendo B :
B =
nX
i=1
z2
i + 2
nX
i=1
nX
h=i+1
zizh
que puede escribirse,
B = z1(z1 + z2 + . . . zn) + z2(z1 + . . . + zn) + . . . zn(z1 + . . . + zn)
=
nX
i=1
zi
nX
i=1
zi = 0.
174 CAPÍTULO 5. COMPONENTES PRINCIPALES
Por tanto, maximizar las distancias entre los puntos equivale a maximizar:
A = n
X
z2
i
que es el criterio de maximizar la varianza de la nueva variable, obtenida anteriormente.
Algunos autores han propuesta minimizar
X X
wij(dij − bdij)2
donde wij es una función de ponderación. El problema así planteado no tiene una solu-
ción simple y debe resolverse mediante un algoritmo iterativo no lineal. Veáse por ejemplo
Krzanowski (1990, cap2).
APÉNDICE 5.2. LOS COMPONENTES COMO PRE-
DICTORES ÓPTIMOS
Demostraremos que los componentes principales son predictores óptimos de las X. Comence-
mos demostrando que si queremos aproximar la matriz X, de rango p, por otra matriz bXr
de rango r < p, la aproximación óptima es XArA0
r = ZrA0
r, donde la matriz Ar es p × r y
sus columnas son los vectores propios asociados a los r mayores valores propios de la matriz
S.
El problema de aproximar la matriz X puede establecerse así: Consideremos un espacio
de dimensión r deÞnido por una base Ur ortonormal, donde Ur es p×r y U0
rUr = I. Se desea
encontrar una aproximación de la matriz X utilizando una base de ese espacio, es decir,
queremos prever cada una de las Þlas (x1, ..., xn) de la matriz, donde xi es el vector p × 1 de
observaciones en el elemento i de la muestra, mediante los vectores Ur. La predicción de la
variable xi será la proyección ortogonal sobre el espacio generado por estos vectores que es
bxi = UrU0
rxi
y queremos determinar los vectores Ur tal que el error cuadrático de aproximación total para
todas las Þlas de la matriz, dado por
E =
p
X
j=1
nX
i=1
(xij − bxij)2
=
nX
i=1
(xi − bxi)0
(xi − bxi) (5.17)
sea mínimo. El error puede escribirse
E =
nX
i=1
xi
0
xi −
nX
i=1
xi
0
UrU0
rxi (5.18)
y minimizar el error equivale a maximizar el segundo término. Utilizando que un es-
calar es igual a su traza,
Pn
i=1 xi
0
UrU0
rxi = tr(
Pn
i=1 xi
0
UrU0
rxi) =
Pn
i=1 tr(UrU0
rxixi
0
) =
tr(UrU0
r
Pn
i=1 xixi
0
). Introduciendo que S =
Pn
i=1 xixi
0
/n y sustituyendo en tr(UrU0
r
Pn
i=1 xixi
0
),
tenemos que esta expresión es ntr(UrU0
rS) = ntr(U0
rSUr). Por tanto:
nX
i=1
xi
0
UrU0
rxi = ntr(U0
rSUr) (5.19)
5.8. LECTURAS COMPLEMENTARIAS 175
Según esta expresión, minimizar el error (5.18) implica encontrar un conjunto de vectores
Ur = [u1, ..., ur] que maximicen la suma de los elementos diagonales de U0
rSUr, es decir,Pr
j=1 u0
jSuj. Si r = 1, este es el problema que se ha resuelto para encontrar el primer
componente. Si r = 2, como el nuevo vector debe ser ortogonal al primero, obtenemos el
segundo componente, y así sucesivamente. Por tanto, Ur = Ar, y la aproximación óptima a
la matriz X vendrá dada por bXr = XArA0
r. Además, como en (5.18) el primer término es
nX
i=1
xi
0
x = tr(
nX
i=1
xi
0
x) =
nX
i=1
tr(xi
0
x) =
tr
nX
i=1
(xxi
0
) = ntr(S) =n
p
X
i=1
λi
y el segundo es, según (5.19), igual a n
Pr
i=1 λi , tenemos que el error de la aproximación
será n
Pp
i=r+1 λi.
Es interesante señalar que esta aproximación a una matriz es la que proporciona la
descomposición en valores singulares, es decir la mejor aproximación a la matriz X por otra
matriz bXr de rango r < p es
bXr = UrD1/2
r V0
r =
rX
i=1
λ
1/2
1 uiv0
i
donde Ur es la matriz de los r mayores vectores propios de XX0
, D
1/2
r contiene los r mayores
valores propios y Vr contiene los vectores propios de X0
X.
. En efecto, según hemos visto en
la sección 5.7 bXr = ZrA0
r, que es el resultado anterior.
El problema puede enfocarse desde otro punto de vista. Busquemos unas variables
[z1, ..., zr] que sean combinaciones lineales de las originales y que tengan la propiedad de
preverlas de manera óptima. Por ejemplo, si r = 1, buscamos un vector a1 de manera que
la nueva variable:
z1 = Xa1
permita prever con mínimo error los valores observados para el conjunto de variables que
forman las columnas de la matriz X. Por ejemplo, el valor previsto para la variable xj en
el individuo i, bxij, conocido el valor de la variable z1 para ese individuo, z1i será:
bxij = bjz1i
y el error de predicción será eij = xij − bxij. Vamos a demostrarlo para simpliÞcar en el caso
r = 1. Calcularemos el vector a1 para que minimice estos errores de predicción. Es conocido
que el coeÞciente de regresión bj viene dado por:
bj =
Pn
i=1 xijz1i
P
z2
1i
(5.20)
176 CAPÍTULO 5. COMPONENTES PRINCIPALES
como 1/n
P
z2
1i = 1/na0
X0
Xa = a0
Sa, la varianza de z1 puede crecer indeÞnidamente si no
imponemos ninguna restricción. Exigiremos que sea unitaria, es decir que:
a0
Sa = 1 = (1/n)
X
z2
1i (5.21)
Entonces:
bj = 1/n
X
xijz1i = 1/nX0
jXa1 = V0
ja1 (5.22)
donde Vj es el vector Þla j de la matriz S de varianzas y covarianzas. Impongamos la
condición mínimo cuadrática para obtener a1:
1
n
nX
i=1
e2
ij = M´õnimo =
1
n
nX
i=1
¡
xij − V0
ja1z1i
¢2
y el segundo miembro puede escribirse:
1
n
nX
i=1
x2
ij +
1
n
a0
1VjV0
ja1
nX
i=1
z2
1i − 2V0
ja
1
n
nX
i=1
xijz1i
utilizando ahora (5.21) y (5.22), se obtiene
1
n
nX
i=1
e2
ij =
1
n
nX
i=1
x2
ij − a0
1VjV0
ja1.
Aplicando este mismo razonamiento a las otras variables X y sumando para todas ellas:
M =
1
n
nX
i=1
p
X
j=1
e2
ij =
1
n
nX
i=1
p
X
j=1
x2
ij −
p
X
j=1
a0
1VjV0
ja1
como el primer miembro es la traza de S que es Þja, maximizar M equivale a minimizar:
a0
1
p
X
j=1
VjV0
ja1 = a0
1SS0
a0
1 = a0
1S2
a1 (5.23)
ya que S es simétrica. Por lo tanto, el problema es minimizar la expresión (9.14) con la
restricción (5.21):
L = a0
1S2
a1 − λ(a1Sa1 − 1)
5.8. LECTURAS COMPLEMENTARIAS 177
∂L
∂a
= 2S2
a−λ2Sa = 0
S2
a = λSa
de donde incluimos que a debe de ser un vector propio de S y λ un valor propio, ya que si:
Sa = λa
multiplicando por S
S2
a = λSa
Con lo que Þnaliza la demostración. Es interesante resaltar que este resultado es simple-
mente la implicación estadística de la propiedad que tienen los vectores y raíces característicos
de ”generar” la matriz de base.
178 CAPÍTULO 5. COMPONENTES PRINCIPALES
Capítulo 6
ESCALADO MULTIDIMENSIONAL
6.1 INTRODUCCIÓN
Las técnicas de escalado multidimensional son una generalización de la idea de componentes
principales cuando en lugar de disponer de una matriz de observaciones por variables, como
en componentes principales, se dispone de una matriz, D, cuadrada n × n de distancias
o disimilaridades entre los n elementos de un conjunto. Por ejemplo, esta matriz puede
representar las similitudes o distancias entre n productos fabricados por una empresa, las
distancias percibidas entre n candidatos políticos, las diferencias entre n preguntas de un
cuestionario o las distancias o similitudes entre n sectores industriales. Estas distancias
pueden haberse obtenido a partir de ciertas variables, o pueden ser el resultado de una
estimación directa, por ejemplo preguntando a un grupo de jueces por sus opiniones sobre
las similaridades entre los elementos considerados.
El objetivo que se pretende es representar esta matriz mediante un conjunto de variables
ortogonales y1, . . . , yp, donde p < n , de manera que las distancias euclídeas entre las coor-
denadas de los elementos respecto a estas variables sean iguales (o lo más próximas posibles)
a las distancias o disimilaridades de la matriz original. Es decir, a partir de la matriz D
se pretende obtener una matriz X, de dimensiones n × p, que pueda interpretarse como la
matriz de p variables en los n individuos, y donde la distancia euclídea entre los elementos
reproduzca, aproximadamente, la matriz de distancias D inicial. Cuando p > 2, las vari-
ables pueden ordenarse en importancia y suelen hacerse representaciones gráÞcas en dos y
tres dimensiones para entender la estructura existente.
Este planteamiento presenta dos interrogantes: ¿Es siempre posible encontrar estas vari-
ables? ¿Cómo construirlas? En general no es posible encontrar p variables que reproduzcan
exactamente las distancias iniciales, sin embargo es frecuente encontrar variables que repro-
duzcan aproximadamente las distancia iniciales. Por otro lado, si la matriz de distancias se
ha generado calculando las distancias euclídeas entre las observaciones deÞnidas por ciertas
variables, recupereraremos las componentes principales de estas variables.
El escalado multidimensional comparte con componentes principales el objetivo de de-
scribir e interpretar los datos. Si existen muchos elementos, la matriz de similaridades será
muy grande y la representación por unas pocas variables de los elementos nos permitirá
entender su estructura: qué elementos tienen propiedades similares, si aparecen grupos entre
179
180 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL
los elementos, si hay elementos atípicos, etc. Además, si podemos interpretar las variables
aumentará nuestro conocimiento del problema, al entender cómo se han generado los datos.
Por ejemplo, supongamos que se realiza una encuesta para determinar que similitudes en-
cuentran los consumidores entre n productos o servicios, y que la información se resume en
una matriz cuadrada de similitudes entre los productos. Supongamos que descubrimos que
estas similitudes pueden generarse por dos variables. Entonces, es razonable suponer que los
consumidores han estimado la similitud entre los productos utilizando estas dos variables.
El escalado multidimensional representa un enfoque complementario a componentes prin-
cipales en el sentido siguiente. Componentes principales considera la matriz p×p de correla-
ciones (o covarianzas) entre variables, e investiga su estructura. El escalado multidimensional
considera la matriz n × n de correlaciones (o covarianzas) entre individuos, e investiga su
estructura. Ambos enfoques están claramente relacionados, y existen técnicas gráÞcas, como
el biplot que estudiaremos en este capítulo, que aprovechan esta dualidad para representar
conjuntamente las variables y los individuos en un mismo gráÞco.
El escalado multidimensional (Multidimensional Scaling) tiene sus orígenes en los estu-
dios de psicología experimental, en los años 50, para descubrir la similaridad entre estímulos
aplicados a distintos individuos. Su desarrollo actual es debido a las investigaciones de Torg-
erson, Shepard, Kruskal y Gower, entre otros, y se han aplicado, preferentemente, en las
ciencias sociales. Los métodos existentes se dividen en métricos, cuando la matriz inicial es
propiamente de distancias, y no métricos, cuando la matriz es de similaridades. Los métodos
métricos, también llamados coordenadas principales, utilizan las diferencias entre similitudes
mientras que los no métricos parten de que si A es más similar a B que a C, entonces A
esta más cerca de B que de C, pero las diferencias entre las similitudes AB y AC no tienen
interpretación.
6.2 ESCALADOS MÉTRICOS: COORDENADAS PRIN-
CIPALES
6.2.1 Construcción de variables a partir de las distancias
Vimos en el Capítulo 3 que dada una matriz X de individuos por variables obtenemos
variables con media cero mediante la operación:
eX = (I −
1
n
110
)X = PX
A partir de esta matriz eX, de variables con media cero y dimensiones n×p, podemos construir
dos tipos de matrices cuadradas y semideÞnidas positivas: la matriz de covarianzas, S,
deÞnida por eX0 eX/n y la matriz de productos cruzados, Q = eXeX0
, que vamos a ver que
puede interpretarse como una matriz de similitud (covarianzas) entre los n elementos. En
efecto, los términos de esta matriz, qij, contienen el producto escalar por pares de elementos:
6.2. ESCALADOS MÉTRICOS: COORDENADAS PRINCIPALES 181
qij =
p
X
s=1
xisxjs = x0
ixj, (6.1)
donde hemos llamado x0
i a la Þla i de la matriz eX. Por la expresión del producto escalar,
qij = |xi| |xj| cos θij, si los dos elementos tienen coordenadas similares, cos θij ' 1 y qij
será grande. Por el contrario, si los dos elementos son muy distintos, cos θij ' 0 y qij será
pequeño. En este sentido podemos interpretar la matriz eX eX0
como la matriz de similitud
entre elementos.
Las distancias entre las observaciones se deducen inmediatamente de esta matriz de simil-
itud. La distancia euclídea al cuadrado entre dos elementos es:
d2
ij =
p
X
s=1
(xis − xjs)2
=
p
X
s=1
x2
is +
p
X
s=1
x2
js − 2
p
X
s=1
xisxjs (6.2)
que puede calcularse en función de los términos de la matriz Q, por la expresión
d2
ij = qii + qjj − 2qij. (6.3)
Por tanto, dada la matriz eX podemos construir la matriz de similitud Q = eX eX0
y, a
partir de ella, la matriz D de distancias al cuadrado entre elementos con ayuda de (6.3).
Llamando diag(Q) al vector que contiene los términos diagonales de la matriz Q, y 1 al
vector de unos, la matriz D viene dada por
D =diag(Q)10
+ 1diag(Q)0
− 2Q
El problema que vamos a abordar es el inverso: reconstruir la matriz eX a partir de una
matriz de distancias al cuadrado, D, con elementos d2
ij. Para ello, obtendremos primero la
matriz Q, y a continuación la eX.
Comencemos estudiando cómo obtener la matriz Q dada la matriz D. En primer lugar,
observemos que no hay pérdida de generalidad en suponer que las variables tienen media
cero. Esto es consecuencia de que las distancias entre dos puntos, d2
ij no varían si expresamos
las variables en desviaciones a la media, ya que
d2
ij =
p
X
s=1
(xis − xjs)2
=
p
X
s=1
[(xis − xs) − (xjs − xs)]2
. (6.4)
Dado que estamos suponiendo que la única información existente son las distancias entre
elementos, para resolver esta indeterminación vamos a buscar una matriz eX con variables de
media cero. En consecuencia, como eX0
1 = 0 también Q1 = 0, es decir, la suma de todos los
elementos de una Þla de la matriz de similitudes, Q, (y de una columna ya que la matriz es
simétrica) debe de ser cero. Para imponer estas restricciones, sumemos en (6.3) por Þlas:
182 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL
nX
i=1
d2
ij =
nX
i=1
qii + nqjj = t + nqjj (6.5)
donde t =
Pn
i=1 qii = traza (Q), y hemos utilizado que la condición Q1 = 0 implicaPn
i=1 qij = 0. Sumando (6.3) por columnas
nX
j=1
d2
ij = t + nqii (6.6)
y sumando ahora (6.5) por Þlas de nuevo
nX
i=1
nX
j=1
d2
ij = 2nt. (6.7)
Sustituyendo en (6.3) qjj obtenida en (6.5) y qii en (6.6), tenemos que
d2
ij =
1
n
nX
i=1
d2
ij −
t
n
+
1
n
nX
j=1
d2
ij −
t
n
− 2qij, (6.8)
y llamando d2
i. = 1
n
Pn
j=1 d2
ij y d2
.j = 1
n
Pn
i=1 d2
ij, a las medias por Þlas y por columnas y
utilizando (6.7), tenemos que
d2
ij = d2
i. + d2
.j − d2
.. − 2qij. (6.9)
donde d2
.. es la media de todos los elementos de D, dada por
d2
.. =
1
n2
X X
d2
ij,
Finalmente, de (6.9) resulta que
qij = −
1
2
(d2
ij − d2
i. − d2
.j + d2
..) (6.10)
expresión que indica cómo construir la matriz de similitud Q a partir de la matriz D de
distancias.
Pasemos ahora al problema de obtener la matriz X dada la matriz Q. Suponiendo que
la matriz de similitud es deÞnida positiva de rango p, puede representarse por
Q = VΛV0
6.3. MATRICES COMPATIBLES CON MÉTRICAS EUCLÍDEAS 183
donde V es n×p y contiene los vectores propios correspondientes a valores propios no nulos
de Q, Λ es diagonal p × p y contiene los valores propios y V0
es p × n. Escribiendo:
Q = (VΛ1/2
)(Λ1/2
V0
) (6.11)
y tomando
Y = VΛ1/2
hemos obtenido una matriz n × p con p variables incorreladas que reproducen la métrica
inicial. Observemos que si partimos de unas variables X y calculamos a partir de estas vari-
ables la matriz de distancias con (6.2) y luego aplicamos el método descrito a esta matriz de
distancias no obtendremos las variables originales, X, sino sus componentes principales. Esto
es inevitable, ya que existe una indeterminación en el problema cuando la única información
disponible son las distancias. En efecto, las distancias entre elementos no varían si:
(1) modiÞcamos las medias de las variables
(2) rotamos los puntos, es decir multiplicamos por una matriz ortogonal.
Las distancias son función, por (6.3) de los términos de la matriz de similitud, Q, y esta
matriz es invariante ante rotaciones de las variables. En efecto:
Q = eX eX0
= eXAA0 eX0
para cualquier matriz A ortogonal. La matriz Q sólo contiene información sobre el espacio
generado por las variables X. Cualquier rotación preserva las distancias. En consecuencia,
cualquier rotación de las variables originales podría ser solución.
6.3 Matrices compatibles con métricas euclídeas
Para poder calcular la raíz cuadrada de la matriz de similitud mediante (6.11) es necesario
que los valores propios de la matriz Q, que construimos a partir de la matriz D original, sean
no negativos. Dada una matriz de distancias, D, diremos que ésta matriz es compatible con
una métrica euclídea si la matriz de similitud que se obtiene a partir de ella
Q = −
1
2
PDP
es semideÞnida positiva, donde P = I − 1
n
110
.
Vamos a demostrar que esta condición es necesaria y suÞciente, es decir, si D se ha
construido a partir de una métrica euclídea Q es no negativa y si Q es no negativa es posible
encontrar una métrica euclídea que reproduzca D.
Demostración
184 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL
Demostraremos primero que si D se ha construido a partir de una métrica euclídea Q
es no negativa. Para ello comprobaremos en primer lugar que la matriz −1
2
PDP tiene los
términos (6.10). En efecto, los términos de la matriz Q serán
Q = −
1
2
(I −
1
n
110
)D(I −
1
n
110
) = −
1
2
(D −
1
n
110
D −
1
n
D110
+
1
n2
110
D110
) (6.12)
y llamando qij a los elementos de Q:
qij = −
1
2
(d2
ij − d2
i. − d2
.j + d2
..). (6.13)
Vamos a comprobar ahora que Q puede expresarse como eXeX0
y por tanto es semideÞni-
da positiva. Como ahora, por hipótesis, los términos d2
ij son los cuadrados de distancias
euclídeas, por (6.2), podemos escribir
d2
.j =
1
n
X
i
X
s
x2
is +
X
s
x2
js −
2
n
X
i
X
s
xisxjs
d2
i. =
X
s
x2
is +
1
n
X
j
X
s
x2
js −
2
n
X
j
X
s
xisxjs
d2
.. = −
1
n
X
i
X
s
x2
is +
1
n
X
j
X
s
x2
js −
1
n2
X
i
X
j
X
s
xisxjs.
Como
1
n
X
s
(
X
i
xis)xjs =
X
s
xsxjs (6.14)
1
n2
X
s
(
X
i
xis)(
X
j
xjs) =
X
s
x2
s (6.15)
se veriÞca que
qij =
X
p
xpixpj −
X
p
xpxpj −
X
p
xpxpi +
X
p
x2
p = (xi − x)0
(xj − x) (6.16)
y, por tanto, en general
6.3. MATRICES COMPATIBLES CON MÉTRICAS EUCLÍDEAS 185
Q =



(x1 − x)0
...
(xn − x)0


 [(x1 − x) . . . (xn − x)] = ˜X˜X
0
, (6.17)
que es siempre semideÞnida positiva, de rango p.
Vamos a demostrar ahora que si Q es semideÞnida positiva podemos encontrar ciertas
variables, y1, . . . , yp, que reproduzcan las distancias observadas. Si Q es semideÞnida positiva
de rango p podemos expresarla como:
Q =
p
X
λiviv0
i
donde λi son sus valores propios y vi los vectores propios. Llamando yi =
√
λivi a la
estandarización de los vectores propios para que tengan varianza unidad, podemos escribir
Q =
X
yiy0
i (6.18)
Las variables yi representan la solución buscada: son un conjunto de p variables n-
dimensionales incorreladas entre sí y tales que el cuadrado de la distancia euclídea que
inducen entre dos puntos es:
δ2
ij = (zi − zj)0
(zi − zj) (6.19)
donde z0
i = (yi1, . . . , yip) es igual a las distancias originales observadas d2
ij. Para demostrar-
lo observemos que (6.18) implica que la matriz cuadrada de similitud Q puede también
escribirse:
Q = [y1, . . . , yp]



y0
1
...
y0
p


 =



z0
1
...
z0
n


 [z1, . . . , zn]
donde estamos llamando y a las p variables n-dimensionales y z al vector de dimensión p
formado por los valores de estas variables en un individuo de la población. Entonces:
qij = z0
izj (6.20)
La distancia al cuadrado entre dos puntos es, por (6.19)
δ2
ij = z0
izi + z0
jzj − 2z0
izj
186 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL
y, por (6.20)
δ2
ij = qii + qjj − 2qij,
y como esta expresión es idéntica a (6.3), concluimos que:
δ2
ij = d2
ij
y las nuevas variables reproducen exactamente las distancias euclídeas.
6.3.1 Construcción de las Coordenadas Principales
En general la matriz de distancias no será compatible con una métrica euclídea, pero es
frecuente que la matriz de similitud obtenida a partir de ella tenga p valores propios positivos
y más grandes que el resto. Si los restantes n−p valores propios no nulos son mucho menores
que los demás, podemos obtener una representación aproximada de los puntos utilizando los
p vectores propios asociados a valores propios positivos de la matriz de similitud. En este
caso, las representaciones gráÞcas conservarán sólo aproximadamente la distancia entre los
puntos.
Supongamos que tenemos una matriz de distancias al cuadrado D. El procedimiento para
obtener las coordenadas principales es:
1. Construir la matriz Q = −1
2
PDP, de productos cruzados.
2. Obtener los valores propios de Q. Tomar los r mayores valores propios, donde r
se escoge de manera que los restantes n − r valores propios sean próximos a cero.
Observemos que como P1 = 0, donde 1 es un vector de unos, la matriz Q tiene rango
máximo n − 1 y siempre tendrá el vector propio 1 unido al valor propio cero.
3. Obtener las coordenadas de los puntos en las variables mediante vi
√
λi, donde λi es
un valor propio de Q y vi su vector propio asociado. Esto implica aproximar Q por
Q ≈(VrΛ1/2
r )(Λ1/2
r V0
r)
y tomar como coordenadas de los puntos las variables
Yr = VrΛ1/2
r .
El método puede también aplicarse si la información de partida es directamente la matriz
de similitud entre elementos. Diremos que se ha deÞnido una función de similitud entre
elementos si existe una función, sij, con las propiedades siguientes:
(1) sii = 1,
(2) 0 ≤ sij ≤ 1,
(3) sij = sji.
6.3. MATRICES COMPATIBLES CON MÉTRICAS EUCLÍDEAS 187
La similaridad es pues una función no negativa y simétrica. Si la matriz de partida, Q,
es una matriz de similitud, entonces qii = 1, qij = qji y 0 ≤ qij ≤ 1. La matriz de distancias
asociadas será, por (6.3),
d2
ij = qii + qjj − 2qij = 2(1 − qij)
y puede comprobarse que
p
2(1 − qij) es una distancia y veriÞca la desigualdad triangular
al corresponder a la distancia euclídea para cierta conÞguración de puntos.
Pueden obtenerse medidas de la precisión conseguida mediante la aproximación a partir
de los p valores propios positivos de la matriz de similitud. Mardia ha propuesto el coeÞciente:
m1,p = 100 ×
Pp
λi
Pp
1 |λi|
Ejemplo 6.1 Las distancias en kilométros por carretera entre las ciudades españolas sigu-
ientes se encuentran en el cuadro adjunto, que llamaremos matriz M, donde las ciudades se
han representado por las letras siguientes: M es Madrid, B Barcelona, V Valencia, S Sevilla,
SS San Sebastián y LC La Coruña.
M B V S SS LC
M 0 627 351 550 488 603
B 627 0 361 1043 565 1113
V 351 361 0 567 564 954
S 550 1043 567 0 971 950
SS 488 565 564 971 0 713
LC 603 1113 954 950 713 0
Llamando D a esta matriz de distancias, la matriz de similitud es Q = −.5PDP y
dividiendo cada término por 10,000 se obtiene la matriz:
0.1176 -0.3908 -0.1795 0.3856 -0.3180 0.3852
-0.3908 3.0321 1.2421 -2.0839 0.7338 -2.5333
-0.1795 1.2421 0.7553 0.6095 -0.3989 -2.0285
0.3856 -2.0839 0.6095 3.6786 -2.0610 -0.5288
-0.3180 0.7338 -0.3989 -2.0610 1.6277 0.4165
0.3852 -2.5333 -2.0285 -0.5288 0.4165 4.2889
que tiene los siguientes vectores propios, por columnas:
-0.0960 -0.0443 -0.2569 0.1496 0.8566 0.4082
0.6270 0.1400 -0.4155 -0.4717 -0.1593 0.4082
0.2832 -0.2584 -0.0094 0.7670 -0.3130 0.4082
-0.2934 -0.7216 0.2205 -0.4017 -0.1285 0.4082
0.1241 0.4417 0.7812 -0.0687 0.0885 0.4082
-0.6449 0.4426 -0.3198 0.0255 -0.3443 0.4082
ligados a los siguientes valores propios:
7.3792 5.9106 0.5947 -0.3945 0.0104 0.0000
La matriz Q tiene dos valores propios grandes y los otros tres son muy pequeños. Además
tenemos el autovalor cero ligado al vector propio unidad. Esto sugiere que las distancias
188 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL
pueden explicarse aproximadamente mediante dos variables. Tomando los dos vectores pro-
pios asociados a los mayores valores propios, y estandarizándoles por la raíz de su valor
propio, resultan las siguientes coordenadas para cada ciudad
Madrid -82.44 -34.05
Barcelona 538.61 107.67
Valencia 243.29 -198.62
Sevilla -252.04 -554.79
San Sebastián 106.60 339.55
La Coruña -554.02 340.25
Si representamos estas coordenadas se obtiene la Þgura 6.1. Se observa que las coorde-
nadas de las ciudades reproducen, con cierta aproximación, el mapa de España.
Figura 6.1: Representación de las coordenadas principales de seis ciudades españolas
El grado de bondad de esta representación puede medirse por el coeÞciente
m = 100
7.3792 + 5.9106
7.3792 + 5.9106 + 0.5947 + 0.3945 + 0.0104
= 93%
y vemos que la representacion en dos dimensiones es muy adecuada para estos datos.
Ejemplo 6.2 La matriz adjunta indica las similitudes encontradas por un grupo de consum-
idores entre 7 productos de consumo.
A B C D E F G
A 0 7 5 9 5 7 9
B 7 0 4 6 4 6 7
C 5 4 0 3 4 5 6
D 9 6 3 0 3 2 2
E 5 4 4 3 0 5 4
F 7 6 5 2 5 0 4
G 9 7 6 2 4 4 0
6.4. RELACIÓN ENTRE COORDENADAS Y COMPONENTES PRINCIPALES 189
Aplicando la transformacion a la matriz Q, los valores propios son 6.24, 3.37, 2.44,
2.04, 1.25, -.06, 0. La representacion de los productos correspondiente a los dos vectores
principales se presenta en el Þgura 6.2. El grado de ajuste de esta representación es
m = 100
9.61
15.4
= 62.4%
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
A
B
C
D
E
F
G
Figura 6.2: Representación de los productos en el plano de las dos primeras coordenadas
principales.
Podemos concluir que los consumidores parecen utilizar dos dimensiones de valoración
que explican el 62.4% de la variabilidad, aunque existen otras dimensiones que se tienen en
cuenta con menor peso.
6.4 RELACIÓN ENTRE COORDENADAS Y COM-
PONENTES PRINCIPALES
Cuando los datos originales forman una matriz eX de individuos por variables y construimos
la matriz D de distancias utilizando las distancias euclídeas entre los puntos a partir de dichas
variables originales, las coordenadas principales obtenidas de la matriz D son equivalentes a
los componentes principales de las variables.
En efecto, con variables de media cero los componentes principales son los autovectores
de 1
n
eX0 eX, mientras que, como hemos visto en la sección 6.3 (ecuación 6.18), las coordenadas
principales son los vectores propios estandarizados por
√
λi de los autovalores de Q = eX eX0
.
Vamos a comprobar que eX0 eX y eXeX0
tienen el mismo rango y los mismos autovalores no
nulos. Si ai es un autovector de X0 eX con autovalor λi,
eX0 eXai = λiai (6.21)
190 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL
y multiplicando por eX ambos miembros,
eX eX0 eXai = λi
eXai (6.22)
es decir, eXai es un autovector de eXeX0
con el mismo valor propio λi. Si n > p y la matriz
eX0 eX tiene rango completo tendrá p autovalores no nulos que será los autovalores no nulos
de eXeX0
. Los vectores propios de eX eX0
son las proyecciones de la matriz eX sobre la dirección
de los vectores propios de eX0 eX.
Por otro lado, la matriz n×p que proporciona los valores de los p componentes principales
en los n individuos es:
Z = eXA (6.23)
donde Z es n × p y tiene por columnas los componentes principales y A es p × p y contiene
en columnas los vectores propios de eX0 eX. La matriz n × p de coordenadas principales viene
dada por:
Y = [v1, . . . , vp]



√
λ1
...
p
λp


 = VL (6.24)
donde vi es un vector propio de eXeX0
, la matriz V es n × p y contiene los p autovectores no
nulos de eX0 eX, y L es p × p y diagonal. Como V = eX, es claro que, aparte de un factor de
escala, ambos procedimientos conducen al mismo resultado.
El análisis en coordenadas principales o escalado multidimensional, está muy relacionado
con componentes principales. En ambos casos tratamos de reducir la dimensionalidad de
los datos. En componentes partimos de la matriz eX0 eX, obtenemos sus valores propios,
y luego proyectamos las variables sobre estas direcciones para obtener los valores de los
componentes, que son idénticas a las coordenadas principales, que se obtienen directamente
como vectores propios de la matriz eXeX0
. Si la matriz de similaridades proviene de una
métrica euclídea ambos métodos conducirán al mismo resultado. Sin embargo, el concepto
de coordenadas principales o escalado multidimensional puede aplicarse a una gama más
amplia de problemas que componentes, ya que las coordenadas principales pueden obtenerse
siempre, aunque las distancias de partida no hayan sido exactamente generadas a partir de
variables, como veremos en el caso de escalado no métrico.
6.5 BIPLOTS
Se conocen como biplots a las representaciones gráÞcas conjuntas en un plano de las Þlas y
de las columnas de una matriz. En el caso de una matriz de datos, el biplot es un gráÞco
conjunto de las observaciones y las variables. La representación se obtiene a partir de la
6.5. BIPLOTS 191
descomposición en valores singulares de una matriz (veáse la sección 2.4.2). Una matriz X
de dimensiones n × p puede siempre descomponerse como
X = VD1/2
A0
o gráÞcamente








x11 . x1p
. . .
. . .
. . .
. . .
xn1 . xnp








=








v11 . v1p
. . .
. . .
. . .
. . .
vnp . vnp










λ1/2
. 0
0 . 0
0 . λ1/2




a11 . a1p
. . .
ap1 . app


donde V es n × p y contiene en columnas los vectores propios asociados a valores propios
no nulos de la matriz XX0
, D es una matriz diagonal de orden p que contiene las raices
cuadradas de los valores propios no nulos de XX0
o X0
X y A0
es una matriz ortogonal de
orden p y contiene por Þlas los vectores propios de X0
X. Las matrices de vectores propios
veriÞcan V0
V = I, A0
A = I.
La descomposición en valores singulares tiene gran importancia práctica porque, como se
demuestró en el apéndice 5.2, la mejor aproximación de rango r < p a la matriz X se obtiene
tomando los r mayores valores propios de X0
X y los correspondientes vectores propios de
XX0
y X0
X y construyendo
bX= VrD1/2
r A0
r
donde Vr es n×r y contiene las primeras r columnas de V correspondientes a los r mayores
valores propios de XX0
, D
1/2
r es diagonal de orden r y contiene estos r valores propios y A0
r
es r × p y contiene las r primeras Þlas de A0
que corresponden a los r vectores propios de
X0
X ligados a los r mayores valores propios.
La representación biplot de una matriz X consiste en aproximarla mediante la descom-
posición en valores singulares de rango dos, tomando r = 2 :
X ≈ V2D1/2
2 A0
2 = (V2D1/2−c/2
2 )(Dc/2
2 A0
2) = FC
donde V2 es n×2, D
1/2
2 es diagonal de orden 2 y A0
2 es 2×p . Tomando 0 ≤ c ≤ 1 se obtienen
distintas descomposiciones de la matriz X en dos matrices. La primera, F representa las
n Þlas de la matriz X en un espacio de dos dimensiones y la segunda, C, representa en el
mismo espacio las columnas de la matriz. Según el valor de c se obtienen distintos biplots.
Los más utilizados son para c = 0, 0, 5, y 1.
Vamos a interpretar el biplot cuando c = 1, que es el caso más interesante. Entonces
representaremos las observaciones, Þlas de X, por las Þlas de la matriz V2, y las variables,
columnas de X, por las columnas de la matriz D
1/2
2 A0
2. Para distinguir ambas representa-
ciones las observaciones se dibujan como puntos y las variables como vectores en el plano.
Se veriÞca que:
192 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL
(1) La representación de las observaciones como puntos en un plano mediante las Þlas de
V2, equivale a proyectar las observaciones sobre el plano de las dos componentes principales
estandarizadas para que tengan varianza unidad.
(2) Las distancias euclídeas entre los puntos en el plano equivale, aproximadamente, a
las distancias de Mahalanobis entre las observaciones originales.
(3) La representación de las variables mediante vectores de dos coordenadas es tal que el
ángulo entre los vectores equivale, aproximadamente, a la correlación entre las variables.
Para demostrar estas propiedades utilizaremos la relación entre los componentes y los
vectores propios de XX0
. Las coordenadas de los componentes principales son Z = XA, y,
como hemos visto en la sección anterior, los vectores que forman las columnas de Z son
vectores propios sin normalizar de XX0
. En efecto, los vectores propios de X0
X veriÞcan
X0
Xai = λiai
y multiplicando por X tenemos que
XX0
(Xai) = λi(Xai)
por tanto, zi = Xai es un vector propio de la matriz XX0
, pero no esta normalizado a norma
unidad. El vector propio normalizado será
vi =
1
√
λi
zi.
Generalizando, la matriz de vectores propios de XX0
normalizados a norma unidad será
V = [v1, ..., vp] =
·
1
√
λi
z1, ...,
1
√
λi
zp
¸
= ZD−1/2
y es inmediato que con esta normalización V0
V = D−1/2
Z
0
ZD−1/2
= D−1/2
DD−1/2
=I. Por
tanto si representamos los puntos por V2 tenemos las proyecciones estandarizadas a varianza
uno de las observaciones sobre los dos primeros componentes.
Vamos a comprobar la segunda propiedad. Una observación se representa por los compo-
nentes principales por x0
iA, y si estandarizamos los componentes a varianza uno x0
iAD−1/2
.
Las distancias euclídeas al cuadrado entre dos observaciones en términos de sus coordenadas
en los componentes estandarizados serán:
°
°
°x0
iAD−1/2
−x
0
jAD−1/2
°
°
°
2
= (xi − xj)0
AD−1
A
0
(xi − xj)0
y como S = ADA0
entonces S−1
= AD−1
A
0
y obtenemos la distancia de Mahalanobis entre
las observaciones originales. Si en lugar de tomar los p componentes tomamos sólo los dos
más importantes esta relación será aproximada y no exacta.
Comprobaremos por último que si representamos las variables como vectores con co-
ordenadas D
1/2
2 A0
2 = C los ángulos entre los vectores representan, aproximadamente, la
correlación entre las variables. Para ello escribiremos
S ' A2D2A0
2 = CC´=


c0
1
...
c0
p


£
c1 ... cp
¤
6.6. ESCALADO NO MÉTRICO 193
donde c1 es un vector 2 × 1 correspondiente a la primera columna de la matriz C. De esta
expresión es inmediato que
c0
ici = s2
i
y
c0
icj = sij
y Þnalmente
rij =
c0
icj
kcik kcjk
= cos(cicj)
Por tanto, aproximadamente el ángulo entre estos vectores es el coeÞciente de correlación
entre las variables.
La precisión de la representación del biplot depende de la importancia de los dos primeros
valores propios respecto al total. Si (λ1 + λ2)/tr(S) es próximo a uno la representación será
muy buena. Si este valor es pequeño el biplot no proporciona una representación Þable de
los datos.
Ejemplo 6.3 Vamos a utilizar la base de datos de MUNDODES (tabla A.6 del Anéxo),
cuyos componentes principales se obtuvieron en el capítulo anterior (véae el ejemplo ***).
Esta matriz de datos está constituida por 91 países en los que se han observado 9 variables:
X1: ratio de natalidad, X2: ratio de mortalidad, X3: mortalidad infantil, X4: esperanza de
vida en hombres X5: esperanza de vida de mujeres y X6: PNB per capita.
La Þgura 6.3 es un biplot donde se han representado conjuntamente las observaciones por
su proyección estandarizada en el plano de los dos componentes principales. El lector debe
observar que ahora la variabilidad en ambos componentes es la misma como consecuencia de
la estandarización, lo que no ocurría en los gráÞcos anteriores donde las escalas eran muy
diferentes. Se han representado también las variables como vectores de manera que el ángulo
entre las variables sea aproximadamente igual a sus correlaciones. En el biplot se observa
una separación de los países en dos grupos y, por otro lado, una división de las variables en
tres grupos: en el primero están las tasas de mortalidad infantil y natalidad que están muy
correladas entre sí, por otro la tasa de mortalidad, que tiene baja correlación con el resto de
variables, y por otro la renta y las esperanzas de vida de hombres y mujeres que están muy
correladas con la renta.
En el gráÞco 6.4 se muestra la misma representación conjunta que en la Þguras 6.3 en el
caso de realizar el análisis normado de componentes principales en las variables originales.
Se aprecia una relación no lineal entre las dos primeras componentes.
6.6 ESCALADO NO MÉTRICO
En los problemas de escalado no métrico se parte de una matriz de diferencias o disimili-
tudes entre objetos que se ha obtenido generalmente por consultas a jueces, o a partir de
194 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL
Comp. 1
Comp.2
-0.3 -0.2 -0.1 0.0 0.1 0.2
-0.3-0.2-0.10.00.10.2
Albania
BulgariaCzechoslovaki
Hungary
PolandRomania
USSR
Byelorussian_SSR
Ukrainian_SSR
Argentina
Bolivia
Brazil
Chile
Columbia
EcuadorGuyana
Paraguay
Peru
Uruguay
Venezuela
Mexico
BelgiumFinland
Denmark
France
Germany
Greece
Ireland
Italy
Netherlands
Norway
Portugal
Spain
Sweden
Switzerland
U.K.
Austria
Japan
CanadaU.S.A.
Afghanistan
Bahrain
Iran
Iraq
Israel
Jordan
Kuwait
Oman
Saudi_Arabia
Turkey
United_Arab_Emirates
Bangladesh
China
Hong_KongIndia
Indonesia
Malaysia
Mongolia
Nepal
PakistanPhilippines
Singapore
Sri_Lanka
Thailand
Algeria
Angola
Botswana
Congo
Egypt
Ethiopia
Gabon
Gambia
Ghana
Kenya
Libya
Malawi
Morocco
Mozambique
Namibia
Nigeria
Sierra_Leone
Somalia
South_Africa
Sudan
Swaziland
Tunisia
Uganda
Tanzania
Zaire
Zambia
Zimbabwe
-15 -10 -5 0 5 10
-15-10-50510
TasaNat.
TasaMort
MortInf
EspHom
EspMuj
PNB
Figura 6.3: Representación de observaciones y variables en el plano de las dos primeras
componentes, variables en logaritmos.
procedimientos de ordenación de los elementos. Por ejemplo, el escalado no métrico se ha
aplicado para estudiar las semejanzas entre las actitudes, preferencias o percepciones de per-
sonas sobre asuntos políticos o sociales o para evaluar preferencias respecto a productos y
servicios en marketing y en calidad. Los valores de una tabla de similaridades o distancias
se obtienen habitualmente por alguno de los procedimientos siguientes:
1. Estimación directa. Un juez, o un conjunto de jueces, estiman directamente las
distancias entre los elementos. Una escala muy utilizada es la escala 0-100, de manera que
la distancia o disimilaridad entre un elemento y sí mismo sea cero y la distancia entre dos
elementos distintos reßeje la percepción de sus diferencias. Con n elementos esto requiere
n(n − 1)/2 evaluaciones.
2. Estimación de rangos. Se selecciona un elemento y se pide al juez, o grupo de jueces,
que ordene los n−1 restantes por mayor o menor proximidad al seleccionado. A continuación
se selecciona el siguiente y se ordenan los n − 2 restantes, y así sucesivamente. Existen
algoritmos de cálculo que transforman estas ordenaciones en una matriz de distancias (véase
Green y Rao, 1972).
3. Rangos por pares. Se presentan al juez los n(n − 1)/2 pares posibles y se le pide
que los ordene de mayor a menor distancia. Por ejemplo, con cuatro objetos supongamos
que se obtienen los resultados en orden de distancia: (3,4), (2,3), (2,4), (1,4), (1,2) y (1,3).
Entonces, los más próximos son los objetos 3 y 4, y a esta pareja se le asigna el rango 1.
6.6. ESCALADO NO MÉTRICO 195
Comp. 1
Comp.2
-0.2 -0.1 0.0 0.1 0.2 0.3
-0.2-0.10.00.10.20.3
Albania
BulgariaCzechoslovaki
Hungary
Poland
Romania
USSR
Byelorussian_SSR
Ukrainian_SSR
Argentina
Bolivia
Brazil
ChileColumbia
EcuadorGuyana
Paraguay
Peru
Uruguay
Venezuela
Mexico
Belgium
FinlandDenmark
France
Germany
Greece
Ireland
Italy
Netherlands
Norway
PortugalSpain
Sweden
Switzerland
U.K.
Austria
Japan
Canada
U.S.A.
Afghanistan
Bahrain
Iran
Iraq
Israel
Jordan
Kuwait
Oman
Saudi_Arabia
Turkey
United_Arab_EmiratesBangladesh
China
Hong_Kong
India
Indonesia
Malaysia
Mongolia
Nepal
Pakistan
Philippines
Singapore
Sri_Lanka
ThailandAlgeria
Angola
Botswana
Congo
Egypt
Ethiopia
Gabon
Gambia
Ghana
Kenya
Libya
Malawi
Morocco
Mozambique
Namibia
Nigeria
Sierra_Leone
Somalia
South_Africa
Sudan
Swaziland
Tunisia
Uganda
Tanzania
Zaire
Zambia
Zimbabwe
-5 0 5 10
-50510
TasaNat.
TasaMort
MortInf
EspHomEspMuj
PNB
Figura 6.4: Representación de observaciones y variables en el plano de las dos primeras
componentes, variables originales.
A la pareja siguiente, (2,3), se le asigna rango dos y así sucesivamente hasta la pareja de
los elementos más alejados, el 1 y el 3, que reciben rango n(n − 1)/2, que es 6 en este caso.
A continuación se calcula un rango medio para cada objeto, promediando los rangos de los
pares donde aparece. Por ejemplo, el objeto 1 aparece en pares que tienen rango 4, 5 y 6,
con lo que el rango del objeto 1 es :
rango(1) =
4 + 5 + 6
3
= 5.
Igualmente obtenemos que rango(2)= (2 + 3 + 5)/2 = 3, 3; rango(3)= (1 + 2 + 6)/3 = 3
y rango(4) = (1 + 3 + 4)/3 = 2, 7. Las diferencias entre los rangos se toman ahora como
medidas de distancia entre los objetos.
Se supone que la matriz de similaridades está relacionada con un matriz de distancias,
pero de una manera compleja. Es decir, se acepta que los jueces utilizan en las valoraciones
ciertas variables o dimensiones, pero que, además, los datos incluyen elementos de error y
variabilidad personal. Por tanto, las variables que explican las similitudes entre los elementos
comparados determinarán una distancias euclídeas entre ellos, dij, que están relacionadas con
las similitudes dadas, δij , mediante una función desconocida
δij = f(dij)
196 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL
donde la única condición que se impone es que f es una función monótona, es decir, si
δij > δih ⇔ dij > dih .
El objetivo que se pretende es encontrar unas coordenadas que sean capaces de reproducir
estas distancias a partir únicamente de la condición de monotonía. Para ello hay que deÞnir:
(1) Un criterio de bondad del ajuste que sea invariante ante transformaciones monótonas
de los datos.
(2) Un algoritmo para obtener las coordenadas, optimizando el criterio establecido.
Estos problemas no tienen solución única y se han presentado muchos procedimientos
alternativos. El más utilizado es minimizar las diferencias entre las distancias derivadas
de las coordenadas principales, bdij , y las similitudes de partida δij , es decir minimizar
P P
(δij − bdij )2
para todos los términos de la matriz. Esta cantidad se estandariza para
favorecer las comparaciones, con lo que se obtiene el criterio de ajuste denominado STRESS,
dado por:
S2
=
P
i<j(δij − bdij )2
P
i<j δ2
ij
(6.25)
Un criterio alternativo es minimizar las distancias al cuadrado, con lo que se obtiene el
criterio S-STRESS. Se han propuesto otros criterios que el lector puede consultar en Cox
y Cox (1994). Las distancias bdij se determinarán encontrando p coordendas principales
que se utilizan como variables implicitas yij, i = 1, ..., n, j = 1, ...p, que determinarán unas
distancias euclídeas entre dos elementos:
bd2
ij =
p
X
s=1
(yis − yjs)2
(6.26)
El método de cálculo es partir de la solución proporcionada por las coordenadas principales e
iterar para mejorar esta solución minimizando el criterio (6.25). Normalmente se toma p = 2
para facilitar la representación gráÞca de los datos, pero el número de dimensiones necesario
para una buena representación de los datos puede estimarse probando distintos valores de
p y estudiando la evolución del criterio de forma similar a como se determina el número de
componentes principales. Fijado p el problema es minimizar (6.25) donde las distancias se
calculan por (6.26). Derivando respecto a los valores de las coordenadas en los individuos
(véase apéndice 6.1) se obtiene un sistema de ecuaciones no lineales en las variables y cuya
solución requiere un algoritmo de optimización no lineal. Suele tomarse como solución inicial
la obtenida con las coordenadas principales. Remitimos al lector interesado en los detalles
de los algoritmos a Cox y Cox (1994).
Ejemplo 6.4 Utilizaremos la matriz de similitudes entre productos. Con el programa SPSS
se obtiene la solución indicada en la Þgura 6.5. Los productos A, B, C, etc se han repre-
sentado en el gráÞco como m1, m2, m3,... Como puede verse la solución es similar a la
obtenida con coordenadas principales, pero no idéntica.
6.6. ESCALADO NO MÉTRICO 197
Configuración de estímulos derivada
Modelo de distancia euclídea
Dimensión 1
2.01.51.0.50.0-.5-1.0-1.5
Dimensión2
2.0
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
m7
m6
m5
m4 m3
m2
m1
Figura 6.5: Representación de los productos con el escalado no métrico
El valor del coeÞciente al Þnalizar la estimación no lineal es Stress = .14134 y la propor-
ción de variabilidad explicada, RSQ = .87957.
La Þgura 6.6 presenta la relación entre las distancias obtenidas y las observaciones. Se
aprecia que la relación es monótona, aunque no lineal.
Gráfico Transformación
Modelo de distancia euclídea
Observaciones
1086420
Distancias
3.5
3.0
2.5
2.0
1.5
1.0
.5
Figura 6.6: Relación entre las distancias originales y las calculadas por el escalado multidi-
mensional
198 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL
6.7 Lecturas complementarias
Los capítulos 11 y 12 de Jackson (1991) contienen ampliaciones sobre este tema y muchas
referencias. El libro de Dillon y Goldstein (1984) presenta una introducción clara y simple
del escalado multidimensional no métrico. Gnanadesikan (1997) presenta también una buena
introducción al tema. Libros dedicados al escalado multidimensional son los de Schiffman et
al (1981), Coxon (1982), Davidson (1983), Kruskal y Wish (1978), Green et al (1989) y Cox
y Cox (1994). Young (1987) contiene muchos ejemplos de aplicación. Gower y Hand (1996)
esta integramente dedicado a los biplots.
EJERCICIOS
Ejercicio 6.1 Si la distancia euclídea entre dos elementos se deÞne por d2
ij = (xi −xj)0
(xi −
xj) demostrar que puede escribirse como d2
ij = qii + qjj − 2qij donde los qij son elementos de
la matriz XX0
.
Ejercicio 6.2 Demostrar que d2
ij = (xi −xj)0
(xi −xj) puede escribirse como d2
ij = qii +qjj −
2qij donde ahora los qij son elementos de la matriz XPX0
, siendo P la matriz proyección
que elimina las medias deÞnida en 6.12
Ejercicio 6.3 Demostrar que si tenemos una solución Yr de coordenadas principales tam-
bién es solución Zr = YrC + b, donde C es una matriz ortogonal y b cualquier vector.
Ejercicio 6.4 Demostrar que si la matriz Q es semideÞnida positiva se veriÞca que qii +
qjj − 2qij ≥ 0. (Ayuda: utilice que si Q es deÞnida positiva u0
Qu ≥ 0 para cualquier vector
u y tome u = (0, ..., 1, −1, 0, ..., 0)0
)
Ejercicio 6.5 Demostrar que si Q es semideÞnida positiva las magnitudes d2
ij = qii+qjj−2qij
veriÞcan las propiedades de una distancia. (Ayuda: para comprobar la propiedad triangular
utilice que para tres puntos u0
Qu ≥ 0 con u = (1, −1, −1)0
implica q11 + q22 + q33 − 2q12 −
2q13 + 2q32 ≥ 0)
Ejercicio 6.6 Demostrar que se veriÞca la relación Q = PQP.
Ejercicio 6.7 Demostrar que la descomposición biplot puede escribirse como YrA0
r donde
el primer término contiene las coordenadas principales y el segundo las componentes princi-
pales.
Apéndice 6.1Maximización del STRESS
El procedimiento de optimización del criterio se obtiene derivando el STRESS respecto
a cada término, yip, que nos indica como se modiÞca el criterio si modiÞcamos el valor de la
variable p en el elemeto i, lo que conduce a las ecuaciones
∂S2
∂yip
= 2
nX
j=1
(δij − bdij )
∂ bdij
∂yip
= 0 (6.27)
6.7. LECTURAS COMPLEMENTARIAS 199
El cambio en las distancias del punto i a todos los demás cuando cambiamos la coordenada
p de este punto es, por (6.26):
∂ bdij
∂yip
=
(yip − yjp)
bdij
y sustituyendo en (6.27) tenemos que la ecuación a resolver es
yip
nX
j=1
(δij − bdij )
bdij
−
nX
j=1
(δij − bdij )
bdij
yjp = 0.
Si derivamos para los np valores de las coordenadas principales, el sistema de ecuaciones
resultante puede escribirse conjuntamente como
FX = 0
donde F es una matriz cuadrada y simétrica de orden n con coeÞcientes
fij = −
(δij − bdij )
bdij
, i 6= j
fii =
nX
j=1,j6=i
fij, i = j
200 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL
Capítulo 7
ANÁLISIS DE
CORRESPONDENCIAS
7.1 INTRODUCCIÓN
El análisis de correspondencias es una técnica descriptiva para representar tablas de contin-
gencia, es decir, tablas donde recogemos las frecuencias de aparición de dos o más variables
cualitativas en un conjunto de elementos. Constituye el equivalente de componentes princi-
pales y coordenadas principales para variables cualitativas. La información de partida ahora
es una matriz de dimensiones I × J, que representa las frecuencias absolutas observadas
de dos variables cualitativas en n elementos. La primera variable se representa por Þlas, y
suponemos que toma I valores posibles, y la segunda se representa por columnas, y toma
J valores posibles. Por ejemplo, la tabla 7.1 presenta la clasiÞcación de n = 5387 escolares
escoceses por el color de sus ojos, que tiene cuatro categorías posibles y I = 4, y el color
de su cabello, que tiene cinco categorías posibles y J = 5. Esta tabla tiene interés histórico
ya que fué utilizada por Fisher en 1940 para ilustrar un método de análisis de tablas de
contingencia que está muy relacionado con el que aquí presentamos.
En general, una tabla de contingencia es un conjunto de números positivos dispuestos
en una matriz, donde el número en cada casilla representa la frecuencia absoluta observada
para esa combinación de las dos variables.
Una manera de llegar a una tabla de contingencia I×J es deÞnir I variables binarias para
Color del pelo
C. ojos rubio pelirrojo castaño oscuro negro total
claros 688 116 584 188 4 1580
azules 326 38 241 110 3 718
castaños 343 84 909 412 26 1774
oscuros 98 48 403 618 85 1315
total 1455 286 2137 1391 118 5387
Tabla 7.1: Tabla de Contingencia del color de los ojos y el color del pelo de escolares escoceses.
Recogida por Fisher en 1940
201
202 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS
las categorías de las Þlas y J para las de las columnas y diponer estas variables en matrices
Xa para las Þlas y Xb para las columnas. Por ejemplo, la matriz Xa para la variable color de
los ojos contendrá 4 variables en columnas correspondientes a las 4 categorías consideradas
para indicar el color de ojos, y en cada Þla sólo una columna tomará el valor uno, la que
corresponda al color de ojos de la persona. La matriz tendrá 5387 Þlas correpondientes a las
personas incluidas en la muestra. Por tanto, la matriz Xa de dimensiones 5387 × 4 será de
la forma:
Xa =






1 0 0 0
0 0 0 1
. . . .
0 0 0 1
0 1 0 0






donde hemos tamado las categorías para el color de ojos en el mismo orden que aparecen en las
Þlas de la tabla 7.1. Por ejemplo, el primer dato corresponde a una persona de ojos claros, ya
que tiene un uno en la primera columna. El segundo dato tiene un uno en la cuarta categoría,
que corresponde a ojos oscuros. Finalmente, el último elemento de la matriz corresponde a
una persona de ojos azules. De la misma forma, la matriz Xb tendrá dimensiones 5387 × 5 y
las columnas indicarán el color del cabello de cada persona. Observemos que estas matrices X
de variables binarias tienen tantas columnas como categorías y sus variables son linealmente
dependientes, ya que siempre la suma de los valores de una Þla es uno, al ser las categorías
excluyentes y exhaustivas. Al realizar el producto Xa´Xb sumaremos todas las personas que
tienen cada par de características y se obtiene la tabla de contingencia.
El análisis de correspondencias es un procedimiento para resumir la información contenida
en una tabla de contingencia. Puede interpretarse de dos formas equivalentes. La primera,
como una manera de representar las variables en un espacio de dimensión menor, de forma
análoga a componentes principales, pero deÞniendo la distancia entre los puntos de manera
coherente con la interpretación de los datos y en lugar de utilizar la distancia euclídea
utilizamos la distancia ji-cuadrado. Desde este enfoque, el análisis de correspondencias es el
equivalente de componentes principales para datos cualitativos. La segunda interpretación
está más próxima al escalado multidimensional: es un procedimiento objetivo de asignar
valores numéricos a variables cualitativas. Vamos a analizar estos dos aspectos.
7.2 BÚSQUEDA DE LA MEJOR PROYECCIÓN
En adelante trabajaremos con la matriz F de frecuencias relativas obtenida dividiendo cada
casilla por n, el total de elementos observados. Llamaremos fij a las frecuencias relativas
que veriÞcan
IX
i=1
JX
j=1
fij = 1
La matriz F puede considerarse por Þlas o por columnas. Cualquier análisis lógico de esta
matriz debe de ser equivalente al aplicado a su transpuesta, ya que la elección de la variable
7.2. BÚSQUEDA DE LA MEJOR PROYECCIÓN 203
Sobre. Not. Aprob. Sus. Total
Zona A 0,03 0,06 0,15 0,06 0,3
Zona B 0,07 0,14 0,35 0,14 0,7
Total 0,1 0,2 0,5 0,2 1
Tabla 7.2: ClasiÞcación de estudiantes por zona geográÞca y caliÞcación obtenida
que se coloca en Þlas, en lugar de en columnas, es arbitraria, y no debe inßuir en el análisis.
Vamos a presentar primero el análisis por Þlas de esta matriz, que será simétrico al análisis
por columnas, que estudiaremos a continuación.
7.2.1 Proyección de las Filas
Vamos a analizar la matriz de frecuencias relativas, F, por Þlas. Entonces las I Þlas pueden
tomarse como I puntos en el espacio <J
. Vamos a buscar una representación de estos I
puntos en un espacio de dimensión menor que nos permita apreciar sus distancias relativas.
El objetivo es el mismo que con componentes principales, pero ahora tendremos en cuenta
las peculiaridades de este tipo de datos. Estas peculiaridades provienen de que la frecuencia
relativa de cada Þla es distinta, lo que implica que:
(1) Todos las Þlas (puntos en <J
) no tienen el mismo peso, ya que algunas continen más
datos que otras. Al representar el conjunto de las Þlas (puntos) debemos dar más peso a
aquellas Þlas que contienen más datos.
(2) La distancia euclídea entre puntos no es una buena medida de su proximidad y
debemos modiÞcar esta distancia, como veremos a continuación.
Comenzando con el primer punto, cada Þla de la matriz F tiene una frecuencia relativa
fi. =
PJ
j=1 fij, y el conjunto de estas frecuencias relativas se calcula con:
f = F0
1
debemos dar a cada Þla un peso proporcional a su frecuencia relativa y los términos del
vector f pueden directamente considerarse como pesos, ya que son números positivos que
suman uno.
Con relación a la medida de distancia a utilizar entre las Þlas, observemos que la dis-
tancia euclídea no es una buena medida de las diferencias reales entre las estructuras de las
Þlas. Por ejemplo, supongamos la tabla 7.2 donde se presentan las frecuencias relativas de
estudiantes clasiÞcados por su procedencia geográÞca, (A ó B) y sus caliÞcaciones. Aunque
las frecuencias relativas de las dos Þlas son muy distintas, las dos Þlas tienen exactamente la
misma estructura relativa: simplemente, hay más del doble de estudiantes de la zona B que
de la A, pero la distribución de caliÞcaciones es idéntica en ambas zonas. Si calculamos la
distancia euclídea entre las zonas obtendremos un valor alto, que no reßeja una estructura
distinta de las Þlas sino sólo que tienen distinta frecuencia relativa. Suponganos que dividi-
mos cada casilla por la frecuencia relativa de la Þla, fi.. Con esto se obtiene la tabla 7.3
donde los números que aparecen en las Þlas representan la frecuencia relativa de la variable
columna condicionada a la variable Þla. Ahora las dos Þlas son idénticas, y esto es coherente
con una distancia euclídea cero entre ambas.
204 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS
Sobre. Not. Aprob. Sus. Total
Zona A 0,1 0,2 0,5 0,2 1
Zona B 0,1 0,2 0,5 0,2 1
Tabla 7.3: ClasiÞcación de estudiantes por zona geográÞca y caliÞcación obtenida
Color del cabello
C. ojos rubio pelirrojo castaño oscuro negro total
claros 0.435 0.073 0.369 0.119 0.003 1
azules 0.454 0.053 0.336 0.153 0.004 1
castaños 0.193 0.047 0.512 0.232 0.015 1
oscuros 0.075 0.037 0.307 0.518 0.065 1
Tabla 7.4: Tabla de frecuencias relativas del color del cabello condicionada al color de los
ojos para los escolares escoceses
Para analizar que medida de distancia debemos utilizar, llamaremos R a la matriz de
frecuencias relativas condicionadas al total de la Þla, que se obtiene con:
R = Df
−1
F (7.1)
donde Df es una matriz diagonal I × I con los términos del vector f, fi., frecuencias rela-
tivas de las Þlas, en la diagonal principal. Esta operación transforma la matriz original de
frecuencias relativas, F, en otra matriz cuyas casillas por Þlas suman uno. Cada Þla de esta
matriz representa la distribución de la variable en columnas condicionada al atributo que
representa la Þla. Por ejemplo, la tabla 7.4 presenta las frecuencias relativas condicionadas
para la tabla 7.1. En este caso I = 4 , J = 5. Esta tabla permite apreciar mejor la asociación
entre las características estudiadas.
Llamaremos r0
i a la Þla i de la matriz R de frecuencias relativas condicionadas por
Þlas, que puede considerarse un punto (o un vector) en el espacio <J
. Como la suma de los
componentes de r0
i es uno, todos los puntos están en un espacio de dimensión J−1. Queremos
proyectar estos puntos en un espacio de dimensión menor de manera que las Þlas que tengan
la misma estructura estén próximas, y las que tengan una estructura muy diferente, alejadas.
Para ello, debemos deÞnir una medida de distancia entre dos Þlas ra, rb. Una posibilidad es
utilizar la distancia euclídea, pero esta distancia tiene el inconveniente de tratar igual a todos
los componentes de estos vectores. Por ejemplo, en la tabla 7.1 las personas de cabello rubio
tienen una diferencia en frecuencia relativa entre los ojos azules y claros de 0,454-0,435=
0,019, y las personas de cabello negro tienen un diferencia en frecuencia relativa entre los
ojos castaños y azules de 0,015 - 0,004=0,011. Hay una diferencia mayor en el primer caso
que en el segundo y, sin embargo, intuitivamente vemos que la segunda diferencia es mayor
que la primera. La razón es que en el primer caso el cambio relativo es pequeño, del orden
del 4% ( 0,019/0,454), mientras que en el segundo caso el cambio relativo es muy grande:
las personas de cabello negro tienen ojos castaños casi cuatro veces más frecuentemente (
0,015/0,004=3,75 veces) que ojos azules. Como los componentes representan frecuencias
relativas, no parece adecuado que una diferencia de 0,01 se considere igual en un atributo
7.2. BÚSQUEDA DE LA MEJOR PROYECCIÓN 205
de alta frecuencia (por ejemplo, pasar de 0,60 a 0,61) que en un atributo de baja frecuencia
(por ejemplo, pasar de 0,0001 a 0,0101).
Para obtener comparaciones razonables entre estas frecuencias relativas tenemos que
tener en cuenta la frecuencia relativa de aparición del atributo que estudiamos. En atributos
raros, pequeñas diferencias absolutas pueden ser grandes diferencias relativas, mientras que
en atributos con gran frecuencia, la misma diferencia será poco importante. Una manera
intuitiva de construir las comparaciones es ponderar las diferencias en frecuencia relativa
entre dos atributos inversamente proporcional a la frecuencia de este atributo. Es decir, en
lugar de sumar los términos (raj − rbj)2
= (faj/fa. − fbj/fb.)2
que miden la diferencia que las
Þlas a y b tienen en la columna j sumaremos los términos (raj −rbj)2
/f.j donde f.j. =
PI
i=1 fij
es la frecuencia relativa de la columna j . La expresión de la distancia entre dos Þlas, ra y
rb de R vendrá dada en esta métrica por
D2
(ra, rb) =
JX
j=1
(
faj
fa.
−
fbj
fb.
)2 1
f.j.
=
JX
j=1
(raj − rbj)2
f.j.
(7.2)
que puede escribirse matricialmente como
D2
(ra, rb) = (ra − rb)0
D−1
c (ra − rb) (7.3)
donde Dc es una matriz diagonal con términos f.j.. A la distancia (7.2) ó (7.3) se la conoce
como distancia χ2
, y se analizará con más detalle en la sección siguiente.
Observemos que está distancia equivale a la distancia euclídea entre los vectores trans-
formados yi = D
−1/2
c ri. Podemos pues simpliÞcar el problema deÞniendo una matriz de
datos transformada, sobre la que tiene sentido considerar la distancia euclídea entre Þlas.
Llamando:
Y = R Dc
−1/2
= D−1
f F D−1/2
c (7.4)
obtenemos una matriz Y que contiene términos del tipo
yij =
(
fij
fi.f.
1/2
j
)
(7.5)
que ya no suman uno ni por Þlas ni por columnas. Las casillas de esta matriz representan las
frecuencias relativas condicionadas por Þlas, fij/fi., pero estandarizadas por su variabilidad,
que depende de la raíz cuadrada de la frecuencia relativa de la columna. De esta manera
las casillas son directamente comparables entre sí. La tabla 7.5 indica esta matriz resultado
de estandarizar las frecuencias relativas de la tabla 7.1 dividiendo cada casilla por la raíz
cuadrada de la frecuencia relativa de la columna correspondiente, que se obtiene de la tabla
7.1. Por ejemplo, el primer elemento de la tabla 7.5 se obtiene como 0.435/
p
(1455/5387) =
206 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS
. 83 7 . 31 6 . 587 . 235 .015
. 873 . 228 . 536 . 301 .02 9
. 374 . 205 . 815 . 455 .09 5
. 14 7 . 161 . 484 1. 022 . 440
Tabla 7.5: Matriz estandarizada por Þla y por variabilidad del color de los ojos y el color del
pelo de escolares
0.0114. En esta tabla la estructura de las columnas es similar a la de la tabla 7.1 de
frecuencias relativas, ya que hemos dividido todas las casillas de cada columna por la misma
cantidad.
Podríamos tratar a esta matriz como una matriz de datos estándar, con observaciones en
Þlas y variables en columnas, y preguntarnos como proyectarla de manera que se preserven
las distancias relativas entre las Þlas, es decir, las Þlas con estructura similar aparezcan
próximas en la proyección. Esto implica encontrar una dirección a de norma unidad,
a0
a = 1 (7.6)
tal que el vector de puntos proyectados sobre esta dirección,
yp(a) = Y a (7.7)
tenga variabilidad màxima. El vector a se encontrará maximizando yp(a)0
yp(a) = a0
Y0
Y a
con la condición (7.6), y este problema se ha resuelto en el capítulo 5 al estudiar componentes
principales: el vector a es un vector propio de la matriz Y0
Y. Sin embargo, este tratamiento
de la matriz Y como una matriz de variables continuas no es del todo correcto porque las Þlas
tienen una distinta frecuencia relativa, fi., y por tanto deben tener distinto peso. Aquellas
Þlas con mayor frecuencia relativa deben de tener más peso en la representación que aquellas
otras con frecuencia relativa muy baja, de manera que las Þlas con gran número de individuos
estén bien representadas, aunque esto sea a costa de representar peor las Þlas con pocos
elementos. En consecuencia, daremos a cada Þla un peso proporcional al número de datos
que contiene. Esto puede hacerse maximizando la suma de cuadrados ponderada.
m = a0
Y0
Df Y a (7.8)
sujeto a (7.6), que equivale a
m = a0
D−1/2
c F0
D−1
f FD−1/2
c a. (7.9)
Alternativamente, podemos construir una matriz de datos Z deÞnida por
Z = D
−1/2
f FD−1/2
c (7.10)
cuyos componentes son
zij =
(
fij
p
fi.f.j
)
7.2. BÚSQUEDA DE LA MEJOR PROYECCIÓN 207
y que estandariza las frecuencias relativas en cada casilla por el producto de las raíces
cuadradas de las frecuancias relativas totales de la Þla y la columna, y escribir el problema
de encontrar el vector a como el problema de maximizar m = a0
Z0
Za sujeto a la restricción
(7.6). Este es el problema resuelto en componentes principales, cuya solución es
D−1/2
c F0
D−1
f FD−1/2
c a =λa (7.11)
y a debe ser un vector propio de la matriz Z0
Z donde Z está dado por (7.9) y λ su valor
propio.
Vamos a comprobar que la matriz Z0
Z tiene como mayor valor propio siempre el 1 y como
vector propio D
1/2
c . Multiplicando por la izquierda en (7.11) por D
−1/2
c se obtiene:
D−1
c F0
D−1
f F(D−1/2
c a) =λ(D−1/2
c a)
Las matrices D−1
f F y FD−1
c representan matrices de frecuencias relativas por Þlas y por
columnas y su suma por Þlas y columnas respectivamente es uno. Por tanto D−1
f F1 = 1
y D−1
c F0
1 = 1, que implica que la matriz D−1
c F0
D−1
f F tiene un valor propio 1 unido a un
vector propio 1. En consecuencia, haciendo (D−1/2
c a) = 1 concluimos que la matriz Z0
Z tiene
un valor propio igual a uno con vector propio D
1/2
c .
Olvidando esta solución trivial, que no da información sobre la estructura de las Þlas,
tomaremos el valor propio mayor menor que la unidad y su vector propio asociado a. En-
tonces, proyectando la matriz Y sobre la dirección a encontrada:
yf (a) = Ya = D−1
f FD−1/2
c a (7.12)
y el vector yf (a) es la mejor representación de las Þlas de la tabla de contingencia en una
dimensión. Análogamente, si extraemos el vector propio ligado al siguiente mayor valor
propio obtenemos una segunda coordenada y podemos representar las Þlas en un espacio de
dimensión dos. Las coordenadas de la representación de cada Þla vendrán dadas por las Þlas
de la matriz
Cf = YA2 = D−1
f FD−1/2
c A2
donde A2 = [a1a2] contiene en columnas los dos vectores propios Z0
Z. La matriz Cf es I × 2
y las dos coordenadas de cada Þla proporcionan la mejor representación de las Þlas de la
matriz F en un espacio de dos dimensiones. El procedimiento se extiende sin diÞcultad para
representaciones en más dimensiones, calculando vectores propios adicionales de la matriz
Z0
Z.
En resumen el procedimiento que hemos presentado para buscar una buena representación
de las Þlas de la tabla de contingencia es:
(1) Caracterizar las Þlas por sus frecuencias relativas condicionadas, y considerarlas como
puntos en el espacio.
(2) DeÞnir la distancia entre los puntos por la distancia χ2
, que tiene en cuenta que cada
coordenada de las Þlas tiene distinta precisión.
208 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS
(3) Proyectar los puntos sobre las direcciónes de máxima variabilidad, teniendo en cuenta
que cada Þla tiene un peso distinto e igual a su frecuencia relativa.
El procedimiento operativo para obtener la mejor representación bidimensional de las
Þlas de la tabla de contingencia es:
(1) Calcular la matriz Z0
Z y obtener sus vectores y valores propios.
(2) Tomar los dos vectores propios, a1, a2, ligados a los mayores valores propios menores
que la unidad de esta matriz.
(3) Calcular las proyecciones D−1
f FD−1/2
c ai, i = 1, 2, y representarlas gráÞcamente en un
espacio bidimensional.
Ejemplo 7.1 Aplicaremos este análisis a la matriz de la tabla 7.1. La matriz de frecuencias
relativas estandarizada por Þlas, R, se presenta en la tabla 7.4.
La variable transformada, Y, se calcula como
Y = R Dc
−1/2
= R(
1
5387






1455
286
2137
1391
118






)−1/2
dando lugar a
Y =
. 83 7 . 31 6 . 587 . 235 .015
. 873 . 228 . 536 . 301 .02 9
. 374 . 205 . 815 . 455 .09 5
. 14 7 . 161 . 484 1. 022 . 440
Esta matriz puede interpretarse como una matriz de datos donde por Þlas tenemos ob-
servaciones y por columnas variables. Para obtener la mejor representación de las Þlas en
un espacio de dimensión dos, vamos a obtener los vectores propios de la matriz Y´Df Y. Los
tres primeros valores y vectores propios de esta matriz se presentan en la tabla siguiente por
Þlas:
valor propio vector propio
1 -0.5197 -0.2304 -0.6298 -0.5081 -0.1480
0.1992 -0.6334 -0.1204 -0.0593 0.6702 0.3629
0.0301 -0.5209 -0.0641 0.7564 -0.3045 -0.2444
Los otros dos valores propios de esta matriz son 0,0009 0,0000. La proyección de los
puntos sobre el espacio deÞnido por los valores propios .1992 y .0301 se presenta en la Þgura
7.1
El eje de abscisas contiene la primera dimensión que explica el .1992/( .1992+ .0301+.0009)=.8653.
Vemos que se separan claramente los ojos claros y azules frente a castaños y oscuros. La
primera dimensión es pues claro frente a oscuro. La segunda dimensión separa las carac-
terísticas puras, ojos claros o azules y negros, frente a la mezclada, castaños.
Ejemplo 7.2 En un estudio de mercado 4 evaluadores han indicado que características con-
sideran importantes en un tipo de producto. El resultado es la matriz F donde en columnas
se representan los evaluadores y en Þlas los productos.
7.2. BÚSQUEDA DE LA MEJOR PROYECCIÓN 209
Figura 7.1: Proyección de las Þlas de la matriz de los colores de ojos y pelo sobre el mejor
espacio de dimensión 2.
F=
1 2 3 4
c1 0 0 1 0
c2 1 1 0 0
c3 0 1 0 1
c4 0 0 0 1
c5 0 1 0 0
c6 1 1 1 0
Esta matriz es una tabla de contingencia muy simple donde las frecuencias posibles son
cero o uno. La matriz Z es
Z =








0 0 .707 0
.5 .35 0 0
0 .35 0 .50
0 0 0 .707
0 .5 0 0
.408 .289 .408 0








y los valores propios de Z0
Z son (1, 0.75, 0.50, 0.17). El vector propio asociado al mayor valor
propio menor que uno es v = (0.27, 0, 0.53, −0.80). La proyección de las Þlas de Y sobre las
dos direcciones principales conduce a la Þgura 7.2
Se observa que las características más próximas son la 2 y la 5. Las elecciones de los evalu-
adores parecen ser debidas a dos dimensiones. La primera explica el 0,75/(0,75+0,50+0,17)=52,83%
de la variabilidad y la segunda el 35%. La primera dimensión tiene en cuenta las similitudes
210 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS
Figura 7.2: Proyección de las características de los productos
aparentes por las elecciones de las personas: las características c3 y c4 son elegidas por la
misma persona y por nadie más, por lo que estas características aparecen juntas en un ex-
tremo. En el lado opuesto aparecen la c1 y c6, que son elegidas por la misma persona, y las
c2 y c5 que son elegidas por personas que también eligen la c6. En la segunda dimensión las
características extremas son las c1 y c2.
7.2.2 Proyección de las columnas
Podemos aplicar a las columnas de la matriz F un análisis equivalente al de las Þlas. Las
columnas serán ahora puntos en <I
. Llamando
c = F0
1
al vector de frecuencias relativas de las columnas y Dc a la matriz diagonal que contiene
estas frecuencias relativas en la diagonal principal, de acuerdo con la sección anterior la
mejor representación de los J puntos (columnas) en un espacio de dimensión menor, con la
métrica χ2
conducirá, por simetría, a estudiar la matriz D−1
c F0
D
−1/2
f . Observemos que, si
ahora consideramos la matriz F0
y volvemos al problema de representarla por Þlas (que es
equivalente a representar F por columnas), el problema es idéntico al que hemos resuelto en
la sección anterior. Ahora la matriz que contiene las frecuencias relativas de las Þlas F0
es
Dc y la que contiene la de las columnas es Df . Intercambiando el papel de estas matrices,
las direcciones de proyección son los vectores propios de la matriz
Z Z0
= D
−1/2
f FD−1
c F0
D
−1/2
f (7.13)
donde Z es la matriz I × J deÞnida por (7.10). Como Z0
Z y ZZ0
tienen los mismos valores
propios no nulos, esa matriz tendrá también un valor propio unidad ligado al vector propio
1. Esta solución trivial no se considera. Llamando b al vector propio ligado al mayor valor
7.2. BÚSQUEDA DE LA MEJOR PROYECCIÓN 211
propio distinto de la unidad de ZZ0
, la mejor representación de las columnas de la matriz en
un espacio de dimensión uno vendrá dada por
yc(b)= Y0
b = D−1
c F0
D
−1/2
f b (7.14)
y, análogamente, la mejor representación en dimensión dos de las columnas de la matriz
vendrá dada por las coordenadas deÞnidas por las Þlas de la matriz
Cc = Y0
B2 = D−1
c F0
D
−1/2
f B2
donde B2 = [b1b2] contiene en columnas los dos vectores propios ligados a los valores propios
mayores de ZZ0
y menores que la unidad. La matriz Cc es J × 2 y cada Þla es la mejor
representación de las columnas de la matriz F en un espacio de dos dimensiones.
7.2.3 Análisis Conjunto
Dada la simetría del problema conviene representar conjuntamente las Þlas y las columnas
de la matriz. Observemos que las matrices Z0
Z y Z Z0
tienen los mismos valores propios no
nulos y que los vectores propios de ambas matrices que corresponden al mismo valor propio
están relacionados. En efecto, si ai es un vector propio de Z0
Z ligado al valor propio λi :
Z0
Zai = λiai
entonces, multiplicando por Z
ZZ0
(Zai) = λi(Zai)
y obtenemos que bi = Zai es un vector propio de ZZ0
ligado al valor propio λi. Una manera
rápida de obtener estos vectores propios es calcular directamente los vectores propios de la
matriz de dimensión más pequeña, Z0
Z o ZZ0
, y obtener los otros vectores propios como
Zai o Z0
bi. Alternativamente podemos utilizar la descomposición en valores singulares de la
matriz Z o Z0
, estudiada al introducir los biplots en el capítulo anterior. Esta descomposición
aplicada a Z es
Z = BrDrA0
r=
rX
i=1
λ
1/2
i bia0
i
donde Br contiene en columnas los vectores propios de ZZ0
, Ar los de Z0
Z y Dr es digonal y
contiene los valores singulares, λ
1/2
i , o raíces de los valores propios no nulos y r = min(I, J).
Entonces la representación de las Þlas se obtiene con (7.12) y la de las columnas con (7.14).
La representación de la matriz Z con h dimensiones (habitualmente h = 2) implica aproximar
esta matriz mediante bZh = BhDhA0
h. Esto es equivalente, por (7.10), a una aproximación a
la tabla de contingencia observada mediante:
bFh= D
1/2
f
bZhD1/2
c , (7.15)
212 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS
y una forma de juzgar la aproximación que estamos utilizando es reconstruir la tabla de
contingencia con esta expresión.
Si deseamos eliminar el valor propio unidad desde el principio, dado que no aparta in-
formación de interés, podemos reemplazar la matriz F por F−bFe , donde bFe es la matriz de
frecuencias esperadas que viene dada por
bFe =
1
n
rc0
.
Puede comprobarse que la matriz F−bFe tiene rango r −1, y ya no tiene el valor propio igual
a la unidad.
La proporción de variabilidad explicada por cada dimensión se calcula como en com-
ponentes principales descartando el valor propio igual a uno y tomando la proporción que
representa cada valor propio con relación al resto.
En resumen, el análisis de correspondencias de una tabla de contingencia de dimensiones
I × J se realiza en los pasos siguientes
(1) Se calcula la tabla de frecuencias relativas, F.
(1) Se calcula la tabla estandarizada Z, de frecuencias relativas las mismas dimensiones
de la tabla original, I × J, dividiendo cada celda de F por la raíz de los totales de su Þla y
columna, zij =
©
fij/
p
fi.f.j
ª
.
(2) Se calculan los h (normalmente h = 2) vectores propios ligados a valores propios
mayores, pero distintos de la unidad, de las matriz de menor dimensión de las ZZ0
y Z0
Z. Si
obtenemos lo vectores propios ai de Z0
Z, los bi de ZZ0
se obtienen por bi = Zai. Analoga-
mente si se obtienen los bi de ZZ0
ai = Z0
bi. Las I Þlas de la matriz se presentarán como
I puntos en <h
y las coordenadas de cada Þla vienen dadas por
Cf = D
−1/2
f ZA2
donde A2 tiene en columnas los dos vectores propios de Z0
Z. Las J columnas se representarán
como J puntos en <h
y las coordenadas de cada columna son
Cc= D−1/2
c Z0
B2
Ejemplo 7.3 Vamos a representar conjuntamente las Þlas y las columnas de la matriz de
los colores. La Þgura 7.3 presenta esta representación. Se observa que el gráÞco describe de
manera clara la relación entre ambas variables. La dimensión principal gradúa la tonalidad
de claro a oscuro y la segunda separa los castaños de los casos más extremos.
Es importante calcular conjuntamente los vectores propios para evitar problemas de sig-
nos, ya sea calculando los vectores propios de una matriz y obteniendo los otros como producto
por la matriz Z o bien a través de la descomposición en valores singulares. La razón es que
si v es un vector propio también lo es -v y al calcular separadamente las coordenadas y su-
perponerlas podemos obtener un resultado como el que se presenta en la Þgura 7.4 . En esta
Þgura se han calculado separadamente las dos representaciones y luego se han superpuesto.
El lector puede comprobar que si cambiamos de signo las coordenadas del eje de ordenadas
se obtiene la representación de la Þgura (7.3). Estos problemas de signos se evitan calculado
los vectores conjuntamente.
7.2. BÚSQUEDA DE LA MEJOR PROYECCIÓN 213
Figura 7.3: Representación de los colores de ojos y cabello para los escolares escoceses.
Figura 7.4:
214 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS
7.3 LA DISTANCIA JI-CUADRADO
El contraste de independencia entre las variables Þla y columna en una tabla de contingencia
I × J se realiza con la estadístico
X2
=
X (fr. observadas - fr. esperadas)2
fr. esperadas
que, en la hipótesis de independencia, sigue una distribución χ2
con (I − 1) × (J − 1) grados
de libertad. De acuerdo con la notación anterior, la frecuencia esperada en cada celda de la
Þla i, suponiendo independencia de Þlas y columnas, se obtendrá repartiendo el total de la
Þla, nfi., porporcionalmente a la frecuencia relativa de cada columna, f.j. Por ejemplo, la
frecuencia esperada de la primera casilla de la tabla 5.1 se obtendrá multiplicando el número
total de elementos de la Þla, 1580, por la proporción de personas rubias sobre el total,
1455/5387. Por tanto, el estadístico X2
para contrastar la independencia puede escribirse:
X2
=
IX
i=1
JX
j=1
(nfij − nfi.f.j)2
nfi.f.j
(7.16)
donde fi. =
PJ
j=1 fij es la frecuencia relativa de la Þla i y fj. =
PI
i=1 fij la de columna j.
Como
(nfij − nfi.f.j)2
nfi.f.j
=
nfi.
f.j
(fij − fi.f.j)2
fi.
2
la expresión del estadístico X2
puede también escribirse como :
X2
= n
IX
i=1
fi.
JX
j=1
(
fij
fi.
− f.j)2 1
f.j
. (7.17)
En esta representación la distribución condicionada de las frecuencias relativas de cada
Þla,
n
fij
fi.
o
, se compara con la distribución media de las Þlas {f.j} , y cada coordenada se
pondera inversamente a la frecuencia relativa que existe en esa columna. Se suman luego
todas las Þlas, pero dando a cada Þla un peso tanto mayor cuanto mayor es su frecuencia,
nfi..
Vamos a ver que esta representación es equivalente a calcular las distancias entre los
vectores de la matriz de frecuencias relativas por Þlas, R , deÞnida en (7.1) si medimos la
distancia con la métrica χ2
. Consideremos los vectores r0
i , Þlas de la matriz R . La media
de estos vectores es
r =
PI
i=1 wiri
PI
i=1 wi
donde los wi son coeÞcientes de ponderacion. La media aritmética se obtiene con wi = 1,
dando a todas las Þlas el mismo peso. Sin embargo, en este caso esta poderación no es
7.3. LA DISTANCIA JI-CUADRADO 215
conveniente, porque debemos dar más peso a las Þlas que contengan más datos. Podemos
ponderar por la frecuencia relativa de cada Þla, wi = fi., y entonces
P
wi =
P
fi. = 1. Como
las frecuencias relativas de las Þlas vienen dadas por el vector columna Df 1, tenemos que
r = R0
Df 1
y utilizando (7.1)
r = F0
D−1
f Df 1 = F0
1 = c
y el valor medio de las Þlas viene dado por el vector cuyos componentes son las frecuencias
relativas de las columnas. La distancia de cualquier vector de Þla, ri, a su media, c, con la
métrica χ2
será
(ri − c)0
D−1
c (ri − c)
donde la matriz D−1
c se obtuvo en (7.3) para construir la distancia χ2
. La suma de todas estas
distancias, ponderadas por su importancia, que se conoce como inercia total de la tabla, es
IT =
IX
i=1
fi.(ri − c)0
D−1
c (ri − c)
y esta expresión puede escribirse como
IT =
IX
i=1
fi.
JX
j=1
µ
fij
fi.
− f.j
¶2
/f.j
y si comparamos con (7.17) vemos que la inercia total es igual a X2
/n.
Se demuestra que la inercia total es la suma de los valores propios de la matriz Z0
Z
eliminado el uno. Por tanto, el análisis de las Þlas (o de las columnas ya que el problema es
simétrico) puede verse como una descomposición de los componentes del estadístico X2
en
sus fuentes de variación.
La distancia χ2
tiene una propiedad importante que se conoce como el principio de equiv-
alencia distribucional. Esta propiedad es que si dos Þlas tienen la misma estructura relativa,
fij/fi. y las unimos en una nueva Þla única, las distancias entre las restantes Þlas permanecen
invariables. Esta misma propiedad por simetría se aplica a las columnas. Esta propiedad
es importante, porque asegura una cierta invarianza del procedimiento ante agregaciones o
desagregaciones irrelevantes de las categorías. Para demostrarlo, consideremos la distancia
χ2
entre las Þlas a y b
JX
j=1
(
faj
fa.
−
fbj
fb.
)2 1
f.j.
es claro que esta distancia no se modiÞca si unimos dos Þlas en una, ya que esta unión no
va a afectar a las frecuencias fij/fi. ni tampoco a f.j.. Vamos a comprobar que si unimos
dos Þlas con la misma estructura la distancia de la nueva Þla al resto es la misma que las
216 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS
de las Þlas originales. En efecto, supongamos que para las Þlas 1 y 2, se veriÞca que para
j = 1, ..., J
f1j
f1.
=
f2j
f2.
= gj
entonces, si unimos estas dos Þlas en una nueva Þla, se obtiene que, para la nueva Þla
f1j + f2j
f1. + f2.
= gj
y su distancia a cualquier otra Þla permanecerá invariable.
Esta propiedad garantiza que no perdemos nada al agregar categoría homogéneas ni
podemos ganar nada por desagregar una categoría homogénea.
Ejemplo 7.4 Se han contabilizado los pesos y las alturas de 100 estudiantes universitarios
y se han formado 4 categorias tanto para el peso como para la altura. Para el peso, las
categorias se denotan P1, de 51 a 60 k., P2, de 61 a 70 k., P3, de 71 a 80 k. y P4, de 81 a
90 k. Para la altura se denotan A1, de 151 a 160 cm., A2, de 161 a 170 cm., A3, de 171 a
180 cm. y A4, de 181 a 190 cm. La siguiente tabla de contingencia muestra las frecuencias
de cada grupo:
Peso/Altura A1 A2 A3 A4
P1 15 8 3 0
P2 10 15 7 2
P3 2 7 17 3
P4 0 2 3 6
Realizar proyecciones por Þlas, por columnas y conjunta de Þlas y columnas. Comprobar
como las proyecciones por Þlas y por columnas separan claramente las categorias, pero que
la proyección conjunta asocia claramente cada categoría de un peso con la de una altura.
Para la proyección por Þlas, la variable Y queda:
Y = RD
−1
2
c =




0.1110 0.0544 0.0211 0
0.0566 0.0780 0.0376 0.0177
0.0133 0.0427 0.1070 0.0312
0 0.0321 0.0498 0.1645




Los tres valores propios y vectores propios diferentes de uno de esta matriz son:
valor propio vector propio
0.3717 -0.6260 -0.1713 0.3673 0.6662
0.1401 -0.2974 -0.0064 0.6890 -0.6610
0.0261 0.4997 -0.8066 0.3007 0.0964
7.3. LA DISTANCIA JI-CUADRADO 217
La proyección por Þlas es:
-0.1 -0.05 0 0.05 0.1 0.15
-0.08
-0.06
-0.04
-0.02
0
0.02
0.04
0.06
P1
P2
P3
P4
Para las columnas, los tres valores propios y vectores propios diferentes de uno de esta matriz
son:
valor propio vector propio
0.3717 -0.5945 -0.2216 0.3929 0.6656
0.1401 -0.2568 -0.0492 0.7034 -0.6609
0.0261 0.5662 -0.7801 0.2466 0.1005
La proyección por columnas es:
-0.08 -0.06 -0.04 -0.02 0 0.02 0.04 0.06 0.08 0.1 0.12
-0.1
-0.08
-0.06
-0.04
-0.02
0
0.02
0.04
A1
A2
A3
A4
218 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS
El resultado de la proyección conjunta es el siguiente donde alturas y pesos quedan asociados:
-0.1 -0.05 0 0.05 0.1 0.15
-0.06
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
A1
P1
A2
P2
A3
P3
A4
P4
Ejemplo 7.5 Del conjunto de datos MUNDODES, se ha tomado la esperanza de vida de
hombres y de mujeres. Se han formado 4 categorias tanto para la mujer como para el hombre.
Se denotan por M1 y H1, a las esperanzas entre menos de 41 a 50 años, M2 y H2, de 51 a
60 años, M3 y H3, de 61 a 70, y M4 y H4, para entre 71 a más de 80. La siguiente tabla de
contingencia muestra las frecuencias de cada grupo:
Mujer/Hombre H1 H2 H3 H4
M1 10 0 0 0
M2 7 12 0 0
M3 0 5 15 0
M4 0 0 23 19
Realizar proyecciones por Þlas, por columnas y conjunta de Þlas y columnas. Comprobar
que en la proyección por Þlas las categorias están claramente separadas y que en el caso del
hombre, las dos últimas categorías están muy cercanas. Comprobar en la proyección conjunta
la cercania de las categorías H3 con M3 y M4.
Para la proyección por Þlas, la variable Y queda:
Y = RD
−1
2
c =




0.2425 0 0 0
0.0894 0.1532 0 0
0 0.0606 0.1217 0
0 0 0.0888 0.1038




7.3. LA DISTANCIA JI-CUADRADO 219
Los tres valores propios y vectores propios diferentes de uno de esta matriz son:
valor propio vector propio
0.8678 0.7221 0.3551 -0.4343 -0.4048
0.3585 -0.5249 0.7699 0.0856 -0.3528
0.1129 -0.1274 0.3072 -0.6217 0.7091
La proyección por Þlas es:
-0.1 -0.05 0 0.05 0.1 0.15 0.2 0.25
-0.15
-0.1
-0.05
0
0.05
0.1
M1
M2
M3
M4
Para las columnas, los tres valores propios y vectores propios diferentes de uno de esta matriz
son:
valor propio vector propio
0.8678 -0.5945 -0.5564 0.1503 0.5606
0.3585 -0.6723 0.5172 0.4265 -0.3141
0.1129 -0.2908 0.4628 -0.7588 0.3543
220 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS
La proyección por columnas es:
-0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15
-0.2
-0.15
-0.1
-0.05
0
0.05
0.1
0.15
H1
H2
H3
H4
El resultado de la proyección conjunta es:
-0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15
-0.2
-0.15
-0.1
-0.05
0
0.05
0.1
0.15
M1
H1
M2
H2
M3 H3
M4H4
7.4 ASIGNACIÓN DE PUNTUACIONES
El análisis de correspondencias puede aplicarse también para resolver el siguiente problema.
Supongamos que se desea asignar valores numéricos yc(1), ..., yc(J) a las columnas de una
matriz F de observaciones, o, en otros términos, convertir la variable en columnas en una
7.4. ASIGNACIÓN DE PUNTUACIONES 221
variable numérica. Por ejemplo, en la tabla (7.3) el color del cabello puede considerarse una
variable continúa y es interesante cuantiÞcar las clases de color deÞnidas. Una asignación
de valores numéricos a las columnas de la tabla inducirá automáticamente unos valores
numéricos para las categorías de la variable en Þlas. En efecto, podemos asociar a la Þla i el
promedio de la variable yc en esa Þla, dado por:
yi =
PJ
j=1 fijyc(j)
PJ
j=1 fij
=
JX
j=1
rijyc(j) (7.18)
donde rij = fij/fi. es la frecuencia relativa condicionada a la Þla. El vector de valores así
obtenido para todas las Þlas será un vector I × 1 dado por:
yf = Ryc = D−1
r Fyc (7.19)
Análogamente, dadas unas puntuaciones yf para las Þlas, las puntuaciones de las colum-
nas pueden estimarse igualmente por sus valores medios en cada columna, obteniendo el
vector J × 1:
yc = D−1
c F0
yf (7.20)
Escribiendo conjuntamente (7.19) y (7.20) resultan las ecuaciones:
yf = D−1
f F D−1
c F0
yf (7.21)
yc = D−1
c F0
D−1
f Fyc (7.22)
que indican que las puntuaciones yf , y yc se obtienen como vectores propios de estas matrices.
Observemos que estas puntuaciones admiten una solución trivial tomando yc = (1, ..., 1)0
J ,
yf = (1, ..., 1)0
I. En efecto, las matrices D−1
c F0
y D−1
f F suman uno por Þlas, ya que son
de frecuencias relativas. Esta solución equivale en (7.21) y (7.22) al valor propio 1 de la
correspondiente matriz. Para encontrar una solución no trivial al problema, vamos a exigir
que ambas ecuaciones se cumplan aproximadamente introduciendo un coeÞciente de propor-
cionalidad, λ < 1, pero que queremos sea tan próximo a uno como sea posible. Multiplicando
(7.19) por D
1/2
f y (7.20) por D
1/2
c e introduciendo este coeÞciente de proporcionalidad ten-
emos que
λ(D
1/2
f yf ) = D
−1/2
f F D−1/2
c (D1/2
c yc) (7.23)
λ(D1/2
c yc) = D−1/2
c F0
D
−1/2
f (D
1/2
f yf ) (7.24)
222 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS
Para resolver estas ecuaciones, llamemos b = D
1/2
f yf , a = D1/2
c yc y Z = D
−1/2
f F D−1/2
c .
Sustituyendo estas deÞniciones en (7.23) y (7.24), obtenemos λb = Za y λa = Z0
b y sustiuyen-
do una de estas ecuacione en la otra se obtiene
λ2
b = ZZ0
b (7.25)
λ2
a = Z0
Za (7.26)
Estas ecuaciones muestran que b y a son vectores propios ligados al valor propio λ2
de
las matrices ZZ0
y Z0
Z. Los vectores de puntuaciones se obtendrán después a partir de la
deÞnición de b = D
1/2
f yf , con lo que resulta:
yf = D
−1/2
f b (7.27)
y como a = D1/2
c yc,
yc = D−1/2
c a (7.28)
Las matrices ZZ0
o Z0
Z siempre admite el valor propio 1 ligado a un vector propio
(1, ..., 1)0
. Tomando como a y b los vectores propios ligados al segundo mayor valor propio,
λ < 1, de estas matrices obtenemos las puntuaciones óptimas de Þlas y columnas.
Podemos obtener una representación gráÞca de las Þlas y columnas de la matriz de la
forma siguiente: si sustituimos las puntuaciones yc dadas por (7.28), que se denominan a
veces ”factores” asociados a las columnas, en la ecuación (7.19) y escribimos
yf (a) = D−1
f FD−1/2
c a
obtenemos las proyecciones de las Þlas encontradas en (7.12). Análogamente, sustituyendo
los ”factores” yf asociados a las Þlas en (7.20) y escribiendo
yc(b)= D−1
c F0
D
−1/2
f b
encontramos las proyecciones de las columnas de (7.14).
Concluimos que el problema de asignar puntaciones de una forma consistente a las Þlas
y a las columnas de una tabla de contingencia, es equivalente al problema de encontrar
una representación óptima en una dimensión de las Þlas y las columnas de la matriz. En
otros términos, el análisis de correspondencia proporciona en la primera coordenada de las
Þlas y columnas una forma consistente de asignar puntuaciones numèricas a las Þlas y a las
columnas de la tabla de contingencia.
7.4. ASIGNACIÓN DE PUNTUACIONES 223
Ejemplo 7.6 La tabla adjunta indica las puntuaciones alta (A), media (M) y baja (B)
obtenidas por 4 profesores P1, ..., P4, que han sido evaluados por un total de 49 estudiantes.
¿Qué puntuaciones habría que asignar a las categorías alta, media y baja? ¿y a los profe-
sores?
A M B
P1 2 6 2 10
P2 4 4 4 12
P3 1 10 4 15
P4 7 5 0 12
14 25 10 49
Entonces la matriz Z = D
−1/2
f F D−1/2
c es
Z =




.169 .380 .200
.309 .230 .365
.069 .516 .327
.540 .288 0




Vamos a obtener la descomposición en valores singulares de esta matriz. Es :
Z =




.452 .166 −.249
.495 . − 004 .869
.553 .581 −.317
.495 −.797 −.288






1
.45
.22




.534 −.816 .221
.714 .296 −.634
.452 .497 .741


que conduce a las variables
y = D
−1/2
f bi =




.143 .052 −.079
.143 −.001 .251
.143 .150 −.082
.143 −.230 −.083




z = D−1/2
c a =


.143 −.218 .059
.143 .059 −.127
.143 .157 .234


La mejor puntuación -en el sentido de la máxima discriminación- corresponde a (mul-
tiplicando por -1 el segundo vector propio para que los números más altos correpondan a
puntuaciones altas y favorecer la interpretación) 218, -059, -157 y a los profesores (multi-
plicando por -1 el segundo vector propio, para ser consistentes con el cambio anterior) 230
-150 001 -052. Si queremos trasladar estas puntuaciones a una escala entre cero y diez,
escribiremos
y =
x − xmin
xmax − xmin
× 10
224 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS
-0.1 -0.05 0 0.05 0.1 0.15
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
P4
P1
P2
P3
Alto
Medio
Baja
Figura 7.5: Proyección de los profesores y de las puntuaciones
y las puntuaciones se convierten en 10, 7.4 y 0 y. Las evaluaciones de los profesores al
pasarlas a la escala de cero a diez se convierten en 10, 0, 3.98, 2.57. La Þgura 7.5 presenta
la proyección de los profesores y de las categorías sobre el plano de mejor representación.
Ejemplo 7.7 La tabla de contingencia siguiente indica las puntuaciones, muy buena (MB),
buena (B), regular (R) o mala (M) obtenidas por las 5 películas nominadas a los Oscars a
la mejor película del año 2001 que han sido evaluadas por un total de 100 críticos de cine de
todo el mundo. ¿Que puntuaciones habría que asignar a las categorías? ¿y a las películas?
Películas/Puntuación M R B MB
P1 1 7 2 10 20
P2 0 3 2 15 20
P3 2 7 2 9 20
P4 0 1 3 16 20
P5 1 3 3 13 20
4 21 12 63 100
La matriz P es:






0.1118 0.3416 0.1291 0.2817
0 0.1464 0.1291 0.4226
0.2236 0.3416 0.1291 0.2535
0 0.0488 0.1936 0.4507
0.1118 0.1464 0.1936 0.3662






7.5. LECTURAS COMPLEMENTARIAS 225
Las variables que se obtienen son:
y = Dr−1
2 b =






0.1000 -0.0934 -0.1124 0.1365 0.0000
0.1000 0.0721 -0.1208 -0.1234 0.0707
0.1000 -0.1356 0.0707 -0.1078 -0.0707
0.1000 0.1304 0.0334 0.0435 -0.1414
0.1000 0.0266 0.1291 0.0512 0.1414






z = Dc−1
2 a =




0.1000 -0.2382 0.3739 -0.2085
0.1000 -0.1580 -0.1053 0.0396
0.1000 0.0369 0.1282 0.2357
0.1000 0.0608 -0.0130 -0.0448




La mejor puntuación para las categorías corresponde a -0.2382, -0.1580, 0.0369 y 0.0608.
Para las películas (multiplicando por -1 el segundo vector propio) a -0.0934, 0.0721, -0.1356,
0.1304 y 0.0266. Si trasladamos todas las puntuaciones entre cero y diez, obtenemos para
las categorias los valores 0, 2.6823, 9.2007 y 10. Para las cinco películas tenemos 1.5864,
7.8082, 0, 10 y 6.0977. La proyección conjunta muestra como la pelicula más cercana a la
puntuación muy buena (MB) es P4:
7.5 Lecturas complementarias
El análisis de correspondencias puede extenderse para estudiar tablas de cualquier dimen-
sión con el nombre de análisis de correspondencias múltiple. En este enfoque se utiliza la
descomposición en valores singulares para aproximar simultaneamente todas las tablas bidi-
mensionales que pueden obtenerse de una tabla multidimensional. Una buena introducción
226 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS
desde el punto de vista de componentes principales con la métrica ji-cuadrado se encuentra
en Gower y Hand (1995). Presentaciones de esta técnica como extensión del análisis de
correspondencias presentado en este capítulo se encuentran en Greenacre (1984) y Lebart
et al (1984). La literatura sobre análisis de correspondencias está sobre todo en francés,
véase Lebart et al (1997) y Saporta (1990). En español Cuadras (1990) y EscoÞer y Pages
(1990). Jackon (1991) contiene una sucinta descripción del método con bastantes referencias
históricas y actuales. Lebart, Salem y Bécue (2000) presenta interesantes aplicaciones del
análisis de correspondencias para el estudio de textos.
Ejercicios 7
7.1 Demostrar que la traza de las matrices Z0
Z y ZZ0
es la misma.
7.2 Demostrar que el centro de los vectores ri de las Þlas, donde cada Þla tiene un peso
f es el vector c de las frecuencias relativas de las columnas (calcule r =
P
fi.ri = R0
Df 1)
7.3 Demostrar que dada una matriz de datos X donde cada Þla tiene un peso W la
operación que convierte a esta matriz en otra de media cero es eX = (I − 110
W)X.
7.4 Demostrar que la suma de las distancias de Mahalanobis ponderadas de las Þlas es
igual a la de las columnas, donde la suma de las Þlas es
P
fi.(ri − c)0
D−1
c (ri − c).
7.5 Supongamos que estudiamos dos características en los elementos de un conjunto que
pueden darse en los niveles alto, medio y bajo en ambos casos. Si las frecuencias relativas
con las que aparecen estos niveles son las mismas para las dos características, indicar la
expresión de la representación de las Þlas y columnas en el plano bidimensional.
7.6 En el ejemplo 7.5 ¿qué podemos decir de la puntuación óptima para cuantiÞcar las
Þlas y columnas?
7.7 Indicar cómo afecta a la representación de Þlas y columnas que la tabla de contin-
gencias sea simétrica, es decir, fij = fji.
7.8 JustiÞcar que la variable
(fij−ricj/n)
√
ricj/n
es aproximadamente una variable normal estándar.
7.9 Demostrar que si deÞnimos la matriz X con elemento genérico xij = (fij−fi.f.j)/
p
fi.f.j
la matriz X0
X tiene los mismos valores vectores propios que la Z0
Z, donde zij = fij/
p
fi.f.j
salvo el valor propio 1 que aparece en Z0
Z, y no en X0
X .
Capítulo 8
ANÁLISIS DE CONGLOMERADOS
8.1 FUNDAMENTOS
El análisis de conglomerados (clusters) tiene por objeto agrupar elementos en grupos ho-
mogéneos en función de las similitudes o similaridades entre ellos. Normalmente se agrupan
las observaciones, pero el análisis de conglomerados puede también aplicarse para agrupar
variables. Estos métodos se conocen también con el nombre de métodos de clasiÞcación
automática o no supervisada, o de reconocimiento de patrones sin supervisión. El nombre
de no supervisados se aplica para distinguirlos del análisis discriminante, que estudiaremos
en el capítulo 13. El análisis de conglomerados estudia tres tipos de problemas:
Partición de los datos. Disponemos de datos que sospechamos son heterogéneos y se
desea dividirlos en un número de grupos preÞjado, de manera que:
(1) cada elemento pertenezca a uno y solo uno de los grupos;
(2) todo elemento quede clasiÞcado;
(3) cada grupo sea internamente homogéneo.
Por ejemplo, se dispone de una base de datos de compras de clientes y se desea hacer
una tipología de estos clientes en función de sus pautas de consumo.
Construcción de jerarquías. Deseamos estructurar los elementos de un conjunto de forma
jerárquica por su similitud. Por ejemplo, tenemos una encuesta de atributos de distintas
profesiones y queremos ordenarlas por similitud. Una clasiÞcación jerárquica implica que los
datos se ordenan en niveles, de manera que los niveles superiores contienen a los inferiores.
Este tipo de clasiÞcación es muy frecuentes en biología, al clasiÞcar animales, plantas etc.
Estrictamente, estos métodos no deÞnen grupos, sino la estructura de asociación en cadena
que pueda existir entre los elementos. Sin embargo, como veremos, la jerarquía construida
permite obtener también una partición de los datos en grupos.
ClasiÞcación de variables. En problemas con muchas variables es interesante hacer
un estudio exploratorio inicial para dividir las variables en grupos. Este estudio puede
orientarnos para plantear los modelos formales para reducir la dimensión que estudiaremos
más adelante. Las variables pueden clasiÞcarse en grupos o estructurarse en una jerarquía.
Los métodos de partición utilizan la matriz de datos, pero los algoritmos jerárquicos
utilizan la matriz de distancias o similitudes entre elementos. Para agrupar variables se
parte de la matriz de relación entre variables: para variables continuas suele ser la matriz de
227
228 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
correlación, y para variables discretas, se construye, como veremos, a partir de la distancia
ji-cuadrado.
Vamos a estudiar en primer lugar los métodos de partición
8.2 MÉTODOS CLÁSICOS DE PARTICIÓN
8.2.1 Fundamentos del algoritmo de k-medias
Supongamos una muestra de n elementos con p variables. El objetivo es dividir esta muestra
en un número de grupos preÞjado, G. El algoritmo de k-medias (que con nuestra notación
debería ser de G−medias) requiere las cuatro etapas siguientes :
(1) Seleccionar G puntos como centros de los grupos iniciales. Esto puede hacerse:
a) asignando aleatoriamente los objetos a los grupos y tomando los centros de los
grupos así formados;
b) tomando como centros los G puntos más alejados entre sí ;
c) construyendo los grupos con información a priori, o bien seleccionando los centros
a priori.
(2) Calcular las distancias euclídeas de cada elementoa al centro de los G grupos, y asignar
cada elemento al grupo más próximo. La asignación se realiza secuencialmente y al
introducir un nuevo elemento en un grupo se recalculan las coordenadas de la nueva
media de grupo.
(3) DeÞnir un criterio de optimalidad y comprobar si reasignando uno a uno cada elemento
de un grupo a otro mejora el criterio.
(4) Si no es posible mejorar el criterio de optimalidad, terminar el proceso.
8.2.2 Implementación del algoritmo
El criterio de homogeneidad que se utiliza en el algoritmo de k-medias es la suma de
cuadrados dentro de los grupos (SCDG) para todas las variables, que es equivalente a la
suma ponderada de las varianzas de las variables en los grupos:
SCDG=
GX
g=1
p
X
j=1
ng
X
i=1
(xijg − xjg)2
(8.1)
donde xijg es el valor de la variable j en el elemento i del grupo g y xjg la media de esta
variable en el grupo. El criterio se escribe
min SCDG = min
GX
g=1
p
X
j=1
ngs2
jg (8.2)
8.2. MÉTODOS CLÁSICOS DE PARTICIÓN 229
donde ng es el número de elementos del grupo g y s2
jg es la varianza de la variable j en
dicho grupo. La varianza de cada variable en cada grupo es claramente una medida de la
heterogeneidad del grupo y al minimizar las varianzas de todas las variables en los grupos
obtendremos grupos más homogéneos. Un posible criterio alternativo de homogeneidad
sería minimizar las distancias al cuadrado entre los centros de los grupos y los puntos que
pertenecen a ese grupo. Si medimos las distancias con la norma euclídea, este criterio se
escribe:
min
GX
g=1
ng
X
i=1
(xig − xg)0
(xig − xg) =
GX
g=1
ng
X
i=1
d2
(i, g)
donde d2
(i, g) es el cuadrado de la distancia euclídea entre el elemento i del grupo g y su
media de grupo. Es fácil comprobar que ambos criterios son idénticos. Como un escalar es
igual a su traza, podemos escribir este último criterio como
min
GX
g=1
ng
X
i=1
tr
£
d2
(i, g)
¤
= min tr
" GX
g=1
ng
X
i=1
(xig − xg)(xig − xg)0
#
y llamando W a la matriz de suma de cuadrados dentro de los grupos,
W =
GX
g=1
ng
X
i=1
(xig − xg)(xig − xg)0
teenmos que
min tr(W) = min SCDG
Como la traza es la suma de los elementos de la diagonal principal ambos criterios coinciden.
Este criterio se denomina criterio de la traza, y fue propuesto por Ward (1963).
La maximización de este criterio requeriría calcularlo para todas las posibles particiones,
labor claramente imposible, salvo para valores de n muy pequeños. El algoritmo de k−medias
busca la partición óptima con la restricción de que en cada iteración sólo se permite mover
un elemento de un grupo a otro. El algoritmo funciona como sigue
(1) Partir de una asignación inicial
(2) Comprobar si moviendo algún elemento se reduce W.
(3) Si es posible reducir W mover el elemento, recalcular las medias de los dos grupos
afectados por el cambio y volver a (2). Si no es posible reducir W terminar.
En consecuencia, el resultado del algortimo puede depender de la asignación inicial y
del orden de los elementos. Conviene siempre repetir el algoritmo desde distintos valores
iniciales y permutando los elemento de la muestra. El efecto del orden de las observaciones
suele ser pequeño, pero conviene asegurarse en cada caso de que no esta afectando.
El criterio de la traza tiene dos propiedades importantes. La primera es que no es
invariante ante cambios de medida en las variables. Cuando las variables vayan en unidades
distintas conviene estandarizarlas, para evitar que el resultado del algoritmo de k-medias
dependa de cambios irrelevantes en la escala de medida. Cuando vayan en las mismas
230 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
unidades suele ser mejor no estandarizar, ya que es posible que una varianza mucho mayor
que el resto sea precisamente debida a que existen dos grupos de observaciones en esa variable,
y si estandarizamos podemos ocultar la presencia de los grupos. Por ejemplo, la Þgura 8.1
muestra un ejemplo donde la estandarización puede hacer más difícil la identiÞcación de los
grupos.
Figura 8.1: La estandarización puede diÞcultar la identiÞcación de los grupos.
La segunda propiedad del criterio de la traza es que minimizar la distancia euclídea
produce grupos aproximadamente esféricos. Las razones para este hecho se estudiarán en el
capítulo 15. Por otro lado este criterio esta pensado para variables cuantitativas y, aunque
puede aplicarse si existe un pequeño número de variables binarias, si una parte importante
de las variables son atributos, es mejor utilizar los métodos jerárquicos que se describen a
continuación.
8.2.3 Número de grupos
En la aplicación habitual del algoritmo de k-medias hay que Þjar el número de grupos, G.
Es claro que este número no puede estimarse con un criterio de homogeneidad ya que la
forma de conseguir grupos muy homogéneos y minimizar la SCDG es hacer tantos grupos
como observaciones, con lo que siempre SCDG=0. Se han propuesto distintos métodos para
seleccionar el número de grupos. Un procedimiento aproximado que se utiliza bastante,
aunque puede no estar justiÞcado en unos datos concretos, es realizar un test F aproximado
de reducción de variabilidad, comparando la SCDG con G grupos con la de G+1, y calculando
la reducción proporcional de variabilidad que se obtiene aumentando un grupo adicional. El
test es:
F =
SCDG(G) − SCDG(G + 1)
SCDG(G + 1)/(n − G − 1)
(8.3)
8.2. MÉTODOS CLÁSICOS DE PARTICIÓN 231
y compara la disminución de variabilidad al aumentar un grupo con la varianza promedio.
El valor de F suele compararse con una F con p, p(n − G − 1) grados de libertad, pero
esta regla no esta muy justiÞcada porque los datos no tienen porque veriÞcar las hipótesis
necesarias para aplicar la distribución F . Una regla empírica que da resultados razonables,
sugerida por Hartigan (1975), e implantada en algunos programas informáticos, es introducir
un grupo más si este cociente es mayor que 10.
Ejemplo 8.1 La Þgura 8.2 presenta los datos de ruspini (Þchero ruspini.dat) que incluye
75 datos de dos variables y que se han utilizado para comparar distintos algoritmos de clasi-
Þcación. El gráÞco muestra claramente cuatro grupos de datos en dos dimensiones.
Figura 8.2: Datos de Ruspini
La tabla 8.1 muestra el resultado de aplicar el programa de k-medias en Minitab para
distinto número de grupos a los datos sin estandarizar. De acuerdo con el criterio F existen
tres grupos en los datos. Las Þguras 8.3, 8.4, 8.5 y 8.6 muestran los grupos obtenidos con
este programa.
La tabla se ha construido a partir de la información proporcionada por el programa. Al
pasar de 2 a 3 grupos hay una reducción de variabilidad muy signiÞcativa dada por
F =
89247 − 51154
51154/(75 − 4)
= 52. 87
Sin embargo al pasar de 3 a 4 grupos la reducción no es signiÞcativa
F =
51154 − 50017
50017/(75 − 5)
= 1. 59.
El algortimo de k-medias implantado en minitab llevaría a dividir los datos en los tras
grupos indicados en la Þgura 8.4. Si aplicamos el algoritmo a los datos estandarizados se
232 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
Número de grupos tamaño SCDG(i) SCDG F
2 34 43238
40 46009 89247
3 20 3689
40 46009
15 1456 51154 52.8
4 4 170
16 2381
15 1456
40 46009 50017 1.59
5 4 170
5 292
11 857
40 46009
15 1456 48784
Tabla 8.1: Tabla con la información para seleccionar el número de grupos con el algoritmo
de k.medias.
obtienen de nuevo tres grupos, pero distintos: el primero esta formado por los dos conjuntos
de puntos situados en la parte superior del gráÞco y los otros dos grupos por los dos inferiores.
Figura 8.3: División de los datos de Ruspini en dos grupos con Minitab.
Para estudiar el funcionamiento de distintos programas hemos aplicado el mismo análisis
a estos datos con el programa de k-medias de SPSS. La partición en dos grupos es la misma
con ambos programas, pero la partición en tres y cuatro grupos es distinta como muestran
las Þguras 8.7, 8.8 y 8.9. El programa SPSS produce mejores resultados que Minitab. Este
ejemplo sugiere que antes de aceptar los resultados de un análisis de conglomerados mediante
8.2. MÉTODOS CLÁSICOS DE PARTICIÓN 233
Figura 8.4: División de los datos de Ruspini en tres grupos con Minitab
Figura 8.5: División de los datos de Ruspini en cuatro grupos con Minitab
234 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
G = 2 G = 3 G = 4 G = 5 G = 6
eh 30 20 14 15 14
em 35 22 13 16 12
mi 509 230 129 76 83
tm 15 11 9 9 9
tn 64 58 37 35 26
Total=MS(G) 653 341 202 151 144
F 82.4 61.5 30.4 6.2
Tabla 8.2: Tabla con la información para seleccionar el número de grupos con el algoritmo
de k.medias.
el algoritmo de K-medias conviene probar distintos puntos de partida y distintos algoritmos.
Ejemplo 8.2 Vamos a aplicar el algoritmo de k-medias a los datos de los países. Se van
a utilizar únicamente las 5 variables demográÞcas de MUNDODES. Comenzaremos comen-
tando los resultados obtenidos al utilizar el programa k-medias con el programa SPSS. Para
decidir el número de grupos este programa nos proporciona la varianza promedio dentro de
los grupos para cada variable. Por ejemplo, si G = 2, dos grupos, la segunda columna de la
tabla 15.1 indica que la varianza promedio dentro de los dos grupos o no explicada para la
variable eh es 30, para la variable em es 35, y así sucesivamente. Este término se calcula
como sigue: para cada variable hacemos la descomposición del análisis de la varianza de su
suma de cuadrados total
P
(xij − x)2
en la variabilidad explicada,
P
(xi − x)2
, donde xi es
la media de la variable en cada grupo, y la no explicada,
P
(xij − xi)2
. Este último término
dividido por sus grados de libertad, que son n − G proporciona la varianza promedio dentro
de los grupos o no explicada. Según la deÞnición La suma de estas varianzas multiplicada
por n − G proporciona el estadístico SCDG, como indica la fórmula (15.5). La tabla 15.1
resume esta información
La tabla muestra que, como es de esperar, las varianzas promedio de las variables dismin-
uyen al hacer más grupos. La tabla muestra que la variable mi tiene mucha más varianza que
las demás, y por tanto va a tener un peso muy importante en la construcción de los grupos,
que van a hacerse principalmente por los valores de esta variable. La tabla de las varianzas
muestra que el número de grupos es cinco, ya que al aumentar a seis la disminución de
las varianzas es muy pequeña. Podemos contrastar esta intuición calculando el estadístico
F dado por (8.3). Llamando MS(G) a la Þla de totales que será igual a SCDG(G)/(n-G),
tenemos que este estadistico se calcula como
F =
(n − G)MS(G) − (n − G − 1)MS(G + 1)
MS(G + 1)
donde n = 91 y G es el número de grupos indicado por columnas. Por ejemplo, el contraste
para ver si conviene pasar de dos grupos a tres será
F =
89.653 − 88.341
341
= 82.45
8.2. MÉTODOS CLÁSICOS DE PARTICIÓN 235
Figura 8.6: División de los datos de Ruspini en 5 grupos con Minitab
Figura 8.7: División en tres grupos de los datos de Ruspini con SPSS
236 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
Figura 8.8: División en cuatro grupos de los datos de Ruspini con SPSS
Figura 8.9: División en cinco grupos de los datos de Ruspini con SPSS
8.2. MÉTODOS CLÁSICOS DE PARTICIÓN 237
mortalidad infantil
180.0
170.0
160.0
150.0
140.0
130.0
120.0
110.0
100.0
90.0
80.0
70.0
60.0
50.0
40.0
30.0
20.0
10.0
0.0
30
20
10
0
Desv. típ. = 46.30
Media = 55.3
N = 91.00
Figura 8.10: Histograma de la variable mortalidad infantil indicando la presencia de entre
cuatro y cinco grupos de paises
Así se obtiene la Þla de F de la tabla, y, de acuerdo con el criterio de Hartigan, escogeríamos
cinco grupos.
Como hemos visto que la variable mi es muy importante en la construcción de los grupos,
la Þgura 15.1 presenta un histograma de esta variable. Se observa que esta variable, que va a
tener un peso dominante en la formación de los grupos, indica claramente la heterogeneidad
de la muestra. En los grupos construidos el grupo con menor mortalidad infantil es el tres,
que incluye los paises de Europa menos Albania, y el de mayor mortalidad, el dos, que incluye
a los países más pobres de Africa.
La Þgura 8.11 ilustra la posición de los 5 grupos en el gráÞco de las dos variables más
inßuyentes y la Þgura 8.12 la composición de los grupos. Se observa que el grupo 3 esta
´formado por la mayoría de los países europeos, japón y norte américa, el grupo1 incluye
los países europeos más pobres, los más ricos de latinoamérica y otros países como China
y Egipto. El grupo 4 engloba países de desarrollo medio africanos (como suráfrica o Zaire)
lationamericanos (Brasil) y de Asia como Arabia Saudita, India e Indonesia. Finalmente
los grupos 5 y 2 incluye los países menos desarrollos.
238 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
Figura 8.11: Representación de los grupos en el gráÞco de dispersión de las variables mor-
talidad infantil y tasa de natalidad
Figura 8.12: Indicación de los países que pertenecen a cada uno de los grupos.
Hemos repetido el análisis utilizando el programa Minitab para cinco grupos. Este pro-
grama propociona la suma de cuadrados dentro de los grupos por clusters (grupos) en lugar
de por variables, como se indica:
Number of Within cluster Average distance Maximum distance
observations sum of squares from centroid from centroid
8.2. MÉTODOS CLÁSICOS DE PARTICIÓN 239
Cluster1 21 10855.985 20.220 58.275
Cluster2 14 833.119 7.357 10.902
Cluster3 28 960.586 5.415 9.925
Cluster4 9 864.347 8.977 15.250
Cluster5 19 3126.014 12.110 21.066
Ejemplo 8.3 Los resultados para datos sin estandarizar son parecidos, pero no idénticos,
como puede verse en la Þgura 8.13, donde se han representado los grupos en el plano de
las dos variables con mayor varianza y que van a tener más peso en la determinación de
los grupso. Al estandarizar las variables los resultados cambian sustancialmente, al tener un
peso mayor el resto de las variables, los grupos son más homogéneos por continentes y en
Europa se separan los países occidentales y los orientales. Los resultados se presentan en la
Þgura 8.14 donde de nuevo se han utilizado las dos variables más importantes.
Figura 8.13: Resultados de k-medias con minitab para los datos de MUNDODES sin es-
tandarizar. Se forman cinco grupos. En ordenadas la mortalidad infantil(C4) y en abcisas
la tasa de natalidad (C2)
240 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
Figura 8.14: Resultados de k-medias para datos estandarizados de MUNDODES con el
programa Minitab. En ordenadas la mortalidad infantil(C4) y en abcisas la tasa de natalidad
(C2)
8.3 MÉTODOS JERÁRQUICOS
8.3.1 Distancias y Similaridades
Distancias Euclídeas
Los métodos jerárquicos parten de una matriz de distancias o similaridades entre los ele-
mentos de la muestra y construyen una jerarquía basada en una distancia. Si todas las
variables son continuas, la distancia más utilizada es la distancia euclídea entre las variables
estandarizadas. No es, en general, recomendable utilizar las distancias de Mahalanobis, ya
que la única matriz de covarianzas disponible es la de toda la muestra, que puede mostrar
unas correlaciones muy distintas de las que existen entre las variables dentro de los grupos.
Por ejemplo, la Þgura 8.15 se ha generado con dos grupos de variables normales indepen-
dientes de medias (0,0) y (5,5) y varianza unidad. La posición de los grupos genera en el
conjunto de puntos una correlación positiva fuerte, que desaparece si consideramos cada uno
de los grupos por separado.
8.3. MÉTODOS JERÁRQUICOS 241
Figura 8.15: Dos grupos con variables incorreladas pueden dar lugar a alta correlación entre
las variables.
Para decidir si estandarizar las variables o no antes del análisis conviene tener en cuen-
ta los comentarios anteriores y el objetivo del estudio. Si no estandarizamos, la distancia
euclídea dependerá sobre todo de las variables con valores más grandes, y el resultado del
análisis puede cambiar completamente al modiÞcar su escala de medida. Si estandarizamos,
estamos dando a priori un peso semejante a las variables, con independencia de su variabil-
idad original, lo que puede no ser siempre adecuado.
Cuando en la muestra existen variables continuas y atributos el problema se complica.
Supongamos que la variable x1 es binaria. La distancia euclídea entre dos elementos de la
muestra en función de esta variable es (xi1 − xh1)2
que tomará el valor cero si xi1 = xh1, es
decir cuando el atributo está, o no está, en ambos elementos, y uno si el atributo está en un
elemento y no en el otro. Sin embargo, la distancia entre dos elementos correspondiente a
una variable continua estandarizada, (xi1 −xh1)2
/s2
1, puede ser mucho mayor que uno, con lo
que las variables continuas van en general a pesar mucho más que las binarias. Esto puede
ser aceptable en muchos casos, pero cuando, por la naturaleza del problema, esta situación
no sea deseable, la solución es trabajar con similaridades.
Similaridades El coeÞciente de similaridad según la variable j = 1, ..., p entre dos elemen-
tos muestrales (i, h), se deÞne como una función, sjih, no negativa y simétrica:
(1) sjii = 1
(2) 0 ≤ sjih ≤ 1
(3) sjih = sjhi
Si obtenemos las similaridades para cada variable entre dos elementos podemos combina-
rlas en un coeÞciente de similaridad global entre los dos elementos. El coeÞciente propuesto
242 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
por Gower es
sih =
Pp
j=1 wjihsjih
Pp
j=1 wjih
(8.4)
donde wjih es una variable Þcticia que es igual a uno si la comparación de estos dos elementos
mediante la variable j tiene sentido, y será cero si no queremos incluir esa variable en la
comparación entre los elementos. Por ejemplo, si la variable x1 es si una persona ha pedido
(x1 = 1) o no (x1 = 0) un crédito y la x2 si lo ha devuelto o no, si una persona no ha
pedido crédito, tiene x1 = 0, no tienen sentido preocuparse de x2. En este caso al comparar
individuos (i, j) si uno cualquiera de los dos tiene un valor cero en x1, asignaremos a la
variable w2ij el valor cero
Las similaridades entre elementos en función de las variables cualitativas pueden con-
struirse individualmente o por bloques. La similaridad entre dos elementos por una variable
binaria será uno, si ambos tienen el atributo, y cero en caso contrario. Alternativamente,
podemos agrupar las variables binarias en grupos homogéneos y tratarlas conjuntamente. Si
suponemos que todos los atributos tienen el mismo peso, podemos construir una medida de
similaridad entre dos elementos A y B respecto a todos estos atributos contando el número
de atributos que están presentes:
(1) en ambos (a);
(2) en A y no en B, (b);
(3) en B y no en A, (c);
(4) en ninguno de los dos elementos, (d).
Estas cuatro cantidades forman una tabla de asociación entre elementos, y servirán para
construir medidas de similitud o similaridad entre los dos elementos comparados. En esta
tabla se veriÞca que na = a + b + c + d, donde na es el número de atributos.
Elementos variables (atributos)
x1 x2 x3 x4 x5 x6 x7
A 0 1 1 0 0 0 1
B 1 0 1 1 1 1 0
C 1 0 0 1 1 1 1
. . . . . . .
Tabla 8.3: Matriz de datos cuando las variables son atributos binarios
Por ejemplo, la tabla 8.3 presenta una posible matriz de datos con siete atributos binarios
y con ella se ha construido la tabla 8.4 de asociación que presenta la distribución conjunta
de los valores 0 y 1 para los elementos A y B. El elemento A tiene 3 valores 1 en el conjunto
de variables binarias y de estos tres casos, en una ocasión también el elemento B tiene el
valor 1, y en otras dos tiene el valor 0. El elemento A toma 4 veces el valor 0, ninguna
coincidiendo con B y las cuatro con B tomando el valor uno. La suma de los totales de Þlas
y columnas debe ser siempre el número de atributos binarios considerados. Para calcular un
coeÞciente de similitud entre dos individuos a partir de su tabla de asociación se utilizan los
dos criterios principales siguientes:
8.3. MÉTODOS JERÁRQUICOS 243
B
1 0
A 1 1 (a) 2 (b) 3
0 4 (c) 0 (d) 4
Suma 5 2 7
Tabla 8.4: Tabla de asociación correspondiente a los elementos A y B
1. Proporción de coincidencias. Se calcula como el número total de coincidencias sobre
el número de atributos totales:
sij =
a + d
na
. (8.5)
por ejemplo la similitud de Ay B es 1/7, y la de B y C es 5/7.
2. Proporción de apariciones. Cuando la ausencia de un atributo no es relevante, podemos
excluir las ausencias y calcular sólo la proporción de veces donde el atributo aparece
en ambos elementos. El coeÞciente se deÞne por:
sij =
a
a + b + c
(8.6)
Por ejemplo con este criterio en la tabla 8.3 la similitud entre A y B es también 1/7 , y
la de B y C es 4/6.
Aunque las dos propuestas anteriores son las más utilizadas puede haber situaciones
donde sean recomendables otras medidas. Por ejemplo, podemos querer dar peso doble a las
coincidencias, con lo que resulta sij = 2(a + d)/(2(a + d) + b + c), o tener sólo en cuenta las
coincidencias y tomar sij = a/(b + c). Finalmente los coeÞcientes de similitud o similaridad
para una variable continua se construye mediante
sjih = 1 −
|xij − xhj|
rango(xj)
de esta manera el coeÞciente resultante estará siempre entre cero y uno. Cuando tenemos
varias variables estos coeÞcientes pueden combinarse como indica la expresión (8.4).
Una vez obtenida la similaridad global entre los elementos, podemos transformar los
coeÞcientes en distancias. Lo más simple es deÞnir la distancia mediante dij = 1 − sij, pero
está relación puede no veriÞcar la propiedad triangular. Puede demostrarse que si la matriz
de similaridades es deÞnida positiva (lo que ocurrirá si calculamos las similitudes por (8.5)
o (8.6), y deÞnimos la distancia por:
dij =
q
2(1 − sij)
entonces sí se veriÞca la propiedad triangular (véase el ejercicio 6.5)
244 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
8.3.2 Algoritmos Jerárquicos
Dada una matriz de distancias o de similitudes se desea clasiÞcar los elementos en una jer-
arquía. Los algoritmos existentes funcionan de manera que los elementos son sucesivamente
asignados a los grupos, pero la asignación es irrevocable, es decir, una vez hecha, no se
cuestiona nunca más. Los algoritmos son de dos tipos:
1. De aglomeración. Parten de los elementos individuales y los van agregando en grupos.
2. De división. Parten del conjunto de elementos y lo van dividiendo sucesivamente hasta
llegar a los elementos individuales.
Los algoritmos de aglomeración requieren menos tiempo de cálculo y son los más utiliza-
dos. El lector puede consultar los algoritmos de división en Seber (1984).
8.3.3 Métodos Aglomerativos
Los algoritmos aglomerativo que se utilizan tienen siempre la misma estructura y sólo se
diferencian en la forma de calcular las distancias entre grupos. Su estructura es:
1. Comenzar con tantas clases como elementos, n. Las distancias entre clases son las
distancias entre elementos originales.
2. Seleccionar los dos elementos más próximos en la matriz de distancias y formar con
ellos una clase.
3. Sustituir los dos elementos utilizados en (2) para deÞnir la clase por un nuevo elemento
que represente la clase construida. Las distancias entre este nuevo elemento y los
anteriores se calculan con uno de los criterios que comentamos a continuación.
4. Volver a (2) y repetir (2) y (3) hasta que tengamos todos los elementos agrupados en
una clase única.
Criterios para deÞnir distancias entre grupos
Supongamos que tenemos un grupo A con na elementos, y un grupo B con nb elementos, y
que ambos se fusionan para crear un grupo (AB) con na + nb elementos. La distancia del
nuevo grupo, (AB), a otro grupo C con nc elementos, se calcula habitualmente por alguna
de las cinco reglas siguientes:
1. Encadenamiento simple o vecino más próximo. La distancia entre los dos nuevos
grupos es la menor de las distancias entre grupos antes de la fusión. Es decir:
d(C; AB) = min (dCA, dCB)
Una forma simple de calcular con un ordenador el mínimo entre las dos distancias es
utilizar que
min (dCA, dCB) = 1/2 (dCA + dCB − |dCA − dCB|)
8.3. MÉTODOS JERÁRQUICOS 245
En efecto, si dCB > dCA el término en valor absoluto es dCB − dCA y el resultado de
la operación es dCA, la menor de las distancias. Si dCA > dCB el segundo término es
dCA − dCB y se obtiene dCB.
Como este criterio sólo depende del orden de las distancias será invariante ante trans-
formaciones monótonas: obtendremos la misma jerarquía aunque las distancias sean
numéricamente distintas. Se ha comprobado que este criterio tiende a producir grupos
alargados, que pueden incluir elementos muy distintos en los extremos.
2. Encadenamiento completo o vecino más alejado. La distancia entre los dos nuevos
grupos es la mayor de las distancias entre grupos antes de la fusión. Es decir:
d(C; AB) = m´ax (dCA, dCB)
y puede comprobarse que
m´ax (dCA, dCB) = 1/2 (dCA + dCB + |dCA − dCB|) .
Este criterio será también invariante ante transformaciones monótonas de las distancias
al depender, como el anterior, del orden de las distancias. Tiende a producir grupos
esféricos.
3. Media de grupos. La distancia entre los dos nuevos grupos es la media ponderada entre
las distancias entre grupos antes de la fusión. Es decir:
d(C; AB) =
na
na + nb
dCA +
nb
na + nb
dCB
Como se ponderan los valores de las distancias, este criterio no es invariante ante
transformaciones monótonas de las distancias.
4. Método del centroide. Se aplica generalmente sólo con variables continuas. La distancia
entre dos grupos se hace igual a la distancia euclídea entre sus centros, donde se
toman como centros los vectores de medias de las observaciones que pertenecen al
grupo. Cuando se unen dos grupos se pueden calcular las nuevas distancias entre ellos
sin utilizar los elementos originales. Puede demostrarse (véase ejercicio 8.5) que el
cuadrado de la distancia euclídea de un grupo C a la unión de los grupos A, con na
elementos y B con nb es
d2
(C; AB) =
na
na + nb
d2
CA +
nb
na + nb
d2
CB −
nanb
(na + nb)2
d2
AB
El método de Ward
Un proceso algo diferente de construir el agrupamiento jerárquico ha sido propuesto por
Ward y Wishart. La diferencia con los métodos anteriores es que ahora se parte de los
elementos directamente, en lugar de utilizar la matriz de distancias, y se deÞne una medida
global de la heterogeneidad de una agrupación de observaciones en grupos. Esta medida es
246 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
W, ya utilizada en la sección 8.2, la suma de las distancias euclídeas al cuadrado entre cada
elemento y la media de su grupo:
W =
X
g
X
i∈g
(xig − xg)0
(xig − xg) (8.7)
donde xg es la media del grupo g. El criterio comienza suponiendo que cada dato forma
un grupo, g = n y por tanto W (8.7) es cero. A continuación se unen los elementos que
produzcan el incremento minimo de W. Obviamente esto implica tomar los más próximos
con la distancia euclídea. En la siguiente etapa tenemos n − 1 grupos, n − 2 de un elemento
y uno de dos elementos. Decidimos de nuevo que dos grupos unir para que W crezca lo
menos posible, con lo que pasamos a n − 2 grupos y así sucesivamente hasta tener un único
grupo. Los valores de W van indicando el crecimiento del criterio al formar grupos y pueden
utilizarse para decidir cuantos grupos naturales contienen nuestros datos.
Puede demostrarse que, en cada etapa, los grupos que debe unirse para minimizar W
son aquellos tales que:
min
nanb
na + nb
(xa − xb)0
(xa − xb)
Comparación
Es difícil dar reglas generales que justiÞquen un criterio sobre otro, aunque los más utilizados
son los tres últimos. Nuestra recomendación es analizar que criterio es más razonable para
los datos que se quieren agrupar y , en caso de duda, probar con varios y comparar los
resultados.
El dendrograma
El dendrograma, o árbol jerárquico, es una representación gráÞca del resultado del proceso de
agrupamiento en forma de árbol. Los criterios para deÞnir distancias que hemos presentado
tienen la propiedad de que, si consideramos tres grupos, A, B, C, se veriÞca que
d(A, C) ≤ max {d(A, B), D(B, C)}
y una medida de distancia que tiene esta propiedad se denomina ultramétrica. Esta propiedad
es más fuerte que la propiedad triangular, ya que una ultramétrica es siempre una distancia.
En efecto si d2
(A, C) es menor o igual que el máximo de d2
(A, B), d2
(B, C) forzosamente
será menor o igual que la suma d2
(A, B) + d2
(B, C). El dendrograma es la repreentación de
una ultramétrica, y se contruye como sigue:
1. En la parte inferior del gráÞco se disponen los n elementos iniciales.
2. Las uniones entre elementos se representan por tres lineas rectas. Dos dirigidas a los
elementos que se unen y que son perpendiculares al eje de los elementos y una paralela
a este eje que se sitúa al nivel en que se unen.
3. El proceso se repite hasta que todos los elementos están concetados por lineas rectas.
8.3. MÉTODOS JERÁRQUICOS 247
Si cortamos el dendrograma a un nivel de distancia dado, obtenemos una clasiÞcación
del número de grupos existentes a ese nivel y los elementos que los forman.
El dendrograma es útil cuando los puntos tienen claramente una estructura jerárquica,
pero puede ser engañoso cuando se aplica ciegamente, ya que dos puntos pueden parecer
próximos cuando no lo están, y pueden aparecer alejados cuando están próximos.
Ejemplo 8.4 Aplicaremos los algoritmos estudiados a la siguiente matriz inicial de distan-
cias entre elementos
A B C D
A 0 1 4 2, 5 0 1 4 2,5
B 1 0 2 3 = 0 2 3
C 2 2 0 4 0 4
D 2, 5 3 4 0 0
Método 1 encadenamiento simple o vecino más próximo. El valor mínimo fuera de la diagonal
de la matriz de distancias es 1, y corresponde a la distancia entre los elementos Ay B. Los
unimos para formar un grupo y calcularemos la nueva distancias de un elemento al grupo
(AB) como la mínima de las distancias de ese elemento a A y a B. Es decir:
d(AB, C) = min(4; 2) = 2;
d(AB, D) = min(2, 5; 3) = 2, 5.
La nueva tabla de distancias se obtiene de la anterior tachando las Þlas y columnas de
A y B y añadiendo una nueva columna y una nueva Þla correspondiente al grupo AB que
contiene las nuevas distancias. El resultado es :
AB C D
AB 0 2 2,5
C 2 0 4
D 2,5 4 0
El valor mínimo fuera de la diagonal de la tabla es ahora 2, que corresponde a la distancia
entre AB y C. Uniendo estos dos grupos en uno y calculando las distancias al nuevo grupo :
d(ABC, D) = min(2, 5; 4) = 2, 5.
y Þnalmente se unen los dos grupos Þnales ABC y D. Este proceso se representa en el
dendrograma de la Þgura 8.16
El dendrograma indica que primero se unen los dos elementos A y B a distancia uno, ese
grupo se une al C con distancia 2 y el ABC al D a distancia 2,5.
248 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
0
0.5
1
1.5
2
2.5
A B C D
Figura 8.16: Dendrograma del método de encadenamiento simple
Método 2. Encadenamiento completo o vecino más alejado. La primera unión se hace igual
que en el caso anterior entre A y B a distancia uno. Sin embargo, ahora las nuevas distancias
son:
d(AB, C) = m´ax(4; 2) = 4;
d(AB, D) = m´ax(2, 5; 3) = 3
y la siguiente unión será entre AB y D a distancia tres. La distancia de C al grupo ABD es
4 y esa será la siguiente unión. La Þgura 8.17 resume el proceso.
Método 3 . El inicio es, como en los métodos anteriores, la unión de los elementos más
próximos, AB. Las nuevas distancias son d(AB,C)=3; d(AB,D)=2,75. Por tanto, la siguiente
unión será entre AB y D a distancia 2,75. Este grupo ABD se unirá a C a su distancia que
es d(ABC,D) = 1/2(4+2,75) = 3,375. La Þgura 8.18 resume el proceso.
Método 4 . El inicio es, como en los métodos anteriores. Las nuevas distancias se calculan
como d2
(C; AB) = 1
2
d2
CA + 1
2
d2
CB − 1
4
d2
AB = 8 + 2 − 0, 25 = 9, 75. Análogamente d2
(D; AB) =
2, 52
/2 + 9/2 − 1/4 = 7, 375. La unión será con D a distancia
√
7, 375 = 2.72. La distancia
de C al nuevo grupo será d2
(C; ABD) = 1
3
9, 75+ 1
2
16− 1
4
7, 375 = 3.162
, y C se unirá al grupo
a la distancia 3.16. La Þgura 8.19 presenta el dendograma.
Ejemplo 8.5 La Þgura 8.20 presenta el dendrograma hecho con MINITAB para los paises de
MUNDODES con el método de la disminución de la suma de cuadrados (Ward). El gráÞco
sugiere la presencia de cuatro o cinco grupos de paises.
8.3. MÉTODOS JERÁRQUICOS 249
0
0.5
1
1.5
2
2.5
3
3.5
4
A B D C
Figura 8.17: Dendrograma del método de encadenamiento completo
0
0.5
1
1.5
2
2.5
3
3.5
A B D C
Figura 8.18: Dendrograma del método de la media de los grupos
250 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
0
0.5
1
1.5
2
2.5
3
A B D C
Figura 8.19: Dendrograma del método del centroide.
Figura 8.20: Resultados de un agrupamiento jerárquico de los paises de MUNDODES por
las variables de natalidad
La Þgura muestra el resultado del encadenamiento simple, que es mucho más confuso.
8.3. MÉTODOS JERÁRQUICOS 251
Figura 8.21: Resultados de una aglomeración jerárquica para los paises de MUNDODES con
encadenamiento simple.
Para comparar los resultados del agrupamiento jerárquico y el de partición la Þgura 8.22
presenta los grupos obtenidos para los datos estandarizados y con el criterio de Ward en el
gráÞco de las variables tasa de natalidad y mortalidad infantil.
Figura 8.22: Resultado del agrupamiento jerárquico cortado en cinco grupos para variables
estandarizadas de MUNDODES
252 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
8.4 CONGLOMERADOS POR VARIABLES
El análisis de conglomerados de variables es un procedimiento exploratorio que puede sugerir
procedimientos de reducción de la dimensión, como el análisis factorial o los métodos de
correlación canónica que estudiaremos en la segunda parte del libro. La idea es construir
una matriz de distancias o similitudes entre variables y aplicar a esta matriz un algoritmo
jerárquico de clasiÞcación.
8.4.1 Medidas de distancia y similitud entre variables
Las medidas habituales de asociación entre variables continuas son la covarianza y la cor-
relación. Estas medidas tienen en cuenta únicamente las relaciones lineales. Alternativa-
mente, podríamos construir una medida de distancia entre dos variables xj y xh represen-
tando cada variable como un punto en <n
y calculando la distancia euclídea entre los dos
puntos. Esta medida es:
d2
jh =
nX
i=1
(xij − xih)2
(8.8)
=
X
x2
ij +
X
x2
ih − 2
X
xijxih. (8.9)
Para que la distancia no dependa de las unidades, las variables deben estar estandarizadas.
En otro caso la distancia entre dos variables podría alterarse arbitrariamente mediante trans-
formaciones lineales de éstas. (Por ejemplo, midiendo las estaturas en metros, en lugar de
en cm. y en desviaciones respecto a la media poblacional en lugar de con carácter absolu-
to). Suponiendo, por tanto, que trabajamos con variables estandarizadas de media cero y
varianza uno, se obtiene que (8.8) se reduce a:
d2
jh = 2n(1 − rjh).
Observemos que:
(a) si rjh = 1, la distancia es cero, indicando que las dos variables son idénticas.
(b) si rjh = 0, las dos variables están incorreladas y la distancia es djh =
√
2n.
(c) si rjh < 0, las dos variables tienen correlación negativa, y la distancia tomará su valor
máximo,
√
4n, cuando las dos variables tengan correlación −1.
Esta medida de distancia puede estandarizarse para que sus valores estén entre cero y
uno prescindiendo de la constante n y tomando djh =
p
(1 − rjh) /2.
Para variables cualitativas binarias se puede construir una medida de similitud de forma
similar a como se hizo con los elementos construyendo una tabla de asociación entre variables.
Para ello se cuenta el número de elementos donde están presentes ambas características (a),
donde esta sólo una de ellas (b) y (c), y donde no lo están ninguna de las dos (d). En estas
8.5. LECTURAS COMPLEMENTARIAS 253
tablas se veriÞca que si n es el número de individuos n = a + b + c + d, y podemos construir
coeÞcientes de similitud como se hizo con los elementos. Alternativamente, esta tabla de
asociación entre variables es una tabla de contingencia (véase el capítulo 7) y una medida
de distancia es el valor de la ji-cuadrado (veáse el Apéndice 8.1)
χ2
=
(ad − bc)2
n
(a + b)(a + c)(c + d)(b + d)
.
Es más habitual deÞnir la distancia por el coeÞciente de contingencia
dij = 1 −
r
χ2
n
.
8.5 Lecturas complementarias
Un libro pionero sobre métodos de agrupamiento en español es Escudero (1977), que presenta
una visión muy amplia de distintas técnicas de agrupación. La literatura sobre cluster en
inglés es extensa: Anderberg (1973), Everitt (1993), Gordon (1981), Hartigan (1975), Mirkin
(1996) , Spath y Bull (1980) y Spath (1985), están dedicados a este tema. La mayoría de los
libros generales dedican también un capítulo a estos métodos.
Ejemplo 8.6 La Þgura8.23 muestra el dendrograma del agrupamiento de las variables de los
datos de EUROSEC. El criterio utilizado es el de Ward. Se observa que la agrupación de las
variables coincide con lo esperado: primero se unen minería y energía, sevicios y servicions
industriales, e industria y construcción. En un segundo nivel tenemos servicios (que engloba
las tres variables servicios, servicios industriales y Þnanzas), agricultura, que esta sóla e
industria, que recoge el resto de las variables industriales.
Figura 8.23: Agrupamiento por variables de los datos de EUROSEC
254 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
Ejemplo 8.7 El dendrograma de la Þgura8.24 muestra la agrupación de las variables para
las medidas físicas, MEDIFIS. La correlación más estrecha se da entre longitud del pie y
estatura, y la variable diámetro del cráneo esta poco relacionada con el resto como obtuvi-
mos anteriormente. Si quisiésemos hacer grupos a un primer nivel tenemos tres grupos de
variables, de longitud, con 4 variables, de anchura, con dos, y el diámetro de la cabeza. A
un nivel superior quedan todas las variables en un lado y el diámetro de la cabeza en el otro.
Figura 8.24: Dendrograma de las medidas físicas con el criterio de Ward.
Ejemplo 8.8 La Þgura 8.25 presenta los resultados para las variables de INVES. A un nivel
bajo tenemos cuatro grupos de variables: química, ingeniería, agricultura y biología y el resto,
que incluye 4 variables. A un nivel superior los dos últimos grupos se unen y la distancia
mayor se da entre el banco de datos químicos y el resto.
8.5. LECTURAS COMPLEMENTARIAS 255
Figura 8.25: Dendrograma de las variables de INVES
EJERCICIOS
Ejercicio 8.1 Aplicar el algoritmo de k-medias a los datos de los presupuestos familiares.
¿Cuántos grupos hay en lso datos?
Ejercicio 8.2 Aplicar un agrupamiento jerárquico a los datos de los presupuestos familiares.
Comparar el resultado con distintos métodos de agrupación. Compararlos con los resultados
de k-medias
Ejercicio 8.3 Demostrar que el criterio de Hartigan para el algoritmo de k-medias equivale
a continuar añadiendo grupos hasta que tr(WG) < tr(WG+1)(n − G + 9)/(n − G − 1)
(Sugerencia utilizar que tr(W) = SCDG, e imponer la condición de que el valor de F sea
mayor que 10)
Ejercicio 8.4 Demostrar que si deÞnimos T =
PG
g=1
Png
i=1(xig − x)(xig − x)0
a la suma de
cuadrados totales podemos escribir T = B + W, donde W se ha deÞnido en la sección 8.2 y
B es la matriz de suma de cuadrados entre grupos.
Ejercicio 8.5 Demostrar que las distancias entre grupos con encadenamiento simple, com-
pleto y media de grupos pueden calcularse con αdCA + αdCB + β |dCA − dCB| y obtener los
valores de α y β que dan lugar a estas distancias.
Ejercicio 8.6 Demostrar que en aglomeramiento jerárquico podemos calcular las distancias
euclídeas al cuadrado entre un grupo C a la unión de los grupos A, con na elementos y B
con nb mediante d2
(C; AB) = na
na+nb
d2
CA + nb
na+nb
d2
CB − nanb
(na+nb)2 d2
AB .
(sugerencia: La media de la unión de los grupos A y B tendrá de coordenadas xAB =
na
na+nb
xA + nb
na+nb
xB, sustituir esa expresión en la distancia de C a ese punto (xC −xAB)0
(xC −
xAB) y desarrollar.
256 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS
APÉNDICE 8.1. CÁLCULO DEL ESTADISTICO
JI-CUADRADO EN TABLAS 2×2
En la tabla de contingencia {a, b, c, d} las frecuencias esperadas son 1
n
{(a+c)(a+b), (a+
b)(b + d), (b + d)(c + d)} y el valor de la χ2
deÞnida en la seccion 7.3 es:
χ2
=
µ
ad − bc
n
¶2 ·
n
(a + c)(a + b)
+
n
(a + b)(b + d)
+
n
(a + c)(c + d)
+
n
(b + d)(c + d)
¸
En efecto, como la tabla tiene un grado de libertad, las discrepancias entre las frecuencias
observadas y esperadas deben de ser iguales, por ejemplo para la primera casilla
µ
a −
(a + c) (a + b)
n
¶2
=
µ
na − a(a + b + c) − bc
n
¶2
=
µ
ad − bc
n
¶2
y lo mismo se obtiene en las restantes. Como:
(b + d)(d + c) + (a + c)(c + d) + (a + b)(b + d) + (a + c)(a + b) =
(b + d)n + (a + c)n = (a + b + c + d)n = n2
resulta Þnalmente que:
χ2
=
(ab − bc)2
n
(a + b)(a + c)(b + d)(c + d)
.
Capítulo 9
DISTRIBUCIONES
MULTIVARIANTES
9.1 CONCEPTOS BÁSICOS.
El problema central en la análisis de datos es decidir si las propiedades encontradas en una
muestra pueden generalizarse a la población de la que proviene. Para poder realizar esta
extrapolación necesitamos construir un modelo del sistema generador de los datos, es decir,
suponer una distribución de probabilidad para la variable aleatoria en la población. Este
capítulo repasa los conceptos básicos para construir modelos estadísticos multivariantes y
presenta las distribuciones que se utilizarán para la inferencia en los capítulos siguientes.
9.1.1 Variables aleatorias vectoriales.
Una variable aleatoria vectorial es el resultado de observar p características en un elemento
de una población. Por ejemplo, si observamos la edad y el peso de los estudiantes de una
universidad tendremos valores de una variable aleatoria bidimensional; si observamos el
número de trabajadores, las ventas y los beneÞcios de las empresas de un sector, tendremos
una variable aleatoria tridimensional.
Diremos que se ha deÞnido la distribución conjunta de una variable aleatoria vectorial
cuando se especiÞque:
1. El espacio muestral o conjunto de sus valores posibles. Representando cada valor por
un punto en el espacio de dimensión p, <p
, de los números reales, el espacio muestral
es, en general, un subconjunto de este espacio.
2. Las probabilidades de cada posible resultado (subconjunto de puntos) del espacio mues-
tral.
Diremos que la variable vectorial p−dimensional es discreta, cuando lo es cada una de las
p−variables escalares que la componen. Por ejemplo, el color de los ojos y del cabello forman
una variable bidimensional discreta. Análogamente, diremos que la variable es continua si sus
componentes lo son. Cuando algunos de sus componentes sean discretos y otros continuos
257
258 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
diremos que la variable vectorial es mixta. Por ejemplo, la variable: género (0=hombre,
1=mujer), estatura y peso de personas, es tridimensional mixta. En este capítulo, para
simpliÞcar la exposición, y salvo indicación en otro sentido, supondremos que la variable
vectorial es continua.
9.1.2 Distribución conjunta
La función de distribución conjunta de una variable aleatoria vectorial F(x) se deÞne en un
punto x0
= (x0
1, ..., x0
p) mediante:
F(x0
) = P(x ≤ x0
) = P(x1 ≤ x0
1, ..., xp ≤ x0
p)
donde P(x ≤ x0
) representa la probabilidad de que la variable tome valores menores o
iguales al valor particular considerado, x0
. Por tanto, la función de distribución acumula
las probabilidades de todos los valores menores o iguales al punto considerado, y será no
decreciente. Aunque la función de distribución tiene un gran interés teórico, es más cómodo
en la práctica trabajar con la función de densidad para variables continuas, o con la función
de probabilidades para las discretas. Llamaremos función de probabilidad de una variable
discreta a la función p(x0
) deÞnida por
p(x0
) = P(x = x0
) = P(x1 = x0
1, ..., xp = x0
p).
Diremos que el vector x es absolutamente continuo si existe una función de densidad, f(x),
que satisface:
F(x0
) =
Z x0
−∞
f(x)dx, (9.1)
donde dx = dx1....dxp y la integral es una integral múltiple en dimensión p. La densidad de
probabilidad tiene la interpretación habitual de una densidad: masa por unidad de volumen.
Por tanto la función de densidad conjunta debe veriÞcar
a) f(x) = f(x1....., xp) ≥ 0. La densidad es siempre no negativa.
b)
R ∞
−∞
f(x)dx =
R ∞
−∞
......
R ∞
−∞
f(x1, .....xp) dx1....dxp = 1. Si multiplicamos la densidad
en cada punto por el elemento de volumen en p dimensiones (que, si p = 2, será el área
de un rectángulo, si p = 3 el volumen de un paralepípedo, etc) y sumamos (integramos)
para todos los puntos con densidad no nula, obtenemos la masa de probabilidad total,
que se estandariza al valor unidad.
Las probabilidades de sucesos deÞnidos como subconjuntos del espacio muestral serán
iguales a la masa de probabilidad correspondiente al subconjunto. Estas probabilidades se
calcularán integrando la función de densidad sobre el subconjunto. Por ejemplo, para una
variable bidimensional y sucesos A del tipo A = (a < x1 ≤ b; c < x2 ≤ d):
P(A) =
Z b
a
Z d
c
f(x1, x2)dx1dx2
9.1. CONCEPTOS BÁSICOS. 259
mientras que, en general,
P(A) =
Z
A
f(x)dx.
En este capítulo, y para simpliÞcar la notación, utilizaremos la letra f para referirnos a
la función de densidad de cualquier variable e indicaremos la variable por el argumento de
la función, de manera que f(x1) es la función de densidad de la variable x1 , y f(x1, x2) es
la función de densidad de la variable bidimensional (x1, x2).
9.1.3 Distribuciones marginales y condicionadas
Dada una variable aleatoria vectorial p−dimensional (x1, ...., xp) llamaremos distribución
marginal de cada componente xi a la distribución univariante de dicho componente, consid-
erado individualmente, e ignorando los valores del resto de los componentes. Por ejemplo,
para variables bidimensionales continuas las distribuciones marginales se obtienen como:
f(x1) =
Z ∞
−∞
f(x1, x2)dx2, (9.2)
f(x2) =
Z ∞
−∞
f(x1, x2)dx1, (9.3)
y representan la función de densidad de cada variable ignorando los valores que toma la otra.
Como hemos indicado antes, la letra f se reÞere genericamente a una función de densidad.
Por ejemplo, la ecuación (9.2) indica que si integramos una función de densidad en dos
variables, f(x1, x2), respecto a la variable x2 se obtiene una función que es de nuevo una
función de densidad, y de ahí el símbolo f, pero que es ahora la función de densidad de
la variable x1. Las funciones f(x1) y f(x1, x2) serán en general totalmente distintas y sólo
tienen en común ser ambas funciones de densidad, por tanto f (.) ≥ 0, y
Z ∞
−∞
f(x1)dx1 = 1
Z ∞
−∞
Z ∞
−∞
f(x1, x2)dx1dx2 = 1.
Para justiÞcar (9.2), calcularemos la probabilidad de que la variable x1 pertenezca a un
intervalo (a, b] a partir de la distribución conjunta. Entonces:
P(a < x1 ≤ b) = P(a < x1 ≤ b; −∞ < x2 ≤ ∞) =
Z b
a
dx1
Z ∞
−∞
f(x1, x2)dx2 =
=
Z b
a
f(x1)dx1
260 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
que justiÞca (9.2). Observemos que en esta ecuación x1 es un valor concreto cualquiera.
Supongamos que la precisión de la medida de x1 es ∆x1, es decir, diremos que ha ocurrido
el valor x1 si se observa un valor en el intervalo x1 ± ∆x1/2. La probabilidad de este valor
será el valor de la densidad en el centro del intervalo, f(x1) por la longitud de la base ∆x1.
Si multiplicamos ambos miembros de la ecuación (9.2) por la constante ∆x1, tenemos en el
primer miembro f(x1)∆x1, que es la probabilidad de ese valor concreto de x1 calculada con
su distribución univariante. En el segundo miembro tendremos la suma (integral) de todas
las probabilidades de los pares de valores posibles (x1, x2), cuando x1 es Þjo y x2 toma todos
los valores posibles. En efecto, estas probabilidades vienen dadas por f(x1, x2)dx2∆x1, y
sumando para todos los valores posibles de x2 de nuevo obtenemos la probabilidad del valor
x1.
Si x = (x1, x2), donde x1 y x2 son a su vez variables vectoriales, se deÞne la distribución
condicionada de x1, para un valor concreto de la variable x2 = x0
2, por:
f(x1|x0
2) =
f(x1, x0
2)
f(x0
2)
(9.4)
supuesto que f(x0
2) 6= 0. Esta deÞnición es consistente con el concepto de probabilidad
condicionada y con el de función de densidad para una variable. En efecto, supongamos
para simpliÞcar que ambas variables son escalares. Entonces multiplicando por ∆x1 ambos
miembros tendremos
f(x1|x0
2)∆x1 =
f(x1, x0
2)∆x1∆x2
f(x0
2)∆x2
y el primer miembro representa la probabilidad condicionada que se expresa como cociente
de la probabilidad conjunta y la marginal. De esta deÞnición se deduce:
f(x1, x2) = f(x2|x1)f(x1). (9.5)
La distribución marginal de x2, puede calcularse en función de (9.3) y (9.5) como:
f(x2) =
Z
f(x2|x1)f(x1)dx1, (9.6)
que tiene una clara interpretación intuitiva. Si multiplicamos ambos miembros por ∆x2, el
elemento de volumen, tenemos en la izquierda f(x2)∆x2, la probabilidad del valor concreto de
x2 considerado. La fórmula (9.6) nos dice que esta probabilidad puede calcularse obteniendo
primero la probabilidad del valor x2 para cada posible valor de x1, dada por f(x2|x1)∆x2,
y luego multiplicando cada uno de estos valores por las probabilidades de x1, f(x1)dx1, lo
que equivale a promedir las probabilidades condicionadas por x1 respecto a la distribución
de esta variable.
Como resultado de (9.5) y (9.6) la distribución condicionada f(x1|x2) puede entonces
escribirse como:
f(x1|x2) =
f(x2|x1)f(x1)
R
f(x2|x1)f(x1)dx1
(9.7)
9.1. CONCEPTOS BÁSICOS. 261
que es el teorema de Bayes para funciones de densidad, y constituye la herramienta funda-
mental de la inferencia Bayesiana que estudiaremos en el capítulo 11.
Para variables discretas los conceptos son similares, pero las integrales se sustituyen por
sumas, como se indica en el siguiente ejemplo.
Ejemplo 9.1 La tabla 9.1 presenta al distribución conjunta de las variables aleatorias disc-
retas: x1 : votar a uno de cuatro posibles partidos políticos, que toma los cuatro valores
posibles P1, P2, P3 y P4 y x2 : nivel de ingresos de los votantes, que toma los tres valores A
(alto), M (medio), B (bajo). Calcular las distribuciones marginales, la distribución condi-
cionada de los votos para las personas con ingresos bajos y la distribución condicionada de
los ingresos para los votantes del partido P4.
A M B
P1 .1 .05 .01
P2 .05 .20 .04
P3 .04 .25 .07
P4 .01 .1 .08
Tabla 9.1. Distribución conjunta de votos e ingresos en una población
Para calcular la distribución marginal añadimos a la tabla una Þla y una columna y
colocamos allí el resultado de sumar las Þlas y las columnas de la tabla. Con esto se obtiene
la tabla 9.2. Por ejemplo, la distribución marginal de los ingresos indica que la probabilidad
de ingresos altos es .2, de medios .6 y de bajos .2. Observemos que las distribuciones
marginales son el resultado que se obtiene en los márgenes de la tabla (lo que justiÞca su
nombre) al sumar las probabilidades conjuntas por Þlas y por columnas.
A M B Marginal de votos
P1 .1 .05 .01 .16
P2 .05 .20 .04 .29
P3 .04 .25 .07 .36
P4 .01 .1 .08 .19
Marginal de ingresos .2 .6 .2
Tabla 9.2. Distribución conjunta y marginales de votos e ingresos en una población
Para calcular la distribución condicionada de los votos para las personas de ingresos
bajos, dividimos cada casilla de la columna de ingresos bajos por el total de la columna. La
distribución resultante se indica en el tabla 9.3
P1 P2 P3 P4
.05 .20 .35 .40
Tabla 9.3 distribución condicionada de los votos para personas con ingresos medios.
Por ejemplo, el valor .05 es el resultado de dividir .01, la probabilidad conjunta de ingresos
bajos y votar a P1 por la probabilidad marginal de ingresos bajos, .1. Esta tabla indica que
el partido preferido para las personas de ingresos bajos es el P4 con un 40% de los votos,
seguido del P3 con el 35%. La tabla 9.4 indica la distribución condicionada de los ingresos
para los votantes del partido P4. El grupo más numeroso de votantes de este partido es de
ingresos medios (52,63%) seguido de ingresos bajos (42,11%) y altos (5,26%).
262 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
A M B Total
P4 .0526 .5263 .4211 1
Tabla 9.4 distribución condicionada de los ingresos para personas que votan a P1.
9.1.4 Independencia
El concepto fundamental en el estudio conjunto de varias variables aleatorias es el concep-
to de independencia. Diremos que dos vectores aleatorios x1, x2 son independientes si el
conocimiento de uno de ellos no aporta información respecto a los valores del otro. En
otros términos, la distribución de valores concretos de x2 no depende de x1 y es la misma
cualquiera que sea el valor de x1. Esto se expresa matemáticamente:
f(x2|x1) = f(x2) (9.8)
que indica que la distribución condicionada es idéntica a la marginal. Utilizando (9.5), una
deÞnición equivalente de independencia entre dos vectores aleatorios x1, x2 es:
f(x1, x2) = f(x1)f(x2) (9.9)
es decir, dos vectores aleatorios son independientes si su distribución conjunta (su prob-
abilidad conjunta) es el producto de las distribuciones marginales ( de las probabilidades
individuales). En general, diremos que las variables aleatorias x1, ..., xp, con densidad con-
junta f(x1, ..., xp) son independientes, si se veriÞca:
f(x1, ......, xp) = f(x1)f(x2)....f(xp) (9.10)
La independencia conjunta es una condición muy fuerte: al ser x1, ..., xp independientes
también lo serán cualquier subconjunto de variables (x1, ...., xh) con h ≤ p, así como cualquier
conjunto de funciones de las variables individuales, g1(x1)....g1(xp), o de conjuntos disjuntos
de ellas. Cuando las variables son independientes no ganamos nada con su estudio conjunto
y conviene estudiarlas individualmente. Es fácil comprobar que si las variables x1 y x2 son
independientes y construimos nuevas variables y1 = g1(x1), y2 = g2(x2), donde la primera
variable es sólo función de x1 y la segunda sólo de x2, las variables y1, y2 son también
independientes.
9.1.5 La maldición de la dimensión
La maldición de la dimensión es un término acuñado por el matemático R. Bellman para
describir como aumenta la complejidad de un problema al aumentar la dimensión de las
variables involucradas. En el análisis estadístico multivariante la maldición de la dimensión
se maniÞesta de varias formas.
En primer lugar, al aumentar la dimensión, el espacio está cada vez más vacío, haciendo
más difícil cualquier proceso de inferencia a partir de los datos. Esto es consecuencia de que,
al aumentar la dimensión del espacio aumenta su volumen (o su hipervolumen en general),
y como la masa total de probabilidad es la unidad, la densidad de la variable aleatoria
9.2. PROPIEDADES DE VARIABLES VECTORIALES 263
debe disminuir. En consecuencia, la densidad de probabilidad de una variable aleatoria de
dimensión alta es muy baja en todo el espacio, o, lo que es equivalente, el espacio esta
progresivamente más vacío. Para ilustrar el problema, supongamos que la densidad de una
variable p−dimensional es uniforme en el hipercubo [0,1]p
y que todos los componentes son
independientes. Por ejemplo, pueden generarse muestras de esta variable tomando conjuntos
de p números aleatorios entre cero y uno. Consideremos la probabilidad de que un valor
al azar de esta variable esté dentro del hipercubo [0; 0, 9]p
. Para p = 1, el caso escalar,
esta probabilidad es 0, 9, para p = 10, este valor baja a 0, 910
= 0, 35, y para p = 30
es 0, 930
= 0, 04. Vemos que, a medida que aumenta la dimensión del espacio, cualquier
conjunto va, progresivamente, quedándose vacío.
Un segundo problema es que el número de parámetros necesario para describir los datos
aumenta rápidamente con la dimensión. Para representar en dimensión p la media y la
matriz de covarianzas necesitamos
p + p(p + 1)/2 = p(p + 3)/2
que es de orden p2
. Por tanto, la complejidad de los datos, medida por el número de parámet-
ros necesarios para representarlos, crece, en este caso, con el cuadrado de la dimensión del
espacio. Por ejemplo, 100 datos es una muestra grande para una variable unidimensional,
pero es muy pequeña para una variable vectorial con p = 14 : para estimar las medias,
varianzas y covarianzas se requieren más de 14(17)/2 = 119 observaciones. Como norma
general, los procedimientos multivariantes necesita un ratio n/p > 10 y es deseable que este
ratio sea mayor de 20.
La consecuencia del aumento de la dimensión es un aumento de la incertidumbre del
problema: la previsión conjunta de los valores de la variable va siendo cada vez más difícil.
En la práctica, este problema disminuye si las variables son muy dependientes entre sí, ya
que entonces, la densidad de probabilidad se concentra en determinadas zonas del espacio,
deÞnidas por la relación de dependencia, en lugar de repartirse por todo el espacio muestral.
Esta dependencia puede usarse, extendiendo los métodos que como hemos visto en capítulos
anteriores, para reducir la dimensión del espacio de variables y evitar la maldición de la
dimensionalidad.
9.2 PROPIEDADES DE VARIABLES VECTORIALES
9.2.1 Vector de medias
Llamaremos esperanza, o vector de medias, µ, de una variable multidimensional, x, al vector
cuyos componentes son las esperanzas, o medias, de los componentes de la variable aleatoria.
Escribiremos el vector de medias como:
µ = E [x] (9.11)
donde debe entenderse que la esperanza operando sobre un vector o una matriz es el resultado
de aplicar este operador (tomar medias) a cada uno de los componentes. Si la variable es
264 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
continua:
µ = E [x] =
Z
xf(x)dx
La esperanza es una función lineal, es decir, para cualquier matriz, A, y vector b, tenemos:
E [Ax + b] = AE[x1] + b.
Si x = (x1, x2)0
tenemos también que, para escalares a y b :
E [ax1 + bx2] = aE [x1] + bE[x2] .
y si x1 y x2 son independientes:
E [x1x2] = E [x1]E[x2] .
9.2.2 Esperanza de una función
Generalizando la idea de esperanza, si disponemos de una función escalar y = g(x) de un
vector de variables aleatorias, el valor medio de esta función se calcula:
E [y] =
Z
yf(y)dy =
Z
...
Z
g(x)f(x1, ...., xn)dx1, ...., dxn (9.12)
La primera integral tiene en cuenta que y es escalar y si conocemos su función de densidad,
f(y), su esperanza se calcula de la forma habitual. La segunda, muestra que no es necesario
calcular f(y) para determinar el valor promedio de g(x): basta ponderar sus valores posibles
por las probabilidades que dan lugar a estos valores.
Esta deÞnición es consistente, y es fácil comprobar que ambos métodos conducen al
mismo resultado. Si x = (x1, x2)0
, y deÞnimos y1 = g1(x1), y2 = g2(x2), si x1 e x2 son
independientes
E [y1y2] = E(g1(x1))E(g2(x2))
9.2.3 Matriz de varianzas y covarianzas
Llamaremos matriz de varianzas y covarianzas (o simplemente matriz de covarianzas) de un
vector aleatorio x = (x1, ..., xp)0
, de <p
, con vector de medias µ0
= (µ1, ...., µp), a la matriz
cuadrada de orden p obtenida por :
Vx = E [(x − µ)(x − µ)0
] (9.13)
La matriz Vx contiene en la diagonal las varianzas de los componentes, que representare-
mos por σ2
i , y fuera de ella las covarianzas entre los pares de variables, que representaremos
por σij. La matriz de covarianzas es simétrica y semideÞnida positiva. Es decir, dado un
vector cualquiera, ω, se veriÞcará:
ω0
Vxω ≥ 0.
9.2. PROPIEDADES DE VARIABLES VECTORIALES 265
Para demostrar esta propiedad deÞnamos una variable unidimensional por:
y = (x − µ)0
ω
donde ω es un vector arbitrario de <p
. La variable y tiene esperanza cero ya que
E(y) = E [(x − µ)]0
ω =0
y su varianza debe ser no negativa:
var(y) = E
£
y2
¤
= ω0
E [(x − µ)(x − µ)0
] ω = ω0
Vxω ≥ 0
Llamaremos varianza media al promedio de las varianzas dado por tr(Vx)/p, varianza
generalizada a |Vx| y variabilidad promedio a
V P = |Vx|1/p
que es una medida global de la variabilidad conjunta para todas las variables que tiene en
cuenta su estructura de dependencia. La interpretación de estas medidas es similar a la
estudiada en el capítulo 3 para distribuciones de datos.
9.2.4 Transformaciones de vectores aleatorios.
Al trabajar con funciones de densidad de vectores aleatorios es importante recordar que,
como en el caso univariante, la función de densidad tiene dimensiones: si p = 1, caso
univariante, probabilidad por unidad de longitud, si p = 2, probabilidad por unidad de
superÞcie, si p = 3 por unidad de volumen y si p > 3) de hipervolumen. Por lo tanto, si
cambiamos las unidades de medida de las variables, la función de densidad debe modiÞcarse
también. En general, sea x un vector de <p
con función de densidad fx(x) y sea otro vector
aleatorio y de <p
, deÞnido mediante la transformación uno a uno:
y1 = g1(x1, ....., xp)
...
...
yp = gp(x1, ...., xp),
donde suponemos que existen las funciones inversas x1 = h1(y1, ..., yp), ..., xp = hp(y1, ..., yp),
y que todas las funciones implicadas son diferenciables. Entonces, puede demostrarse que la
función de densidad del vector y viene dada por:
fy(y) = fx(x)
¯
¯
¯
¯
dx
dy
¯
¯
¯
¯ , (9.14)
donde aquí hemos utilizado fy y fx para representar las funciones de densidad de las vari-
ables y, y x, para evitar confusiones. El término |dx/dy| representa el jacobiano de la
266 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
transformación, (que ajusta la probabilidad por el cambio de escala de medida) dado por el
determinante:
¯
¯
¯
¯
dx
dy
¯
¯
¯
¯ =
¯
¯
¯
¯
¯
¯
¯
¯
¯
¯
∂x1
∂y1
. . .
∂x1
∂yp
...
...
∂xp
∂y1
...
∂xp
∂yp
¯
¯
¯
¯
¯
¯
¯
¯
¯
¯
que suponemos es distinto de cero en el rango de la transformación.
Un caso importante es el de transformaciones lineales de la variable. Si hacemos
y = Ax
donde A es una matriz cuadrada no singular, las derivadas de los componentes de x respecto
a y se obtendrán de x = A−1
y, y serán, por tanto, los elementos de la matriz A−1
. El
Jacobiano de la transformación será |A−1
| = |A|−1
y la función de densidad de la nueva
variable y, será
fy(y) = fx(A−1
y) |A|−1
(9.15)
expresión que indica que para obtener la función de densidad de la variable y sustituimos
en la función de densidad de la variable x el argumento por A−1
y y dividimos el resultado
por el determinante de la matriz A.
9.2.5 Esperanzas de transformaciones lineales
Sea x un vector aleatorio de dimensión p y deÞnamos un nuevo vector aleatorio y de dimen-
sión m, (m ≤ p), con
y = Ax, (9.16)
donde A es una matriz rectangular de dimensiones m × p. Llamando µx, µy, a sus vectores
de medias y Vx, Vy a las matrices de covarianzas, se veriÞca la relación:
µy = Aµx (9.17)
que es inmediata tomando esperanzas en (9.16). Además:
Vy = AVxA0
(9.18)
donde A0
es la matriz transpuesta de A. En efecto, aplicando la deÞnición de covarianzas y
las relaciones (9.16) y (9.18)
Vy = E
£
(y − µy)(y − µy)0
¤
= E [A(x − µx)(x − µx)0
A0
] = AVxA0
Ejemplo 9.2 Las valoraciones de los clientes de la puntualidad (x1), rapidez (x2) y limpieza
(x3) de un servicio de transporte tienen unas medias, en una escala de cero a diez, de 7, 8
y 8,5 respectivamente con una matriz de varianzas y covarianzas
9.3. DEPENDENCIA ENTRE VARIABLES ALEATORIAS 267
Vx =


1 .5 .7
.5 .64 .6
.7 .6 1.44


Se construyen dos indicadores de la calidad del servicio. El primero es el promedio de
las tres puntuaciones y el segundo es la diferencia entre el promedio de la puntualidad y
la rapidez, que indica la Þabilidad del servicio y la limpieza, que indica la comodidad del
mismo. Calcular el vector de medias y la matriz de covarianzas para estos dos indicadores.
La expresión del primer indicador es
y1 =
x1 + x2 + x3
3
y la del segundo
y2 =
x1 + x2
2
− x3
Estas dos ecuaciones pueden escribirse matricialmente
·
y1
y2
¸
=
·
1/3 1/3 1/3
1/2 1/2 −1
¸


x1
x2
x3


El vector de medias será
·
µ1
µ2
¸
=
·
1/3 1/3 1/3
1/2 1/2 −1
¸


7
8
8, 5

 =
·
7, 83
−1
¸
y el valor 7,83 es una medida global de la calidad promedio del servicio y el menos uno de
la relación Þabilidad comodidad. La matriz de varianzas covarianzas es:
Vy =
·
1/3 1/3 1/3
1/2 1/2 −1
¸


1 .5 .7
.5 .64 .6
.7 .6 1.44




1/3 1/2
1/3 1/2
1/3 −1

 =
=
·
. 742 22 −. 256 67
−. 256 67 . 8
¸
que indica que la variabilidad de ambos indicadores es similar y que están relacionados
negativamente, ya que la covarianza es negativa.
9.3 Dependencia entre variables aleatorias
9.3.1 Esperanzas condicionadas
La esperanza de un vector x1 condicionada a un valor concreto de otro vector x2 es la
esperanza de la distribución de x1 condicionada a x2 y viene dada por:
E [x1|x2] =
Z
x1f (x1|x2) dx1.
268 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
En general esta expresión será una función del valor x2. Cuando x2 es un valor Þjo, la
esperanza condicionada será una constante. Si x2 es una variable aleatoria, la esperanza
condicionada será también una variable aleatoria.
La esperanza de un vector aleatorio x1 puede calcularse a partir de las esperanzas condi-
cionales en dos etapas: en la primera calculamos la esperanza de x1 condicionada a x2. El
resultado es una función aleatoria que depende de la variable aleatoria x2. En la segunda,
calculamos la esperanza de esta función con relación a la distribución de x2. Entonces:
E(x1) = E [E(x1|x2)] . (9.19)
Esta expresión indica que la esperanza de una variable aleatoria puede obtenerse prome-
diando las esperanzas condicionadas por sus probabilidades de aparición o, en otros términos,
que la esperanza de la media condicionada es la esperanza marginal o incondicional.
Demostración
E(x1) =
Z
x1f(x1)dx1 =
ZZ
x1f(x1x2)dx1dx2 =
ZZ
x1f(x1|x2)f(x2)dx1dx2
=
Z
f(x2)
·Z
x1f(x1|x2)dx1
¸
dx2 =
Z
E [x1|x2] f(x2)dx2
= E [E(x1|x2)] .
9.3.2 Varianzas condicionadas
La varianza de x1 condicionada a x2 se deÞne como la varianza de la distribución de x1
condicionada a x2. Utilizaremos la notación
V ar(x1|x2) = V1/2
y esta matriz tendrá las propiedades ya estudiadas de una matriz de covarianzas.
Si x1 es escalar, su varianza puede calcularse también a partir de las propiedades de la
distribución condicionada. En concreto, puede expresarse como suma de dos términos: el
primero asociado a las medias condicionadas y el segundo a las varianzas condicionadas.
Para obtener esta expresión partimos de la descomposición:
x1 − µ1 = x1 − E(x1/x2) + E(x1/x2) − µ1
donde x2 es un vector aleatorio cualquiera para el que la esperanza condicionada E(x1/x2)
es Þnita. Elevando al cuadrado esta expresión y tomando esperanzas en ambos miembros:
var(x1) = E(x1 − E(x1/x2))2
+ E(E(x1/x2) − µ1)2
+ 2E [(x1 − E(x1/x2)(E(x1/x2) − µ1)]
el doble producto se anula, ya que
E [(x1 − E(x1/x2))(E(x1/x2) − µ1)] =
9.3. DEPENDENCIA ENTRE VARIABLES ALEATORIAS 269
=
Z
(E(x1/x2) − µ1)
·Z
(x1 − E(x1/x2))f(x1/x2)dx1
¸
f(x2)dx2 = 0
al ser nula la integral entre corchetes. Por otro lado, como por (9.19):
E [E(x1/x2)] = E(x1) = µ1,
el segundo término es la esperanza de la diferencia al cuadrado entre la variable aleatoria
E(x1/x2), que dependerá del vector aleatorio x2 y su media µ1. Por tanto:
var(x1) = E [var(x1/x2)] + var [E(x1/x2)] (9.20)
Esta expresión se conoce como descomposición de la varianza, ya que descompone la
variabilidad de la variable en dos fuentes principales de variación. Por un lado, hay vari-
abilidad porque las varianzas de las distribuciones condicionadas, var(x1/x2), pueden ser
distintas, y el primer término promedia estas varianzas. Por otro, hay también variabilidad
porque las medias de las distribuciones condicionadas pueden ser distintas, y el segundo
término recoge las diferencias entre las medias condicionadas, E(x1/x2), y la media total,
µ1, mediante el término var [E(x1/x2)] . Observemos que la varianza de la variable x1 es, en
general, mayor que el promedio de las varianzas de las distribuciones condicionadas, debido
a que en las condicionadas la variabilidad se calcula respecto a las medias condicionadas,
E(x1/x2), mientras que var(x1) mide la variabilidad respecto a la media global, µ1. Si todas
las medias condicionadas son iguales a µ1, los que ocurrirá por ejemplo si x1 e x2 son inde-
pendientes, entonces el término var [E(x1/x2)] es cero y la varianza es la media ponderada
de las varianzas condicionadas. Si E(x1/x2) no es constante, entonces la varianza de x1 será
tanto mayor cuanto mayor sea la variabilidad de las medias condicionadas.
Esta descomposición de la varianza aparece en el análisis de la varianza de los modelos
lineales univariantes:
X
(xi − x)2
/n =
X
(xi − bxi)2
/n +
X
(bxi − x)2
/n
donde, en esta expresión, bxi es la estimación de la media condicionada en el modelo lineal.
La variabilidad total, que equivale a var(x1), se descompone en dos términos incorrelados.
Por un lado, el promedio de las estimaciones de var(x1/x2), que se calculan promediando
las diferencias entre la variable y la media condicionada. Por el otro, la variabilidad de las
esperanzas condicionales respecto a la media global, que se estiman en los modelos lineales
por las diferencias bxi − x.
9.3.3 Matriz de correlación
Se deÞne la matriz de correlación de un vector aleatorio x con matriz de covarianzas Vx, por
Rx= D−1/2
VxD−1/2
donde
D = diag(σ2
1, ..., σ2
p)
270 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
es la matriz diagonal que contiene las varianzas de las variables. La matriz de correlación
será pues una matriz cuadrada y simétrica con unos en la diagonal y los coeÞcientes de
correlacion entre los pares de variables fuera de la diagonal. Los coeÞcientes de correlación
simple o coeÞcientes de correlación lineal, vienen dados por
ρij =
σij
σiσj
La matriz de correlación es también semideÞnida positiva. Una medida global de las cor-
relaciones lineales existentes en el conjunto de variables es la dependencia, deÞnida por
Dx = 1 − |Rx|1/(p−1)
cuya interpretación para variables aleatorias es análoga a la presentada en el capítulo 3 para
variables estadísticas. Para p = 2 la matriz Rx tiene unos en la diagonal y el coeÞciente ρ12
fuera, |Rx| = 1−ρ2
12, y la dependencia Dx = 1−(1−ρ2
12) = ρ2
12 coincide con el coeÞciente de
determinación. Se demuestra de la misma forma que se hizo en el capítulo 3 que en el caso
general, p > 2, la dependencia es un promedio geométrico de coeÞcientes de determinación.
9.3.4 Correlaciones Múltiples
Se denomina correlación múltiple de una variable escalar, y, y un vector de variables x a una
medida de la capacidad de prever y mediante una función lineal de las variables x. Suponien-
do, sin pérdida de generalidad, que las variables tienen media cero, deÞnimos la mejor predic-
ción lineal de y como la función β0
x que minimiza E(y − β0
x)2
. Puede demostrarse que
β = V−1
x Vxy siendo Vx la matriz de covarianzas de x y Vxy el vector de covarianzas entre
y y x. El coeÞciente de correlación simple entre las variables escalares y y β0
x se denomina
coeÞciente de correlación múltiple.
Puede demostrarse que si llamamos σij a los términos de la matriz de covarianzas V de
un vector de variables y σij
a los términos de la matriz V−1
, el coeÞciente de correlación
múltiple, Ri.R entre cada variable (i) y todas las demás (R) se calcula como:
R2
i.R = 1 −
1
σijσij
En particular, si E(y|x) es una función lineal de x entonces E(y|x) = β0
x y R2
i.R puede
también calcularse como 1−σ2
y|x/σ2
y, donde σ2
y|x es la varianza de la distribución condicionada,
y|x y σ2
y la varianza marginal de y.
9.3.5 Correlaciones Parciales
Supongamos que obtenemos la mejor aproximación lineal a un vector de variables x1 de
dimensiones p1 ×1 a partir de otro vector de variables x2 de dimensiones p2 ×1. Suponiendo
que las variables tienen media cero, esto implica calcular un vector Bx2 donde B es una ma-
triz de coeÞcientes de dimensiones p1 × p2 de manera que
Pp1
j=1 E(x1j − β0
jx2)2
sea mínima,
donde x1j es el componente j del vector x1 y β0
j la Þla j de la matriz B. Llamemos V1/2 a la
9.4. LA DISTRIBUCIÓN MULTINOMIAL 271
matriz de covarianzas de la variable x1− Bx2. Si estandarizamos esta matriz de covarianzas
para pasarla a correlaciones, los coeÞcientes de correlación resultantes se denominan coeÞ-
cientes de correlación parcial entre los componentes de x1 dadas las variables x2. La matriz
cuadrada y simétrica de orden p1
R1/2 = D
−1/2
1/2 V1/2D
−1/2
1/2
se denomina matriz de correlaciones parciales entre los componentes del vector x1 cuando
controlamos (o condicionado a) el vector x2, donde D1/2= diag(σ2
1/2, ..., σ2
k/2) y σ2
j/2 es la
varianza de la variable x1j − β0
jx2.
En particular si E(x1|x2) es lineal en x2, entonces E(x1|x2) = Bx2 y V1/2 es la matriz
de covarianzas de la distribución condicionada de x1|x2.
9.4 LA DISTRIBUCIÓN MULTINOMIAL
Supongamos que observamos elementos que clasiÞcamos en dos clases, A y A. Por ejemplo,
clasiÞcamos los recién nacidos en un hospital como hombre (A) o mujer (A), los dias de un
mes como lluviosos (A) o no (A), o los elementos fabricados por una máquina como buenos
(A) o defectuosos (A). Suponemos que el proceso que genera elementos es estable, existiendo
un probabilidad constante de aparición de los elementos de cada clase, P(A) = p = cte, y
que el proceso no tiene memoria, es decir P(A|A) = P(A|A). Supongamos que observamos
elementos al azar de este proceso y deÞnimos la variable
x =
½
1, si la observación pertenece a la clase A
0, en otro caso
¾
esta variable sigue una distribución binomial puntual, con P(x = 1) = p y P(x = 0) = 1−p.
Si observamos n elementos en lugar de uno y deÞnimos la variable y =
Pn
i=1 xi, es decir,
contamos el número de elementos en n que pertenece a la primera clase, la variable y sigue
una distribución binomial con
P(y = r) =
n!
r!(n − r)!
pr
(1 − p)n−r
.
Podemos generalizar esta distribución permitiendo G clases en lugar de dos, y llamamos p
al vector de probabilidades de pertenencia a las clases, p =(p1, ..., pG)0
, donde
P
pj = 1.
DeÞniremos ahora las G variables aleatorias:
xj =
½
1, si la observación pertenece al grupo j
0, en otro caso
¾
j = 1, ..., G
y el resultado de una observación es un valor del vector de G-variables x = (x1, ..., xG)0
, que
será siempre de la forma x = (0, ..., 1, ...0)0
, ya que sólamente una de las G componentes puede
tomar el valor uno, el asociado a la clase observada para ese elemento. En consecuencia, los
componentes de esta variable aleatoria no son independientes, ya que están ligadas por la
ecuación
GX
j=1
xj = 1.
272 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
Para describir el resultado de la observación bastaría con deÞnir G − 1 variables, como se
hace en la distribución binomial donde sólo se deÞne una variable cuando hay dos clases,
ya que el valor de la última variable queda Þjada al conocer las restantes. Sin embargo,
con más de dos clases es constumbre trabajar con las G variables y la distribución de la
variable multivariante así deÞnida se denomina multinomial puntual. Tiene como función de
probabilidades
P(x1, .., xG) = px1
1 ...pxG
G =
Y
p
xj
j
En efecto, como sólo una de las xj es distinta de cero, la probabilidad de que la j-ésima sea
uno es precisamente pj, la probabilidad de que el elemento observado pertenezca a la clase
j. Generalizando esta distribución, sea (x1, ..., xn) una muestra de n valores de esta variable
multinomial puntual que resulta al clasiÞcar n elementos de una muestra en las G clases. Se
denomina distribución multinomial a la de la variable suma:
y =
nX
i=1
xi
que indica el número de elementos en la muestra que corresponden a cada una de las clases.
Los componentes de esta variable, y =(y1, ..., yG)0
, representan las frecuencias observadas de
cada clase y podrán tomar los valores yi = 0, 1, ...n, pero están sujetos a la restricción:
X
yi = n, (9.21)
y su función de probabilidad será:
P(y1 = n1, .., yG = nG) =
n!
n1!...nG!
pn1
1 ...pnG
G
donde
P
ni = n. El término combinatorio tiene en cuenta las permutaciones de n elementos
cuando hay n1, ..., nG repetidos. Se comprueba que
E(y) =np = µy
y
V ar(y) =n
£
diag(p) − pp0¤
= diag(µy)−
1
n
µyµy
0
donde diag(p) es una matriz cuadrada con los elementos de p en la diagonal y ceros fuera
de ella. Esta matriz es singular ya que los elementos de y están ligados por la ecuación de
restricción (9.21). Es fácil comprobar que las distribuciones marginales son binomiales, con:
E[yj] = npj, DT [yj] =
q
pj(1 − pj).
Además, cualquier distribución condicionada es multinomial. Por ejemplo, la de G − 1
variables cuando yG toma el valor Þjo nG es una multinomial en las G−1 variables restantes
con tamaño muestral n0
= n − nG. La distribución condicionada de y1, y2 cuando y3 =
n3, ..., yG = nG es una binomial, con n0
= n − n3 − n4 − ... − nG, etc.
9.5. LA DISTRIBUCIÓN DE DIRICHLET 273
Ejemplo 9.3 En un proceso de control de calidad los elementos pueden tener tres tipos
de defectos: leves (A1), medios (A2), graves (A3) y se conoce que entre los elementos con
defectos la probabilidad de estos errores es p1 = P(A1) = 0, 7; p2 = P(A2) = 0, 2; y
p3 = P(A3) = 0, 1. Calcular la probabilidad de que en los próximos tres elementos defectuosos
haya exactamente uno con un defecto grave.
Los defectos posibles en los tres siguientes elementos son, sin tener en cuenta el orden
de aparición :
A1A1A3 ; A1A2A3 ; A2A2A3
y sus probabilidades según la distribución multinomial serán:
P (x1 = 2, x2 = 0, x3 = 1) =
3!
2!0!1!
0, 72
· 0, 20
· 0, 1 = 0, 147
P (x1 = 1, x2 = 1, x3 = 1) =
3!
1!1!1!
0, 7 · 0, 2 · 0, 1 = 0, 084
P (x1 = 0, x2 = 2, x3 = 1) =
3!
0!2!1!
0, 70
· 0, 22
· 0, 1 = 0, 012
Luego:
P (x3 = 1) = 0, 147 + 0, 084 + 0, 012 = 0, 243
Este resultado puede también obtenerse considerando la Binomial (A3A3) con probabili-
dades (0, 9; 0, 1) y:
P (x3 = 1) =
µ
3
1
¶
0, 1 + 0, 92
= 0, 243
9.5 LA DISTRIBUCIÓN DE DIRICHLET
La distribución de Dirichlet se introduce para representar variables que toman valores en-
tre cero y uno y cuya suma es igual a la unidad. Estos datos se conocen como datos de
proporciones (compositional data en inglés). Por ejemplo, supongamos que investigamos el
peso relativo que los consumidores asignan a un conjunto de atributos de calidad, y que las
evaluaciones de la importancia de los atributos se realizan en una escala de cero a uno. Por
ejemplo, con tres atributos un cliente puede dar las valoraciones (0.6, 0,3, 01) indicando
que el primer atributo tiene el 60% del peso, el segundo el 30% y el tercero el 10%. Otros
ejemplos de este tipo de datos son la proporción de tiempo invertido en ciertas actividades
o la composición en % de las distintas sustancias que contienen un grupo de productos. En
todos estos casos los datos son vectores de variables continuas x =(x1, ..., xG)0
tales que, por
construcción, 0 ≤ xj ≤ 1 y existe la ecuación de restricción:
GX
j=1
xj = 1.
274 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
Una distribución apropiada para representar este tipo de situaciones es la distribución de
Dirichlet, cuya función de densidad es:
f(x1, ..., xG) =
Γ(α0)
Γ(α1)Γ(α2)...Γ(αG)
xα1−1
1 ...xαG−1
G
donde Γ(.) es la función gamma y α = (α1, ..., αG)0
es el vector de parámetros que caracteriza
la distribución, y
α0 = α0
1 =
GX
j=1
αj.
Se demuestra que
E(x) = α/α0 = µx,
por tanto, los parámetros αj indican la esperanza relativa de cada componente y
V ar(x) =
1
(α0 + 1)
(
1
α0
diag(α)−
1
α2
0
αα0
).
Esta expresión indica que la varianza de cada componente es:
var(xj) =
αj(α0 − αj)
α2
0(α0 + 1)
.
y vemos que el parámetro α0 determina la varianza de los componentes y que estas varianzas
decrecen rápidamente con α0. Las variables de Dirichlet, al igual que las multinomiales, están
ligadas por una ecuación de restricción, con lo que no son linealmente independientes y su
matriz de covarianzas será singular. Las covarianzas entre dos componentes son:
cov(xixj) = −
αjαi
α2
0(α0 + 1)
,
y las covarianzas también disminuyen con α0, pero son mayores cuanto mayores sean las
esperanzas de las variables.
El lector puede apreciar la similitud entre las fórmulas de las probabilidades, medias y
varianzas para la multinomial y la Dirichlet. Esta similitud proviene de que en ambos casos
clasiÞcamos el resultado en G grupos. La diferencia es que en el caso multinomial contamos
cuantas observaciones de n aparecen de cada grupo, mientras que en el de Dirichlet medimos
la proporción que un elemento contiene de la cada clase. En la distribución de Dirichlet
el parámetro α0 tiene un papel similar al tamaño muestral y los cocientes αj/ α0 a las
probabilidades.
9.6 LA NORMAL k-DIMENSIONAL
La distribución normal escalar tiene como función de densidad:
f(x) = (σ2
)−1/2
(2π)−1/2
exp
©
−(1/2)(x − µ)2
σ−2
ª
.
9.6. LA NORMAL K-DIMENSIONAL 275
Figura 9.1: Representación de la distribución Normal bivariante y sus marginales.
y escribimos x ∼ N(µ, σ2
) para expresar que x tiene distribución normal con media µ y
varianza σ2
.
Generalizando esta función, diremos que un vector x sigue una distribución normal
p−dimensional si su función de densidad es:
f(x) = |V|−1/2
(2π)−p/2
exp
©
−(1/2)(x − µ)0
V−1
(x − µ)
ª
(9.22)
En la Þgura 9.1 se muestra el aspecto de una Normal bivariante con µ = (0, 0) y V =·
1 1/
√
3
1/
√
3 1
¸
, y sus distribuciones marginales.
Escribiremos que x ∼Np(µ, V). Las propiedades principales de la normal multivariante
son:
1. La distribución es simétrica alrededor de µ.
La simetria se comprueba sustituyendo en la densidad x por µ ± a y observando que
f(µ + a) =f(µ − a).
2. La distribución tiene un único máximo en µ.
Al ser V deÞnida positiva el término del exponente (x − µ)0
V−1
(x − µ) es siempre
positivo, y la densidad f(x) será máxima cuando dicho término sea cero, lo que ocurre
para x = µ.
3. La media del vector aleatorio normal es µ y su matriz de varianzas y covarianzas es
V.
Estas propiedades, que pueden demostrarse rigurosamente, se deducen de la compo-
ración de las densidades univariante y multivariante.
4. Si p variables aleatorias tienen distribución conjunta normal y están incorreladas son
independientes.
La comprobación de esta propiedad consiste en tomar en (9.22) la matriz V diagonal
y comprobar que entonces f(x) = f(x1), ..., f(xp).
276 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
5. Cualquier vector x normal p−dimensional con matriz V no singular puede convertirse
mediante una transformación lineal en un vector z normal p−dimensional con vector
de medias 0 y matriz de varianzas y covarianzas igual a la identidad (I). Llamaremos
normal p−dimensional estándar a la densidad de z, que vendrá dada por:
f(z) =
1
(2π)p/2
exp
½
−
1
2
z0
z
¾
= Πp
i=1
1
(2π)1/2
exp
½
−
1
2
z2
i
¾
(9.23)
La demostración de esta propiedad es la siguiente: al ser V deÞnida positiva existe
una matriz cuadrada A simétrica que consideramos su raíz cuadrada y veriÞca:
V = AA (9.24)
DeÞniendo una nueva variable:
z = A−1
(x − µ) (9.25)
entonces x = µ + Az y según (9.14) la función de densidad de z es
fz(z) = fx(µ + Az) |A|
y utilizando AV−1
A = I, se obtiene (??) Por tanto, cualquier vector de variables
normales x en <p
puede transformarse en otro vector de <p
de variables normales
independientes y de varianza unidad.
6. Las distribuciones marginales son normales.
Si las variables son independientes la comprobación de esta propiedad es inmediata.
La demostración general puede verse, por ejemplo, en Mardia et al (1979).
7. Cualquier subconjunto de h < p variables es normal h−dimensional.
Es una extensión del la propiedad anterior y se demuestra analogamente.
8. Si y es (k × 1), k ≤ p, el vector y = Ax, donde A es una matriz (k × p), es normal
k−dimensional. En particular, cualquier variable escalar y = a0
x, (siendo a0
un vector
1 × p no nulo) tiene distribución normal.
La demostración puede verse, por ejemplo, en Mardia et al (1979).
9. Al cortar con hiperplanos paralelos al deÞnido por las p variables que forman la variable
vectorial, x, se obtienen las curvas de nivel, cuya ecuación es:
(x − µ)0
V−1
(x − µ) = cte.
Las curvas de nivel son, por tanto, elipsoides, y deÞnen una medida de la distancia de
un punto al centro de la distribución. Esta medida ha aparecido ya en la descripción
de datos del capítulo 3 donde estudiamos su interpretación. Se denomina distancia de
Mahalanobis y la representaremos por :
D2
= (x − µ)0
V−1
(x − µ) (9.26)
9.6. LA NORMAL K-DIMENSIONAL 277
Como ilustración, consideremos el caso más simple de dos distribuciones univariantes
indicado en la Þgura 13.3. La observación x=3, indicada con una X, en el gráÞco, esta
con la distancia euclidea más cerca del centro de la distribución A, que es cero, que del
centro de la B que es diez. Sin embargo, con la distancia de Mahalanobis la distancia del
punto X a la distribución A que tiene desviación típica uno es (3−0)2
/1, mientras que
la distancia al centro de la B, que tiene desviación típica diez, es (3 − 10)2
/102
= 0, 72
y el punto X está mucho más cerca, con esta distancia, de la distribución B. Esto es
consecuencia de que es mucho más probable que este punto provenga de la distribución
B que de la A.
10. La distancia de Mahalanobis se distribuye como una χ2
con p grados de libertad.
Para comprobarlo, hagamos la transformación (9.25) y como V−1
= A−1
A−1
se obtiene
que
D2
= z0
z =
X
z2
i
donde cada zi es N(0, 1). Por tanto D2
∼ χ2
p.
-20 -15 -10 -5 0 5 10 15 20 25 30
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
A
B
X
Figura 9.2: El punto X esta más cerca, con la distancia euclidea del centro de la distribución
A pero con la distancia de Mahalanobis lo está de la B
9.6.1 Distribuciones condicionadas
Particionemos el vector aleatorio en dos partes, x = (x1, x2)0
, donde x1 es un vector de
dimensión p1 y x2 de dimensión p2, siendo p1 + p2 = p. Particionemos también la matriz de
covarianzas del vector x en bloques asociados a estos dos vectores, como:
V =
·
V11 V12
V21 V22
¸
(9.27)
278 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
donde, por ejemplo, V11, la matriz de covarianzas del vector x1, es cuadrada de orden p1, V12,
la matriz de covarianzas entre los vectores x1 y x2 tiene dimensiones p1 ×p2, y V22, la matriz
de covarianzas del vector x2, es cuadrada de orden p2. Queremos calcular la distribución
condicionada del vector x1 dados los valores del vector x2. Vamos a demostrar que esta
distribución es normal, con media:
E [x1|x2] = µ1 + V12V−1
22 (x2 − µ2) (9.28)
y matriz de varianzas y covarianzas:
V ar [x1|x2] = V11−V12V−1
22 V21 (9.29)
Para interpretar estas expresiones supongamos primero el caso bivariante donde ambas
variables son escalares de media cero. Entonces la media se reduce a
E [x1|x2] = σ12σ−1
22 x2
que es la expresión habitual de la recta de regresión con pendiente β = σ12/σ22. La expresión
de la varianza condicionada alrededor de la recta de regresión es
var [x1|x2] = σ11−σ2
12/σ22 = σ2
1(1 − ρ2
)
donde ρ = σ12/σ1/2
22 σ1/2
11 es el coeÞciente de correlación entre las variables. Esta expresión
indica que la variabilidad de la distribución condicionada es siempre menor que la de la
marginal y la reducción de variabilidad es tanto mayor cuanto mayor sea ρ2
.
Supongamos ahora que x1 es escalar pero x2 es un vector. La expresión de la media
condicionada proporciona la ecuación de regresión múltiple
E [x1|x2] = µ1 + β0
(x2 − µ2)
donde β = V−1
22 V21 siendo V21 el vector de covarianzas entre x1 y los componentes de x2.
La varianza de esta distribución condicionada es
var [x1|x2] = σ2
1(1 − R2
)
donde R2
= V12V−1
22 V21/σ2
1 es el coeÞciente de correlación múltiple.
En el caso general, estas expresiones corresponden al conjunto de regresiones múltiples
de los componentes de x1 sobre las variables x2, que se conoce como regresión multivariante.
Demostración La expresión de la distribución condicionada es
f (x1|x2) =
f (x1, x2)
f (x2)
Como las distribuciones f (x1, x2) y f (x2) son normales multivariantes al hacer el cociente
quedará un cociente entre determinantes y la diferencia entre los exponentes de las normales.
Comencemos calculando el exponente resultante. Será
(x − µ)0
V−1
(x − µ) − (x2 − µ2)0
V−1
22 (x2 − µ2) (9.30)
9.6. LA NORMAL K-DIMENSIONAL 279
Vamos a descomponer la primera forma cuadrática en los términos correspondientes a x1y
x2. Para ello particionaremos (x − µ) como (x1 − µ1, x2 − µ2)0
, particionaremos V como en
(9.27), y utilizaremos la expresión de la inversa de una matriz particionada (véase la sección
2.2.3). Realizando el producto se obtiene.
(x − µ)0
V−1
(x − µ) = (x1 − µ1)0
B−1
(x1 − µ1) − (x1 − µ1)0
B−1
V12V−1
12 (x2 − µ2) −
− (x2 − µ2) V−1
22 V21B−1
(x1 − µ1) + (x2 − µ2) V−1
22 (x2 − µ2) −
+ (x2 − µ2)0
A−1
22 A21B−1
A12A−1
22 (x2 − µ2)
donde B =
¡
V11−V12V−1
22 V21
¢
, que es la expresión utilizada en (9.29). El cuarto término de
esta expresión se cancela en la diferencia (9.30), y los otros cuatro pueden agruparse como
¡
x1 − µ1 − V12V−1
22 (x2 − µ2)
¢0
B−1
¡
x1 − µ1 − V12V−1
22 (x2 − µ2)
¢
.
Esta expresión muestra que el exponente de la distribución corresponde a una variable
normal con vector de medias y matriz de covarianzas igules a los indicados en (9.28) y (9.29).
Vamos a comprobar que el cociente de determinantes conduce también a la misma matriz
de covarianzas. Utilizando que, según la sección 2.3.5, |V| = |V22|
¯
¯V11−V12V−1
22 V21
¯
¯ =
|V22| |B|. Como en el denominador tenemos |V22| , el cociente proporciona el término único
|B| . Finalmente, quedará en término (2π)p/2−p2/2
=(2π)p1/2
.
En conclusión, la expresión resultante será la de la función de densidad normal multi-
variante de orden p1, con vector de medias dado por (9.28) y matriz de covarianzas dada por
(9.29).
Ejemplo 9.4 La distribución de los gastos en dos productos (x, y) de un grupo de consumi-
dores sigue una distribución normal bivariante con medias respectivas 2 y 3 euros y matriz
de varianzas y covarianzas
·
1 0, 8
0, 8 2
¸
Calcular la distribución condicionada de los gastos en el producto y para los consumidores
que gastan 4 euros en el producto x.
La distribución condicionada f (y/x = 4) = f (4, y) /fx(4). La distribución marginal de
x es normal, N(2, 1). Los términos de la distribución conjunta f(x, y) serán:
|V|1/2
=
¡
σ2
1σ2
2
¡
1 − %2
¢¢1/2
= σ1σ2
p
1 − %2
V−1
=
1
σ2
1σ2
2 (1 − %2)
¯
¯
¯
¯
σ2
2 −%σ2σ1
−%σ2σ1 σ2
1
¯
¯
¯
¯
donde en este ejemplo σ2
1 = 1, σ2
2 = 2, y % = 0, 8/
√
2 = 0, 566. El exponente de la normal
bivariante f(x, y) será:
−
1
2 (1 − %2)
(µ
x − µ1
σ1
¶2
+
µ
y − µ2
σ2
¶2
− 2%
(x − µ1) (y − µ2)
σ1σ2
)
= −
A
2
280 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
En consecuencia, tendremos:
f (y | x) =
³
σ1σ2
p
1 − %2
´−1
(2π)−1
exp
©
−A
2
ª
σ−1
1 (2π)−1
exp
½
−1
2
³
x−µ1
σ1
´2
¾ =
=
1
σ2
p
1 − %2
1
√
2π
exp
½
−
1
2
B
¾
donde el término resultante en el exponente, que llamaremos B, será:
B =
1
1 − %2
"µ
x − µ1
σ1
¶2
+
µ
y − µ2
σ2
¶2
− 2%
(x − µ1) (y − µ2)
σ1σ2
−
µ
x − µ1
σ1
¶2
¡
1 − %2
¢
#
=
1
1 − %2
"µ
y − µ2
σ2
¶2
− %
µ
x − µ1
σ1
¶2
#2
B =
1
σ2
2 (1 − %2)
·
y −
µ
µ2 + %
σ2
σ1
(x − µ1)
¶¸2
Este exponente corresponde a una distribución normal con media:
E [y | x] = µ2 + %
σ2
σ1
(x − µ1)
que es la recta de regresión, y desviación típica:
DT [y | x] = σ2
p
1 − %2
Para x = 4.
E [y | 4] = 3 +
µ
0, 8
√
2
¶
·
√
2
1
(4 − 2) = 4, 6.
Como hay una correlación positiva de 0,566 entre los gastos en ambos productos los con-
sumidores que gastan más en uno también en promedio tienen gastos medios más altos en
el otro. La variabilidad de la disribución condicionada será:
V ar [y | 4] = σ2
2
¡
1 − %2
¢
= 2 (1 − 0, 32) = 1, 36
y será menor que la varianza de la marginal porque cuando condicionamos tenemos más
información.
9.7. DISTRIBUCIONES ELÍPTICAS 281
9.7 DISTRIBUCIONES ELÍPTICAS
La distribución normal multivariante es un caso particular de una familia de distribuciones
muy utilizadas en el análisis multivariante: las distribuciones elípticas. Para introducirlas,
consideremos primero el caso más simple de las distribuciones esféricas
9.7.1 Distribuciones esféricas
Diremos que una variable vectorial x = (x1, ..., xp)0
sigue una distribución esférica si su fun-
ción de densidad depende de la variable sólo por la distancia euclídea x0
x =
Pp
i=1 x2
i . Esta
propiedad implica que:
1. Los contornos de equiprobabilidad de la distribución son esferas con centro en el origen.
2. La distribución es invariante ante rotaciones. En efecto, si deÞnimos una nueva vari-
ables y = Cx, donde C es una matriz ortogonal, la densidad de la variable y es la
misma que la de la variable x.
Un ejemplo de distribución esférica, estudiado en la sección anterior, es la función de
densidad Normal estándar multivariante, cuya densidad es
f(x) =
1
(2π)p/2
exp(−
1
2
x0
x) = Πp
i=1
1
(2π)1/2
exp(−
1
2
x2
i )
Figura 9.3: Densidad de la normal estandar bivariante
Esta densidad está representada en la Þgura 9.3, y las dos variables escalares que forman
el vector son independientes. Este propiedad es característica de la normal, ya que, habit-
ualmente, los componentes de las distribuciones esféricas son dependientes. Por ejemplo, la
282 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
distribución multivariante de Cauchy, dada por
f(x) =
Γ
¡p+1
2
¢
π(p+1)/2
(1 + x0
x)−(p+1)/2
(9.31)
tiene colas más pesadas que la normal, como en el caso univariante, y es fácil comprobar que
esta función no puede escribirse como producto de distribuciones univariantes de Cauchy,
por lo que sus componentes aunque están incorrelados no son independientes.
Otra distribución esférica importante es la doble exponencial. En el caso bivariante esta
distribución tiene función de densidad
f(x) =
1
2π
exp(−
√
x0x)
y aunque la función de densidad puede parecer similar a la normal tiene colas mucho más
pesadas. La Þgura 9.4 muestra esta distribución.
Figura 9.4: Dendidad de la doble exponencial bivariante
9.7.2 Distribuciones elípticas
Si la variable x sigue una distribución esférica y A es una matriz cuadrada de dimensión p
y m un vector de dimensión p, la variable
y = m + Ax (9.32)
se dice que sigue una distribución elíptica. Como una variable esférica tiene media cero y
matriz de covarianzas cI, es inmediato que una variable elíptica tiene media m y matriz de
covarianzas V =cAA0
. Las distribuciones elípticas tienen las propiedades siguientes:
9.8. (*)LA DISTRIBUCIÓN DE WISHART 283
1. Su función de densidad depende de la variable a través de la distancia de Mahalanobis:
(y − m)0
V−1
(y − m)
2. Los contornos de equiprobabilidad de la distribución son elipsoides con centro en el
punto m.
La distribución normal multivariante general es el miembro más conocido de las distribu-
ciones elípticas. Otro miembro de esta familia es la distribución t multivariante. Aunque
existen distintas versiones de esta distribución, la más habitual se construye dividiendo cada
componente de un vector de variables normales multivariantes Np(m, V) por la misma vari-
able escalar: la raiz cuadrada de una χ2
dividida por sus grados de libertad. Es obvio, por
construcción, que las marginales serán t de Student, y se obtiene que la función de densidad
de la variable multivariante resultante es
f(y) =
Γ((v+p)
2
)
(πv)p/2Γ(v
2
)
|V|−1/2 £
1 + (y − m)0
V−1
(y − m)
¤−(v+p)/2
(9.33)
donde el escalar v se denomina grados de libertad. Observemos que si hacemos v = 1, m = 0,
V = I, obtenemos la distribución de Cauchy multivariante (9.31) que tiene simetría esférica.
Para v > 2 la media de la distribución es m y la varianza v/(v − 2)V.
Las distribuciones elípticas comparten muchas propiedades de la normal: las distribu-
ciones marginales y condicionadas son también elípticas, y las medias condicionadas son
función lineal de las variables condicionantes. Sin embargo, la normal tiene la propiedad de
que es el único miembro de la familia donde si la matriz de covarianzas es diagonal todas las
variables componentes son independientes. El lector interesado en la demostración de este
resultado puede encontrarlo en Muirhead (1982).
9.8 (*)LA DISTRIBUCIÓN DE WISHART
9.8.1 Concepto
La distribución de Wishart se utiliza para representar la incertidumbre respecto a una ma-
triz de varianzas y covarianzas de variables normales multivariantes. En el caso escalar, la
distribución que representa esta incertidumbre es la ji-cuadrado de Pearson, χ2
, y la dis-
tribución de Wishart estándar puede considerarse como una generalización multivariante de
esta distribución.
Recordemos los resultados univariantes: Si (x1, ...xm) es un conjunto de variables aleato-
rias normales independientes N(0, σ2
), la suma estandarizada de sus cuadrados, σ−2
Pm
i=1 x2
i ,
sigue una distribución χ2
m. También decimos que w =
Pm
i=1 x2
i sigue una distribución σ2
χ2
m.
La densidad de una distribución χ2
m es un caso particular de la Gamma con parámetros¡1
2
, m
2
¢
y tiene función de densidad dada por
f(χ2
) = k(χ2
)
m
2
−1
exp
½
−
1
2
χ2
¾
, (9.34)
284 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
donde k es una constante. Por otro lado, la distribución de la variable w =
Pm
i=1 x2
i será la
Gamma con parámetros
¡ 1
2σ2 ; m
2
¢
, y su densidad tendrá la forma:
f(w) = k
¡
σ2
¢−m
2
w
m
2
−1
exp
½
−
1
2
σ−2
w
¾
. (9.35)
Consideremos ahora un conjunto de m vectores aleatorios, (x1, ..., xm), de dimensión p
con la misma distribución Np(0, I). La estimación de su matriz de varianzas y covarianzas
se obtendrá de Σm
i=1xix0
i/m, y el numerador de esta expresión
W = Σm
i=1xix0
i (9.36)
que es una matriz cuadrada p × p, simétrica y deÞnida positiva, decimos que sigue una
distribución Wishart con m grados de libertad. Esta aÞrmación debe interpretarse en el
sentido de que la distribución conjunta de los 1
2
p(p + 1) elementos distintos de W es
f(w11, ....., wpp) = c|W|(m−p−1)/2
exp
½
−
1
2
trW
¾
(9.37)
donde c es una constante para que la función integre a uno (véase Seber, 1984). Observemos
que para p = 1 se obtiene (9.34). Escribiremos W ∼ Wp(m), donde p indica que se trata
de la distribución de los elementos de una matriz cuadrada y simétrica de orden p, y m
son los grados de libertad. Observemos que esta distribución depende únicamente de las
dos medidas escalares del tamaño de la matriz: la traza y el determinante. Por tanto, todas
las combinaciones de elementos de la matriz que conduzcan a los mismos valores de estas
medidas de tamaño tienen la misma probabilidad.
Consideremos ahora m vectores aleatorios (x1, ..., xm) de una distribución Np(0, Σ), donde
hemos utilizado el símbolo Σ en lugar de V para representar la matriz de covarianzas para
evitar confusiones cuando esta distribución se utilice en el análisis bayesiano del capítulo
siguiente. La distribución de los elementos de la matriz
W = Σm
i=1xix0
i (9.38)
es la distribución Wishart con m grados de libertad y matriz de parámetros Σ, dada por
f(w11, ....., wpp) = c|Σ|−m/2
|W|(m−p−1)/2
exp
½
−
1
2
trΣ−1
W
¾
. (9.39)
En general, si una matriz cuadrada y simétrica sigue la distribución (9.39), donde Σ es una
matriz simétrica (p × p) no singular deÞnida positiva de componentes constantes, diremos
que sigue la distribución Wishart con m grados de libertad y matriz de parámetros Σ, y
escribiremos W ∼ Wp(m, Σ). Observemos que para p = 1 esta expresión se reduce (9.35), y
si hacemos Σ = 1, la densidad (9.39) se reduce a (9.34). La Þgura 9.5 presenta un ejemplo
de esta distribución
9.8. (*)LA DISTRIBUCIÓN DE WISHART 285
9.8.2 Propiedades de la distribución
La distribución de Wishart tiene las propiedades siguientes:
1. La esperanza de la distribución es:
E [W] = mΣ
lo que implica que W/m tiene esperanza Σ.
2. La suma de dos distribuciones χ2
independientes es otra distribución χ2
con grados de
libertad la suma de ambas. Análogamente, si W1 ∼ Wp(m1, Σ) y W2 ∼ Wp(m2, Σ) son
independientes, entonces W1+W2 ∼ Wp(m1 + m2, Σ). Este resultado es consecuencia
inmediata de la deÞnición de la distribución por (9.34).
3. Si A es una matriz h×p de constantes, y W ∼ Wp(m, Σ), la distribución de AWA0
∼
Wh(m, A−1
ΣA0−1
).
En efecto, por (9.38) la variable AW0
A será
A
mX
i=1
xix0
iA0
=
mX
i=1
yiy0
i
donde ahora yi es N(0, AΣA0
), y aplicando la deÞnición de la distribución Wishart se
obtiene el resultado.
4. Si S es la matriz de varianzas y covarianzas muestral
S =
1
n
X0
PX
donde P = I − 1
n
110
es idempotente, entonces
nS ∼Wp(n − 1, Σ).
Esta expresión indica que si deÞnimos el estimador
bS =
1
(n − 1)
X
0
PX =
n
(n − 1)
S
su esperanza será Σ, y bS será un estimador centrado para la matriz de varianzas.
Podemos escribir que (n − 1)bS ∼ Wp(n − 1, Σ). Este resultado es análogo al del
caso escalar: (n − 1)bs2
, donde bs2
es el estimador centrado de la varianza, sigue una
distribución σ2
χ2
n−1.
286 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
9.9 LA T2
DE HOTELLING
Si x es un vector aleatorio Np(µ, V), la variable (x − µ)0
V−1
(x − µ) es una χ2
con p
grados de libertad. Si sustituimos V por su estimación bS, la matriz de varianzas muestral
dividiendo por n−1, la distribución que se obtiene se denomina T2
de Hotelling. En general,
si x ∼ Np(µ, V) y (n − 1)bS ∼ Wp(n − 1, V), la distribución de la variable escalar:
T2
= (x − µ)0bS−1
(x − µ) (9.40)
que representa la distancia de Mahalanobis entre una variable y su media poblacional, pero
calculada con la matriz de covarianzas estimada, se denomina distribución T2
de Hotelling
con p y n − 1 grados de libertad. Diremos que T2
∼ T2
(p, n − 1). Asintóticamente, como
bS → V, T2
converge a la distancia de Mahalanobis y la distribución de Hotelling a la dis-
tribución χ2
p. Por tanto, para n grande, la distribución de Hotelling es muy similar a una
χ2
p. Para tamaños muestrales más pequeños tiene una mayor variabilidad que la χ2
p, como
consecuencia de la mayor incertidumbre al utilizar la matriz estimada, bS, en lugar de la
matriz de covarianzas verdadera, V.
Si ¯x es la media muestral, como ¯x ∼ Np(µ, 1
n
V), la distribución de
(¯x − µ)0
Ã
bS
n
!−1
(¯x − µ) = n(¯x − µ)0bS−1
(¯x − µ)
es también una T2
de Hotelling. Observemos que si p = 1, la T2
se reduce a:
T2
=
n(x − µ)2
bs2
= t2
(9.41)
y coincide con el estadístico t de Student. Por tanto T2
(1, m) = t2
m.
La distribución de Hotelling no se tabula, ya que con una simple transformación se reduce
a la distribución F del análisis de la varianza de Fisher. Se demuestra (véase Seber, 1984 o
Muirhead, 1982) que:
Fp,n−p =
n − p
p(n − 1)
T2
(p, n − 1) (9.42)
lo que permite calcular la distribución de T2
en función de las tablas de la distribución
F. Este resultado es consistente con (9.42), ya que, asintóticamente, pFp,n−p tiende a una
distribución χ2
p. La Þgura (??) muestra un ejemplo de la distribución de Hotelling comparada
con la χ2
p. Vemos que para tamaño muestral muy pequeño, n = 15, las colas de la distribución
son más planas que las de la ji-cuadrado indicando la mayor incertidumbre existente, pero
para n=50, ambas son ya muy similares. La aproximación depende del cociente n/p, y si
este es grande, mayor de 25, podemos aproximar bien la distribución de Hotelling mediante
la ji-cuadrado.
9.9. LA T2
DE HOTELLING 287
Figura 9.5: Distribución Wishart dibujada en función de la traza y el determinante
0 2 4 6 8 10 12 14
0
0.05
0.1
0.15
0.2
0.25
T(3,14
X2(3)
T(3,49)
T(3,14)
Figura 9.6: La distribución de Hotelling para dos valores del tamaño muestral y la distribu-
ción ji-cuadrado.
288 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
9.10 DISTRIBUCIONES MEZCLADAS
Los datos multivariantes son frecuentemente heterogéneos. Por ejemplo, si observamos el
gasto en distintos productos en una muestra de consumidores, es esperable que haya grupos
de consumidores con patrones de gasto distintos: los consumidores sin hijos respecto a que
las que los tienen, o los jóvenes respecto a los ancianos. En general, si una población donde
hemos deÞnido una variable aleatoria vectorial, x, puede subdividirse en G estratos más
homogéneos y llamamos πi a la proporción de elementos en el estrato i (
PG
i=1 πi = 1) y fi(x)
a la función de densidad de la variable en el estrato i, la función de densidad en toda la
población vendrá dada por la mezcla de densidades
f(x) =
GX
i=1
πifi(x). (9.43)
Para justiÞcar esta distribución, nótese que observar un elemento al azar de esa población
puede plantearse en dos etapas. En la primera, seleccionamos el estrato al azar mediante
una variable escalar, g, que toma los valores 1, ..., G con probabilidades π1, ..., πG. En la
segunda, seleccionamos aleatoriamente el elemento de la población seleccionada, fi(x). La
probabilidad de que el elemento seleccionado tome un valor x ∈ A será
P(x ∈ A) =
GX
i=1
P(x ∈ A/g = i)P(g = i)
y llamando πi = P(g = i), la distribución marginal de la variable x cuando no se conoce la
variable g viene dada por (9.43).
Las Þguras 9.7 y ?? presentan ejemplos de distribuciones obtenidas como mezclas de dos
distribuciones univariantes con proporcion de mezcla 50% (π1 = π2 = .5). En la Þgura
9.7 las dos distribuciones de partida son normales con la misma media y diferente varianza.
La distribución resultante tiene la misma media y una varianza que es el promedio de las
varianzas de las distribuciones. Observemos que la distribución mezclada no es normal. En
la Þgura ?? las distribuciones tienen distinta media y varianza. Como comprobaremos ahora
la media es en este caso el promedio de las medias pero la varianza tiene una expresión más
complicada porque además de la variabilidad de las distribuciones con respecto a sus medias
se añade la variabilidad debida a las diferencias entre las medias.
9.10. DISTRIBUCIONES MEZCLADAS 289
-10 -8 -6 -4 -2 0 2 4 6 8 10
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
N(0,1)
n(2,2)
Mezcla
Mezcla al 50% de dos distribuciones normales con distinta media y varianza
Los parámetros de la distribución de la variable mezclada (µ, V), o marginal, se obtienen
fácilmente conocidos las medias µi y matrices de varianzas Vi de las distribuciones que
generan la mezcla, o condicionadas.
1. La media de la distribución mezclada o media de la distribución marginal es
µ =
GX
i=1
πiµi (9.44)
La demostración de este resultado es inmediato aplicando las propiedades de la es-
peranza condicional (9.19). Introduciendo la variable de clasiÞcación g, tenemos que,
como E(x/g=i) = µi
E(x) =EgEx/g(x) =Eg(µi) =
GX
i=1
πiµi
2. La matriz de varianzas y covarianzas de la distribución marginal viene dada por
V =
GX
i=1
πiVi +
GX
i=1
πi(µi − µ)(µi − µ)0
(9.45)
Para demostrar este resultado, introduciendo que
V =E
£
(x − µ)(x − µ)0¤
= E
£
(x − µi + µi − µ)(x − µi + µi − µ)0¤
y aplicando de nuevo las propiedades de la esperanza condicional (9.19), obtenemos
que
Ex/y
£
(x − µi + µi − µ)(x − µi + µi − µ)0¤
= Vi + (µi − µ)(µi − µ)0
y tomando ahora la esperanza de esta cantidad respecto a la distribución de g se obtiene
el resultado deseado.
290 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
La expresión (9.45) puede interpretarse como una descomposición de la variabilidad simi-
lar a la del análisis de la varianza. La variabilidad total, que es la matriz de varianzas y covar-
ianzas de la marginal, V, se descompone en una variabilidad explicada,
PG
i=1 πi(µi −µ)(µi −
µ)0
, que tiene en cuenta las diferencias entre las medias de las distribuciones condicionadas
µi y la marginal, µ, y una variabilidad no explicada
PG
i=1 πiVi, que es la variabilidad con
respecto a las distribuciones condicionadas. Por ejemplo, en el caso escalar representado en
la Þgura ??, esta expresión se reduce a :
σ2
=
GX
i=1
πiσ2
i +
GX
i=1
πi(µi − µ)2
y descompone la varianza de los datos en sus fuentes de variabilidad. En la Þgura ?? las
medias son cero y dos y las varianzas uno y cuatro, y tenemos que
σ2
= .5(1) + .5(4)+.5(0 − 1)2
+ .5(2 − 1)2
= 3.5
que corresponde a una desviación típica de 1.87, que está de acuerdo con la distribución de
la Þgura ??.
En el caso multivariante las mezclas de distribuciones normales pueden representar una
gama muy amplia de distribuciones. La Þgura 9.8 presenta un ejemplo.
9.11 Lecturas complementarias
El lector puede encontrar exposiciones más detalladas y más ejemplos de la teoría aquí
expuesta en la mayoría de los textos básicos de estadística y en los primeros capítulos de la
mayoría de los textos multivariantes. En inglés, Flury (1997), Johnson y Wichern (1998) y
Mardia et al (1979) son buenas exposiciones en orden creciente de complejidad matemática.
Existen otras distribuciones más ßexibles que la Dirichlet para modelar datos multivari-
antes de proporciones. Aitchinson (1986) es una buena referencia de distintas distribuciones
que pueden usarse para este objetivo. El lector interesado en ampliar las propiedades de
las propiedades elípticas puede acudir a Flury (1997), que es una excelente introducción,
y a Muirhead (1982). Otras buenas referencias sobre las distribuciones aquí expuestas son
Anderson (1984), Seber (1984) y Johnson y Kotz (1970). Patel y Read (1982) se concentran
en la distribución normal.
Las distribuciones mezcladas han ido teniendo un papel cada vez mayor en Estadística,
tanto desde el punto de vista clásico como Bayesiano. Un referencia básica es Titterington
at al (1987). Muchos de los textos de cluster, que comentaremos en el capítulo 14, incluyen
el estudio de estas distribuciones.
9.11. LECTURAS COMPLEMENTARIAS 291
-10 -8 -6 -4 -2 0 2 4 6 8 10
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
N(0,1)
N(0,3)
Mezcla
Figura 9.7: Mezcla al 50% de dos distribuciones normales con la misma media y distinta
varianza
Figura 9.8: Mezcla de dos normales bivariantes en la proporción 50% con medias (0,0) y
(3,3) y distintas matrices de covarianzas.
292 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
Ejercicios
Ejercicio 9.1 Dada la función de densidad conjunta f(x, y) = 6x deÞnida en 0 < x < 1,
0 < y < 1 − x, comprobar que las densidades marginales de ambas variables son f(x) =
6x(1 − x), 0 < x < 1 y f(y) = 3(1 − y)2
, 0 < y < 1.
Ejercicio 9.2 Comprobar que las densidades condicionadas en el ejemplo anterior son f(y|x) =
1
(1−x)
, 0 < y < 1 − x y f(x|y) = 2x
(1−y)2 , 0 < x < 1 − y.
Ejercicio 9.3 Utilizar la fórmula de transformaciones lineales de variables vectoriales para
demostrar que si deÞnimos la variable normal estándar como la que tiene función de densi-
dad f(z) = (2π)−p/2
exp(−z0
z/2) y hacemos la transformación x = m + Az se obtiene la
expresión de la normal general.
Ejercicio 9.4 Obtener las distribuciones condicionadas en la normal bivariante de media
cero y matriz de covarianzas
·
1 ρ
ρ 1
¸
.
Ejercicio 9.5 Demostrar en el ejercicio anterior que si ρ > 1 tanto la matriz de covarianzas
como la de correlación no son deÞnidas positivas
Ejercicio 9.6 Comprobar las fórmulas (9.19) y (9.20) para las esperanzas y varianzas glob-
ales de las variables del ejercicio 4.3
Ejercicio 9.7 Sea
¡x
y
¢
un vector bidimensional de variables aleatorias normales incorreladas.
Escribir la función de densidad conjunta del vector de variables a =
Pm
i=1 x2
i , b
Pm
i=1 y2
i ,
c =
Pm
i=1 xiyi.
Ejercicio 9.8 Calcular en el ejercicio anterior la densidad condicionada f(c|ab).
Ejercicio 9.9 Demostrar que la distancia de Mahalanobis entre la variable multinomial y
su media, (y−np)0
Var(y)−1
(y−np) es la distancia ji-cuadrado
P
(yi − npi)2
/npi.
Ejercicio 9.10 En la normal bivariante , demostrar que existe una matriz triangular (de-
scomposición de Cholesky) L =
·
l11 0
l21 l22
¸
tal que LL0
= V. Encontrar los parámetros
l11, l21, l22 como función de las varianzas y covarianzas de las variables. Interpretar el resul-
tado como parámetros de las distribuciones marginales y condicionadas de las variables.
Ejercicio 9.11 Aplicar la descomposición de Cholesky del ejercicio anterior a la matriz de
covarianzas
·
9 3
3 4
¸
Ejercicio 9.12 Generar muestras de una distribución normal bivariante por el método sigu-
iente: (1) generar un valor al azar de la distribución marginal de la primera variable;
(2) generar un valor al azar de la distribución univariante de la segunda variable dada la
primera. Aplicarlo para generar valores al azar de una variable aleatoria con vector de medias
µ = (0, 5)0
desviaciones típicas (2,3) y correlación 0,5.
9.11. LECTURAS COMPLEMENTARIAS 293
Ejercicio 9.13 Demostrar que el método anterior es equivalente a generar dos variables
aleatorias independientes de media cero y desviación típica unidad , z = (z1, z2)0
, y obtener
los valores al azar de las variables mediante la transformación x = µ + Lz , donde L es al
matriz triangular de la descomposición de Cholesky.
Ejercicio 9.14 Demostrar que si particionamos el vector de variables y la matriz de covari-
anzas como V =
·
V11 V12
V21 V22
¸
, y llamamos L11, L12, L22 a las matrices correspondientes a la
descomposición de Cholesky de esta matriz se veriÞca que L2
11 = V11, L12 = V
−1/2
11 V12, L2
22 =
V22 − V21V −1
11 V12 e interpretar estos resultados de acuerdo con la sección 5.3.1
Ejercicio 9.15 Demostrar que si x1, ..., xh son vectores con medias µi y matrices de covar-
ianzas Vi la variable y =
Ph
I=1 cxi tiene media
Ph
I=1 cµi y covarianza
Ph
I=1 c2
Vi.
Ejercicio 9.16 Cuando aumenta la dimensión del vector de datos la maldición de la di-
mensión se maniÞesta en que cada vez hay menos densidad en una región del espacio. Para
ilustrar este problema, considere la normal estándar y calcule con tablas de la χ2
la proba-
bilidad de encontrar un valor en la esfera unidad deÞnida por la relación x0x ≤ 1, cuando la
dimensión de x, es p = 2, 4, 8, 16. ¿Qué pasará al aumentar p?
Ejercicio 9.17 Considere una variable normal Np(0, I), donde p = 10. Tomemos un valor
al azar, x0 y construyamos la dirección que une ese punto con el centro de la distribución.
¿Cuál es el valor esperado de la distancia entre ese punto y el centro de la distribución?.
Supongamos que ahora tomamos una muestra de 100 valores de la variable aleatoria y los
proyectamos sobre la dirección anterior. ¿Cuál será la distribución que observamos? ¿Cuál
será la distancia esperada entre el centro de esos datos y el punto x0 ?
Ejercicio 9.18 La función generatriz de momentos de una variable aleatoria multivariante
viene dada por ϕ(t) = E(et0x
), donde t es un vector de parámetros. Comprobar que para
una variable normal multivariante esta función es ϕ(t) = exp(t0
µ + t0
Vt).
APÉNDICE 9.1 La distribución Wishart invertida
Si W es Wp(m, Σ), la distribución de U = W−1
se denomina distribución Wishart
invertida, escribiremos U ∼ IWp(m, Σ). Su función de densidad es
f(U) = C|Σ|−m/2
|U|−(m+p+1)/2
exp(−1/2 trΣ−1
U−1
)
y se veriÞca que
E [U] =
Σ−1
m − p − 1
.
La distribución Wishart invertida es utilizada por muchos autores para la estimación
bayesiana de matrices de covarianzas. Como es equivalente decir que si U es Wishart inver-
tida, U ∼ IWp(m, Σ) y que U−1
= W sigue una distribución Wishart, U−1
∼ Wp(m, Σ),
en este libro para simpliÞcar, hemos optado por no utilizarla y se incluye aquí únicamente
como referencia para el lector que consulte otra bibliografía.
294 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
Capítulo 10
INFERENCIA CON DATOS
MULTIVARIANTES
10.1 INTRODUCCIÓN
En este capítulo vamos a presentar una introducción a la inferencia en modelos multivari-
antes. Suponemos al lector familiarizado con los conceptos básicos de inferencia al nivel de
Peña (2001). El objetivo de este capítulo es repasar los resultados de estimación y contrastes
principales que serán necesarios en los temas posteriores. El lector puede encontrar en An-
derson (1984), Mardia et al. (1979) o Seber (1983) presentaciones más completas de lo aquí
expuesto.
Se estudia primero la estimación de los parámetros en modelos normales multivariantes
por máxima verosimilitud. En segundo lugar se presenta el método de la razón de verosimili-
tudes, como procedimiento general para obtener contrastes con buenas propiedades en mues-
tras grandes. Existen otros procedimientos para construir contrastes multivariantes que no
revisaremos aquí, y que el lector puede encontrar en Anderson (1984). A continuación, se
presenta un contraste sobre el valor del vector de medias en una población normal multi-
variante. Este contraste se generaliza para comprobar la igualdad de los vectores de medias
de varias poblaciones normales multivariantes con la misma matriz de covarianzas, que es la
herramienta principal del análisis de la varianza multivariante. Un caso particular de este
contraste es el test de valores atípicos, que puede formularse como una prueba de que una
observación proviene de una distribución con media distinta a la del resto de los datos. Final-
mente, se presentan los contrastes de normalidad conjunta de los datos y transformaciones
posibles para llevarlos a la normalidad.
10.2 Fundamentos de la Estimación Máximo Verosim-
il
El método de máxima verosimilitud, debido a Fisher, escoge como estimadores de los parámet-
ros aquellos valores que hacen máxima la probabilidad de que el modelo a estimar genere
la muestra observada. Para precisar esta idea, supongamos que se dispone de una muestra
295
296 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
aleatoria simple de n elementos de una variable aleatoria p−dimensional, x, con función de
densidad f(x | θ), donde θ = (θ1, ..., θr)0
es un vector de parámetros que supondremos tiene
dimensión r ≤ pn. Llamando X = (x1, ..., xn), a los datos muestrales, la función de densidad
conjunta de la muestra será, por la independencia de las observaciones:
f(X | θ) =
nY
i=1
f(xi | θ).
Cuando el parámetro θ es conocido, esta función determina la probabilidad de aparición de
cada muestra. En el problema de estimación se dispone de la muestra, pero θ es desconocido.
Considerando en la expresión de la densidad conjunta a θ como una variable y particular-
izando esta función para los datos observados, se obtiene una función que llamaremos función
de verosimilitud, `(θ|X), o `(θ):
`(θ|X) = `(θ) =
nY
i=1
f(xi | θ) X fijo; θ variable (10.1)
El estimador de máxima verosimilitud, o estimador MV, es el valor de θ que hace máxima
la probabilidad de aparición de los valores muestrales efectivamente observados y se obtiene
calculando el valor máximo de la función `(θ). Suponiendo que esta función es diferenciable
y que su máximo no ocurre en un extremo de su dominio de deÞnición, el máximo se obtendrá
resolviendo el sistema de ecuaciones:
∂`(θ)
∂θ1
= 0
:
∂`(θ)
∂θr
= 0
El vector bθ que satisface este sistema de ecuaciones corresponderá a un máximo si la
matriz hessiana de segundas derivadas H, evaluada en bθ, es deÞnida negativa:
H(bθ) =
µ
∂2
` (θ)
∂θi∂θj
¶
θ=bθ
deÞnida negativa.
En ese caso bθ es el estimador de máxima verosimilitud o estimador MV de θ. En la prác-
tica suele ser más cómodo obtener el máximo del logaritmo de la función de verosimilitud:
L (θ) = ln ` (θ) (10.2)
que llamaremos función soporte. Como el logaritmo es una transformación monótona, ambas
funciones tienen el mismo máximo, pero trabajar con el soporte tiene dos ventajas principales.
En primer lugar pasamos del producto de densidades (10.1) a la suma de sus logaritmos y la
expresión resultante suele ser más simple que la verosimilitud, con lo que resulta más cómodo
10.3. ESTIMACIÓN DE LOS PARÁMETROS DE VARIABLES NORMALES P-DIMENSIONALES.2
obtener el máximo. En segundo lugar, al tomar logaritmos las constantes multiplicativas de
la función de densidad, que son irrelevante para el máximo, se hacen aditivas y desaparecen
al derivar, con lo que la derivada del soporte tiene siempre la misma expresión y no depende
de constantes arbitrarias. En tercer lugar, el doble de la función soporte cambiada de sig-
no proporciona un método general para juzgar el ajuste de un modelo a los datos que se
denomina desviación:
D(θ) = −2L (θ)
y la desviación D(θ) mide la discrepancia entre el modelo y los datos. Cuanto mayor sea el
soporte, L (θ) , mayor es la concordancia entre el valor del parámetro y los datos y menor la
desviación. La desviación aparecerá de manera natural en el contraste de hipótesis y es una
medida global de ajuste de un modelo a los datos.
Para distribuciones cuyo rango de valores posibles es conocido a priori y no depende de
ningún parámetro, puede demostrarse (veáse por ejemplo Casella y Berger, 1990) que, en
condiciones muy generales respecto al modelo de distribución de probabilidad, el método de
máxima verosimilitud (MV) proporciona estimadores que son:
1. Asintóticamente centrados.
2. Con distribución asintóticamente normal.
3. Asintóticamente de varianza mínima (eÞcientes).
4. Si existe un estadístico suÞciente para el parámetro, el estimador MV es suÞciente.
5. Invariantes en el sentido siguiente: si bθ es el estimador MV de θ, y g(θ) es una función
cualquiera del vector de parámetros, entonces g(bθ) es el estimador MV de g(θ).
10.3 Estimación de los parámetros de variables nor-
males p-dimensionales.
Sea x1, ..., xn una muestra aleatoria simple donde xi ∼ Np(µ, V). Vamos a obtener los
estimadores MV de los parámetros desconocidos µ y V. El primer paso es construir la
función de densidad conjunta de las observaciones, que es, utilizando la expresión de la
normal multivariante estudiada en el capítulo 8:
f(X | µ, V) =
nY
i=1
|V|−1/2
(2π)−p/2
exp
©
−(1/2)(x − µ)0
V−1
(x − µ)
ª
y la función soporte será, despreciando las constantes:
L(µ, V|X) = −
n
2
log |V| −
1
2
nX
i=1
(x − µ)0
V−1
(x − µ).
298 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
Observemos que la función soporte así escrita es siempre negativa, ya que tanto el deter-
minante como la forma cuadrática son positivos por ser deÞnida positiva la matriz V. Ésta
función nos indica el apoyo o soporte que reciben los posibles valores de los parámetros dados
los valores muestrales observados. Cuanto mayor sea esta función (menos negativa) para un-
os valores de los parámetros, mayor será la concordancia entre estos parámetros y los datos.
Vamos a expresar esta función de una forma más conveniente. Llamando x =
Pn
i=1 xi/n al
vector de medias muestral y escribiendo (xi −µ) = (xi − ¯x+¯x−µ) y desarrollando la forma
cuadrática
nX
i=1
(x − µ)0
V−1
(x − µ) =
nX
i=1
(x − ¯x)0
V−1
(x − ¯x) + n(¯x − µ)0
V−1
(¯x − µ)
ya que
Pn
i=1(x − ¯x) = 0. Concentrandonos en el primer término de esta descomposición,
como un escalar es igual a su traza:
tr
à nX
i=1
(x − ¯x)0
V−1
(x − ¯x)
!
=
nX
i=1
tr
£
(x − ¯x)0
V−1
(x − ¯x)
¤
=
=
nX
i=1
tr
£
V−1
(x − ¯x)(x − ¯x)0
¤
= tr
Ã
V−1
nX
i=1
(x − ¯x)(x − ¯x)0
!
,
y llamando:
S =
1
n
nX
i=1
(xi − x)(xi − x)0
, (10.3)
a la matriz de covarianzas muestral, y sustituyendo en la función soporte:
L(µ, V|x) = −
n
2
log |V| −
n
2
trV−1
S −
n
2
(¯x − µ)0
V−1
(¯x − µ) (10.4)
Esta es la expresión que utilizaremos para el soporte de los parámetros en muestras de una
normal multivariante. Observemos que esta función sólo depende de la muestra a través de
los valores ¯x y S, que serán, por tanto, estimadores suÞcientes de µ y V. Todas la muestras
que proporcionen los mismos valores de ¯x y S darán lugar a las mismas inferencias respecto
a los parámetros.
Para obtener el estimador del vector de medias en la población, utilizamos que, por ser
V−1
deÞnida positiva, (¯x − µ)0
V−1
(¯x − µ) ≥ 0 . Como este término aparece con signo
menos, el valor de µ que maximiza la función soporte es aquel que hace este término lo
menor posible, y se hará cero tomando:
bµ = ¯x (10.5)
por lo que concluimos que ¯x es el estimador máximo verosímil de µ. Sustituyendo este
estimador en la función soporte este término desaparece. Para obtener el máximo de la
función respecto a V, sumaremos la constante n
2
log |S| , y escribiremos el soporte como:
L(V|X) =
n
2
log |V−1
S| −
n
2
trV−1
S (10.6)
10.4. EL MÉTODO DE LA RAZÓN DE VEROSIMILITUDES 299
Esta expresión es útil porque el valor de la verosimilitud escrita de esta forma no depende de
las unidades de medida de las variables. También es fácil comprobar (veáse ejercicio 10.1)
que el valor de la verosimilitud es invariante ante transformaciones lineales no singulares de
las variables. Llamemos λi a los valores propios de la matriz V−1
S, entonces:
L(V|X) =
n
2
X
log λi −
n
2
X
λi =
n
2
X
(log λi − λi).
Esta expresión indica que la verosimilitud es una suma de funciones del tipo log x − x.
Derivando respecto a x es inmediato que una función de este tipo tiene un máximo para
x = 1. Por tanto, L(V|X) será máxima si todos los valores propios de V−1
S son iguales a la
unidad, lo que implica que V−1
S = I. Esto se consigue tomando como estimador de máxima
verosimilitud de V:
bV = S (10.7)
Los estimadores MV de µ y V son pues ¯x y S. Se demuestra, como en el caso uni-
variante, que ¯x ∼Np(µ, 1/nV). Además nS se distribuye como la distribución de Wishart,
Wp(n − 1, V). El estimador S es sesgado, pero n
n−1
S es un estimador centrado de V. Es-
tos estimadores tienen las buenas propiedades asintóticas de los estimadores de máxima
verosimilitud: consistencia, eÞciencia y normalidad asintótica. En el ejercicio 10.2 se presen-
ta una deducción alternativa, más clásica, de estos estimadores derivando la función soporte.
10.4 El método de la razón de verosimilitudes
En esta sección repasamos la metodología general para construir contrastes utilizando la
razón de verosimilitides y la aplicaremos al caso de poblaciones normales. Con frecuencia
se desea comprobar si una muestra dada puede provenir de una distribución con ciertos
parámetros conocidos. Por ejemplo, en el control de calidad de ciertos procesos se toman
muestras de elementos, se mide una variable multivariante y se desea contrastar si el proceso
está en estado de control, lo que supone que las muestras provienen de una población normal
con ciertos valores de los parámetros. En otros casos, interesa comprobar si varias muestras
multivariantes provienen o no de la misma población. Por ejemplo, queremos comprobar si
ciertos mercados son igualmente rentables o si varios medicamentos producen efectos simi-
lares. Finalmente, si hemos basado nuestra inferencia en la hipótesis de normalidad conviene
realizar un contraste para ver si esta hipótesis no es rechazada por los datos observados.
Para realizar contrastes de parámetros vectoriales podemos aplicar la teoría del contraste
de verosimilitudes. Esta teoría proporciona pruebas estadísticas que, como veremos, tienen
ciertas propiedades óptimas para tamaños muestrales grandes. Dado un parámetro vectorial,
θ, p−dimensional, que toma valores en Ω (donde Ω es un subconjunto de <p
), suponemos
que se desea contrastar la hipótesis:
H0 : θ ∈ Ω0,
que establece que θ está contenido en una región Ω0 del espacio paramétrico, frente a una
hipótesis alternativa:
H1 : θ ∈ Ω − Ω0,
300 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
que supone que θ no está restringida a la región Ω0. Para comparar estas hipótesis, analizare-
mos su capacidad de prever los datos observados, y, para ello, compararemos las probabili-
dades de obtenerlos bajo ambas hipótesis. Calcular estas probabilidades requiere el valor del
vector de parámetros, que es desconocido. El método de razón de verosimilitudes resuelve
este problema tomando el valor que hace más probable obtener la muestra observada y que
es compatible con la hipótesis. En concreto:
1. La máxima probabilidad de obtener la muestra observada bajo H0 se obtiene como
sigue. Si Ω0 determina un valor único para los parámetros, θ = θ0, entonces se calcula
la probabilidad de los datos supuesto θ0. Si Ω0 permite muchos valores, elegiremos en-
tre ellos el valor del parámetro que haga máxima la probabilidad de obtener la muestra.
Como la probabilidad de la muestra observada es proporcional a la distribución con-
junta de las observaciones, sustituyendo en esta función los datos disponibles resulta
la función de verosimilitud. Calculando el máximo de esta función en Ω0, se obtiene el
máximo valor de la verosimilitud compatible con H0, que representaremos por f (H0) .
2. La máxima probabilidad de obtener la muestra observada bajo H1 se calcula obtenien-
do el máximo absoluto de la función sobre todo el espacio paramétrico. Estrictamente
debería calcularse en el conjunto Ω − Ω0, pero es más simple hacerlo sobre todo el
espacio, ya que en general se obtiene el mismo resultado. La razón es que, habitual-
mente, H0 impone restricciones en el espacio paramétrico mientras que H1 supone que
estas restricciones no existen. Particularizando la función de verosimilitud en su máx-
imo, que corresponde al estimador MV de los parámetros, se obtiene una cantidad que
representaremos como f (H1) .
A continuación compararemos f (H0) y f (H1). Para eliminar las constantes y hacer la
comparación invariante ante cambios de escala de las variables, construimos su cociente, que
llamaremos razón de verosimilitudes (RV ) :
RV =
f(H0)
f(H1)
(10.8)
Por construcción RV ≤ 1 y rechazaremos H0 cuando RV sea suÞcientemente pequeño.
La región de rechazo de H0 vendrá, en consecuencia, deÞnida por:
RV ≤ a,
donde a se determinará imponiendo que el nivel de signiÞcación del test sea α. Para calcular
el valor a es necesario conocer la distribución de RV cuando H0 es cierta, lo que suele ser
difícil en la práctica. Sin embargo, cuando el tamaño muestral es grande, el doble de la
diferencia de soportes entre la alternativa y la nula, cuando H0 es cierta, deÞnida por:
λ = −2 ln RV = 2 (L(H1) − L(H0)) ,
donde L(Hi) = log f(Hi), i = 0, 1. se distribuye asintóticamente como una χ2
con un número
de grados de libertad igual a la diferencia de dimensión entre los espacios Ω, y Ω0. Intuiti-
vamente rechazamos H0 cuando el soporte de los datos para H1 es signiÞcativamente mayor
10.5. CONTRASTE SOBRE LA MEDIA DE UNA POBLACIÓN NORMAL 301
que para H0. La diferencia se juzga, para muestras grandes, con la distribución χ2
. Utilizan-
do la deÞnición de la desviación, este contraste puede interpretarse como la diferencia entre
las desviaciónes para H0 y para H1 :
λ = D(H0) − D(H1)
Es frecuente que la dimensión de Ω sea p y la dimensión de Ω0 sea p−r, siendo r el número
de restricciones lineales sobre el vector de parámetros. Entonces, el número de grados de
libertad de la diferencia de soportes, λ, es:
g = gl(λ) = dim(Ω) − dim(Ω0) = p − (p − r) = r
igual al número de restricciones lineales impuestas por H0.
10.5 Contraste sobre la media de una población normal
Consideremos una muestra (x1, ..., xn) de una población Np(µ, V). Se desea realizar el
contraste de la hipótesis:
H0 : µ = µ0, V =cualquiera
frente a la alternativa:
H1 : µ 6= µ0, V =cualquiera.
Para construir un contraste de razón de verosimilitudes, calcularemos el máximo de la
función de verosimilitud bajo H0 y bajo H1. La función soporte es:
L(µ, V|X) = −
n
2
log |V| −
1
2
nX
i=1
(x − µ)0
V−1
(x − µ).
Se requiere obtener los estimadores MV de µ y V bajo H0 y bajo H1. Por la sección 10.2
sabemos que, bajo H1, estos estimadores son ¯x y S, y sustituyendo en (10.4) tenemos que el
soporte para H1 es:
L(H1) = −
n
2
log |S| −
np
2
Bajo H0 el estimador de µ es directamente µ0, y operando en la forma cuadratica como
vimos en la sección 10.2.2 (tomando trazas y utilizando las propiedades lineales de la traza)
podemos escribir esta función como:
L(V|X) = −
n
2
log |V| −
n
2
trV−1
S0 (10.9)
donde
S0 =
1
n
nX
i=1
(xi − µ0)(xi − µ0)0
. (10.10)
302 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
Si sumamos en la expresión (10.9) la constante n
2
log |S0| obtenemos una expresión análoga
a (10.6), con lo que concluimos que S0 es el estimador MV de V bajo H0. Sustituyendo V
por S0 en (10.9) el soporte para H0 será
L(H0) = −
n
2
log |S0| −
np
2
y la diferencia de soportes será
λ = 2(L(H1) − L(H0)) = n log
|S0|
|S|
(10.11)
y rechazaremos H0 cuando el soporte para H1 sea signiÞcativamente mayor que para H0.
Esta condición equivale a que la varianza generalizada bajo H0, (|S0|) sea signiÞcativamente
mayor que bajo H1. La distribución de λ es una χ2
, con grados de libertad igual a la diferencia
de las dimensiones del espacio en que se mueven los parámetros bajo ambas hipótesis. La
dimensión del espacio paramétrico bajo H0 es p + p(p − 1)/2 = p(p + 1)/2, el número de
términos distintos en V, y la dimensión del espacio parámetro bajo H1 es p +p(p + 1)/2. La
diferencia es p que serán los grados de libertad del estadístico χ2
.
En este caso, podemos obtener la distribución exacta del ratio de verosimilitudes, no
siendo necesaria la distribución asintótica. Se demuestra en el apéndice 10.2 que:
|S0|
|S|
= 1 +
T2
n − 1
(10.12)
donde el estadístico
T2
= (n − 1)(¯x − µ0)0
S−1
(¯x − µ0),
sigue la distribución T2
de Hotelling con p y n − 1 grados de libertad. Utilizando la relación
entre el estadístico T2
y la distribución F, podemos calcular los percentiles de T2
. Como
la diferencia de soportes es una función monótona de T2
, podemos utilizar directamente
este estadístico en lugar de la razón de verosimilitudes, y rechazaremos H0 cuando T2
sea
suÞcientemente grande. Observemos que de (10.11) y (10.12) podemos escribir
λ = n log(1 +
T2
n − 1
)
que es consistente con la distribución asintótica, ya que, para n grande, log(1 + a/n) ≈ a/n,
y entonces λ ≈ T2
, que sabemos tiene una distribución asintótica χ2
p.
Ejemplo 10.1 Un proceso industrial fabrica elementos cuyas características de calidad se
miden por un vector de tres variables, x. Cuando el proceso está en estado de control, los
valores medios de las variables deben ser (12, 4, 2). Para comprobar si el proceso funciona
adecuadamente, se toma una muestra de 20 elementos y se miden las tres características.
La media muestral es
¯x = (11.5, 4.3, 1.2)
10.6. CONTRASTES SOBRE LA MATRIZ DE VARIANZAS DE UNA POBLACIÓN NORMAL303
y la matriz de covarianzas entre estas tres variables es
S =


10 4 −5
4 12 −3
−5 −3 4


(Los valores numéricos se han simpliÞcado para facilitar los cálculos) Observemos que si
miramos cada variable aisladamente como
t = (x − µ)
√
n/bs
es una t de Student con n − 1 grados de libertad, obtendríamos unos valores de las t para
cada variable de t1 = (11.5−12)
√
20/
p
20 × 10/19 = −.68; t2 = (4.3−4)
√
20/
p
20 × 12/19
= .88; y t3 = (1.2 − 2)
√
20/
p
20 × 4/19 = .85. Aparentemente, mirando cada variable
separadamente no hay diferencias signiÞcativas entre las medias muestrales y las del proceso
bajo control y concluiríamos que no hay evidencia de que el proceso esté fuera de control. Si
calculamos ahora el estadístico de Hotelling
T2
= 19(¯x − µ0)0
S−1
(¯x − µ0) = 14.52
Para juzgar el tamaño de esta discrepancia lo llevamos a la distribución F
F3,17 = ((20 − 3)/3)(T2
/19) = 4.33
y como el valor F3,17(.001) = 3.4, rechazamos sin ninguna duda que el proceso esta en
estado de control.
Para entender la razones de esta discrepancia entre el contraste multivariante y los uni-
variantes, observemos que el contraste multivariante tiene en cuenta las correlaciones entre
las discrepancias individuales. La matriz de correlaciones de los datos muestrales obtenida
a partir de la matriz de covarianzas es
R =


1 .37 −0.79
.37 1 −0.43
−0.79 −0.43 1


la correlación entre la primera variable y la tercera es negativa. Esto quiere decir que si
observamos un valor por debajo de la media en la primera variable, esperamos que aparezca
un valor por encima de la media en la tercera. En la muestra ocurre lo contrario, y esto
contribuye a sugerir un desplazamiento de la media del proceso.
10.6 Contrastes sobre la matriz de varianzas de una
población normal
El contraste de la razón de verosimilitudes se aplica para hacer contrastes de matrices de
varianzas de forma similar a la estudiada para vectores de medias en la sección anterior.
Vamos a ver cuatro contrastes sobre la matriz de covarianzas de variables normales. En el
304 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
primer caso la hipótesis nula es que esta matriz toma un valor Þjo dado. En el segundo, que
la matriz es diagonal y las variables están incorreladas. En el tercero las variables además
tienen la misma varianza, es el contraste de esfericidad donde suponemos que la matriz
de covarianzas es σ2
I. En el cuarto caso suponemos una esfericidad parcial: la matriz de
covarianzas puede descomponerse como una matriz de rango m < p más σ2
I . Si m = 0 este
contraste se reduce al de esfericidad.
10.6.1 Contraste de un valor particular
Supongamos que se desea realizar el contraste de la hipótesis:
H0 : V = V0, µ cualquiera
frente a la alternativa:
H1 : µ, y V =cualquiera.
Para construir un contraste de razón de verosimilitudes, calcularemos el máximo de la
función de soporte bajo H0 y bajo H1. Utilizando la expresión del soporte:
L(µ, V|x) = −
n
2
log |V| −
n
2
trV−1
S −
n
2
(¯x − µ)0
V−1
(¯x − µ)
Bajo H0, el valor de V queda especiÞcado, V0, y µ se estimará mediante ¯x, con lo que :
L(H0) = −
n
2
log |V0| −
n
2
trV−1
0 S
mientras que bajo H1, los estimadores son ¯x y S, con lo que, como vimos en la sección
anterior:
L(H1) = −
n
2
log |S| −
np
2
y la diferencia de soportes será
λ = 2(L(H1) − L(H0)) = n log
|V0|
|S|
+ ntrV−1
0 S−np (10.13)
Vemos que el contraste consiste en comparar V0, el valor teórico y S, el estimado con la
métrica del determinante y con la de la traza. La distribución del estadístico λ es una χ2
,
con grados de libertad igual a la diferencia de las dimensiones del espacio en que se mueven
los parámetros bajo ambas hipótesis que es p(p + 1)/2, el número de términos distintos en
V.
En particular este test sirve para contrastar si V0 = I. Entonces el estadístico (10.13) se
reduce a
λ = −n log |S| + ntrS−np.
10.6. CONTRASTES SOBRE LA MATRIZ DE VARIANZAS DE UNA POBLACIÓN NORMAL305
10.6.2 Contraste de independencia
Otro contraste de interés es el de independencia, donde suponemos que la matriz V0 es
diagonal. Es decir:
H0 : V =diagonal µ cualquiera
frente a la alternativa:
H1 : µ, y V =cualquiera.
Entonces la estimación máximo verosímil de V0 es cV0 =diag(S), donde diag(S) es una matriz
diagonal con términos sii iguales a los de S, y el estadístico (10.13) se reduce a
λ = n log
Q
sii
|S|
+ ntr bV−1
0 S−np
y como tr bV−1
0 S =tr bV
−1/2
0 S bV
−1/2
0 = trR =p, el contraste se reduce a:
λ = −n log |R| (10.14)
que suele escribirse en términos de los valores propios de R, llamando λi a estos valores
propios una forma equivalente del contraste es
λ = −n
p
X
i=1
log λi
y su distribución asintótica será una χ2
, con grados de libertad igual p(p + 1)/2 − p =
p(p − 1)/2.
10.6.3 Contraste de esfericidad
Un caso particular importante del contraste anterior es suponer que todas las variables tienen
la misma varianza y están incorreladas. En este caso no ganamos nada por analizarlas
conjuntamente, ya que no hay información común. Este contraste equivale a suponer que
la matriz V0 es escalar, es decir V =σ2
I, y se denomina de esfericidad, ya que entonces la
distribución de las variables tiene curvas de nivel que son esferas: hay una total simetría en
todas las direcciones en el espacio. El contraste es
H0 : V =σ2
I, µ cualquiera
frente a:
H1 : µ, y V =cualquiera
Sustituyendo V0=σ2
I en (10.13), la función soporte bajo H0 es
L(H0) = −
np
2
log σ2
−
n
2σ2
trS
306 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
y derivando respecto a σ2
es inmediato comprobar que el estimador MV es bσ2
= trS/p, .el
promedio de las varianzas. La función soporte L(H1) es la misma que en el contraste anterior
y la diferencia de soportes es
λ = n log
bσ2p
|S|
+ ntrS/bσ2
−np (10.15)
y sustituyendo bσ2
= trS/p el contraste se reduce a:
λ = np log bσ2
− n log |S|
y se distribuirá asintoticamente como una χ2
con p(p + 1)/2 − 1 = (p + 2)(p − 1)/2 grados
de libertad.
10.6.4 (*)Contraste de esfericidad parcial
El cuarto contraste que estudiaremos se denomina de esfericidad parcial porque supone que
la matriz de covarianzas tiene dependencias en un espacio de dimensión m, pero en el espacio
complementario de dimensión p−m se da la situación de esfericidad. Esto supone que toda
la estructura de dependencias entre las variables puede explicarse en función de m variables,
como veremos al estudiar el modelo factorial. Observemos que no tiene sentido contrastar
que una matriz cuadrada de orden p tiene rango m < p, porque, en este caso, la matriz debe
tener exactamente p − m valores propios nulos. Si es así, lo comprobaremos al calcular sus
valores propios, ya que si se da esta condición en la población tiene que darse también en
todas las muestras. Sin embargo, sí tiene sentido contrastar que la matriz tiene m valores
propios relativamente grandes, que coresponden a m direcciones informativas, y p−m valores
propios pequeños e iguales, que corresponden a las no informativas. Esta es la esfericidad
parcial. El contraste será:
H0 : V = B+σ2
I, µ cualquiera y rango(B) = m
frente a:
H1 : µ, y V =cualquiera
Puede demostrarse utilizando los mismos principios (véase Anderson, 1963) que, llamando
λi a los valores propios de S, el contraste es:
λ = −n
p
X
i=m+1
log λi + n(p − m) log
Pp
j=m+1 λj
p − m
(10.16)
y sigue asintóticamente una distribución χ2
con (p−m+2)(p−m−1)/2 grados de libertad.
Observemos que si las variables están estandarizadas y m = 0, este contraste se reduce a
(10.15). También si las variables estan estandarizadas
Pp
j=1 λj = p, el segundo término
se anula y este contraste se reduce (10.14). Concluimos que cuando m = 0 este contraste
coincide con el general de esfericidad presentado en la sección anterior.
10.7. CONTRASTE DE IGUALDAD DE VARIAS MEDIAS: EL ANÁLISIS DE LA VARIANZA MULT
10.6.5 Ajustes en la distribución
La aproximación de la distribución del estadístico λ a la χ2
cuando el tamaño muestral no
es muy grande puede mejorarse introduciendo factores de corrección. Box (1949) y Bartlett
(1954) han demostrado que las aproximaciones mejoran si sutituimos en los estadísticos
anteriores n por nc donde nc es menor que n y dependen de p y del contraste. Por ejemplo,
Box (1949) demostró que el contraste de independencia mejora si sutituimos n por nc =
n− (2p+11)/2. Estas correciones pueden ser importantes si el tamaño muestral es pequeño,
p es grande y el estadístico obtenido esta cerca del valor crítico, pero no van a ser importantes
si p/n es pequeño y el estadístico resultante es claramente conluyente en cualquiera de las
direcciones. El lector interesado puede acudir a Muirhead (1982).
Ejemplo 10.2 Contrastar si podemos admitir que la matriz de covarianzas de las medidas
de calidad del ejercicio 10.1 es de la forma σ2
I. Si no es así contrastar si las variables aunque
tengan distinta varianza son independientes.
La estimación de bσ2
bajo la nula es trS/p = (10 + 12 + 4)/3 = 8, 67. Por otro lado se
comprueba que |S| = 146. Entonces
λ = 60 log 8, 67 − 20 log 146 = 29.92
que debe compararse con una χ2
con (3 + 2)(3 − 1)/2 = 5 grados de libertad, y el valor
obtenido es claramente signiÞcativo, por lo que rechazamos que las variables tengan la misma
varianza y estén incorreladas.
Para realizar el contraste de independencia transformemos las variables dividiendo cada
una de ellas por su varianza. Es decir, pasamos a nuevas variables z1 = x1/
√
10, z2 =
x2/
√
12, z3 = x3/
√
4, que tendrán matriz de covarianzas, llamando D a la matriz diagonal
con elementos (1/
√
10, 1/
√
12, 1/
√
4), tendremos:
Vz = DVxD0
=


1 0.3651 −0.7906
0.3651 1 −0.4330
−0.7906 −0.4330 1

 = Rx
y el contraste ahora es
λ = −20 log 0, 304 = 23.8
que debe compararse ahora con χ2
con 3 grados de libertad, con lo que se rechaza sin
duda la hipótesis de independencia.
10.7 Contraste de igualdad de varias medias: el Análi-
sis de la Varianza Multivariante
Supongamos que hemos observado una muestra de tamaño n de una variable p dimensional
que puede estratiÞcarse en G clases o grupos, de manera que existen n1 observaciones del
grupo 1, ...., nG del grupo G. Un problema importante es contrastar que las medias de las
308 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
G clases o grupos son iguales. Vamos a resolverlo aplicando el contraste de la razón de
verosimilitudes. La hipótesis a contrastar es:
H0 : µ1 = µ2 = ... = µG = µ;
donde, además, V es deÞnida positiva, e idéntica en los grupos. La hipótesis alternativa es:
H1 : no todas las µi son iguales;
con las mismas condiciones para V.
La función de verosimilitud bajo H0 de una muestra normal homogénea se ha calculado
en la sección 10.2 y sabemos que su máximo se alcanza para bµ = x y bV = S. Sustituyendo
estas estimaciones en la función soporte tenemos que
L(H0) = −
n
2
log |S| −
np
2
. (10.17)
Bajo H1, los n vectores de observaciones se subdividen en n1 del grupo 1, ...., nG del grupo
G. La función de verosimilitud bajo H1 será:
f(µ1, ..., µp, V |X) = |V|−n/2
(2π)−np/2
exp
(
−
1
2
GX
g=1
ng
X
h=1
(xhg − µg)0
V−1
(xhg − µg)
)
,
donde xhg es el h vector de variables del grupo g, y µg su media. La maximización de esta
función en el espacio paramétrico deÞnido por H1 se realiza por el procedimiento estudiado
en 10.2. La estimación de la media de cada grupo será la media muestral, bµg = xg, y la
estimación de la matriz de covarianzas común se obtiene utilizando que:
GX
g=1
ng
X
h=1
(xhg − xg)0
V−1
(xhg − xg) = tr
à GX
g=1
ng
X
h=1
(xhg − xg)0
V−1
(xhg − xg)
!
GX
g=1
ng
X
h=1
tr
¡
V−1
(xhg − ¯xg)(xhg − ¯xg)0
¢
= tr
¡
V−1
W
¢
donde
W =
GX
g=1
ng
X
h=1
(xhg − ¯xg)(xhg − ¯xg)0
(10.18)
es la matriz de suma de cuadrados dentro de los grupos. Sustituyendo en la función de
verosimilitud y tomando logaritmos se obtiene
L(V|X) =
n
2
log |V−1
| −
n
2
trV−1
W/n
10.7. CONTRASTE DE IGUALDAD DE VARIAS MEDIAS: EL ANÁLISIS DE LA VARIANZA MULT
y, según los resultados de 10.2, la varianza común a los grupos cuando estos tienen distinta
media se estima por:
bV = Sw =
1
n
W (10.19)
donde W está dada por (10.18). Sustituyendo estas expresiones en la función soporte ten-
dremos que
L(H1) = −
n
2
log |Sw| −
np
2
. (10.20)
La diferencia de soportes será:
λ = n log
|S|
|Sw|
(10.21)
y rechazaremos H0 cuando esta diferencia sera grande, es decir, cuando la variabilidad
suponiendo H0 cierta, medida por |S|, sea mucho mayor que la variabilidad cuando per-
mitimos que las medias de los grupos sean distintas, medida por |Sw|. Su distribución es,
asintoticamente, una χ2
g donde los grados de libertad, g, se obtienen como por la diferencia
entre ambos espacio paramétricos. H0 determina una región Ω0 donde hay que estimar los p
componentes del vector de medias común y la matriz de covarianzas, en total p + p(p + 1)/2
parámetros. Bajo la hipótesis H1 hay que estimar G vectores de medias más la matriz de
covarianzas lo que supone Gp + p(p + 1)/2 parámetros. La diferencia es g :
g = dim(Ω) − dim(Ω0) = p(G − 1) (10.22)
que serán los grados de libertad de la distribución asintótica.
La aproximación a la distribución χ2
g del cociente de verosimilitudes puede mejorarse para
tamaños muestrales pequeños. Se demuestra que el estadístico :
λ0 = m log log
|S|
|Sw|
, (10.23)
donde
m = (n − 1) − (p + G)/2,
sigue asintóticamente una distribución χ2
g , donde g viene dada por (10.22), y la aproximación
es mejor que tomando m = n en pequeñas muestras.
El análisis de la varianza multivariante
Este contraste es la generalización multivariante del análisis de la varianza y puede deducirse
alternativamente como sigue. Llamemos variabilidad total de los datos a:
T =
nX
i=1
(xi − ¯x)(xi − ¯x)0
, (10.24)
310 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
que mide las desviaciones respecto a una media común. Vamos a descomponer la matriz T
como suma de dos matrices. La primera, W, es la matriz de las desviaciones respecto a las
medias de cada grupo y viene dada por (10.18). La segunda medirá la variabilidad explicada
por las diferencias entre las medias y la llamaremos B. Esta descomposición generaliza al
caso vectorial la descomposición clásica de análisis de la varianza. Para obtenerla sumaremos
y restaremos las medias de grupo en la expresión de T, como:
T =
GX
g=1
ng
X
h=1
(xgh − ¯x + ¯xg − ¯xg)(xgh − ¯x + ¯xg − ¯xg)0
y desarrollando se comprueba que el doble producto se anula y resulta:
T = B + W, (10.25)
donde T viene dado por (10.24), W por (10.18) y B, la matriz de variabilidad explicada o
de sumas de cuadrados entre grupos, se calcula por:
B =
GX
g=1
ng(¯xg − ¯x)(¯xg − ¯x)0
.
La descomposición (10.25) puede expresarse como
Variabilidad Total (T) = Variabilidad Explicada (B) + Variabilidad Residual (W)
que es la descomposición habitual del análisis de la varianza.
Para hacer un contraste de que las medias son iguales podemos comparar el tamaño de las
matrices T y B. La medida de tamaño adecuada es el determinante, con lo que concluimos
que el contraste debe basarse en el cociente |T|/|W|. La distribución exacta de este cociente
fue estudiada por Wilks. Para tamaños moderados el contraste es similar al de la razón de
verosimilitudes (10.23), que puede escribirse también como:
λ0 = m log
|T|
|W|
= m log
|W + B|
|W|
= m log |I + W−1
B| (10.26)
Desde el punto de vista del cálculo de (10.26) como |I + A| = Π(1 + λi) donde λi son los
vectores propios de A, este estadístico se reduce a
λ0 = m
X
log(1 + λi)
donde λi son los vectores propios de la matriz W−1
B.
Ejemplo 10.3 Vamos a aplicar este contraste para ver si se observan diferencias detectables
en pequeñas muestras en los datos de MediÞs, entre las medidas físicas de hombres y mujeres
de la tabla A.5. En la muestra hay 15 mujeres (variable sexo = 0) y 12 hombres (sexo = 1).
El primer paso del análisis es calcular las medias y matrices de covarianzas en cada grupo,
10.7. CONTRASTE DE IGUALDAD DE VARIAS MEDIAS: EL ANÁLISIS DE LA VARIANZA MULT
por separado, y para el conjunto de los datos. En la tabla siguiente se presentan las medias
para cada variable, para toda la muestra, y para los grupos de mujeres y hombres
est pes pie lbr aes dcr lrt
total 168.78 63.89 38.98 73.46 45.85 57.24 43.09
mujeres 161.73 55.60 36.83 70.03 43.33 56.63 41.06
hom bres 177.58 74.25 41.67 77.75 49.00 58.00 45.62
Las matrices de covarianzas dividiendo por n−1 para toda la muestra, mujeres y hombres
son
Para las mujeres:
bSM =










37.64
22.10 80.40
6.38 7.36 1.92
15.65 12.94 3.06 7.41
9.49 14.39 1.49 3.99 9.42
2.75 7.20 0.76 1.17 2.559 2.94
9.02 9.31 1.98 4.53 1.12 0.95 3.78










Para los hombres
bSH =










45.53
48.84 74.20
9.48 9.63 2.79
14.34 19.34 2.09 12.57
14.86 19.77 3.23 6.18 6.77
9.45 9.90 1.86 2.36 3.02 3.13
8.92 5.23 2.31 1.21 1.84 2.63 6.14










y para el conjunto de hombres y mujeres, se calcula como media ponderada de estas dos
matrices
bST = (14 cSM + 11cSH)/25
con lo que se obtiene
bST =










41.11
33.86 77.67
7.476 8.36 2.30
15.07 15.76 2.63 9.68
11.85 16.76 2.25 4.95 8.25
5.70 8.390 1.24 1.70 2.76 3.03
8.98 7.52 2.13 3.07 1.44 1.70 4.82










Vamos a calcular el ratio de verosimilitudes como cociente de las variabilidades promedio
ante ambas hipótesis. Bajo H0 se obtiene que la matriz de varianzas y covarianzas cuando
suponemos la misma media, S conduce a la variabilidad promedio
V P(H0) = |S|1/7
= 5.77
mientras que
V P(H1) = |Sw|1/7
= 4.67
312 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
con lo que el contraste es
27((27 − 1) − (7 + 7)/2) log(5.77/4.67) = 108.5
que debe compararse con una χ2
con 7 grados de libertad, y no hay ninguna duda de que
las diferencias son signiÞcativas.
10.8 Contrastes de datos atípicos
El contraste de igualdad de medias puede aplicarse, como caso particular, para contrastar
si una observación de una muestra de datos normales es atípica. La hipótesis nula será que
todos los datos vienen de la misma población normal. La hipótesis alternativa será que
el dato sospechoso ha sido generado por otra población desconocida. Para caracterizar la
población alternativa podemos suponer que la media es distinta y la varianza la misma, o
que la media es la misma y la varianza distinta. Si supusiesemos que tanto la media como
la matriz de covarianzas tendríamos un problema de identiÞcación, porque no es posible
con un solo dato estimar la media y la variabilidad. Puede comprobarse que los contrastes
suponiendo la media distinta o la varianza distinta son similares (véase Peña y Guttman,
1993) y aquí consideraremos el caso más simple de media distinta pero misma matriz de
covarianzas. Para aplicar este contraste a un dato sospechoso, xi, estableceremos:
H0 : E(xi) = µ;
frente a
H1 : E(xi) = µi 6= µ;
La función de verosimilitud bajo H0 es (10.17). Bajo H1, como la estimación µi es xi, la
estimación de la varianza será
S(i) =
1
n − 1
W(i),
donde
W(i)=
nX
h=1,j6=i
(xh − ¯x(i))(xh − ¯x(i))0
,
es la estimación de la suma de cuadrados de los residuos, y ¯x(i) es la media de las observa-
ciones, en ambos casos eliminando la observación xi. La diferencia de soportes es, particu-
larizando (10.26):
λ = n log
|T|
|W(i)|
y, se demuestra en el apéndice 10.3, que se veriÞca la relación:
|T|
|W(i)|
= 1 +
1
n
D2
(xi, ¯x(i))
10.9. CONTRASTES DE NORMALIDAD 313
donde D2
(xi, ¯x(i)) es:
D2
(xi, ¯x(i)) = (xi − ¯x(i))0
S−1
(i) (xi − ¯x(i)). (10.27)
la distancia de Mahalanobis entre el dato y la media sin incluirle. Por tanto, para realizar
el test calcularemos la distancia de Mahalanobis (10.27), que se distribuirá, si H0 es cierta,
para muestras grandes como una χ2
p .
En la práctica, para detectar atípicos se calcula el máximo de las distancias D2
(xi, ¯x(i)) y
este valor se compara con el percentil 0,95 o 0,99 de las tablas de percentiles del máximo de
una χ2
p. El problema, entonces, es que si existe más de un atípico, la potencia del contraste
puede ser muy baja, al estar contaminadas las estimaciones de los parámetros. Un proced-
imiento más recomendable siempre que se trabaje con muestras que pueden ser heterogéneas
es identiÞcar primero todas las observaciones sospechosas, con los procedimientos indicados
en el capítulo 3, y después ir contrastando una por una si las observaciones se aceptan.
Es decir, ordenamos todos los datos sospechosos por D2
(xi, ¯x(i)) y contrastamos si el más
próximo puede incorporarse a la muestra. Si se rechaza esta incorporación el procedimiento
termina y todos los datos sospechosos son declarados atípicos. En caso contrario, el dato se
incorpora a la muestra y se recalculan los parámetros y las distancias de Mahalanobis, y se
vuelve a aplicar el procedimiento a las restantes excluidas.
10.9 Contrastes de Normalidad
Los métodos más utilizados en análisis multivariante suponen normalidad conjunta de las
observaciones y conviene, cuando dispongamos de datos suÞcientes, contrastar esta hipótesis.
Normalidad unidimensional
La normalidad de las distribuciones univariantes puede contrastarse con los contrastes χ2
,
Kolmogorov-Smirnov, Shapiro y Wilks, o con los contrastes basados en coeÞcientes de
asimetría y curtosis, que pueden consultarse en Peña (2001). Llamando
A =
m3
m
3/2
2
; K =
m4
m2
2
,
donde
mh =
1
n
X
(xi − x)h
.
Se demuestra que, asintóticamente, con datos normales:
A ∼ N(0; 6/n); K ∼ N(3; 24/n)
y por tanto la variable
X2
=
nA2
6
+
n (K − 3)2
24
se distribuirá, si la hipótesis de normalidad es cierta, como una χ2
con 2 grados de libertad.
Rechazaremos la hipótesis de normalidad si X2
> χ2
2(α).
314 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
Normalidad multivariante
La normalidad multivariante implica la normalidad de distribuciones marginales unidimen-
sionales, pero la existencia de esta propiedad no garantiza la normalidad multivariante de
los datos. Para contrastar la normalidad conjunta existen varios contrastes posibles, y aquí
sólo comentaremos la generalización multivariante de los contrastes de asimetría y curtosis.
(Véase Justel, Peña y Zamar (1997) para una generalización del contraste de Kolmogorov-
Smirnov al caso multivariante).
DeÞniendo los coeÞcientes de asimetría y curtosis multivariantes como en la sección 3.6:
Ap =
1
n2
nX
i=1
nX
j=1
d3
ij
Kp =
1
n
nX
i=1
d2
ii
donde dij = (xi − x)0
S−1
(xi − x), se veriÞca asintóticamente:
nAp/6 ∼ χ2
f con f =
1
6
p(p + 1)(p + 2)
Kp ∼ N (p(p + 2); 8p(p + 2)/n)
La potencia de este contraste no es muy alta a no ser que tengamos una muestra muy
grande. Dos casos frecuentes en la práctica en que se rechaza la hipótesis de normalidad
conjunta son:
(1) Las distribuciones marginales son aproximadamente simétricas, y las relaciones en-
tre las variables son lineales, pero existen valores atípicos que no pueden explicarse por la
hipótesis de normalidad. En este caso si eliminamos (o descontamos con un estimador ro-
busto) los valores atípicos, la normalidad conjunta no se rechaza y los métodos basados en
la normalidad suelen dar buenos resultados.
(2) Algunas (o todas) las distribuciones marginales son asimétricas y existen relaciones
no lineales entre las variables. Una solución simple y que funciona bien en muchos casos es
transformar las variables para conseguir simetría y relaciones lineales.
10.9.1 Transformaciones
Para variables escalares Box y Cox (1964) han sugerido la siguiente familia de transforma-
ciones para conseguir la normalidad:
x(λ)
=
(x+m)λ−1
λ
(λ 6= 0) (x > −m)
ln (x + m) (λ = 0) (m > 0)
donde λ es el parámetro de la transformación que se estima a partir de los datos y la
constante m se elige de forma que x + m sea siempre positiva. Por lo tanto, m será cero si
10.9. CONTRASTES DE NORMALIDAD 315
trabajamos con datos positivos e igual en valor absoluto al valor más negativo observado, en
otro caso. Suponiendo m = 0 esta familia incluye como casos particulares la transformación
logarítmica, la raíz cuadrada y la inversa. Cuando λ > 1, la transformación produce una
mayor separación o dispersión de los valores grandes de x, tanto más acusada cuanto mayor
sea el valor de λ mientras que cuando λ < 1 el efecto es el contrario: los valores de x grandes
tienden a concentrarse y los valores pequeños (x < 1) a dispersarse.
Estas transformaciones son muy útiles para las distribuciones marginales. Para estudiar
cómo determinar el valor del parámetro con una variable escalar, supongamos que m = 0 y
que existe un valor de λ que transforma la variable en normal. La relación entre el modelo
para los datos originales, x, y para los transformados, x(λ)
, será:
f(x) = f(x(λ)
)
¯
¯
¯
¯
dx(λ)
dx
¯
¯
¯
¯ , (10.28)
y como:
dx(λ)
dx
=
λxλ−1
λ
= xλ−1
y suponiendo que x(λ)
es N(µ, σ2
), para cierto valor de λ, la función de densidad de las
variables originales será:
f (x) =
1
σ
√
2π
e
− 1
2σ2
µ
xλ−1
λ
−µ
¶2
xλ−1
Por tanto, la función de densidad conjunta de X = (xi, ..., xn) será, por la independencia de
las observaciones:
f (X) =
1
σn
¡√
2π
¢n
à nY
i=1
xλ−1
i
!
e
− 1
2σ2
P
µ
xλ
i −1
λ
−µ
¶2
(10.29)
y la función soporte es:
L
¡
λ; µ, σ2
¢
= −
n
2
ln σ2
−
n
2
ln 2π + (λ − 1)
X
ln xi −
1
2σ2
X µ
xλ
i − 1
λ
− µ
¶2
.
Para obtener el máximo de esta función utilizaremos que, para λ Þjo, los valores de σ2
y µ
que maximizan la verosimilitud (o el soporte) son, derivando e igualando a cero:
bσ2
(λ) =
1
n
X ¡
x(λ)
− bµ (λ)
¢2
,
bµ (λ) = x(λ)
=
X x
(λ)
i
n
=
1
n
X µ
xλ
i − 1
λ
¶
.
Al sustituir estos valores en la verosimilitud obtenemos lo que se denomina la función de
verosimilitud concentrada en λ. Su expresión es, prescindiendo de constantes:
L (λ) = −
n
2
ln bσ (λ)2
+ (λ − 1)
X
ln xi (10.30)
316 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
El procedimiento para obtener bλ consiste en calcular L (λ) para distintos valores de λ.
El valor que maximice esta función es el estimador MV de la transformación.
Para conseguir normalidad multivariante supondremos que existe un vector de parámet-
ros λ = (λ1, ..., λp) que produce normalidad multivariante, donde λj es la transformación
aplicada al componente j del vector. Aplicando un análisis similar al caso univariante, la
función soporte multivariante concentrada en el vector de parámetros de la transformación
es:
L(λ) = −
n
2
ln
¯
¯
¯bΣ
¯
¯
¯ +
p
X
j=1
"
(λj − 1)
nX
i=1
ln xij
#
,
donde los parámetros se han estimado aplicando las formulas habituales a los datos trans-
formados:
bµ =
1
n
nX
i=1
x
(λ)
i ,
y
bΣ =
1
n
nX
i=1
(x
(λ)
i − bµ)(x
(λ)
i − bµ)0
.
La estimación MV del parámetro vectorial λ no suele aportar mejoras importantes re-
specto a transformar individualmente cada variable para que las marginales sean normales.
Véase Johnson y Wichern (1998).
10.10 Lecturas recomendadas
En este capítulo hemos resumido un tema muy amplio sobre el que existe abundante bib-
liografía. El lector puede encontrar una buena introducción en inglés a los métodos de
estimación y contraste basados en la función de verosimilitud en Casella y Berger (1990).
En español vease Peña (2001) y las referencias allì indicadas. La estimación MV de la nor-
mal multivariante se trata con detalle en Anderson (1984), Mardia et al (1979) y Muirhead
(1982). Los contrastes de matrices de covarianzas se presentan claramente en Mardia et al
(1979) y Rechner (1998). El análisis de la varianza multivariante es un tema muy amplio
y puede ampliarse en Johnson y Wichern (1998), Morrison (1976), Seber (1984) y Rechner
(1998). Métodos tradicionales para el contraste de datos atípicos pueden encontrarse en Bar-
nett y Lewis (1994), y referencias a métodos más recientes en Peña y Prieto (2001). Para
la transformación multivariante de Box-Cox véase Gnanadesikan (1997) y Velilla (1993).
Por razones de espacio no hemos incluido la aplicación de nuevos métodos de estimación,
como la estimación autosuÞciente de Efron, al caso multivariante. El lector puede consultarla
en Efron (1982) and Efron y Tibshirani (1993).
Ejercicios
10.1 Demostrar que la verosimilitud L(V|X) = n
2
log |V−1
S| − n
2
trV−1
S es invariante
ante trasnformaciones de las variables y = Ax, con A cuadrada no singular.
10.10. LECTURAS RECOMENDADAS 317
10.2 Obtener los estimadores máximos verosímiles de los parámetros en la normal multi-
variante derivando en la función de verosimilitud (10.4). Para la varianza escribir la función
como función de V−1
y utilizar que
∂log|V−1
|
∂V−1 = V, y ∂trV−1S
∂V−1 = S. Comprobar entonces que
∂L(V−1|X)
∂V−1 = n
2
µ
∂log|V−1
|
∂V−1 − ∂tr(V−1S)
∂V−1
¶
= n
2
(V − S) = 0.
10.3 Demostrar que la función soporte de la sección 10.2 puede escribirse como L(V|X) =
−n
2
log |V| − n
2
trV−1
S(µ), donde S(µ) =
Pn
i=1(xi − µ)(xi − µ)0
/n y utilizar esta expresión
para demostrar que el estimador MV de V cuando restringimos los valores de µ a una región
A es es S(bµ), donde bµ es el valor que maximiza
Pn
i=1(x − µ)0
V−1
(x − µ) sobre A.
10.4 Demostrar que la función de verosimilitud del ejercicio anterior 10.1 puede escribirse
como L(V|X) = np
2
(log λg − λ), donde λg y λ son la media geométrica y aritmética de los
valores propios de la matriz V−1
S.
10.5 Demostrar que el contraste del análisis de la varianza multivariante equivale a com-
parar las medias geométricas de los valores propios de las matrices de variabilidad total y no
explicada.
10.6 Demostrar que el contraste del análisis de la varianza multivariante no se modiÞca si
en lugar de trabajar con las variables originales lo hacemos con las componentes principales.
10.7 Demostrar que el contraste multivariante de que una muestra viene de una población
es invariante ante transformaciones lineales no singulares de las variables. ¿Cómo sería el
contraste si en lugar de las variables utilizamo sus componentes principales?
10.8 Demostrar que el estimador MV del parámetro σ2
en el modelo x ∼ Np(µ,σ2
I) es
bσ2
= trS/p.
10.9 Demostrar que el contraste H0 : x ∼ Np(µ,σ2
V0) frente a H1 : x ∼ Np(µ, V)
depende sólo de la media aritmética y geométrica de los valores propios V−1
0 S.
APÉNDICE 10.1: Inadmisibilidad de la media muestral
para p ≥ 3
Stein (1956) demostró que para p ≥ 3 la media muestral no es necesariamente el estimador
óptimo de la media poblacional de una normal multivariante. Este resultado es consecuencia
de que si tomamos como criterio seleccionar como estimador de µ el que minimice el error
cuadrático medio de estimación, dado por
E
£
(µ − bµ)0
M−1
(µ − bµ)
¤
,
donde M es una cierta matriz que sirve para deÞnir como se mide la distancia entre el
estimador bµ y el parámetro µ. Eligiendo M = I, el estimador:
bµs =
µ
1 −
(p − 2)
¯x0S−1¯x
¶
¯x,
es sesgado para µ, pero puede demostrarse que tiene un error cuadrático medio menor que ¯x.
Por tanto, con este criterio, bµs es mejor estimador que la media muestral y en consecuencia la
media muestral se dice que es un estimador inadmisible si p ≥ 3, ya que el estimador bµs tiene
siempre menor error cuadrático medio. Observemos que bµs “contrae” (shrinkage) el valor
de ¯x, ya que |bµs| ≤ |x|. Este resultado ha despertado un gran interés por los estimadores
“shrinkage” que mejoran el error cuadrático medio de los estimadores MV tradicionales.
318 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
APÉNDICE 10.2: RAZÓN DE VEROSIMILITUDES Y LA T
DE HOTELLING
Para demostrar la relación entre la razón de verosimilitudes y la T de Hotelling utilizare-
mos el siguiente
Lemma 1 Si A es una matriz no singular y b un vector, |I + Abb0
| = 1 + b0
Ab. En efecto,
observemos que la matriz bb0
tiene rango uno y también tendrá rango uno Abb0
. Por tanto,
Abb0
tiene un único valor propio no nulo. Llamando λ a este valor propio no nulo y v al
vector propio, como Abb0
v = λv, multiplicando por b0
se obtiene que λ = b0
Ab. Entonces
la matriz I + Abb0
tendrá un valor propio igual a 1+λ y el resto serán la unidad . Como el
determinante es el producto de los valores propios, queda demostrado el lema.
Partiendo ahora de
nS0 =
nX
i=1
(xi − ¯x + ¯x − µ0)(xi − ¯x + ¯x − µ0)0
,
y desarrollando en los términos (xi − ¯x) y (¯x − µ0), resulta:
nS0 = nS + n(¯x − µ0)(¯x − µ0)0
.
Por tanto
|S0|
|S|
=
|S + (x − µ0)(x − µ0)0
|
|S|
,
que puede escribirse
|S0|
|S|
= |S−1
||S + (¯x − µ0)(¯x − µ0)0
| = |I + S−1
(¯x − µ0)(¯x − µ0)0
|,
y aplicando el lema anterior tenemos que:
|I + S−1
(¯x − µ0)(¯x − µ0)0
| = 1 + (x − µ0)0
S−1
(x − µ0),
con lo que, tenemos Þnalmente que :
|S0|
|S|
= 1 + (¯x − µ0)0
S−1
(¯x − µ0) = 1 +
T2
n − 1
.
APÉNDICE 10.3: CONTRASTE DE VALORES ATIPICOS
La relación entre T y W(i) se obtiene restando y sumando ¯x(i) :
T =
nX
j=1
(xj − ¯x(i) + ¯x(i) − ¯x)(xj − ¯x(i) + ¯x(i) − ¯x)0
,
10.10. LECTURAS RECOMENDADAS 319
que resulta en
T =
nX
j=1
(xj − ¯x(i))(xj − ¯x(i))0
+ n(¯x(i) − ¯x)(¯x(i) − ¯x)0
+ F + F0
donde F =
Pn
j=1(xj − ¯x(i))(¯x(i) − ¯x)0
. El primer término puede escribirse
nX
j=1
(xj − ¯x(i))(xj − ¯x(i))0
= W(i) + (xi − ¯x(i))(xi − ¯x(i))0
y utilizando que
¯x(i) − ¯x = ¯x(i) −
(n − 1)¯x(i) + xi
n
=
1
n
(¯x(i) − xi)
y reemplazando en todos los términos (¯x(i) − ¯x) por (¯x(i) − xi)/n se obtiene Þnalmente que
T = W(i) +
n − 1
n
(xi − ¯x(i))(xi − ¯x(i))0
y, por tanto,
|T| =
¯
¯W(i)
¯
¯
¯
¯
¯
¯1 +
n − 1
n
W−1
(i) (xi − ¯x(i))(xi − ¯x(i))0
¯
¯
¯
¯
y aplicando el lema del apéndice 10.2
|T|
|W(i)|
= 1 +
1
n
(xi − ¯x(i))0
S−1
(i) (xi − ¯x(i))
donde S−1
(i) = (n − 1)W−1
(i) . Finalmente
DS = n log(1 +
1
n
(xi − ¯x(i))0
S−1
(i) (xi − ¯x(i)))
y para n grande como log(1 + x/n) ' x/n , tenemos que la distancia de Mahalanobis
D2
(xi, ¯x(i)) = (xi − ¯x(i))0
S−1
(i) (xi − ¯x(i)) ∼ χ2
p.
320 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
Capítulo 11
METODOS DE INFERENCIA
AVANZADA MULTIVARIANTE
11.1 INTRODUCCIÓN
En este capítulo vamos a presentar métodos más avanzados de inferencia para datos multi-
variantes. En primer lugar presentamos un algoritmo para estimar por máxima verosimilitud
muestras con datos incompletos. Este algoritmo, el EM, es muy útil para estimar distribu-
ciones mezcladas, que utilizaremos en el capítulo 14 en problemas de clasiÞcación y también
es útil en la estimación del modelo factorial que se presenta en el capítulo 11. Además
este algoritmo tiene un interés general por sí mismo para resolver la estimación de valores
ausentes en cualquier problema multivariante. A continuación se presentan los métodos ro-
bustos clásicos de estimación, que pueden también considerarse como métodos de estimación
de mezclas en un caso especial: hay una distribución central, que genera la mayoría de las
observaciones, y una distribución contaminante de forma desconocida que introduce una
pequeña proporción de atípicos en la muestra. Se presentan brevemente los métodos clásicos
y se introduce un método reciente basado en proyecciones que es fácil de implementar y que
puede evitar el efecto perturbador de los datos atípicos en la estimación de los parámetros. Se
presenta también una breve introducción a la inferencia bayesiana. Además de su atractivo
metodológico, la inferencia bayesiana permite incorporar información a priori, que puede ser
importante en problemas de clasiÞcación (capítulo 12, análisis discriminante) y construcción
de conglomerados (capítulo 14, clasiÞcación mediante mezclas). Los métodos bayesianos son
también útiles en análisis factorial (capítulo 11). Finalmente, los métodos bayesianos de
estimación por Montecarlo son muy eÞcaces para la estimación de mezclas, como veremos en
el capítulo 14. En este capítulo se revisa brevemente el enfoque Bayesiano para la estimación
y el contraste de hipótesis y se deduce un criterio de comparación de modelos a partir de
este enfoque. Finalmente se presentan algunos métodos clasicos y bayesianos para selección
de modelos.
Este capítulo es más avanzado que los anteriores y puede saltarse en una primera lectura
sin pérdida de continuidad, ya que la comprensión básica de los métodos que se presentan
en los capítulos siguientes no requiere el material de este capítulo. Sin embargo este capítulo
será necesario para el lector interesado en los detalles de aplicación de los métodos, y en
321
322 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
la comprensión de los algoritmos de estimación actuales para el análisis multivariante y los
métodos de data mining, que están adquiriendo una popularidad creciente.
11.2 ESTIMACIÓN MV CON DATOS FALTANTES
La estimación máximo verosímil con datos faltantes es importante por dos razones princi-
pales. En primer lugar, es posible que la muestra tenga observaciones faltantes en algunas
variables. Por ejemplo, si tomamos una muestra de personas desempleadas y queremos rela-
cionar sus características físicas con la duración de desempleo, es posible que para algunas
personas no se consiga este dato. (En otros casos podemos tener información parcial, por
ejemplo un valor superior o inferior de la duración, y en estos casos decimos que el dato está
censurado o truncado, no consideraremos estos casos en este libro). Como segundo ejemplo,
si hacemos una encuesta de opinión, y representamos por x el vector de respuestas de un
individuo, es posible que determinadas preguntas del cuestionario no sean respondidas por
algunos individuos, dando lugar a un problema de datos faltantes. Si los datos faltantes
ocurren en unos pocos elementos de la muestra, podemos eliminar las observaciones incom-
pletas, pero si ocurren en una proporción importante de observaciones, podemos mejorar la
precisión de las estimaciones utilizando todos los datos, con el coste de un mayor esfuerzo
computacional.
En segundo lugar, la estimación MV de muchos modelos de análisis multivariante puede
realizarse más facilmente con este algoritmo. Por ejemplo, en el modelo factorial, que estu-
diaremos en el capítulo 12, o en la estimación de distribuciones mezcladas para clasiÞcación,
que estudiaremos en el capítulo 15. En el primer caso, podemos suponer que los factores son
variables ausentes y en el segundo, que faltan los valores de las variables de clasiÞcación que
nos indican de que población proviene cada elemento.
Intuitivamente, el procedimiento para estimar los parámetros de un modelo con una
muestra que contiene datos faltantes podría ser:
(1) estimar los parámetros del modelo con los datos que están completos, maximizando
la verosimilitud de la forma habitual;
(2) Utilizar los parámetros estimados en (1) para predecir los valores ausentes;
(3) Sustituir los datos ausentes por sus predicciones y obtener nuevos valores de los
parámetros maximizando la verosimilitud de la muestra completada.
Adicionalmente podríamos iterar entre (2) y (3) hasta que se obtenga convergencia, es
decir hasta que el valor de los parámetros no cambie de una iteración a la siguiente. Veremos
en la sección siguiente que este procedimiento intuitivo es óptimo en muchos casos, pero no
siempre. La razón es que no tiene en cuenta cómo se utilizan los datos ausentes para estimar
los parámetros a partir de la verosimilitud. Por ejemplo, supongamos el caso más simple
de una variable escalar, x, y un único parámetro a estimar, θ. Supongamos que la función
soporte para θ es de la forma: θ2
− 2θ
P
x2
i . Entonces, el estimador MV de θ es, derivando
respecto a θ e igualando a cero, bθMV =
P
x2
i . Supongamos ahora que la observación x1
falta. Para obtener entonces el estimador bθMV tendriamos que estimar el valor esperado
de x2
1 a la vista de la información disponible y utilizarlo en bθMV =
P
x2
i . Si en lugar del
valor esperado de x2
1 calculamos el valor esperado de x1 y lo sustituimos en esta ecuación
11.2. ESTIMACIÓN MV CON DATOS FALTANTES 323
elevado al cuadrado, como en general E(x2
1) 6= [E(x1)]2
, este segundo procedimiento no es
necesariamente óptimo. Por ejemplo, si la variable x1 tiene media cero dada la información
disponible lo que necesitamos es calcular su varianza, E(x2
1), y sustituirlo en la ecuación del
parámetro. Esto no es lo mismo que calcular E(x1), que es cero, y sustituirlo como x1, con
lo que x2
1 será cero. Un procedimiento eÞciente y general para maximizar la verosimilitud
cuando tenemos datos faltantes es el algoritmo EM (Dempster, Laird y Rubin, 1977), que
extiende el procedimiento intuitivo anterior, como describimos a continuación
11.2.1 Estimación MV con el algoritmo EM
Supongamos que tenemos una muestra de tamaño n de una variable vectorial, x, pero en
algunos de los n elementos observados faltan los valores de algunas variables. Por ejemplo,
observamos el peso y la altura de personas y en algunos casos tenemos sólo el dato de la
estatura o sólo el dato del peso. Vamos a suponer que estos datos ausentes aparecen al azar,
es decir, que en el ejemplo anterior la falta del dato del peso no aparece con más frecuencia
en individuos de peso alto o bajo o con estatura más alta o más baja, sino que falta ese
dato por razones no relacionadas con los valores de las variables. Para cada elemento no
hay una relación entre los valores observados y la aparición o no de un dato ausente. Un
ejemplo donde no se cumple esta condición es una encuesta de opinión donde las personas que
maniÞestan desacuerdo en un punto, por ejemplo con la pregunta diez, dejan de responder
al cuestionario a continuación. En este caso, los valores ausentes en la pregunta once no
aparecen al azar, sino que son consecuencia del desacuerdo con la pregunta diez.
Los dos casos más importantes de aparición de valores ausentes son:
(1) Algunos elementos tienen datos faltantes: los elementos de la muestra x1, ..., xn1
,
están completos, pero los restantes, xn1+1, ..., xn, carecen de los valores de algunas variables,
o de todas ellas;
(2) Algunas variables tienen datos faltantes: si dividimos el vector de variables en dos
grupos y escribimos x = (y0
, z0
)0
, las variables y están completas pero las z tienen datos
ausentes.
Para plantear el problema de manera que englobe estos dos casos, supondremos que
tenemos una muestra con una matriz de datos observados Y = (y1, ..., yn), donde yi es
un vector p1 × 1, y un conjunto de datos ausentes Z = (z1, ..., zm), donde zi es un vector
p2 × 1. Esta formulación cubre los dos casos anteriores, ya que en el primero tomamos
z1 = xn1+1, ..., zm = xn y m = n − n1 + 1. En el segundo m = n.
Este conjunto de variables proviene de un modelo con parámetros θ, y se desea estimar
el vector de parámetros con la información disponible.La función de densidad conjunta de
todas las variables (Y, Z) puede escribirse
f(Y, Z|θ) =f(Z|Y, θ)f(Y|θ)
que implica
log f(Y|θ) = log f(Y, Z|θ)− log f(Z|Y, θ).
En la estimación MV el primer miembro de esta expresión, log f(Y|θ), es la función
soporte de los datos observados, cuya maximización sobre θ nos proporcionará el estimador
324 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
MV de los parámetros. El término log f(Y, Z|θ) es la función soporte si hubiésemos obser-
vado la muestra completa, y el término log f(Z|Y, θ) proporciona la densidad de los datos
ausentes conocida la muestra y los parámetros. Podemos escribir
L(θ|Y) =LC(θ|Y, Z)− log f(Z|Y, θ). (11.1)
Es frecuente que la maximización del soporte supuesta la muestra completa, LC(θ|Y, Z),
sea fácil, mientras que la maximización del soporte con los datos observados, L(θ|Y), sea
complicada. El algoritmo EM es un procedimiento iterativo para encontrar el estimador MV
de θ trabajando siempre con la función más simple, LC(θ|Y, Z), en lugar de la compleja,
L(θ|Y). La estimación se obtiene iterando en los dos pasos siguientes:
1. Partiendo de un estimador inicial, bθ
(i)
, (en la primera iteración i = 1) se calcula
la esperanza de las funciones de los valores ausentes que aparecen en la función de
verosimilitud completa, LC(θ|Y, Z), con respecto a la distribución de Z dados el valor
bθ
(i)
y los datos observados Y. Sea:
L∗
C(θ|Y) = EZ/bθ
(i) [LC(θ|Y, Z)]
el resultado de esta operación que se denomina el paso E (de tomar valores esperados)
del algoritmo. Observemos que cuando LC(θ|Y, Z) sea una función lineal de Z, este
paso llevará a sustituir en esta función los valores ausentes por sus esperanzas dados
los parámetros. Sin embargo, cuando en la verosimilitud aparezcan funciones g(Z )
calcularemos la esperanza de estas funciones dados el resto de los datos y la estimación
disponible de los parámetros.
2. A continuación se maximiza la función L∗
C(θ|Y) con respecto a θ. Este es el paso
M (maximización) del algoritmo. Este paso M equivale a maximizar la verosimilitud
completa donde se han sustituido las observaciones faltantes por ciertas estimaciones
de sus valores.
3. Sea bθ
(i+1)
el estimador obtenido en el paso M. Con este valor volvemos al paso E. Se it-
era entre ellos hasta obtener convergencia, es decir hasta que la diferencia
°
°
°bθ
(i+1)
− bθ
(i)
°
°
°
sea suÞcientemente pequeña.
Puede demostrarse (Dempster, Laird y Rubin, 1977), véase el apéndice 11.1, que este
algoritmo maximiza L(θ|Y). Además, la verosimilitud aumenta en cada iteración, aunque
la convergencia puede ser muy lenta.
A continuación presentamos dos ejemplos de utilización del algoritmo. En el primero, la
función de verosimilitud completa es lineal en los datos ausentes, con lo que les sustituimos
por sus estimaciones. En el segundo, los valores ausentes aparecen de forma no lineal en la
verosimilitud, y sustituiremos estas funciones por sus estimaciones.
11.2. ESTIMACIÓN MV CON DATOS FALTANTES 325
11.2.2 Estimación MV de mezclas
Para ilustrar el comportamiento del algoritmo EM vamos a considerar un problema simple de
estimación de mezclas que abordaremos con más generalidad en el capítulo 14. Supondremos
que los datos de una muestra, x1, ..., xn se generan mediante la distribución
π1f1(x) + (1−π1)f2(x)
donde fi(x) es Np(µi, Vi), i = 1, 2. La función soporte para la muestra es
L(θ|X) =
nX
i=1
log(π1f1(xi) + (1−π1)f2(xi))
donde θ = (µ1, µ2, V1, V2, π1) es el vector de parámetros. La estimación MV de los parámet-
ros es complicada, porque tenemos que resolver las ecuaciones:
∂L(θ|X)
∂π1
=
nX
i=1
f1(xi) − f2(xi)
π1f1(xi) + (1−π1)f2(xi)
= 0 (11.2)
Para interpretar esta ecuación llamemos
π1i =
π1f1(xi)
π1f1(xi) + (1−π1)f2(xi)
a la probabilidad a posteriori de que la observación i sea generada por la primera población.
Entonces
1 − π1i =
(1−π1)f2(xi)
π1f1(xi) + (1−π1)f2(xi)
y la ecuación (11.2) puede escribirse:
nX
i=1
(
π1i
π1
−
1 − π1i
(1−π1)
) = 0
que equivale a
nX
i=1
(π1i − π1) = 0
Es decir
bπ1 =
Pn
i=1 bπ1i
n
Esta ecuación indica que la probabilidad estimada de pertenencia a la primera población debe
ser igual al promedio de las probabilidades estimadas de que cada observación pertenezca a
esa población. Desgraciadamente no puede aplicarse directamente porque para calcular las
326 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
bπ1i necesitamos todos los parámetros del modelo. Derivando la función soporte respecto a
µ1 :
∂L(θ|X)
∂µ1
=
nX
i=1
π1f1(xi)V−1
1 (xi − µ1)
π1f1(xi) + (1−π1)f2(xi)
= 0
que puede escribirse como
nX
i=1
bπ1i(xi − µ1) = 0
de donde obtenemos:
bµ1 =
Pn
i=1
bπ1gPn
i=1 bπ1i
xi. (11.3)
que indica que la media de la primera población se estima dando un peso a cada observación
proporcional a la probabilidad relativa de pertenecer a esta población. El mismo resultado se
obtiene por simetría para cµ2 intercambiando bπ1g por bπ2g = 1−bπ1g. Análogamente, derivando
respecto a V1 puede demostrarse que el estimador es:
bV1 =
Pn
i=1
bπ1gPn
i=1 bπ1g
(xi − bµ1)(xi − bµ1)0
(11.4)
que tiene un interpretación similar, como promedio de desviaciones de los datos respecto a
sus medias, con pesos proporcionales a las probabilidades a posteriori.
Para resolver estas ecuaciones y obtener los estimadores necesitamos las probabilidades
bπ1i, y para calcular estas probabilidades con (15.10) necesitamos los parámetros del modelo.
Por otro lado vemos que si las observaciones estuviesen clasiÞcadas como viniendo de una
u otra población el problema es muy simple, porque entonces bπ1i es uno, si la i proviene
de la primera población o cero, si viene de la segunda, y las fórmulas (11.3) y (11.4) se
reducen a aplicar las fórmulas de estimación habituales a las observaciones de cada grupo.
Intuitivamente, podríamos partir de una asignación, estimar los parámetros y calcular las
probabilidades bπ1i e iterar entre ambas etapas y esta es la solución que se obtiene con el
algoritmo EM.
Como la estimación es muy simple si tenemos bien clasiÞcadas las observaciones vamos
a aplicar el algoritmo EM introduciendo 2n variables de clasiÞcación que van a indicar de
que población proviene cada dato muestral y que consideraremos como datos ausentes. Las
primeras n variables z1i, i = 1, ..., n se deÞnen mediante :
z1i = 1, si xi proviene de f1
= 0, si xi proviene de f2
y analogamente z2i se deÞne para que tome el valor uno si xi proviene de f2, de manera que
z1i + z2i = 1. Para escribir la verosimilitud completa de las variables x y de las z tenemos
en cuenta que, llamando θ al vector de parámetros, para una observación cualquiera:
f(x1, z11, z21|θ) =f(x1/z11, z21θ)p(z11, z21|θ)
11.2. ESTIMACIÓN MV CON DATOS FALTANTES 327
donde
f(x1|z11, z21θ) =f1(x1)z11
f2(x1)z21
ya que si z11 = 1 la dato x1 proviene de f1 y entonces forzosamente z21 = 0 y viceversa. La
probabilidad de los valores z es:
p(z11, z21|θ) =πz11
1 (1−π1)z21
ya que la probabilidad de z11 = 1 (en cuyo caso z21 = 0 ) es π1. Uniendo ambas ecuaciones
podemos escribir
log f(x1, z11, z21|θ) =z11 log π1 + z11 log f1(x1)+z21 log (1−π1) + z21 log f2(x1)
y, para toda la muestra, llamando X = (x1, ..., xn) e incluyendo las variables de clasiÞcación
Z = (z11, ..., z1n, z21, ..., z2n) es
L(X, Z|θ) =
X
z1i log π1 +
X
z1i log f1(xi)+
X
z2i log (1−π1) +
X
z2i log f2(xi) (11.5)
Para aplicar el algoritmo EM primero necesitamos una estimación inicial de los parámet-
ros. Esto puede hacerse representando gráÞcamente los datos en un diagrama de dispersión
bivariante y diviendo en función de ese gráÞco los datos en dos grupos. Supongamos que
tomamos como grupo 1 el de menor dispersión aparente. Entonces deÞnimos unos valores
iniciales para las variables z, que llamaremos z(1)
de manera que z
(1)
1i = 1 si la observación
xi se clasiÞca en la primera problación (entonces z
(1)
2i = 0) y cero si se clasiÞca en la segunda
(entonces z
(1)
2i = 1). Una vez deÞnidas estas variables de clasiÞcación estimaremos las medias
mediante
bµ
(1)
1 =
P
z
(1)
1i xi
P
z
(1)
1i
(11.6)
y lo mismo para bµ
(1)
2 . Analogamente, estimaremos la matriz de varianzas y covarianzas
mediante
bV
(1)
1 =
1
P
z
(1)
1i
nX
i=1
z
(1)
1i (xi − bµ
(1)
1 )(xi − bµ
(1)
1 )0
, (11.7)
que es simplemente la matriz de covarianzas muestrales de las observaciones de ese grupo.
Finalmente, estimaremos la probabilidad de que un dato pertenezca al grupo uno por la
proporción de datos en ese grupo:
bπ(1)
1 =
P
z
(1)
1i
n
(11.8)
A continuación tomamos esperanzas en la distribución conjunta (11.5) respecto a la distribu-
ción de los z supuesto este valor inicial bθ
(1)
de los parámetros. Como las variables z aparecen
linealmente, esto se reduce a calcular sus esperanzas y sustituirlas en la ecuación (11.5). Las
328 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
1 2 3 4 5 6 7 8 9 10
0.837 -0.722 -0.722 -0.201 -0.021 0.279 2.143 4.382 4.219 0.337
-0.655 -1.081 -0.048 0.379 -0.330 -0.500 3.530 5.355 2.324 1.623
11 12 13 14 15 16 17 18 19 20
2.408 0.595 6.925 3.680 -1.265 -0.538 6.351 5.289 4.868 -2.191
2.992 1.310 4.634 3.565 0.264 1.052 3.896 2.549 2.556 -0.414
Tabla 11.1: Datos simulados, los 6 primeros de una distribución y los 14 siguientes de otra
variables z son binomiales puntuales, y su esperanza coincide con la probabilidad de que
tomen el valor uno. Por tanto:
cz1i = E(z1i|bθ
(1)
, xi) = P(z1i = 1|bθ
(1)
, xi)
y esta probabilidad se calcula mediante el teorema de Bayes
P(z1i = |1bθ
(1)
, xi) =
bπ
(1)
1 f1(x1|bθ
(1)
)
bπ
(1)
1 f1(x1|bθ
(1)
) + (1−bπ
(1)
1 )f2(x1|bθ
(1)
)
(11.9)
Una vez obtenidos los valores czji los sustituiremos en la función de verosimilitud (11.5) y
la maximizaremos respecto a los parámetros. Esto conduce a resolver las ecuaciones (11.6),
(11.7) y (11.8) pero sustituyendo ahora las z(1)
ij por las estimaciones czji . Observemos que
ahora las czji ya no serán valores cero o uno, y la fórmula (11.6) ya no calcula la media de las
observaciones de un grupo sino que hace una media ponderada de todas las observaciones
con peso proporcional a la probabilidad de pertenecer al grupo. Esto propocionará otro
nuevo estimador bθ
(2)
que, mediante (11.9) conducirá a nuevos valores de las czji, y el proceso
se itera hasta la convergencia.
Ejemplo 11.1 Vamos a ilustrar el funcionamiento del algoritmo EM para estimar distribu-
ciones normales con datos simulados. Hemos generado 20 observaciones de una variable bidi-
mensional de acuerdo con el modelo .3N(0, I)+.7N(µ, V ) donde µ = (2, 2)0
y V =
·
2 2
2 4
¸
.
Los datos generados, donde los seis primeros provienen de la primera mezcla y los 14 sigu-
iente de la segunda se presentan en la tabla 11.1
Para obtener una estimación inicial de los parámetros, consideramos el histograma de
cada variable.
11.2. ESTIMACIÓN MV CON DATOS FALTANTES 329
Figura 11.1: Histograma de la primera variable de la mezcla de normales
El histograma de la primera variable representado en la Þgura (11.1) indica que los
datos parecen ser mezcla de dos poblaciones con medias (0, 4) y similar variabilidad. Las
desviaciones típicas de las poblaciones sobre esta variable son del orden de uno. El histograma
de la segunda, Þgura (11.2), parece de nuevo también una mezcla, aunque dadas las pocas
observaciones no es muy claro. Las medias parecen ser (0,3) pero ahora parece haber mas
variabilidad en la segunda variables que en la primera. El diagrama de dispersión de las
variables de la Þgura (??) indica dos grupos y correlación entre las variables. A primera
vista este gráÞco de dispersión sugiere dos poblaciones, la primera con 11 elementos y media
próxima al punto (0,0) y la segunda con nueve elementos y media alrededor del punto
(4,3). Uniendo la información univariante y bivariante vamos a tomar como estimación
inicial bµ
(1)
1 = (0, 0)0
, bµ
(1)
2 = (4, 3)0
y matrices de covarianzas bV
(1)
1 =
·
1 .5
.5 1
¸
y bV
(1)
2 =
·
1 1
1 4
¸
. Para las proporciones tomaremos la estimación inicial más simple π1 = π2 = .5.
Una asignación mejor sería clasiÞcar las varaibles en los grupos y estimar a partir de esa
clasiÞcación los parámetros pero vamos a tomar una estimación inicial rápida para ilustrar
como funciona el algoritmo con estimaciones iniciales no muy precisas.
330 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
Figura 11.2: Histograma de la segunda variable en la mezcla de normales
Diagrama de dispersión de las dos variables.
La aplicación del algoritmo EM se resume en la tabla siguiente. Se indican las iteraciones,
el valor de π1, y las medias estimadas de cada variable en cada iteración.
iter bπ1 bµ11 bµ12 bµ21 bµ22
1 0.5551 −0.3021 0.1780 4.4961 3.4869
2 0.5488 −0.3289 0.1435 4.4614 3.4826
3 0.5479 −0.3308 0.1408 4.4551 3.4798
4 0.5478 −0.3311 0.1404 4.4536 3.4791
5 0.5477 −0.3311 0.1403 4.4533 3.4790
6 0.5477 −0.3311 0.1403 4.4532 3.4789
Se observa que la convergencia se alcanza bastante rápido, y que los resultados obtenidos
son consistentes con los datos del gráÞco de dispersión de las variables. En efecto, once
11.2. ESTIMACIÓN MV CON DATOS FALTANTES 331
observaciones son clasiÞcadas en el primer grupo y nueve en el segundo. Las probabilidades
a posterior de cada observación de pertenecer al grupo 1 son ( 0.9999 1.0000 1.0000 0.9998
1.0000 1.0000 0.0003 0.0000 0.0000 0.9725 0.0008 0.9828 0.0000 0.0000 1.0000 0.9989 0.0000
0.0000 0.0000 1.0000). Esto es consecuencia de que algunas observaciones generadas por el
grupo 2 han aparecido muy próximas a las del grupo uno y, en consecuencia, se han marcado
como provenientes del grupo 1. La estimación Þnal de las matrices de covarianzas es
V1 =
·
0.7131 0.1717
0.1717 0.6841
¸
y V2 =
·
2.3784 0.4209
0.4209 0.9414
¸
.
Se ha comprobado que esta solución no parece depender de los valores iniciales. Comen-
zando con V1 = V2 = I se obtiene la misma solución y si tomamos como valores iniciales
los exactos utilizados para generar los datos se obtiene de nuevo este resultado. El problema
es que esta estimación es consistente con los datos, y dado el pequeño tamaño muestral la
precisión de los estimadores es baja. Si repetimos el problema con n = 100 los parámetros
obtenidos se aproximan mucho más a los verdaderos, pero la convergencia es muy lenta y
hacen falta más de 50 iteraciones para alcanzarla.
11.2.3 Estimación de poblaciones normales con datos ausentes
Vamos a aplicar el algoritmo EM para estimar los parámetros de una distribución normal
multivariante cuando disponemos de observaciones ausentes. La función de verosimilitud
para una muestra sin valores ausentes puede escribirse, según (10.4), en función de las ob-
servaciones
L(µ, V|X) = −
n
2
log |V| −
1
2
tr(V−1
nX
i=1
xix0
i) −
n
2
µ0
V−1
µ + µ
0
V−1
nX
i=1
xi (11.10)
y sabemos que la estimación MV cuando tenemos toda la muestra es bµ =
Pn
i=1 xi/n y
bV = S =
Pn
i=1 xix0
i/n − bµbµ
0
.
Supongamos ahora que los vectores de observaciones x1, ..., xm (m < n) están completos,
pero que los vectores xm+1 = z1, ..., xn = zn−m carecen de los valores de algunas variables
(o de todas ellas). Con la notación de la sección anterior, sea Y el conjunto de datos
disponibles y Z las variables ausentes. La función de verosimilitud completa viene dada por
(11.10). Para aplicar el algoritmo EM, comenzaremos calculando un estimador inicial con
los datos disponibles, y sean bµ(0)
y bV(0)
estos estimadores iniciales. Tomamos bµ(i)
= bµ(0)
y
bV(i)
= bV(0)
y iteraremos entre los dos pasos siguientes:
1. Paso E. Hay que calcular la esperanza de la función de verosimilitud completa (11.10)
respecto a la distribución de los datos faltantes Z, dados los parámetros bθ
(i)
=(bµ(i)
, bV(i)
) y
los datos observados Y . En esta función los datos faltantes aparecen en dos términos. El
primero es µ
0
V−1
Pn
i=1 xi , y allí aparecen de forma lineal, por lo que tendremos simplemente
que sustituir los datos ausentes por sus estimaciones. El segundo es tr(V−1
Pn
i=1 xix0
i), y
aquí tendremos que sustituir las expresiones xix0
i por sus estimaciones. Comencemos con
el primer término, tomar esperanzas de dados los parámetros y los datos conocidos implica
sustituir xi para i > m por E(xi/Y, bθ
(i)
). El calculo de esta esperanza se realiza como
sigue:
332 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
(a) Si el vector xi es completamente inobservado, es decir, no se ha observado ninguna
variable para ese elemento, entonces E(xi/Y, bθ
(i)
) = bµ(i)
, no depende de los datos ob-
servados. Puede comprobarse que, Þnalmente, esta sustitución es equivalente a desechar
completamente esta observación, lo que resulta intuitivo. Si no observamos en un elemento
ninguna variable es equivalente a no tomarlo en la muestra.
(b) Si el vector xi = [x0
1i x0
2i]0
se observa parcialmente, de manera que no conocemos
los valores de ciertas variables x1i, pero si hemos observado los valores de otras x2i,entonces
E(xi/Y, bθ
(i)
) depende de los valores observados de x2i y será igual a la esperanza condiciona-
da E(x1i/x2i,bθ
(i)
). Esta esperanza se calcula, según la sección 8.5.1, por regresión mediante
:
E(x1i/Y, bθ
(i)
) = E(x1i/x2i,bθ
(i)
) = bx
(i)
1i.2 = cµ1
(i)
+ bV
(i)
12
bV
(i)
22 (x2i − cµ2
(i)
) (11.11)
donde hemos particionado el vector de medias y la matriz de covarianzas con relación a los
dos bloques de variables.
Para calcular la esperanza del segundo termino, observemos primero que E [tr(V−1
Pn
i=1 xix0
i)] =
tr [E(V−1
Pn
i=1 xix0
i)] = tr [V−1
Pn
i=1 E(xix0
i)] . Por tanto tenemos que obtener las esperan-
zas E(xix0
i/Y, bθ
(i)
) para i > m. Consideremos, como antes, los dos casos siguientes:
(a) Si el vector es completamente inobservado, E(xix0
i/Y, bθ
(i)
) = bV(i)
− bµ(i)
bµ(i)0
, y, de
nuevo, puede comprobarse que esto va a ser equivalente a desechar completamente esta
observación.
(b) Si el vector xi se observa parcialmente y no conocemos los valores de x1i pero si los
de x2i, utilizaremos la relación
E(x1ix0
1i/Y, bθ
(i)
) = E(x1ix0
1i/x2i,bθ
(i)
) = bV
(i)
11.2 + bx
(i)
1i.2bx
(i)0
1i.2 (11.12)
donde bV
(i)
11.2 es la matriz de varianzas de la variable x1i dado x2i. Según la sección 8.5.1 esta
varianza condicionada viene dada por
bV
(i)
11.2 = bV
(i)
11 − bV
(i)
12
bV
(i)−1
22
bV
(i)
21 . (11.13)
que podemos calcular a partir de bV(i)
y sustituir en (11.12).
2. Paso M. En la función de verosimilitud completa (11.10) reemplazamos las fun-
ciones de los valores ausentes por sus estimaciones (11.11) y (11.12) y calculamos los nuevos
estimadores de máxima verosimilitud, que vendrán dados por
bµ(i+1)
=
Pn
i=1 bx
(i)
i
n
donde en bx
(i)
i los valores observados no se modiÞcan y los no observados se han sustituido
por sus esperanzas condicionales (11.11). La estimación de bV(i+1)
será
bV(i+1)
=
nX
i=1
E(xix0
i/Y,bθ
(i)
)/n − bµ
(i+1)
bµ
(i+1)0
11.2. ESTIMACIÓN MV CON DATOS FALTANTES 333
donde las esperanzas de los valores observados son ellos mismos y las de los faltantes vienen
dadas por (11.12) y (11.13).
Con los valores estimados en el paso M volvemos al E, haciendo bµ(i)
= bµ(i+1)
y bV(i)
=
bV(i+1)
. El algoritmo Þnaliza cuando el cambio en los parámetros de una iteración a la siguiente
es menor que un valor pequeño, como .001. A continuación, presentamos un ejemplo de su
funcionamiento.
Ejemplo 11.2 Vamos a ilustrar el funcionamiento del algoritmo EM con los diez primeros
datos de las variables estatura y peso de la base de datos MEDIFIS. Supondremos que en las
tres primeras personas en la muestra no se ha observado la variable peso. Llamando x1 a
esta variable, la muestra es: x1 = (∗, ∗, ∗, 52, 51, 67, 48, 74, 74, 50), donde el signo * indica
que el valor está ausente. Sin embargo, suponemos que se han observado los diez valores de
la variable estatura: x2 = (159, 164, 172, 167, 164, 161, 168, 181, 183, 158)
Ejercicio 11.1 Para comenzar el algoritmo obtenemos una estimación inicial del vector de
medias con los diez datos de x2 y los siete de x1. Este vector es bµ(0)
= (59.43, 167.7). Con las
siete parejas de datos completos calculamos la matriz de covarianzas bV(0)
=
·
118.24 70.06
70.06 79.26
¸
.
Con estos parámetros iniciamos el paso E, calculo de las esperanzas condicionadas. La es-
peranza condicionada (regresión) de la primera variable en la segunda es
E(x1/x2) = 59.43 + 70.06/79.26(x2 − 167.7)
es decir, el peso se prevé con la recta de regresión entre peso y estatura cuyo coeÞciente de
regresión es 70.06/79.26 = .8839. Aplicándolo a los valores faltantes
E


x11
x12
x13

 = 59.43 + 70.06/79.26


159 − 167.7
164 − 167.7
172 − 167.7

 =


51.738
56.158
63.229


Después de esta primera estimación de los valores ausentes, estimaremos los productos
cruzados. Los productos de la primera variable por la segunda son :
E(x1ix2i/Y, bθ
(i)
) = x2iE(x1i/x2i,bθ
(i)
)
que serán 159 × 51.738, para i=1, 164 × 56.158, para i=2, y 172 × 63.229, para i=3. Los
cuadrados de la variable ausente se estima por
E(x2
1i/Y, bθ
(i)
) = bV
(i)
11.2 + bx
(i)2
1i.2
donde bV
(i)
11.2 es la varianza residual de la regresión entre el peso y la estatura dada por
118.24 − 70.062
/79.26 = 56.31. Por tanto para i = 1, 2, 3 los valores serán 56.31 + 51.7382
=
2733.13, 56.31 + 56.1582
= 3210.03, 56.31 + 63.229 = 4.0542.
Con estas estimaciones pasamos al paso M. En el calculo de la media, la nueva estimación
será bµ(i)
= (58.71, 167.7) donde ahora la primera componente se calcula con diez datos,
334 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
Na
bx11 bx12 bx13 bµ1 s12 s2
1 ss2
1
1 51.739 56.159 63.229 58.713 58.577 107.582 90.686
2 52.283 55.978 61.890 58.615 57.594 108.300 89.012
3 52.294 55.927 61.740 58.596 57.540 108.865 88.929
4 52.281 55.910 61.717 58.591 57.547 109.070 88.941
5 52.275 55.905 61.713 58.589 57.553 109.135 88.948
6 52.272 55.903 61.711 58.589 57.555 109.156 88.9515
7 52.272 55.902 61.711 58.588 57.556 109.162 88.9525
8 52.271 55.902 61.711 58.588 57.556 109.164 88.953
9 52.271 55.902 61.711 58.588 57.556 109.164 88.953
Tabla 11.2: Estimaciones del algoritmo EM en las distintas iteraciones
sustituyendo los ausentes por sus estimaciones. Para calcular la matriz de covarianzas se
utiliza la expresión
bV(i)
=
1
10
· P
bx2
1i
P
bx1ix2iP
bx1ix2i
P
x2
2i
¸
−
·
58.712
58.71 × 167.7
58.71 × 167.7 167.72
¸
donde los valores bx1i son los observados (para i=4,...,10) o las estimaciones de los ausentes
(para i=1,2,3) y análogamente para bx2
1i. Observemos que la estimación de bx2
1i NO es la
estimación de bx1i elevada al cuadrado sino que además se le añade el valor de la varianza
residual como hemos visto.
La tabla 11.2siguiente indica la evolución de las estimaciones proporcionadas por el al-
goritmo hasta la convergencia para los valores ausentes, la media de la primera variable, la
covarianza y la varianza de la primera variable. El algoritmo converge en nueve iteraciones.
Se ha añadido una columna adicional , ss2
1,varianza de la primera variable, para ilustrar las
estimaciones que se obtendrían si en lugar de utilizar el algoritmo EM utlizamos el méto-
do más simple de modiÞcar el paso E sustituyendo cada observación faltante por su media
condicionada e iterando después. Se observa que este segundo procedimiento al no tener en
cuenta toda la incertidumbre subestima las varianzas: la varianza con este método es siempre
menor que la estimada por el algoritmo EM.
11.3 ESTIMACIÓN ROBUSTA
La estimación MV depende de la hipótesis de normalidad en los datos. Esta es una hipótesis
fuerte, y difícil de comprobar con muestras de tamaño mediano. En particular, la estimación
MV de los parámetros suponiendo normalidad puede ser muy mala cuando los datos proven-
gan de distribuciones con colas pesadas, que pueden generar valores atípicos. Supongamos
por ejemplo que los datos provienen de una normal contaminada
π1N1(µ, V) + (1−π1)N2(µ,cV)
donde la mayoría de los datos, por ejemplo, π1 = .95, se hab generado con la distribución
central, N1(µ, V), pero una pequeña proporción (1−π1), por ejemplo el 5%, provienen de la
11.3. ESTIMACIÓN ROBUSTA 335
distribución alternativa, que tiene mayor variabilidad, tanto más cuanto mayor sea c, que es
siempre mayor que uno de manera que los elementos generados por ella pueden ser atípicos
y estar mucho más alejados del centro que los de la primera.
Hemos visto en la sección 11.2 , estimación de mezclas, que los estimadores MV de los
parámetros se calculan como:
bµ =
Pn
i=1 bz1ixi
Pn
i=1 bz1i
y
bV =
1
P
bz1i
nX
i=1
bz1i(xi − x)(xi − x)0
,
donde las variables bz1i son estimaciones de la probabilidad de que la observación provenga
de la primera población (el dato no sea atípico). Los métodos robustos parten de estas ecua-
ciones pero eligen los pesos bz1i que se aplican a las observaciones de manera que el estimador
resultante tenga buenas propiedades de robustez ante un conjunto amplio de distribuciones
contaminantes, no necesariamente normales. Maronna (1976) propuso estimar iterativa-
mente los parametros de la normal multivariante con estas ecuaciones pero sustituyendo los
bz1i por pesos wi(Di) convenientemente elegidos en función de la distancia de Mahalanobis
del punto al centro de los datos. Por ejemplo, wi(Di) se toma igual a uno si la distancia
es menor que una cierta constante y tiene a cero cuando la distancia crece. El proceso es
iterativo y recuerda el algoritmo EM. Se parte de una estimación inicial de los parámetros,
con ella se calculan las distancias de Mahalanobis y los pesos wi(Di). Con estas estimaciones
se reestiman los parámetros con los nuevos pesos, lo que conducirá a nuevas distancias de
Mahalanobis, que determinarán nuevos pesos y así sucesivamente. Este método de modiÞcar
las ecuaciones de verosimilitud mediante pesos se conoce como M-estimación.
Aunque este procedimiento es atractivo, no funciona bien en dimensiones altas. Puede
demostrarse que el punto de ruptura de un M-estimador como el que hemos presentado, que
descuenta las observaciones extremas, es, como máximo 1/(p + 1). Esta propiedad implica
que en alta dimensión es necesario buscar un enfoque alternativo a los estimadores clásicos
robustos. Hay dos enfoques al problema. El primero, buscar un estimador que se base sólo
en una fracción de los datos, presumiblemente no contaminados. El segundo es eliminar los
atípicos, y construir el estimador a partir de los datos limpios de atípicos.
Con el primer enfoque un procedimiento simple es el introducido por Rousseeuw (1985),
que propone calcular el elipsoide de mínimo volumen, o de mínimo determinante, que engloba
al menos el 50% de los datos. La justiÞcación intuitiva del método es la siguiente. Los datos
atípicos estarán en los extremos de la distribución, por lo que podemos buscar una zona
de alta concentración de puntos y determinar con ellos el centro de los datos y la matriz
de covarianzas, ya que los puntos de esa zona serán presumiblemente puntos buenos. Para
encontrar ese núcleo central con alta densidad de datos, exigimos que el ellipsoide que cubre
al menos el 50% de los datos tenga volumen mínimo. Esta idea es una generalización de los
resultados univariantes, donde se obtienen estimadores muy robustos a partir de la idea de
mediana. Por ejemplo, la mediana es una medida de centralización que se ve poco afectada
336 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
por una alta contaminación de los datos. Analogamente, para dispersión podemos utilizar
la meda, o mediana de las desviaciones de los datos respcto a la mediana, que tiene también
buenas propiedades. Generalizando estas ideas, podemos buscar el centro de la distribución
de los datos multivariantes y su variabilidad construyendo el intervalo mínimo alrededor de un
punto central que englobe el 50% de los datos. El centro de este intervalo será una estimación
de la media y la matriz de covarianzas estimada en este intervalo, convenientemente escalada,
estimará la matriz de varianzas de la problación.
Para obtener este intervalo, el proceso se implementa como sigue. Tomamos una muestra
mínima de tamaño p+1 y calculamos su media, x(1)
, y su matriz de covarianzas, bV(1)
. A esta
muestra se la llama mínima, porque tiene el número exacto de elementos que necesitamos
para calcular un valor del vector de medias y de la matriz de covarianzas, donde suponemos
que la matriz de covarianzas estimada resulta no singular (en otro caso se tomaría otra
muestra mínima). A continuación, calculamos las distancias de Mahalanobis al centro de
esta muestra mínima para todos los puntos de la muestra completa de n puntos:
Di = (xi − x(1)
)0 bV(1)−1
(xi − x(1)
),
y tomamos la mediana, m(1)
, de estas n distancias. Entonces, por construcción, el elipsoide
deÞnido por (x − x(1)
)0 bV(1)−1
(x − x(1)
) ≤ m(1)
contiene el 50% de los datos, o, lo que es
equivalente, el elipsoide deÞnido por (x −x(1)
)0
(m(1) bV(1)
)−1
(x− x(1)
) ≤ 1 contiene el 50% de
los datos. El volumen de un elipsoide de este tipo es proporcional a
¯
¯
¯m(1) bV(1)
¯
¯
¯
1/2
=
¯
¯
¯bV(1)
¯
¯
¯
1/2
(m(1)
)p/2
. (11.14)
El procedimiento de calcular el elipsoide de volumen mínimo que engloba el 50% de los datos
es tomar N muestras mínimas, obteniendo centros, x(1)
, ..., x(N)
, matrices de covarianzas,
bV(1)
, ..., bV(N)
, y medianas, m(1)
, ..., m(N)
, y calcular en cada muestra mínima el volumen
(11.14). La muestra mínima que proporcione un menor valor del criterio (11.14) se utiliza
para calcular los estimadores robustos como sigue. Supongamos que la muestra de volumen
mínimo es la muestra J. Entonces, el estimador robusto de la media de los datos es x(J)
, y
la estimación de la matriz de covarianzas m(J) bV(J)
se expande para que corresponda a una
estimación de la matriz en la población. Como la distancia de Mahalanobis con respecto al
centro de la problación con la matriz de la población es una χ2
p , tenemos que, para muestras
grandes (x−x(J)
)0
(m(J) bV(J)
)−1
(x−x(J)
) que contiene el 50% de los datos debe ser próximo a
la mediana de la χ2
p, que representaremos por χ2
p.50. Una estimación consistente de la matriz
de covarianzas para datos normales es
bV = (χ2
p.50)−1
m(J) bV(J)
.
Un procedimiento alternativo, más rápido y eÞciente que el método anterior, ha sido prop-
uesto por Peña y Prieto (2001) basado en las ideas de proyecciones expuestas en el capítulo
3. El método consiste en tres etapas. En la primera se identiÞcan los posibles atípicos como
datos extremos de las proyecciones de la muestra sobre las direcciones que maximizan o
minimizan la kurtosis de los puntos proyectados. En segundo lugar, se eliminan todos los
11.4. ESTIMACIÓN BAYESIANA 337
atípicos potenciales o puntos sospechosos, y llamando U al conjunto de observaciones no
sospechosas, la estimación incial robusta de los parámetros se realiza con:
˜m =
1
|U|
X
i∈U
xi,
˜S =
1
|U| − 1
X
i∈U
(xi − ˜m)(xi− ˜m)0
,
En tercer lugar, utilizando estos estimadores robustos se contrastan una por una las obser-
vaciones sospechosas para ver si son atípicas. Como vimos en la sección 10.8 el contraste
utiliza la distancia de Mahalanobis:
vi = (xi− ˜m)T ˜S−1
(xi− ˜m), ∀i 6∈ U.
y aquellas observaciones i 6∈ U tales que vi < T2
0.99(p, n−1), donde T2
0.99(p, n−1) es el percentil
.99 de la distribución de Hotelling las consideramos como aceptables y las incluimos en U.
Cuando una nueva observación se incluye en U los parámetros se recalculan y el proceso se
repite hasta que no se encuentran nuevas observaciones. Finalmente, una vez contrastados
todos los puntos se estiman los parámetros utilizando los elementos que no se han considerado
atípicos, y estos serán los estimadores robustos Þnales.
Este método se basa en los resultados de la sección 4.5 donde justiÞcamos que los atípicos
aislados van a identiÞcarse buscando la dirección de máxima kurtosis y los grupos numerosos
de atípicos van a aparecer en las direcciones de mínima kurtosis asociada a distribuciones
bimodales.
11.4 ESTIMACIÓN BAYESIANA
11.4.1 Concepto
En el enfoque bayesiano un parámetro es una variable aleatoria y la inferencia respecto a
sus posibles valores se obtiene aplicando el cálculo de probabilidades (teorema de Bayes)
para obtener la distribución del parámetro condicionada a la información disponible. Si
se desea un estimador puntual, se tomará la media o la moda de dicha distribución; si se
desea un intervalo de conÞanza, se tomará la zona que encierre una probabilidad Þjada en
dicha distribución. En consecuencia, una vez obtenida la distribución de probabilidad del
parámetro, los problemas habituales de inferencia quedan resueltos con la distribución a
posteriori de manera automática y simple.
El enfoque bayesiano tiene dos ventajas principales. La primera es su generalidad y co-
herencia: conceptualmente todos los problemas de estimación se resuelven con los principios
del cálculo de probabilidades. La segunda es la capacidad de incorporar información a priori
con respecto al parámetro adicional a la muestral. Esta fortaleza es, sin embargo, también
su debilidad, porque exige siempre representar la información inicial respecto al vector de
parámetros mediante una distribución inicial o a priori, p(θ). Este es el aspecto más con-
trovertido del método, ya que algunos cientíÞcos rechazan que la información inicial -que
338 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
puede incluir los prejuicios del investigador- se incluya en un proceso de inferencia cientíÞca.
En principio esto podría evitarse estableciendo una distribución neutra, de referencia o no
informativa para el problema, pero, aunque esto es factible en casos simples, puede ser en si
mismo un problema complejo en el caso multivariante, como veremos a continuación.
La distribución Þnal o a posteriori se obtiene mediante el teorema de Bayes. Si llamamos
X a la matriz de datos, con distribución conjunta f(X|θ), que proporciona las probabilidades
de los valores muestrales conocido el vector de parámetros, la distribución a posteriori p(θ|X)
será:
p(θ|X) =
f(X|θ)p(θ)
R
f(X|θ)p(θ)d(θ)
. (11.15)
El denominador de esta expresión puede escribirse como m(X) la distribución marginal
de los datos. Esta distribución se denomina distribución predictiva y se obtiene ponderando
las distribuciones f(X|θ) para cada posible valor del parámetro por las probabilidades que
la distribución a priori asigna a estos valores.
En la práctica, el cálculo de (11.15) se simpliÞca observando que el denominador no
depende de θ, y actúa únicamente como una constante normalizadora para que la integral
de p(θ|X) sea la unidad. Por tanto, podemos calcular la distribución posterior escribiendo:
p(θ|X) = k`(θ|X)p(θ), (11.16)
ya que, dada la muestra, X es constante y al considerar f(X|θ) como función de θ se convierte
en la función de verosimilitud `(θ|x). Multiplicando para cada valor de θ las ordenadas de
`(θ|X) y p(θ) resulta la distribución posterior. Para la forma de la posterior la constante k
es irrelevante, y siempre puede determinarse al Þnal con la condición de que p(θ|X) sea una
función de densidad e integre a uno. Esta regla se resume en:
Posterior ∝ Prior × Verosimilitud
donde ∝ indica proporcional. La distribución a posteriori es un compromiso entre la prior y
la verosimilitud. Cuando p(θ) es aproximadamente constante sobre el rango de valores en los
que la verosimilitud no es nula, diremos que p(θ) es localmente uniforme o no informativa,
y la posterior vendrá determinada por la función de verosimilitud.
Una ventaja adicional del enfoque bayesiano es su facilidad para procesar información
secuencialmente. Supongamos que después de calcular (11.16) observamos una nueva mues-
tra de la misma población Y, independiente de la primera. Entonces, la distribución inicial
será ahora p(θ|X) y la distribución Þnal será :
p(θ|XY) = k`(θ|Y)p(θ|X).
Naturalmente este mismo resultado se obtendría considerando una muestra ampliada
(X, Y) y aplicando el teorema de Bayes sobre dicha muestra, ya que por la independencia
de X e Y:
p(θ|XY) = k`(θ|XY)p(θ) = k`(θ|X)p(θ|Y)p(θ)
La estimación bayesiana proporciona estimadores (la media de la distribución a posteriori)
que son admisibles con criterios clásicos.
11.4. ESTIMACIÓN BAYESIANA 339
11.4.2 Distribuciones a priori
Una manera simple de introducir la información a priori en el análisis es utilizar distribuciones
a priori conjugadas, que se combinan con la verosimilitud para producir distribuciones a
posteriori simples, como veremos en la sección siguiente.
Si no se dispone de información a priori, o se desea que los datos hablen por sí mismos, se
debe establecer una distribución a priori no informativa o de referencia. Intuitivamente, una
distribución a priori no informativa para un vector de parámetros de localización es aquella
que es localmente uniforme sobre la zona relevante del espacio paramétrico, y escribiremos
p (θ) = c. Sin embargo, esta elección tiene el problema de que si el vector de parámetros
puede tomar cualquier valor real
Z ∞
−∞
p(θ)dθ = ∞, y la prior no puede interpretarse como una
distribución de probabilidad, sino como una herramienta para calcular la posterior. En efecto,
si podemos suponer que a priori un parámetro escalar debe estar en el intervalo (−h, h),
donde h puede ser muy grande pero es un valor Þjo, la distribución a priori p(θ) = 1/2h es
propia, ya que integra a uno. La distribución p (θ) = c debe pues considerarse como una
herramienta simple para obtener la posterior. Estas distribuciones se denominan impropias.
En problemas simples trabajar con distribuciones a priori impropias no produce problemas,
(aunque puede dar lugar a paradojas, véase por ejemplo Bernardo y Smith, 1994), pero en
situaciones un poco más complicadas la distribución a posteriori correspondiente puede no
existir.
Las distribuciones constantes están sujetas a una diÞcultad conceptual adicional: si
suponemos que la distribución a priori para un parámetro escalar θ es del tipo p(θ) = c
y hacemos una transformación uno a uno del parámetro ϕ = g(θ), como
p(ϕ) = p(θ)
¯
¯
¯
¯
dθ
dϕ
¯
¯
¯
¯
si la distribución es constante para el parámetro θ, no puede ser constante para el parámetro
ϕ. Por ejemplo, si p(θ) = c, y ϕ = 1/θ, entonces |dθ/dϕ| = ϕ−2
y p(ϕ) = cϕ−2
, que no es
uniforme. Nos encontramos con la paradoja de que si no sabemos nada sobre θ y θ > 0,
no podemos decir que no sabemos nada (en el sentido de una distribución uniforme) sobre
logθ 0 θ2
. Una solución es utilizar las propiedades de invarianza del problema para elegir que
transformación del parámetro es razonable suponer con distribución constante, pero aunque
esto suele ser claro en casos simples (para las medias y para los logartimos de las varianzas)
, no es inmediato cómo hacerlo para parámetros más complejos.
Jeffreys (1961), Box y Tiao (1973), Bernardo (1979) y Bernardo y Smith (1994), entre
otros, han estudiado el problema de establecer distribuciones de referencia con propiedades
razonables. Para distribuciones normales, y para los casos simples considerados en este
libro, la distribución de referencia para un vector de parámetros de localización podemos
tomarla como localmente uniforme y suponer que en la zona relevante para la inferencia
p (θ) = c. Para matrices de covarianza, Jeffreys, por consideraciones de invarianza ante
transformaciones, propuso tomar la distribución de referencia proporcional al determinante
de la matriz de covarianzas elevado a −(p + 1)/2, donde p es la dimensión de la matriz.
Señalaremos por último que el problema de la distribución a priori, aunque de gran
importancia conceptual, no es tan crucial en la práctica como puede parecer a primera vista
340 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
ya que :
(1) Si tenemos muchos datos, la verosimilitud será muy apuntada, y la posterior ven-
drá determinada por la verosimilitud, ya que entonces cualquier priori razonable será casi
constante sobre la zona relevante para la inferencia.
(2) Si tenemos poca información muestral, cualquier procedimiento estadístico va a ser
muy sensible a las hipótesis que hagamos sobre el modelo de distribución de probabilidad,
que van a afectar tanto o más que la prior al análisis. Sin embargo, estas hipótesis no
podremos comprobarlas con eÞcacia con muestras pequeñas. Conviene en estos casos, sea
cual sea la prior elegida, estudiar la sensibilidad de la solución a cambios en el modelo y en
la prior.
11.4.3 Cálculo de la Posterior
Distribuciones Conjugadas
El cálculo de la distribución posterior puede ser complicado y requerir métodos numéricos.
El problema se simpliÞca si podemos expresar aproximadamente nuestra información a pri-
ori con una distribución que simpliÞque el análisis. Una familia de distribuciones a priori
adecuada para este objetivo es aquella con la misma forma que la verosimilitud, de manera
que la posterior pueda calcularse fácilmente y pertenezca a la misma familia que la priori.
A estas familias se las denomina conjugadas.
Una clase C de distribuciones a priori para un parámetro vectorial, θ, es conjugada, si
cuando la prior pertenece a esa clase, p(θ) ∈ C entonces la posterior también pertence a la
clase, p(θ|X) ∈ C. La distribución conjugada puede elegirse tomando la distribución a priori
con la forma de la verosimilitud. Por ejemplo, supongamos que queremos hacer inferencia
respecto al parámetro θ en un modelo de la familia exponencial
f(X|θ) = g(X)h(θ) exp {t(X)g(θ)} .
La verosimilitud de la muestra será
l(θ|X) = k × h(θ)n
exp
n
g(θ)
X
t(X)
o
y podemos tomar como familia conjugada :
p(θ) = k × h(θ)ν
exp {g(θ)m} ,
con lo que se obtiene inmediatamente la posterior:
p(θ|X) = k × h(θ)ν+n
exp
n
g(X)
h
m +
X
t(X)
io
.
En la sección siguiente veremos ejemplos de su utilización para estimar los parámetros de
una normal multivariante.
11.4. ESTIMACIÓN BAYESIANA 341
Métodos de Monte Carlo con Cadenas de Markov (MC2
)
Cuando no sea posible utilizar una distribución a priori conjugada y el cálculo de la posterior
sea complejo, podemos utilizar el ordenador para generar muestras de la distribución poste-
rior. Existe una variedad de métodos para realizar esta simulación, que se conocen bajo el
nombre común de métodos de Monte Carlo con Cadenas de Markov (o métodos MC2
) y el
lector interesado puede acudir a Robert y Casella(1999) , Carlin y Louis (1996) y Gaberman
(1997). En este libro sólo presentaremos uno de estos métodos, el muestreo de Gibbs o
Gibbs sampling, que es especialmente útil para la estimación de las distribuciones mezcladas
consideradas en el capítulo 14.
El muestro de Gibbs es apropiado para obtener muestras de una distribución conjunta
cuando es fácil muestrear de las distribuciones condicionadas. Supongamos que estamos in-
teresados en obtener muestras de la distribución conjunta de dos variables aleatorias, f(x, y),
y supongamos que conocemos las distribuciones condicionadas f(x/y), y f(y/x). Este méto-
do se implementa como sigue :
1. Fijar un valor arbitrario inicial y(0)
y obtener un valor al azar para x de la distribución
f(x/y(0)
). Sea x(0)
este valor.
2. Obtener un valor al azar para y de la distribución f(y/x(0)
). Sea y(1)
este valor.
3. Volver a 1 con y(1)
en lugar de y(0)
y alternar entre 1 y 2 para obtener parejas de
valores (x(i)
, y(i)
), para i = 1, ..., N.
Se demuestra que, para N suÞcientemente grande, la pareja (x(N)
, y(N)
) es un valor al
azar de la distribución conjunta f(x, y).
Un problema importante es investigar la convergencia de la secuencia. Puede demostrarse
que, bajo ciertas condiciones generales, el algoritmo converge, pero la convergencia puede
requerir un número enorme de iteraciones en algunos problemas (véase por ejemplo Justel y
Peña, 1996).
11.4.4 Estimación Bayesiana de referencia en el modelo normal
Supongamos que se desea estimar los parámetros de una normal multivariante sin introducir
información a priori. Es más simple tomar como parámetros µ, V−1
, donde V−1
es la
matriz de precisión. La estimación de referencia para este problema supone que, a priori,
p(µ, V−1
) = p(µ)p(V−1
), donde p(µ) es constante en la región donde la verosimilitud es no
nula y p(V−1
) se elige como no informativa en el sentido de Jeffreys. Puede demostrarse
que, entonces, una prior conveniente es proporcional a |V−1
|−1/2(p+1)
, con lo que la prior
resultante es
p(µ, V−1
) ∝ |V|1/2(p+1)
. (11.17)
La expresión de la verosimilitud es, según lo expuesto en la sección 10.2.2, y expresándola
ahora en función de V−1
f(X|µ, V−1
) = C|V−1
|n/2
exp
n
−
n
2
trV−1
S(µ)
o
, (11.18)
342 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
y multiplicando estas dos ecuaciones, (11.17) y (11.18), resulta la posterior
p(µ, V−1
|X) = C1|V−1
|(n−p−1)/2
exp
½
−
1
2
trV−1
S(µ)n
¾
, (11.19)
donde C1 es la constante necesaria para que la densidad integre a uno. Observemos que si
el objetivo es obtener la moda de la posterior no necesitamos calcular esta constante.
La marginal de µ se obtiene integrando respecto a V. Para ello, observamos que en esta
integración la matriz S(µ) es una constante, ya que no depende de V, y la función a integrar
es similar a la distribución Wishart, siendo ahora V−1
la variable, en lugar de W, n = m,
y S(µ)n igual a la matriz de constantes Σ. El término que falta para tener la distribución
completa es |Σ|−m/2
, que equivale a |S(µ)n|n/2
. Introduciendo esta constante, multiplicando
y dividiendo para completar la integral y prescindiendo de constantes, obtenemos que la
posterior será
p(µ|X) ∝ |S(µ)|−n/2
(11.20)
y, se demuestra en el Apéndice 11.2, que este determinante puede escribirse como
p(µ|X) ∝ |1 + (¯x − µ)0
S−1
(¯x − µ)|
−n/2
Esta expresión indica que la densidad marginal del vector de medias es una t multivariante
con n−p grados de libertad (véase la sección 9.6.2). La moda de la densidad se alcanza para
µ = ¯x, resultado análogo al obtenido por MV. De la forma de la densidad (11.20) concluimos
que este valor de µ minimiza el determinante de la matriz de sumas de cuadrados S(µ). Este
criterio, minimizar el determinante de las sumas de cuadrados residuales, suele llamarse de
mínimos cuadrados multivariante.
La posterior de V se obtiene integrando (11.19) con respecto a µ. Se demuestra en
el Apéndice 11.2 que la distribución a posteriori para V−1
es una distribución Wishart
Wp(n − 1, S−1
/n). Puede comprobarse que la media de la distribución a posteriori de V es
nS/(n−p−2), por lo que si tomamos este valor como estimador de V obtendremos un valor
distinto que con el método MV.
11.4.5 Estimación con información a priori
Supongamos que disponemos de información a priori para estimar los parámetros de una
distribución Np(µ, V). La forma de la verosimilitud (11.18) sugiere (véase el apéndice 11.2.)
las siguientes distribuciones a priori. Para µ dada V−1
estableceremos que
p(µ|V−1
) ∼ Np(µ0, V|n0),
y esta distribución indica que, conocida V, la mejor estimación a priori que podemos dar
del valor de µ es µ0, y la incertidumbre que asignamos a esta estimación a priori es V|n0.
En principio podríamos reßejar nuestra incertidumbre respecto µ con cualquier matriz de
covarianzas, pero el análisis se simpliÞca si suponemos que esta incertidumbre es una fracción
de la incertidumbre del muestreo. Observemos que ésta es la distribución a priori para µ
11.4. ESTIMACIÓN BAYESIANA 343
condicionada a V, por lo que tiene sentido expresar la incertidumbre en función de la varianza
muestral. Una vez que hayamos visto el papel que juega el parámetro n0 comentaremos cómo
Þjarlo. Para la matriz de precisión estableceremos que:
p(V−1
) ∼ Wp(m0, M|m0)
que escribimos de esta forma para que los parámetros tengan una interpretación más sencilla.
Así, a priori, el valor esperado de la matriz de precisión es M, y, como veremos, el parámetro
m0 controla la precisión que queremos dar a esta estimación inicial. Utilizando estas dos
distribuciones, la distribución a priori conjunta resultante es
p(µ, V−1
) = p(µ|V−1
)p(V−1
).
El apéndice 11.2. calcula la distribución a posteriori mediante
p(µ, V|X) ∝ `(X|µ, V)p(µ, V)
y allí se obtiene que, a posteriori, la distribución de la media condicionada a la varianza es
también normal:
p(µ|V−1
, X) ∼ Np(µp, Vp)
donde la media a posteriori, que puede tomarse como el estimador bayesiano de µ, es:
µp =
n0µ0 + n¯x
n0 + n
y la incertidumbre en esta estimación es
Vp =
V
n0 + n
La media a posteriori es una media ponderada de la información a priori y la proporcionada
por la muestra, y los coeÞcientes de ponderación son n0 y n. El parámetro n0 representa
pues el peso que queremos dar a nuestra estimación prior con relación a la muestral. Vemos
también que la incertidumbre asociada equivale a la de una muestra de tamaño n0 + n.
Podemos interpretar n0 como el número de observaciones equivalentes que asignamos a la
información contenida en la prior. Por ejemplo, si n0 = 10 y tomamos una muestra de
tamaño 90, queremos que nuestra prior tenga un peso del 10% en el cálculo de la posterior.
La distribución a posteriori de la matriz de precisión es
p(V−1
|X) ∼ Wp(n + m0, Mp),
donde la matriz de la Wishart es
M−1
p = m0M−1
+ nS+
nn0
n + n0
(¯x − µ0)(¯x − µ0)0
.
344 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
Para interpretar este resultado, recordemos que la media de una distribución de Wishart
Wp(n + m0,Mp) es
E(V−1
|X) =
µ
m0
n + m0
M−1
+
n
n + m0
S+
nn0
(n + n0)2
(¯x − µ0)(¯x − µ0)0
¶−1
,
el término entre paréntesis juega el papel de la matriz de varianzas y vemos que suma tres
fuentes de incertidumbre: las dos que vienen de la distribución prior y la muestral. El primer
término es la matriz de covarianzas a priori, el segundo la matriz de covarianzas muestral
y el tercero el incremento de covarianzas debido a la discordancia entre la media a priori
y la muestral. El término m0 controla el peso que queremos dar a la estimación prior de
la varianza, frente a la varianza muestral, y el término n0 el peso de la discrepancia entre
la media a prioiri y la estimada. Observemos también que si la información proporcionada
por la muestra es grande con relación a la prior, es decir, n es grande con relación a m0 y
n0, de manera que m0/n y n0/n sean pequeños, la esperanza de la precisión posterior es,
aproximadamente, la precisión muestral, S−1
.
11.5 CONTRASTES BAYESIANOS
11.5.1 Conceptos básicos
En el enfoque bayesiano, la hipótesis nula no se acepta o rechaza, como en el enfoque clásico,
sino que se determina su probabilidad a posteriori dados los datos. Supongamos el contraste
general considerado en el capítulo anterior: dado un parámetro vectorial, θ, p−dimensional,
que toma valores en Ω se desea contrastar la hipótesis:
H0 : θ ∈ Ω0,
frente a la hipótesis alternativa
H1 : θ ∈ Ω − Ω0.
Suponemos que existen probabilidades a priori para cada una de las dos hipótesis. Estas
probabilidades quedan automáticamente determinadas si establecemos una distribución a
priori sobre θ, ya que entonces:
p0 = P(H0) = P(θ ∈ Ω0) =
Z
Ω0
p(θ)dθ
y
p1 = P(H1) = P(θ ∈ Ω − Ω0) =
Z
Ω−Ω0
p(θ)dθ.
Las probabilidades a posteriori de las hipótesis las calcularemos mediante el teorema de
Bayes
P(Hi|X) =
P(X|Hi)P(Hi)
P(X)
i = 0, 1
11.5. CONTRASTES BAYESIANOS 345
log10 B01 B01 P(H0) para (p0/p1 = 1) Interpretación.
0 1 0, 5 indecisión
−1 10−1
0, 1 débil rechazo de H0
−2 10−2
0, 01 rechazo de H0
−3 10−3
0, 001 rechazo sin duda de H0
Tabla 11.3: Interpretación del factor de Bayes según Jefreys
y de aquí se obtiene el resultado fundamental:
P(H0|X)
P(H1|X)
=
f(X|H0)
f(X|H1)
.
P(H0)
P(H1)
(11.21)
que puede expresarse como
Ratio de posteriores = R.Verosimilitudes x R. Prioris
Esta expresión indica que la evidencia respecto a la hipótesis nula se obtiene multiplicando
la evidencia proporcionada por los datos, con la evidencia a priori. Al cociente entre
las verosimilitudes se denomina factor de Bayes, B, y si las probabilidades a prioiri de
ambas hipótesis son las mismas, determina las probabilidades a posteriori de las hipótesis.
Expresando las probabilidades a posteriori en términos del parámetro, se obtiene
P(Hi|X) = P(θ ∈ Ωi/X) =
Z
Ωi
p(θ|X)dθ i = 0, 1
donde Ω1 = Ω − Ω0, y p(θ|X) es la distribución a posteriori para el vector de parámetros de
interés dada por (11.15). Por tanto
p(Hi|X) =
1
f(X)
Z
Ωi
f(X|θ)p(θ)dθ i = 0, 1
donde Ω1 = Ω− Ω0. Sustituyendo en (11.21) se obtiene que el factor de Bayes de la primera
hipótesis respecto a la segunda, B01, es
B01 =
p1
p0
R
Ω0
f(X|θ)p(θ)dθ
R
Ω−Ω0
f(X|θ)p(θ)dθ
Jeffreys ha dado la escala de evidencia para el factor de Bayes que se presenta en la
Tabla 11.3. La primera columna presenta el factor de Bayes en una escala logaritmica, la
segunda el factor de Bayes, la tercera la probabilidad de la hipótesis nula supuesto que las
probabilidades a priori para las dos hipótesis son las mismas. La última columna propone
la decisión a tomar respecto a H0.
346 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
11.5.2 Comparación entre los contraste bayesianos y los clásicos
Si suponemos que, a priori, las probabilidades de ambas hipótesis son las mismas, el factor
de Bayes es comparable al ratio del contraste de verosimilitudes, pero existe una diferencia
fundamental: en el constraste de verosimilitudes se toma el máximo de la verosimilitud,
mientras que en el enfoque bayesiano se toma el promedio sobre la región relevante, pro-
mediando con la distribución a priori. Por tanto, el contraste tiene en cuenta al calcular la
integral el tamaño del espacio deÞnido por Ω0 y por Ω1. Por ejemplo, supongamos que θ es
un parámetro escalar 0 ≤ θ ≤ 1 y que contrastamos:
H0 : θ = θ0
frente a
H1 : θ 6= θ0.
Para que las probabilidades a priori de ambas hipótesis sean las mismas, supongamos que
Þjamos p(θ = θ0) = 1/2 y que p(θ) = 1/2 si θ 6= θ0. Entonces, el factor de Bayes compara
f(X|θ0) con el valor promedio de la verosimilitud cuando θ 6= θ0, mientras que el contraste de
verosimilitudes compara f(X|θ0) con el valor máximo de la verosimilitud. Si el valor θ = θ0
no es exactamente cierto, sino sólo aproximadamente cierto, y el tamaño de la muestra es
muy grande:
1. Con el enfoque bayesiano, los valores alejados de θ0 tendrán una verosimilitud muy
pequeña con muestras grandes y al promediar sobre todos los valores se tenderá a favorecer
a H0. Al aumentar n puede hacer muy difícil rechazar H0.
2. Con el enfoque clásico, comparamos f(X|θ0) con f(X|θMV ), donde θMV es el esti-
mador MV que estará próximo al verdadero valor para muestras grandes, y esta diferencia
aumentará con el tamaño muestral, por lo que terminaremos siempre rechazando H0.
En resumen, con el enfoque clásico, cuando n → ∞ se rechaza H0 en la práctica, mientras
que con el enfoque bayesiano cuando n → ∞ es más difícil rechazar H0 en la práctica. Esto
es consecuencia de que el enfoque bayesiano tiene en cuenta la verosimilitud de H0 y de H1,
mientras que el enfoque clásico mira sólo a H0.
Es importante señalar que esta contradicción desaparece en el momento en que refor-
mulamos el problema como uno de estimación. Entonces ambos métodos coincidirán con
muestras grandes en la estimación del parámetro.
11.6 Selección de Modelos
11.6.1 El Criterio de Akaike
El método de máxima verosimilitud supone que la forma del modelo es conocida y sólo falta
estimar los parámetros. Cuando no es así debe aplicarse con cuidado. Por ejemplo, supong-
amos que se desea estimar un vector de parámetros θ = (θ1, ...θp)0
y admitimos en lugar de un
modelo único la secuencia de modelos M1 = (θ1, 0, ..., 0), ...., Mi = (θ1, ..., θi, 0, .., 0), ...,Mp =
(θ1, ..., θp), es decir el modelo Mi (i = 1, ..., p) indica que los primeros i parámetros son
11.6. SELECCIÓN DE MODELOS 347
distintos de cero y los restantes cero. Es claro que si estimamos los parámetros bajo cada
modelo y calculamos el valor máximo del soporte sustituyendo los parámetros por sus esti-
maciones MV, el modelo con mayor soporte de los datos será el modelo Mp con todos los
parámetros libres. Este resultado es general: el método de máxima verosimilitud siempre da
mayor soporte al modelo con más parámetros, ya que la verosimilud sólo puedo aumentar si
introduzco más parámetros para explicar los datos.
Esta limitación del método de máxima verosimilitud fue percibida por Fisher, que propuso
el método en 1936 para estimar los parámetros de un modelo, indicando sus limitaciones para
comparar modelos distintos. La solución habitula para seleccionar entre los modelos es hacer
un contraste de hipótesis utilizando el contraste de verosimilitudes y elegiendo el modelo Mi
frente al Mp mediante
λ = 2(L(Mp) − L(Mi)) = D(Mi) − D(Mp)
donde L(Mp) es el soporte del modelo Mp al sustituir en el función soporte el parámetro θ
por su estimación MV y L(Mi) el soporte del modelo Mi al estimar los parámetros con la
restriccion θi+1 = .. = θp = 0, y D(Mj) = −2L(Mj) es al desviación. Suponiendo que el
modelo más simple, Mi, es correcto, el estadístico λ se distribuye como una χ2
con p − i
grados de libertad.
Akaike propuso un enfoque alternativo para resolver el problema de seleccionar el modelo
suponiendo que el objetivo es hacer predicciones tan precisas como sea posible. Sea f(y|Mi)
la densidad de una nueva observacion bajo el modelo Mi y sea f(y) la verdadera función
de densidad que puede o no ser una de las consideradas, es decir, el modelo verdadero
puede o no ser uno de los Mi. Queremos seleccionar el modelo de manera que f(y|Mi) sea
tan próxima como sea posible a f(y). Una manera razonable de medir la distancia entre
estas dos funciones de densidad es mediante la distancia de Kullback-Leibler entre las dos
densidades, que se calcula:
KL(f(y|Mi), f(y)) =
Z
log
f(y|Mi)
f(y)
f(y)dy (11.22)
Para interpretar esta medida observemos que la diferencia de logaritmos equivale, cuando
los valores de ambas funciones son similares, a la diferencia relativa, ya que
log
f(y|Mi)
f(y)
= log(1 +
f(y|Mi) − f(y)
f(y)
) ∼=
f(y|Mi) − f(y)
f(y)
y cuando las diferencias son grandes, el logaritmo es mejor medida de discrepancia que la
diferencia relativa. Las discrepancias se promedian respecto a la verdadera distribución de
la observación y la medida (11.22) puede demostrarse que es siempre positiva. Una manera
alternativa de escribir esta medida es
KL(f(y|Mi), f(y)) = Ey log f(y|Mi) − Ey log f(y)
donde Ey indica obtener la esperanza bajo la verdadera distribución de y. Como esta
cantidad es siempre positiva, minimizaremos la distancia entre la verdadera distribución y
348 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
f(y|Mi) haciendo el primer término lo más pequeño posible. Puede demostrarse que (Akaike,
1985) que esto equivale a minimizar
AIC = −2L(Mi) + 2i = D(Mi) + 2i (11.23)
es decir, minimizamos la suma de la desviación del modelo, que disminuirá si introducimos
más parámetros, y el número de parámetros en el modelo, que tiende a corregir por este
efecto.
11.6.2 El criterio BIC
Una ventaja del enfoque bayesiano es que el problema de selección de modelos puede abor-
darse con los mismos principios que el contraste de hipótesis. Supongamos que en un proble-
ma estadístico dudamos entre un conjunto de m modelos posibles para los datos observados
M1, . . . , Mm. Si consideramos los modelos como posibles hipótesis sobre los datos, calculare-
mos sus probabilidades a posteriori, M1, . . . , Mm y seleccionaremos el modelo con máxima
probabilidad a posteriori. Estas probabilidades vienen dadas por :
P (Mj|X) =
f (X|Mj)
f (X)
P (Mj) j = 1, ..., m (11.24)
donde P (Mj) es la probabilidad a priori del modelo j. Esta ecuación indica cómo pasamos
de la probabilidad a priori a la posteriori para cada modelo: se calcula las verosimilitud
marginal de los datos para ese modelo, f (X|Mj) ,donde el nombre marginal proviene de que
esta función no depende de los valores de los parámetros, y se compara con la verosimilitud
marginal promedio para todos los modelos, f (X). En efecto, llamemos θj a los parámetros
del modelo Mj. La distribución f (X|Mj) viene dada por
f (X|Mj) =
Z
f (X|θj,Mj) p (θj|Mj) dθj
=
Z
Lj (X|θj) p (θj|Mj) dθj
es decir, se obtiene promediando la verosimilitud del modelo, Lj (X|θ) , por las probabilidades
a priori de los parámetros, p (θj|Mj) . Por lo tanto, esta función expresa la verosimilitud de
los datos dado el modelo, sea cual sea el valor de los parámetros, lo que justiÞca el nombre
de verosimilitud marginal. El denominador de (11.24) es
f (X) =
X
f (X|Mj) P (Mj)
y puede interpretarse como una media ponderada de las verosimilitudes marginales, siendo
los coeÞcientes de la ponderación las probabilidades a priori.
La conclusión que se desprende de (11.24) es que seleccionar el modelo con mayor prob-
abilidad a posteriori equivale a seleccionar el modelo donde el producto de la verosimilitud
marginal f (X|Mj) y de la prior del modelo P (Mj) sea máxima.
11.6. SELECCIÓN DE MODELOS 349
Las expresiones anteriores se derivan de las reglas del cálculo de probabilidades y son
exactas. Es posible obtener una expresión aproximada de f (X|Mj) si suponemos que la
distribución a posteriori del vector de parámetros es asintóticamente normal multivariante.
Supongamos que para el modelo j esta distribución a posteriori es :
p (θj|X, Mj) = (2π)−pj/2
|Sj|−1/2
exp
½
−1/2
³
θj − bθj
´0
S−1
j
³
θj − bθj
´¾
donde pj es la dimensión del vector de parámetros del modelo Mj, y bθj es el estimador MV
de θj y Sj la matriz de covarianzas de este estimador. Por el teorema de Bayes:
p (θj|X, Mj) =
lj (θj|X) p (θj|Mj)
f (X|Mj)
donde lj (θj|X) es la verosimilitud, p (θj|Mj) la probabilidad a priori para los parámetros
y f (X|Mj) la verosimilitud marginal. Esta expresión es cierta para cualquier valor del
parámetro y en particular para θj = bθj. Tomando logaritmos y particularizando esta expre-
sión para bθj, podemos escribir
log f (X|Mj) = Lj
³
bθj|X
´
+ log p
³
bθj|Mj
´
−
·
−(pj/2) log 2π −
1
2
log |Sj|
¸
(11.25)
La matriz Sj de covarianzas del estimador de los parámetros tiene términos habitualmente
del tipo a/n. Escribiendo
Sj ≡
1
n
Rj
entonces |Sj| = n−pj
|Rj| y sustituyendo en (11.25):
log f (X|Mj) = Lj
³
bθj|X
´
+ log p
³
bθj|Mj
´
+
pj
2
log 2π −
pj
2
log n +
1
2
log |Rj| .
Vamos a aproximar esta expresión para n grande. Para ello vamos a mantener en esta
expresión únicamente los términos que crecen con n y despreciar los que tomen un valor
acotado que no crece con n. El primer término es el valor del soporte en el máximo que es
la suma de n términos para las n observaciones y será de orden n. El segundo es el valor
de la prior y, para n grande, podemos suponer que va a ser aproximadamente constante con
relación a la verosimilitud. El tercer término, (pj/2) log 2π es de orden constante. El cuarto
crece con n y el último, por construcción, esta acotado. En consecuencia, para n grande
podemos escribir:
log f (X|Mj) ' Lj
³
bθj|X
´
−
pj
2
log n.
Esta expresión fue obtenida por primera vez por Schwarz (1978), que propuso escoger
el modelo que conduzca a un valor máximo de esta cantidad. Una forma equivalente de
350 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
este criterio, llamada criterio BIC (Bayesian Information Criterion), es xalcular para cada
modelo la cantidad:
BIC(Mj) = −2Lj
³
bθj|X
´
+ pj log n
y seleccionar aquel modelo para el cual esta cantidad es mínima. De esta manera este criterio
pondera la desviación del modelo, medida por −2Lj
³
bθj|X
´
, con el número de parámetros.
Si introducimos más parámetros en el modelo mejorará el ajuste, con lo que aumentará
el soporte o disminuirá la desviación, y este efecto queda compensado por el aumento del
número de parámetros que aparece en pj log n.
11.6.3 Relación entre el BIC y EL AIC
La forma general de estos dos criterios de selección es
D(Mj) + pjg(n)
donde D(Mj) es la desviación del modelo medida por −2Lj
³
bθj|X
´
, y pj el número de
parámetros. La constante que multiplica al número de parámetros es distinta en ambos
criterios En el criterio BIC esta constante es log n, mientras que en el AIC es 2. Por tanto,
el criterio BIC seleccionará modelos más parsimoniosos, es decir, con menor número de
parámetros que el AIC. Otros autores han propuesto otros criterios que corresponden a
distintas funciones g(n)
La diferencia entre estos criterios se explica por su distinto objetivo El criterio BIC
trata de seleccionar el modelo correcto, con máxima probabilidad a posteriori, y puede
demostrarse que es un criterio consitente, de manera que la probabilidad de seleccionar el
modelo correcto tiende a uno cuando crece el tamaño muestral. El criterio AIC no pretende
seleccionar el modelo correcto, ya que admite que este modelo verdadero puede no estar entre
los estimados, y trata de obtener el modelo que proporcione mejores predicciones entre los
existentes. Puede demostrarse que, en condiciones generales de que el modelo verdadero
puede aproximarse arbitariamente bien con los estimados al crecer el tamaño muestral, el
criterio AIC es eÞciente, en el sentido de escoger el modelo que proporciona, en promedio,
mejores predicciones. Sin embargo, en muestras pequeñas o medianas, el criterio AIC tiende
a seleccionar modelos con más parámetros de los necesarios.
11.7 Lecturas complementarias
Una buena introducción al algoritmo EM se encuentra en Tanner (1991) y con ejemplos
multivariantes en Flury (1997). Versiones más amplias se encuentran en Gelman et al (1995)
y Little y Rubin (1987). El libro de Schafer (1997) contiene numerosos ejemplos de su
aplicación con datos multivariantes.
La estimación de mezclas se estudia con detalle en Titterington at al (1987), y varios
de los textos de cluster, que comentaremos en el capítulo 15, incluyen el estudio de es-
tas distribuciones. La estimación robusta puede consultarse en Hampel at al (1986) and
11.7. LECTURAS COMPLEMENTARIAS 351
Rousseew and Leroy (1987). La estimación Bayesiana multivariante en Bernardo y Smith
(1994), O’Hagan (1994) y Press (1989). Los algoritmos de cadenas de Markov (métodos
MC2
) en Gamerman (1997), Carlin y Louis (1996) y Robert y Casella (1999). Los contrastes
bayesianos en Berger (1985). La literatura de selección de modelos es muy amplia. Algunas
referencias básicas son Akaike(1974), Miller (1990) y McQuarrie y Tsai (1998), Chow (1981)
y Lanterman (2001).
APÉNDICE 11.1.CONVERGENCIA DEL ALGORITMO EM
Sea
L∗
C(θ|bθ(i)) = E
h
LC(θ|Y, Z)|bθ(i), Y
i
la función que maximizamos en el paso M del algoritmo. Vamos a demostrar que cuando
bθ(i) = bθ(i+1) = bθF entonces
·
∂L(θ|Y)
∂θ
¸
θ=bθF
= 0
y bθF es el estimador MV. Para ello observemos que
L∗
C(θ|bθ(i)) =
Z
log f(Z|Y, θ)f(Z|Y,bθ(i))dZ+L(θ|Y)
y si maximizamos esta expresión derivando e igualando a cero se obtiene:
∂L∗
C(θ|bθ(i))
∂θ
=
Z
∂f(Z|Y, θ)
∂θ
f(Z|Y,bθ(i))
f(Z|Y, θ)
dZ+L0
(θ|Y) =0,
con lo que tendremos que bθ(i+1) veriÞca
Z ·
∂f(Z|Y, θ)
∂θ
¸
bθ(i+1)
f(Z|Y,bθ(i))
f(Z|Y, bθ(i+1))
dZ+L0
(bθ(i+1)|Y) =0.
Cuando bθ(i) = bθ(i+1) = bθF el primer miembro es cero, ya que se reduce a
Z ·
∂f(Z|Y, θ)
∂θ
¸
bθ(i+1)
dZ
que es siempre cero, como se comprueba derivando en la ecuación
R
f(Z|Y, θ)dZ =1. Por
tanto tendrá que veriÞcarse que
L0
(bθ(i+1)|Y) =0
que implica que bθ(i+1) es el estimador MV.
APENDICE 11.2: ESTIMACIÓN BAYESIANA
352 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
Demostraremos primero que la distribución marginal a posteriori de V−1
con la prior de
referencia es una Wishart invertida. Integrando en la conjunta
p(V−1
|X) =
Z
C1|V−1
|(n−p−1)/2
exp
½
−
1
2
trV−1
S(µ)n
¾
dµ,
y utilizando S(µ)n = nS + n(¯x − µ)(¯x − µ)0
, podemos escribir
p(V−1
|X) = C1|V−1
|(n−p−2)/2
exp
½
−
1
2
trV−1
nS
¾
A
donde
A =
Z
|V|−1/2
exp
n
−
n
2
(¯x − µ)0
V−1
(¯x − µ)
o
dµ,
que con las constantes adecuadas integra a uno. Por tanto, podemos concluir que la dis-
tribución a posteriori para V−1
es una distribución Wishart Wp(n − 1, S−1
/n).
Obtendremos ahora las distribuciones en el caso de prioris informativas. La verosimilitud
de los parámetros de la normal tiene la forma del producto de una normal por una Wishart,
con lo que la prior conjugada a este problema debe ser de la forma:
p(µ, V−1
) ∝ |V−1
|(m0−p)/2
exp
©
−(1/2)
£
trV−1
M−1
m0 + n0(µ − µ0)0
V−1
(µ − µ0)
¤ª
.
De acuerdo con esta distribución a priori, p(µ|V−1
) es una normal multivariante con
media µ0 y varianza V|n0,
p(µ|V−1
) ∝ |V−1
|1/2
exp
©
−1/2
£
n0(µ − µ0)0
V−1
(µ − µ0)
¤ª
mientras que p(V−1
) sigue una distribución Wishart Wp(m0,M/m0)
p(V−1
) ∝ |V−1
|(m0−p−1)/2
exp
©
−(1/2)trV−1
M−1
m0
ª
.
La distribución posterior será
p(µ, V−1
|X) = C|V−1
|(n+m0−p)/2
exp {−E/2} ,
donde el exponente, E, puede escribirse:
E = tr(V−1
(M−1
m0 + nS)) + n(¯x − µ)V−1
(¯x − µ)0
+ n0(µ − µ0)0
V−1
(µ − µ0).
Vamos a expresar de otra forma las formas cuadráticas. Para ello utilizaremos el siguiente
resultado general:
Lemma 2 Si A y B son matrices no singulares, se veriÞca que
(z − a)0
A(z − a) + (z − b)0
B(z − b) = (z − c)0
D(z − c) + (a − b)0
H(a − b)
donde c = (A + B)−1
(Aa + Bb), D = (A + B) y H = (A−1
+B−1
)−1
. Además se veriÞca
|A|
1
2 |B|
1
2 = |A + B|
1
2 |A−1
+B−1
|−1
2
11.7. LECTURAS COMPLEMENTARIAS 353
Comencemos demostrando que los dos miembros de las formas cuadráticas son idénticos.
El primer miembro puede escribirse
z0
(A + B)z − 2z0
(Aa + Bb) + a0
Aa + b0
Bb
y llamando c = (A + B)−1
(Aa + Bb),también puede escribirse
z0
(A + B)z − 2z0
(A + B)c + c0
(A + B)c − c0
(A + B)c + a0
Aa + b0
Bb
que es igual a
(z − c)0
(A + B)(z − c) + a0
Aa + b0
Bb − (a0
A + b0
B)(A + B)−1
(Aa + Bb)
La primera parte de esta expresión es la primera forma cuadrática del segundo miembro
del Lemma. Operando en la segunda parte, resulta
a0
(A − A(A + B)−1
A)a + b0
(B − B(A + B)−1
B)b − 2b0
B(A + B)−1
Aa
y utilizando que, según la sección 2.3.4:
(A−1
+B−1
)−1
= A − A(A + B)−1
A = B − B(A + B)−1
B = B(A + B)−1
A
resulta que la segunda forma cuadrática es
(a − b)0
(A−1
+B−1
)−1
(a − b)
Para comprobar la segunda parte, como (A−1
+B−1
)−1
= B(A + B)−1
A, tenemos que
|A−1
+B−1
|−1
= |B||A + B|−1
|A| con lo que |A||B| = |A + B||A−1
+B−1
|−1
Utilizando este lema, la suma de (¯x − µ)V−1
(¯x − µ)0
y n0(µ − µ0)0
V−1
(µ − µ0) puede
escribirse como:
(n + n0)(µ − µp)0
V−1
(µ − µp) +
nn0
n + n0
(¯x − µ0)V−1
(¯x − µ0)
donde
µp =
n0µ0 + n¯x
n0 + n
Con estos resultados la posterior puede descomponerse como producto de p(µ|V−1
X)
por p(V−1
|X). La primera distribución es la de la media a posteriori dada la varianza, que
es normal multivariante
p(µ|V−1
X) = c|V−1
|1/2
exp
©
−1/2
£
(n + n0)(µ − µp)0
V−1
(µ − µp)
¤ª
.
y la segunda es la distribución marginal a posteriori de la matriz de precisión, p(V−1
|X),
dada por
p(V−1
|X) = C|V−1
|(n+m0−p−1)/2
exp
©
−1/2(trV−1
M−1
p )
ª
donde
M−1
p = M−1
m0 + nS+
nn0
n + n0
(¯x − µ0)(¯x − µ0)0
y representa una distribución de Wishart Wp(n + m0,Mp).
354 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
Capítulo 12
ANÁLISIS FACTORIAL
12.1 INTRODUCCIÓN
El análisis factorial tiene por objeto explicar si un conjunto de variables observadas por
un pequeño número de variables latentes, o no observadas, que llamaremos factores. Por
ejemplo, supongamos que hemos tomado veinte medidas físicas del cuerpo de una persona:
estatura, longitud del tronco y de las extremidades, anchura de hombros, peso, etc. Es
intuitivo que todas estas medidas no son independientes entre sí, y que conocidas algunas
de ellas podemos prever con poco error las restantes. Una explicación de este hecho es que
las dimensiones del cuerpo humano dependen de ciertos factores, y si estos fuesen conocidos
podríamos prever con pequeño error los valores de las variables observadas. Como segundo
ejemplo, supongamos que estamos interesados en estudiar el desarrollo humano en los países
del mundo, y que disponemos de muchas variables económicas, sociales y demográÞcas, en
general dependientes entre sí, que están relacionadas con el desarrollo. Podemos pregun-
tarnos si el desarrollo de un país depende de un pequeño número de factores tales que,
conocidos sus valores, podríamos prever el conjunto de las variables de cada país. Como
tercer ejemplo, supongamos que medimos con distintas pruebas la capacidad mental de un
individuo para procesar información y resolver problemas. Podemos preguntarnos si existen
unos factores, no directamente observables, que explican el conjunto de resultados observa-
dos. El conjunto de estos factores será lo que llamamos inteligencia y es importante conocer
cuántas dimensiones distintas tiene este concepto y cómo caracterizarlas y medirlas. El
análisis factorial surge impulsado por el interés de Karl Pearson y Charles Sperman en com-
prender las dimensiones de la inteligencia humana en los años 30, y muchos de sus avances
se han producido en el área de la psicometría.
El análisis factorial esta relacionado con los componentes principales, pero existen ciertas
diferencias. En primer lugar, los componentes principales se construyen para explicar las
varianzas, mientras que los factores se construyen para explicar las covarianzas o correlaciones
entre las variables. En segundo lugar, componentes principales es un herramienta descriptiva,
mientras que el análisis factorial presupone un modelo estadístico formal de generación de
la muestra dada.
355
356 CAPÍTULO 12. ANÁLISIS FACTORIAL
12.2 EL MODELO FACTORIAL
12.2.1 Hipótesis básicas
Supondremos que observamos un vector de variables x, de dimensiones (p × 1), en elemen-
tos de una población. El modelo de análisis factorial establece que este vector de datos
observados se genera mediante la relación:
x = µ + Λf + u (12.1)
donde:
1. f es un vector (m × 1) de variables latentes o factores no observadas. Supondremos
que sigue una distribución Nm(0, I), es decir los factores son variables de media cero e
independientes entre sí y con distribución normal.
2. Λ es una matriz (p × m) de constantes desconocidas (m < p). Contiene los coeÞcientes
que describen como los factores, f, afectan a las variables observadas, x, y se denomina
matriz de carga.
3. u es un vector (p × 1) de perturbaciones no observadas. Recoge el efecto de todas
las variables distintas de los factores que inßuyen sobre x. Supondremos que u tiene
distribución Np(0, ψ) donde ψ es diagonal, y que las perturbaciones están incorreladas
con los factores f.
Con estas tres hipótesis deducimos que:
(a) µ es la media de las variables x, ya que tanto los factores como las perturbaciones
tienen media cero;
(b) x tiene distribución normal, al ser suma de variables normales, y llamando V a su
matriz de covarianzas
x ∼Np(µ, V).
La ecuación (12.1) implica que dada una muestra aleatoria simple de n elementos generada
por el modelo factorial, cada dato xij puede escribirse como:
xij = µj + λj1f1i + ... + λjmfmi + uij i = 1, ..., n j = 1, ..., p
que descompone xij, el valor observado en el individuo i de la variable j, como suma de
m + 2 términos. El primero es la media de la variable j, µj, del segundo al m + 1 recogen
el efecto de los m factores, y el último es una perturbación especíÞca de cada observación,
uij. Los efectos de los factores sobre xij son el producto de los coeÞcientes λj1, ..., λjm, que
dependen de la relación entre cada factor y la variable j, (y que son los mismos para todos
los elementos de la muestra), por los valores de los m factores en el elemento muestral i,
f1i, ..., fmi. Poniendo juntas las ecuaciones para todas las observaciones, la matriz de datos,
X, (n × p), puede escribirse como:
X = 1µ0
+ FΛ
0
+U
12.2. EL MODELO FACTORIAL 357
donde 1 es un vector n × 1 de unos, F es una matriz (n × m) que contiene los m factores
para los n elementos de la población, Λ0
es la transpuesta de la matriz de carga (m × p)
cuyos coeÞcientes constantes relacionan las variables y los factores y U es una matriz (n×p)
de perturbaciones.
12.2.2 Propiedades
La matriz de carga Λ contiene las covarianzas entre los factores y las variables observadas.
En efecto, la matriz de covarianzas (p × m) entre las variables y los factores se obtiene
multiplicando (12.1) por f0
por la derecha y tomando esperanzas:
E
£
(x − µ)f0¤
= ΛE [ff0
] + E [uf0
] = Λ
ya que, por hipótesis, los factores están incorrelados (E [ff0
] = I) y tienen media cero y están
incorrelados con las perturbaciones (E [uf0
] = 0). Esta ecuación indica que los términos
λij de la matriz de carga, Λ, representan la covarianza entre la variable xi y el factor fj,
y, al tener los factores varianza unidad, son los coeÞcientes de regresión cuando explicamos
las variables observadas por los factores. En el caso particular en que las variables x estén
estandarizadas, los términos λij coeÞcientes son también las correlaciones entre las variables
y los factores.
La matriz de covarianzas entre las observaciones veriÞca, según (12.1):
V = E
£
(x − µ)(x − µ)0¤
= ΛE [ff0
] Λ0
+ E [uu0
]
ya que E[fu0
] = 0 al estar incorrelados los factores y el ruido. Entonces, se obtiene la
propiedad fundamental:
V = ΛΛ0
+ ψ, (12.2)
que establece que la matriz de covarianzas de los datos observados admite una descomposición
como suma de dos matrices:
(1) La primera, ΛΛ0
, es una matriz simétrica de rango m < p. Esta matriz contiene la
parte común al conjunto de las variables y depende de las covarianzas entre las variables y
los factores.
(2) La segunda, ψ, es diagonal, y contiene la parte especíÞca de cada variable, que es
independiente del resto.
Esta descomposición implica que las varianzas de las variables observadas pueden de-
scomponerse como:
σ2
i =
mX
j=1
λ2
ij + ψ2
i , i = 1, . . . , p.
donde el primer término es la suma de los efectos de los factores y el segundo el efecto de la
perturbación. Llamando
h2
i =
mX
j=1
λ2
ij,
358 CAPÍTULO 12. ANÁLISIS FACTORIAL
a la suma de los efectos de los factores que llamaremos comunalidad, tenemos que
σ2
i = h2
i + ψ2
i , i = 1, . . . , p. (12.3)
Esta igualdad puede interpretarse como una descomposición de la varianza en:
Varianza observada = Variabilidad común + Variabilidad especíÞca
(Comunalidad)
que es análoga a la descomposición clásica de la variabilidad de los datos en una parte
explicada y otra no explicada que se realiza en el análisis de la varianza. En el modelo
factorial la parte explicada es debida a los factores y la no explicada al ruido o componente
aleatorio. Esta relación es la base del análisis que presentamos a continuación.
Ejemplo 12.1 Supongamos que tenemos tres variables generadas por dos factores. La ma-
triz de covarianzas debe veriÞcar


σ11 σ12 σ13
σ21 σ22 σ23
σ31 σ32 σ33

 =


λ11 λ12
λ21 λ22
λ31 λ32


·
λ11 λ21 λ31
λ12 λ22 λ32
¸
+


ψ11 0 0
0 ψ22 0
0 0 ψ33


Esta igualdad proporciona 6 ecuaciones distintas (recordemos que al ser V simétrica sólo
tiene 6 términos distintos). La primera será:
σ11 = λ2
11 + λ2
12 + ψ11
Llamando h2
1 = λ2
11 + λ2
12 a la contribución de los dos factores en la variable 1. Las seis
ecuaciones son :
σii = h2
i + ψ2
i i = 1, 2, 3
σij = λi1λj1 + λi2λj2 i = 1, 2, 3
i 6= j
12.2.3 Unicidad del modelo
En el modelo factorial ni la matriz de carga, Λ, ni los factores, f, son observables. Esto plantea
un problema de indeterminación: dos representaciones (Λ, f) y (Λ∗
, f∗
) serán equivalentes si
Λf = Λ∗
f∗
Esta situación conduce a dos tipos de indeterminación.
(1) Un conjunto de datos puede explicarse con la misma precisión con factores incorrelados
o correlados.
(2) Los factores no quedan determinados de manera única.
Vamos a analizar estas dos indeterminaciones. Para mostrar la primera, si H es cualquier
matriz no singular, la representación (12.1) puede también escribirse como
x = µ + ΛHH−1
f + u (12.4)
12.2. EL MODELO FACTORIAL 359
y llamando Λ∗
= ΛH a la nueva matriz de carga, y f∗
= H−1
f a los nuevos factores:
x = µ + Λ∗
f∗
+ u, (12.5)
donde los nuevos factores f∗
tienen ahora una distribución N
¡
0, H−1
(H−1
)0¢
y, por lo tanto,
están correlados. Análogamente, partiendo de factores correlados, f ∼ N(0, Vf ), siempre
podemos encontrar una expresión equivalente de las variables mediante un modelo con fac-
tores incorrelados. En efecto, sea A una matriz tal que Vf = AA0
. (Esta matriz siempre
existe si Vf es deÞnida positiva), entonces A−1
Vf (A−1
)0
= I, y escribiendo
x = µ + Λ(A)(A−1
)f + u,
y tomando Λ∗
= ΛA como la nueva matriz de coeÞcientes de los factores y f∗
= A−1
f
como los nuevos factores, el modelo es equivalente a otro con factores incorrelados. Esta
indeterminación se ha resuelto en las hipótesis del modelo tomando siempre los factores
como incorrelados.
En segundo lugar, si H es ortogonal, el modelo x = µ + Λf+u y el x = µ + (ΛH)(H0
f) + u
son indistinguibles. Ambos contienen factores incorrelados, con matriz de covarianzas la
identidad. En este sentido, decimos que el modelo factorial está indeterminado ante rota-
ciones. Esta indeterminación se resuelve imponiendo restricciones sobre los componentes de
la matriz de carga, como veremos en la sección siguiente.
Ejemplo 12.2 Supongamos x = (x1, x2, x3)0
y el modelo factorial M1 siguiente:
x =


1 1
0 1
1 0


·
f1
f2
¸
+


u1
u2
u3


y los factores están incorrelados. Vamos a escribirlo como otro modelo equivalente de factores
también incorrelados. Tomando H = 1√
2
·
1 1
1 −1
¸
, esta matriz es ortogonal, ya que H−1
=
H0
= H. Entonces
x =


1 1
0 1
1 0

 1
√
2
·
1 1
1 −1
¸
1
√
2
·
1 1
1 −1
¸ ·
f1
f2
¸
+ [u] .
Llamando a este modelo, M2, puede escribirse como:
x =



2√
2
0
1√
2
− 1√
2
1√
2
1√
2



·
g1
g2
¸
+ [u]
y los nuevos factores, g, están relacionados con los anteriores, f, por:
·
g1
g2
¸
=
³√
2
´−1
·
1 1
1 −1
¸ ·
f1
f2
¸
360 CAPÍTULO 12. ANÁLISIS FACTORIAL
y son por lo tanto una rotación de los iniciales. Comprobemos que estos nuevos factores
están también incorrelados. Su matriz de varianzas es:
Vg =
³√
2
´−1
·
1 1
1 −1
¸
Vf
·
1 1
1 −1
¸ ³√
2
´−1
y si Vf = I ⇒ Vg = I, de donde se deduce que los modelos M1 y M2 son indistinguibles.
12.2.4 Normalización del modelo factorial
Como el modelo factorial esta indeterminado ante rotaciones la matriz Λ no está identiÞcada.
Esto implica que aunque observemos toda la población, y µ, y V sean conocidos, no podemos
determinar Λ de manera única. La solución para poder estimar esta matriz es imponer
restricciones sobre sus términos. Los dos métodos principales de estimación que vamos a
estudiar utilizan alguna de las dos siguientes normalizaciones:
Criterio 1:
Exigir:
Λ0
m×pΛp×m = D = Diagonal (12.6)
Con esta normalización los vectores que deÞnen el efecto de cada factor sobre las p vari-
ables observadas son ortogonales. De esta manera, los factores además de estar incorrelados
producen efectos lo más distintos posibles en las variables. Vamos a comprobar que esta
normalización deÞne una matriz de carga de manera única. Supongamos primero que ten-
emos una matriz Λ tal que el producto Λ0
Λ no es diagonal. Transformamos los factores con
Λ∗
= ΛH, donde H es la matriz que contiene en columnas los vectores propios de Λ0
Λ.
Entonces:
Λ0∗
Λ∗
= H0
Λ0
ΛH (12.7)
y como H diagonaliza Λ0
Λ la matriz Λ∗
veriÞca la condición (12.6). Veamos ahora que esta es
la única matriz que lo veriÞca. Supongamos que rotamos esta matriz y sea Λ∗∗
= ΛC donde
C es ortogonal. Entonces la matriz Λ∗∗0
Λ∗∗
= C0
Λ0∗
Λ∗
C no será diagonal. Analogamente, si
partimos de una matriz que veriÞca (12.6) si la rotamos dejará de veriÞcar esta condición.
Cuando se veriÞca esta normalización, postmultiplicando la ecuación (12.2) por Λ, podemos
escribir
(V − ψ) Λ = ΛD,
que implica que las columnas de Λ son vectores propios de la matriz V − ψ, que tiene como
valores propios los términos diagonales de D. Esta propiedad se utiliza en la estimación
mediante el método del factor principal.
12.2. EL MODELO FACTORIAL 361
Criterio 2:
Exigir:
Λ0
ψ−1
Λ = D =Diagonal (12.8)
En esta normalización los efectos de los factores sobre las variables, ponderados por las
varianzas de las perturbaciones de cada ecuación, se hacen incorrelados. Como la anterior,
esta normalización deÞne una matriz de carga de manera única. En efecto, supongamos que
Λψ−1
Λ no es diagonal, y transformamos con Λ∗
= ΛH. Entonces:
Λ0∗
ψ−1
Λ∗
= H0
¡
Λ0
ψ−1
Λ
¢
H (12.9)
y como Λ0
ψ−1
Λ es una matriz simétrica y deÞnida no negativa, siempre puede diagonalizarse
si escogemos como H la matriz que contiene en columnas los vectores propios de Λ0
ψ−1
Λ.
Analogamente, si se veriÞca de partida (12.8) y rotamos la matriz de carga esta condición
dejará de veriÞcarse. Esta es la normalización que utiliza la estimación máximo verosímil. Su
justiÞcación es que de esta manera los factores son condicionalmente independientes dados
los datos, como veremos en el apéndice 12.4.
Con esta normalización, postmultiplicando la ecuación (12.2) por ψ−1
Λ, tenemos que
Vψ−1
Λ − Λ = Λ D
y premultiplicando por ψ−1/2
, resulta:
ψ−1/2
Vψ−1
Λ − ψ−1/2
Λ = ψ
−1/2
ΛD
que implica
ψ−1/2
Vψ−1/2
ψ−1/2
Λ = ψ−1/2
Λ (D + I)
y concluimos que la matriz ψ−1/2
Vψ−1/2
tiene vectores propios ψ−1/2
Λ con valores propios
D + I. Esta propiedad se utiliza en la estimación máximo verosímil.
12.2.5 Número máximo de factores
Si sustituimos en (12.2) la matriz teórica de covarianzas, V, por la matriz muestral, S, el
sistema estará identiÞcado si es posible resolverlo de manera única. Para ello existe una
restricción en el número de factores posibles. El número de ecuaciones que obtenemos de
(12.2) es igual al conjunto de términos de S, que es p+p(p−1)/2 = p(p+1)/2. El número de
incógnitas en el segundo término es pm, los coeÞcientes de la matriz Λ, más los p términos de
la diagonal de ψ, menos las restricciones impuestas para identiÞcar la matriz Λ. Suponiendo
que Λ0
ψ−1
Λ debe ser diagonal, esto supone m(m − 1)/2 restricciones sobre los términos de
Λ, .
Para que el sistema este determinado debe haber un número de ecuaciones igual o mayor
que el de incógnitas. En efecto, si existen menos ecuaciones que incógnitas no es posible
362 CAPÍTULO 12. ANÁLISIS FACTORIAL
encontrar una solución única y el modelo no está identiÞcado. Si el número de ecuaciones es
exactamente igual al de incógnitas existirá una solución única. Si existen más ecuaciones que
incógnitas, podremos resolver el sistema en el sentido de los mínimos cuadrados y encontrar
unos valores de los parámetros que minimicen los errores de estimación. Por lo tanto:
p + pm −
m(m − 1)
2
≤
p(p + 1)
2
que supone:
p + m ≤ p2
− 2pm + m2
,
es decir
(p − m)2
1 p + m.
El lector puede comprobar que esta ecuación implica que, cuando p no es muy grande
(menor de 10) aproximadamente el número máximo de factores debe ser menor que la mitad
del número de variables menos uno. Por ejemplo, el número máximo de factores con 7 vari-
ables es 3. Esta es la regla que se obtiene si escribimos la desigualdad anterior despreciando
el término de las restricciones sobre los elementos de Λ.
12.3 EL MÉTODO DEL FACTOR PRINCIPAL
El método del factor principal es un método para estimar la matriz de carga basado en
componentes principales. Evita tener que resolver las ecuaciones de máxima verosimilitud,
que son más complejas. Tiene la ventaja de que la dimensión del sistema puede identiÞcarse
de forma aproximada. Se utiliza en muchos programas de ordenador por su simplicidad. Su
base es la siguiente: supongamos que podemos obtener una estimación inicial de la matriz
de varianzas de las perturbaciones bψ. Entonces, podemos escribir
S − bψ = ΛΛ0
, (12.10)
y como S − ˆψ es simétrica, siempre puede descomponerse como:
S − bψ = HGH0
= (HG1/2
)(HG1/2
)0
(12.11)
donde H es cuadrada de orden p y ortogonal, G es también de orden p, diagonal y contiene
las raíces características de S − bψ. El modelo factorial establece que G debe ser diagonal
del tipo:
G =
·
G1m×m Om×(p−m)
O(p−m)×m O(p−m)×(p−m)
¸
ya que S − bψ tiene rango m. Por tanto, si llamamos H1 a la matriz p × m que contiene
los vectores propios asociados a los valores propios no nulos de G1 podemos tomar como
estimador de Λ la matriz p × m:
bΛ = H1G
1/2
1 (12.12)
12.3. EL MÉTODO DEL FACTOR PRINCIPAL 363
con lo que resolvemos el problema. Observemos que la normalización resultante es:
bΛ0bΛ = G
1/2
1 H0
1H1G
1/2
1 = G1 = Diagonal (12.13)
ya que los vectores propios de matrices simétricas son ortogonales, por lo que H0
1H1 = Im.
Por tanto, con este método se obtienen estimadores de la matriz bΛ con columnas ortogonales
entre sí.
En la práctica la estimación se lleva a cabo de forma iterativa como sigue:
1. Partir de una estimación inicial de bΛi o de bψi mediante bψi = diag
³
S−bΛbΛ0
´
.
2. Calcular la matriz cuadrada y simétrica Qi = S−bψi.
3. Obtener la descomposición espectral de Qi de forma
Qi = H1iG1iH0
1i + H2iG2iH0
2i
donde G1i contiene los m mayores valores propios de Qi y H1i sus valores propios.
Elegiremos m de manera que los restantes vectores propios contenidos en G2i sean
todos pequeños y de tamaño similar. La matriz Qi puede no ser deÞnida positiva y
algunos de sus valores propios pueden ser negativos. Esto no es un problema grave si
estos valores propios son muy pequeños y podemos suponerlos próximos a cero.
4. Tomar bΛi+1 = H1iG
1/2
1i y volver a (1). Iterar hasta convergencia, es decir hasta que
kΛn+1 − Λnk < ².
Los estimadores obtenidos serán consistentes pero no eÞcientes, como en el caso de Máx-
ima verosimilitud. Tampoco son invariantes ante transformaciones lineales, como los MV,
es decir, no se obtiene necesariamente el mismo resultado con la matriz de covarianzas y con
la de correlaciones.
Para llevar a la práctica esta idea, debemos especiÞcar cómo obtener el estimador inicial
bψ, problema que se conoce como la estimación de las comunalidades.
12.3.1 Estimación de las comunalidades
Estimar los términos ψ2
i equivale a deÞnir valores para los términos diagonales, h2
i , de ΛΛ0
,
ya que h2
i = s2
i − bψ
2
i . Existen las siguientes alternativas:
1. tomar bψi = 0. Esto equivale a extraer los componentes principales de S. Supone tomar
bh2
i = s2
i (en el caso de correlaciones bh2
i = 1 ), que es claramente su valor máximo, por
lo que podemos comenzar con un sesgo importante.
2. tomar bψ
2
j = 1/s∗
jj, donde s∗
jj es el elemento diagonal j-ésimo de la matriz de precisión
S−1
. Según el apéndice 3.2 esto equivale a tomar h2
j como:
bh2
j = s2
j − s2
j (1 − R2
j ) = s2
j R2
j , (12.14)
364 CAPÍTULO 12. ANÁLISIS FACTORIAL
donde R2
j es el coeÞciente de correlación múltiple entre xj y el resto de las variables.
Intuitivamente, cuanto mayor sea R2
j mayor será la comunalidad bh2
j . Con este método
comenzamos con una estimación sesgada a la baja de h2
i , ya que bh2
i ≤ h2
i . En efecto,
por ejemplo, suponemos que para la variable x1 el modelo verdadero es
x1 =
mX
j=1
λ1jfj + u1 (12.15)
que está asociado a la descomposición σ2
1 = h2
1 + ψ2
1. La proporción de varianza
explicada es h2
1/σ2
1. Si escribimos la ecuación de regresión
x1 = b2x2 + . . . + bpxp + ²1
sustituyendo cada variable por su expresión en términos de los factores tenemos que:
x1 = b2
³X
λ2jfj + u2
´
+ . . . + bp
³X
λpjfj + up
´
+ ². (12.16)
que conducirá a una descomposición de la varianza σ2
1 = bh2
1 + bψ
2
1. Claramente bh2
1 ≤ h2
1,
ya que en (12.16) forzamos a que aparezcan como regresores además de los factores,
como en (12.15) los ruidos u1, . . . , up de cada ecuación. Además, es posible que un
factor afecte a x1 pero no al resto, con lo que no aparecerá en la ecuación (12.16). En
resumen, la comunalidad estimada en (12.16) será una cota inferior del valor real de la
comunalidad.
Ejemplo 12.3 En este ejemplo mostraremos las iteraciones del algoritmo del factor prin-
cipal de forma detallada para los datos de ACCIONES del Anexo I. La matriz de varianzas
covarianzas de estos datos en logaritmos es,
S =


0.13 0.15 −0.19
0.15 0.13 −0.03
−0.19 −0.03 0.16


Para estimar la matriz de cargas realizamos los pasos del algoritmo del factor principal
descritos anteriormente. Antes de empezar el algoritmo tenemos que Þjar la cota para decidir
la convergencia . Fijaremos un ε grande, 0.05, de forma que en pocas iteraciones el algoritmo
converja a pesar de los errores acumulados por el redondeo.
Paso 1. Tomando la segunda alternativa para la estimación inicial de las comunalidades diag(bψ
2
i ) =
1/s∗
jj. donde s∗
jj es el elemento j-ésimo de la matriz S−1
S−1
=


52.094 −47.906 52.88
−47.906 52.094 −47.12
52.88 −47.12 60.209


bψ
2
i =


1/52.094 0 0
0 1/52.094 0
0 0 1/60.209

 =


0.019 0 0
0 0.019 0
0 0 0.017


12.3. EL MÉTODO DEL FACTOR PRINCIPAL 365
Paso 2. Calculamos la matriz cuadrada y simétrica Qi = S−bψi
Qi =


0.13 0.15 −0.19
0.15 0.13 −0.03
−0.19 −0.03 0.16

 −


0.019 0 0
0 0.019 0
0 0 0.017

 =


0.111 0.15 −0.19
0.15 0.111 −0.03
−0.19 −0.03 0.143


Paso 3. Descomposición espectral de Qi y separación en dos términos H1iG1iH0
1iy H2iG2iH0
2i.
Los valores propios de Qi son 0.379, 0.094, y −0.108. Observemos que uno de ellos es
negativo, con lo que la matriz no es deÞnida positiva. Como hay un valor propio mucho
mayor que los demás tomaremos un único factor. Esto supone la descomposición


0.111 0.15 −0.19
0.15 0.111 −0.03
−0.19 −0.03 0.143

 =


−0.670
−0.442
0.596

 × 0.379 ×


−0.670
−0.442
0.596


0
+
+


−0.036 0.741
−0.783 −0.438
−0.621 0.508


·
0.094 0
0 −0.108
¸


−0.036 0.741
−0.783 −0.438
−0.621 0.508


0
Paso 4. Calculamos bΛi+1 = H1iG
1/2
1i
bΛi+1 =


−0.670
−0.442
0.596

 ×
√
0.379 =


−0.412
−0.272
0.367


Esta es la primera estimación de la matriz de carga. Vamos a iterar para mejorar esta
estimación. Para ello volvemos al paso 1.
Paso 1. Estimamos los términos de la diagonal de bψi mediante bψi = diag
³
S−bΛbΛ0
´
bψi = diag





0.13 0.15 −0.19
0.15 0.13 −0.03
−0.19 −0.03 0.16

 −


−0.412
−0.272
0.367


£
−0.412 −0.272 0.367
¤



=


0.180 0 0
0 0.056 0
0 0 0.0253


Paso 2. Calculamos la matriz cuadrada y simétrica Qi = S−bψi
Qi =


0.13 0.15 −0.19
0.15 0.13 −0.03
−0.19 −0.03 0.16

 −


0.180 0 0
0 0.056 0
0 0 0.0253

 =


−0.05 0.15 −0.19
0.15 0.074 −0.03
−0.19 −0.03 0.135


366 CAPÍTULO 12. ANÁLISIS FACTORIAL
Paso 3. Descomposición espectral de Qi = H1iG1iH0
1i + H2iG2iH0
2i


−0.05 0.15 −0.19
0.15 0.074 −0.03
−0.19 −0.03 0.135

 =


−0.559
−0.450
0.696

 × 0.307 ×


−0.559
−0.450
0.696


0
+
+


0.081 0.825
0.806 −0.385
0.586 0.414


·
0.067 0
0 −0.215
¸


0.081 0.825
0.806 −0.385
0.586 0.414


0
Paso 4. Calculamos bΛi+1 = H1iG
1/2
1i
bΛi+1 =


−0.559
−0.450
0.696

 ×
√
0.307 =


−0.310
−0.249
0.386


comprobamos si se cumple el criterio de convergencia kΛn+1 − Λnk < ².
°
°
°
°
°
°


−0.310
−0.249
0.386

 −


−0.412
−0.272
0.367


°
°
°
°
°
°
= 0.106 ≥ ² = 0.05
volvemos al paso 1 hasta que se cumpla el criterio.
Paso 1. Volvemos a estimar bψi = diag
³
S−bΛbΛ0
´
bψi = diag





0.35 0.15 −0.19
0.15 0.13 −0.03
−0.19 −0.03 0.16

 −


−0.310
−0.249
0.386


£
−. 31 −. 249 . 386
¤



=


0.254 0 0
0 0.068 0
0 0 0.011


Paso 2. Calculamos la matriz cuadrada y simétrica Qi = S−bψi
Qi =


0.13 0.15 −0.19
0.15 0.13 −0.03
−0.19 −0.03 0.16

 −


0.254 0 0
0 0.068 0
0 0 0.011

 =


−0.124 0.15 −0.19
0.15 0.062 −0.03
−0.19 −0.03 0.149


Paso 3. Descomposición espectral de Qi. Indicaremos sólo el primer vector y valor propio


−0.124 0.15 −0.19
0.15 0.062 −0.03
−0.19 −0.03 0.149

 =


−0499
−0.425
0.755

 × 0.291 ×


−0499
−0.425
0.755


0
+ H2iG2iH0
2i
12.3. EL MÉTODO DEL FACTOR PRINCIPAL 367
Paso 4. Calculamos bΛi+1 = H1iG
1/2
1i
bΛi+1 =


−0499
−0.425
0.755

 ×
√
0.291 =


−0.269
−0.229
0.407


comprobamos si se cumple el criterio de convergencia
°
°
°ˆΛn+1 − ˆΛn
°
°
° < ².
°
°
°
°
°
°


−0.269
−0.229
0.407

 −


−0.310
−0.249
0.386


°
°
°
°
°
°
= 0.05 ≥ ² = 0.05
El criterio de convergencia se ha cumplido y el modelo con los parámetros estimados es:
x =


−0.269
−0.229
0.407

 f1 +


u1
u2
u3




u1
u2
u3

 ∼ N3




0
0
0

 ,


0.254 0 0
0 0.068 0
0 0 0.011




Observemos que la expresión del factor obtenido es bastante distinta a la del primer
componente principal que se obtuvo en el ejercicio 5.1
Ejemplo 12.4 Para la base de datos de INVEST se realizó un análisis descriptivo en el
capítulo 4 en el que se propuso una transformación logarítmica en todas las variables y la
eliminación de EEUU. Sobre este conjunto de datos, una vez estandarizados, vamos a ilustrar
el cálculo de un único factor mediante el método del factor principal (en el ejemplo siguiente
se consideran 2 factores). Vamos a comparar los dos métodos propuestos para inicializar el
algortimo con los datos estandarizados. En el primer caso comenzamos las iteraciones con
bψj = 0 =⇒ bh2
(0) = 1,
y el número de iteraciones antes de converger es 6. El criterio de parada en el paso k del
algoritmo es, en este caso, que la diferencia máxima entre las comunalidades en k y k-1 sea
menor de 0.0001. En la siguiente tabla se presentan las estimaciones de las comunalidades
para los pasos i=0,1,2,3,6.
ˆh2
(0)
ˆh2
(1)
ˆh2
(2)
ˆh2
(3)
ˆh2
(6)
INTER.A 1 0.96 0.96 0.96 0.96
INTER.B 1 0.79 0.76 0.75 0.75
AGRIC. 1 0.94 0.94 0.94 0.94
BIOLO. 1 0.92 0.91 0.91 0.91
MEDIC. 1 0.97 0.97 0.97 0.97
QUIMI. 1 0.85 0.83 0.82 0.82
INGEN. 1 0.9 0.88 0.88 0.88
FÍSICA 1 0.94 0.93 0.93 0.93
368 CAPÍTULO 12. ANÁLISIS FACTORIAL
En negrilla Þgura el resultado Þnal una vez que ha convergido el algoritmo.
Si inicializamos el algoritmo con el segundo método,
bψj = 1 − R2
j =⇒ bh2
(0) = R2
j ,
el número de iteraciones antes de converger es 5. En la siguiente tabla se presentan cómo
varían la estimaciones de las comunalidades para los pasos i=0,1,2,3,5.
ˆh2
(0)
ˆh2
(1)
ˆh2
(2)
ˆh2
(3)
ˆh2
(5)
INTER.A 0.98 0.96 0.96 0.96 0.96
INTER.B 0.82 0.76 0.75 0.75 0.75
AGRIC. 0.95 0.94 0.94 0.94 0.94
BIOLO. 0.97 0.92 0.91 0.91 0.91
MEDIC. 0.98 0.97 0.97 0.97 0.97
QUIMI. 0.85 0.82 0.82 0.82 0.82
INGEN. 0.93 0.89 0.88 0.88 0.88
FÍSICA 0.97 0.94 0.93 0.93 0.93
En negrilla Þgura el resultado Þnal una vez que ha convergido el algoritmo. Al haber inicial-
izado el algoritmo en un punto más próximo al Þnal, la convergencia ha sido más rápida,
y ya en la segunda iteración el resultado es muy próximo al Þnal. Se observa como la esti-
mación inicial de las comunalidades, ˆh2
(0), es cota superior de la estimación Þnal, ˆh2
(5). En
la siguiente tabla presentamos la estimación de ˆΛ(0) de las que partimos en ambos métodos
y la estimación de las cargas Þnales obtenidas.
bψj = 0 bψj = 1 − R2
j Final
Factor1 Factor1 Factor1
INTER.A 0.97 0.97 0.98
INTER.B 0.89 0.87 0.87
AGRIC. 0.97 0.97 0.97
BIOLO. 0.96 0.96 0.95
MEDIC. 0.98 0.98 0.99
QUIMI. 0.92 0.90 0.91
INGEN. 0.94 0.94 0.94
FÍSICA 0.96 0.97 0.97
El segundo método proporciona un ˆΛ(0) más próximo al resultado Þnal, sobre todo para aque-
llas variables donde la variabilidad especíÞca es mayor.
12.3.2 Generalizaciones
El método de estimación del factor principal es un procedimiento de minimizar la función:
F = tr (S − ΛΛ0
− ψ)
2
. (12.17)
12.3. EL MÉTODO DEL FACTOR PRINCIPAL 369
En efecto, esta función puede escribirse
F =
p
X
i=1
p
X
j=1
(sij − vij)2
(12.18)
donde vij son los elementos de la matriz V = ΛΛ0
+ ψ. Ahora bien, por la descomposición
espectral, dada una matriz S cuadrada simétrica y no negativa la mejor aproximación en
el sentido de mínimos cuadrados (12.18) mediante una matriz de rango m, AA0
se obtiene
tomando A = HD1/2
, donde H contiene los vectores propios y D1/2
las raíces de los valores
propios de S (véase el apéndice 5.2), que es lo que hace el método del factor principal.
Harman (1976) ha desarrollado el algoritmo MINRES que minimiza (12.17) más eÞcien-
temente que el método del factor principal y Joreskog (1976) ha propuesto el algoritmo USL
(unweighted least squares), que se basa en derivar en (12.17), obtener bΛ como función de ψ
y luego minimizar la función resultante por un algoritmo no lineal tipo Newton-Raphson.
Ejemplo 12.5 Con los datos de INVEST, utilizados en el ejemplo anterior, presentamos el
análisis factorial para dos factores realizado con un programa de ordenador con el método del
factor principal. La tabla 12.1 indica la variabilidad de ambos factores. El segundo factor
explica poca variabilidad (2%) pero ha sido incluido por tener una clara interpretación.
Factor1 Factor2
Variabilidad 7.18 0.17
Ph 0.89 0.02
Ph
i=1 Ph 0.89 0.91
Tabla 12.1: Variabilidad explicada por los dos primeros factores estimados por el método
del factor principal.
El algoritmo del factor principal se inicia con bψj = 1 − R2
j , y se han realizado 14 itera-
ciones antes de converger a los pesos que se presentan en la tabla 12.2.
Factor1 Factor2 ψ2
i
INTER.A 0.97 -0.06 0.04
INTER.B 0.87 0.16 0.22
AGRIC. 0.97 -0.03 0.06
BIOLO. 0.95 -0.24 0.02
MEDIC. 0.99 -0.10 0.02
QUIMI. 0.91 -0.09 0.17
INGEN. 0.94 0.21 0.06
FÍSICA 0.97 0.17 0.03
Tabla 12.2: Matriz de cargas de los factores y comunalidades
El primer factor es la suma de las publicaciones en todas las bases, nos da una idea
de volumen. Según este factor los países quedarían ordenados en función de su producción
370 CAPÍTULO 12. ANÁLISIS FACTORIAL
cientíÞca. El segundo factor contrapone la investigación en biomedicina con la investigación
en tecnología. Este segundo componente separa a Japón y Reino Unido, países con una gran
producción cientíÞca.
En la Þgura 12.1 se presenta un gráÞco de los paises sobre estos dos factores. El lector
debe comparar estos resultados con los obtenidos en el capítulo 5 (ejercicios 5.6 y 5.10) con
componentes principales.
Factor1
Factor2
-2 -1 0 1
-1.5-1.0-0.50.00.51.01.5
UK
JP
F
G
C
I
AH
S
CH
E
B
D
AU
FI
N
Y
GR
IR
P
Figura 12.1: Representación de los países en el plano formado por los dos primeros factores.
12.4 ESTIMACIÓN MÁXIMO VEROSÍMIL
12.4.1 Estimación MV de los parámetros
Enfoque directo
Las matrices de parámetros pueden estimarse formalmente mediante máxima verosimilitud.
La función de densidad de las observaciones originales es Np(µ, V). Por tanto la verosimilitud
es la estudiada en el capítulo 10. Sustituyendo µ por su estimador, x, la función soporte
para V es:
log(V|X) = −
n
2
log |V| −
n
2
tr
¡
SV−1
¢
, (12.19)
y sustituyendo V por (12.2) la función soporte de Λ y ψ es :
L(Λ, ψ) = −
n
2
¡
log |ΛΛ0
+ ψ| + tr(S(ΛΛ0
+ ψ)−1
¢
. (12.20)
12.4. ESTIMACIÓN MÁXIMO VEROSÍMIL 371
Los estimadores de máxima verosimilitud se obtienen maximizando (12.20) respecto a
las matrices Λ y ψ. Derivando con respecto a estas matrices y tras ciertas manipulaciones
algebraicas que se resumen en el Apéndice 12.1, (vease Anderson, 1984, pp. 557-562) o
Lawley y Maxwell, 1971), se obtienen las ecuaciones:
bψ = diag (S − ˆΛˆΛ
0
) (12.21)
³
bψ
−1/2
(S − I) bψ
−1/2
´ ³
bψ
−1/2
bΛ
´
=
³
bψ
−1/2
bΛ
´
D (12.22)
donde D es la matriz resultado de la normalización
bΛ0 bψ
−1
bΛ = D =diagonal. (12.23)
Estas tres ecuaciones permiten resolver el sistema utilizando un algoritmo iterativo tipo
Newton-Raphson. La solución numérica es a veces difícil porque puede no haber una solu-
ción en la cual bψ sea deÞnida positiva, y es necesario entonces acudir a la estimación con
restricciones. Observemos que (12.22) conduce a una ecuación de valores propios: nos dice
que bψ
−1/2
bΛ contienen los vectores propios de la matriz simétrica
³
bψ
−1/2
(S − I) bψ
−1/2
´
y
que D contiene los valores propios
El algoritmo iterativo para resolver estas ecuaciones es:
1. Partir de una estimación inicial. Si tenemos una estimación bΛi, (i = 1 la primera
vez), por ejemplo por el método del factor principal, se calcula la matriz bψi mediante
bψi = diag
³
S−bΛi
bΛ0
i
´
. Alternativamente, podemos estimar la matriz bψi directamente
por el método del factor principal.
2. Se calcula la matriz cuadrada simétrica Ai = bψ
−1/2
i
³
S−bψi
´
bψ
−1/2
i = bψ
−1/2
Sbψ
−1/2
−
I. Esta matriz pondera los términos de S por su importancia en términos de los
componentes especíÞcos.
3. Se obtiene la descomposición espectral de Ai de forma que
Ai = H1iG1iH0
1i + H2iG2iH0
2i
donde los m mayores valores propios de Ai están en la matriz diagonal (m × m), G1i
y los p − m menores de la G2i y H1i y H2i contienen los correspondientes vectores
propios.
4. Se toma bΛi+1 = bψ
1/2
i H1iG
1/2
1i y se sustituye en la función de verosimilitud, que se
maximiza respecto a ψ. Esta parte es fácil de hacer con un algortimo de optimización
no lineal. Con el resultado obtenido se vuelve a (2), iterando hasta la convergencia.
Puede ocurrir que este algoritmo converja a un máximo local donde algunos de los térmi-
nos de la matriz ψ sean negativos. Esta solución impropia se denomina a veces una solución
372 CAPÍTULO 12. ANÁLISIS FACTORIAL
de Heywood. Los programas existentes cambian entonces esos valores por números positivos
e intentan encontrar otro máximo local, aunque no siempre el algortimo converge.
En el Apéndice 12.1 se comprueba que la estimación MV es invariante ante transforma-
ciones lineales de las variables. En consecuencia, el resultado de la estimación no depende
—como ocurre en componentes principales— del uso de la matriz de covarianzas o de correla-
ciones. Una ventaja adicional del método de máxima verosimilitud es que podemos obtener
las varianzas asintóticas de los estimadores mediante la matriz de información en el óptimo.
Observemos que cuando la matriz bψ tiene los términos diagonales aproximadamente
iguales, la estimación MV conducirá a resultados similares al método del factor principal.
En efecto, sustituyendo en las ecuaciones del estimador MV bψ = kI, ambos métodos utilizan
la misma normalización y la ecuación (12.22) es análoga a la (12.11), que se resuelve en el
método del factor principal.
El algortimo EM
Un procedimiento alternativo para maximizar la verosimilitud es considerar los factores como
valores ausentes y aplicar el algoritmo EM. La función de verosimiltud conjunta de los datos
y los factores puede escribirse f(x1, ..., xn, f1, ..., fn) = f(x1, ..., xn|f1, ..., fn) f(f1, ..., fn). El
soporte para la muestra completa es
log(ψ, Λ|X, F) = −
n
2
log |ψ| −
1
2
X
(xi − Λfi)0
ψ−1
(xi − Λfi) −
1
2
X
fif0
i, (12.24)
donde suponemos que las variables xi tienen media cero, lo que equivale a sustituir la media
por su estimador la media muestral. Observemos que, dados los factores, la estimación de Λ
podría hacerse como una regresión. Por otro lado, dados los parámetros podríamos estimar
los factores, como veremos en la sección 12.7. Para aplicar el algoritmo EM necesitamos:
(1) Paso M: maximizar la verosimilitud completa respecto a Λ y ψ supuesto conocidos
los valores fi de los factores. Esto es fácil de hacer, ya que las Þlas de Λ se obtienen haciendo
regresiones entre cada variable y los factores, y los elementos diagonales de ψ son las varianzas
residuales en estas regresiones.
(2) Paso E: hay que calcular la esperanza de la verosimilitud completa respecto a la dis-
tribución de los fi dados los parámetros. Desarrollando (12.24) se observa que las expresiones
que aparecen en la verosimilitud son la matriz de covarianzas entre los factores y la matriz de
covarianzas entre los factores y los datos. Los detalles de su estimación pueden consultarse
en Bartholomew y Knott (1999, p.49)
12.4.2 Otros métodos de estimación
Como el método de máxima verosimilitud es complicado, se han propuesto otros métodos
aproximados para calcular estimadores con similares propiedades asintóticas pero de cál-
culo más simple. Uno de ellos es el de mínimos cuadrados generalizados que exponemos
a continuación. Para justiÞcarlo, observemos que la estimación MV puede reinterpretarse
como sigue: si no existiesen restricciones sobre V el estimador MV de esta matriz es S y,
sustituyendo esta estimación en (12.19) la función soporte en el máximo es:
−
n
2
log |S| −
n
2
p.
12.4. ESTIMACIÓN MÁXIMO VEROSÍMIL 373
Maximizar la función soporte es equivalente a minimizar con respecto a V la función de
discrepancia obtenida restando del máximo valor anterior el soporte (12.19). La función
obtenida con esta diferencia es:
F =
n
2
tr
¡
SV−1
¢
−
n
2
p − log
¯
¯SV−1
¯
¯
que indica que se desea hacer V tan próximo a S como sea posible, midiendo la distancia entre
ambas matrices por la traza y el determinante del producto SV−1
. Observemos que como
V se estima con restricciones
¯
¯SV−1
¯
¯ ≤ 1 y el logaritmo será negativo o nulo. Centrándonos
en los dos primeros términos, y despreciando el determinante, la función a minimizar es:
F1 = tr
¡
SV−1
¢
− p = tr
¡
SV−1
− I
¢
= tr
£
(S − V) V−1
¤
que minimiza las diferencias entre la matriz S observada y la estimada V, pero dando un
peso a cada diferencia que depende del tamaño de V−1
. Esto conduce a la idea de mínimos
cuadrados generalizados, MCG (GLS en inglés), donde minimizamos
tr
£
(S − V) V−1
¤2
y puede demostrarse que si se itera el procedimiento de MCG se obtienen estimadores
asintóticamente eÞcientes
Ejemplo 12.6 Vamos a ilustrar la estimación MV para los datos de INVEST. Suponiendo
dos factores se obtienen los resultados de las tablas siguientes:
Factor1 Factor2
Variabilidad 6.80 0.53
Ph 0.85 0.06
Ph
i=1 Ph 0.85 0.91
Tabla 12.3: Variabilidad explicada por los dos primeros factores estimados por máxima
verosimilitud.
Factor1 Factor2 ψ2
i
INTER.A 0.95 0.25 0.02
INTER.B 0.85 0.08 0.26
AGRIC. 0.92 0.26 0.07
BIOLO. 0.88 0.45 0.01
MEDIC. 0.93 0.3 0.02
QUIMI. 0.86 0.29 0.17
INGEN. 0.95 0.05 0.09
FÍSICA 1 0 0
Tabla 12.4: Matriz de cargas de los factores
Si comparamos estos resultados con los obtenidos por el método del factor principal (ejer-
cicio 12.5) vemos que el primer factor es similar, aunque aumenta el peso de la física y hay
374 CAPÍTULO 12. ANÁLISIS FACTORIAL
más diferencias relativas entre los pesos de las variables. El segundo factor tiene más cam-
bios pero su interpretación es también similar. Las varianzas de los componentes especíÞcos
presentan pocos cambios con ambos enfoques. Las Þguras 12.2 y 12.3 presentan los pesos y
la proyección de los datos sobre el plano de los factores.
FISICA INTER.A INGEN. MEDIC. AGRIC. BIOLO. QUIMI. INTER.F
0.00.20.40.60.81.0
Factor1
BIOLO. MEDIC. QUIMI. AGRIC. INTER.A INTER.F INGEN. FISICA
0.00.10.20.30.4
Factor2
Figura 12.2: Pesos de los variables de INVEST en los dos factores estimados por MV.
12.5 DETERMINACIÓN DEL NÚMERO DE FAC-
TORES
12.5.1 Contraste de verosimilitud
Supongamos que se ha estimado un modelo con m factores. El contraste de que la descom-
posición es adecuada puede plantearse como un contraste de razón de verosimilitudes:
H0 : V = ΛΛ0
+ψ
H1 : V 6= ΛΛ0
+ψ.
Este contraste recuerda al de esfericidad parcial que estudiamos en el capítulo 10, aunque
existen diferencias porque no exigimos que los componentes especíÞcos tengan igual varianza.
El contraste se deduce con los mismos principios que estudiamos en el capítulo 10. Sea ˆV0
el valor de la matriz de varianzas y covarianzas de los datos estimados bajo H0. Entonces,
12.5. DETERMINACIÓN DEL NÚMERO DE FACTORES 375
Factor1
Factor2
-1 0 1
376 CAPÍTULO 12. ANÁLISIS FACTORIAL
y, por tanto, mide la distancia entre ˆV0 y e S en términos del determinante, −n log
¯
¯
¯S bV−1
0
¯
¯
¯ ,
que es el segundo término de la verosimilitud.
El contraste rechaza H0 cuando λ sea mayor que el percentil 1 − α de una distribución
χ2
g con grados de libertad, g, dados por g = dim(H1) − dim(H0). La dimensión del espacio
paramétrico de H1 es p +
µ
p
2
¶
= p(p + 1)/2, igual al número de elementos distintos de V.
La dimensión de H0 es pm — por la matriz Λ — más los p elementos de ψ, menos m(m− 1)/2
restricciones resultantes de la condición que Λ0
ψ−1
Λ debe ser diagonal. Por tanto:
g = p + p(p − 1)/2 − pm − p + m(m − 1)/2 = (12.28)
= (1/2)
¡
(p − m)2
− (p + m)
¢
Bartlett (1954) ha demostrado que la aproximación asintótica de la distribución χ2
mejora
en muestras Þnitas introduciendo un factor de corrección. Con esta modiÞcación, el test es
rechazar H0 si
(n − 1 −
2p + 4m + 5
6
) ln
|ˆΛˆΛ
0
+ ˆψ|
|S|
> χ2
[((p−m)2
−(p+m))/2]
(1 − α) (12.29)
Generalmente este contraste se aplica secuencialmente: Se estima el modelo con un valor
pequeño, m = m1 (que puede ser m1 = 1) y se contrata H0. Si se rechaza, se reestima con
m = m1 + 1, continuando hasta aceptar H0.
Un procedimiento alternativo, propuesto por Joreskog (1993), que funciona mejor ante
moderadas desviaciones de la normalidad es el siguiente: calcular el estadístico (12.29) para
m = 1, . . . , mmax. Sean X2
1 , . . . , X2
mmax
sus valores y g1, . . . , gmmax sus grados de libertad.
Calcularemos las diferencias X2
m − X2
m+1 y consideramos estas diferencias como valores de
una χ2
con gm − gm+1 grados de libertad. Si el valor obtenido es signiÞcativo aumentamos
el número de factores y procedemos así hasta que no encontremos una mejora signiÞcativa
en el ajuste del modelo.
El contraste (12.27) admite una interesante interpretación. El modelo factorial establece
que la diferencia entre la matriz de covarianzas, S (p × p), y una matriz diagonal de rango
p, ψ, es aproximadamente una matriz simétrica de rango m, ΛΛ0
, es decir:
S−bψ ' bΛbΛ0
.
Premultiplicando y postmultiplicando por bψ
−1/2
se obtiene que la matriz A, dada por:
A = bψ
−1/2
Sbψ
−1/2
− I, (12.30)
debe ser asintóticamente igual a la matriz:
B = bψ
−1/2
bΛbΛ0 bψ
−1/2
, (12.31)
y tener asintóticamente rango m, en lugar de rango p. Se demuestra en el apéndice 12.2
que el contraste (12.27) equivale a comprobar si la matriz A tiene rango m, lo que debe ser
12.5. DETERMINACIÓN DEL NÚMERO DE FACTORES 377
asintóticamente cierto por (12.31), y que el test (12.27) puede escribirse
λ = −n
p
X
m+1
log(1 + di) (12.32)
donde di son las p − m menores raíces características de la matriz A. La hipótesis nula se
rechaza si λ es demasiado grande comparada con la distribución χ2
con (1/2)((p−m)2
−p−m).
En el Apéndice 12.2 se demuestra que este contraste es un caso particular del contraste de
verosimilitud sobre la esfericidad parcial de una matriz que presentamos en 10.6.
Cuando el tamaño muestral es grande y m es pequeño con relación a p, si los datos no
siguen una distribución normal multivariante el contraste conduce generalmente a rechazar
H0. Este es un problema frecuente en contraste de hipótesis con muestras grandes, donde
tendemos a rechazar H0. Por tanto, es necesario a la hora de decidir el número de factores,
diferenciar entre signiÞcatividad práctica y signiÞcatividad estadística, como ocurre en todo
contraste de hipótesis. Este contraste es muy sensible a desviaciones de la normalidad por
lo que en la práctica el estadístico (12.27) se utiliza como medida de ajuste del modelo más
que como un test formal.
12.5.2 Criterios de selección
Una alternativa a los contrastes es plantear el problema como uno de selección de modelos.
Entonces estimaremos el modelo factorial para distinto número de factores, calcularemos la
función soporte en el máximo para cada modelo y, aplicando el criterio de Akaike, elegiremos
aquel modelo donde
AIC(m) = −2L(H0,m) + 2np
sea mínimo. En esta expresión 2L(H0,m) es la función soporte para el modelo que establece
m factores particularizada en los estimadores MV, que viene dada por (12.25), y np es el
número de parámetros en el modelo. Observemos que esta expresión tiene en cuenta que al
aumentar m la verosimilitud de L(H0,m) aumenta, o la desviación −2L(H0,m) disminuye, pero
este efecto se contrapesa con el número de parámetros que aperece penalizando la relación
anterior. Este mismo criterio de selección puede escribirse como minimizar las diferencias
AIC(m) − AIC(H1), donde en todos los modelos restamos la misma cantidad, AIC(H1),
que es el valor del AIC para el modelo que supone que no existe estructura factorial y que
estima la matriz de covarianzas sin restricciones. Entonces la función a minimizar es
AIC∗
(m) = 2(L(H1) − L(H0,m)) − 2g = λ(m) − 2g
donde λ(m) es la diferencia de soportes (12.27), donde en esta expresión bV0 se estima con
m factores, y g es el número de grados de libertad dado por (12.28).
Un criterio alternativo es el BIC presentado en el capítulo 11. Con este criterio en lugar
de penalizar el número de parámetros con 2 lo hacemos con logn. Este criterio aplicado a la
seleccion del modelo factorial mediante las diferencias de soporte es:
BIC(m) = λ(m) − g log n
378 CAPÍTULO 12. ANÁLISIS FACTORIAL
Ejemplo 12.7 Aplicaremos el método de máxima verosimilitud a los datos de INVEST, para
realizar un contraste sobre el número de factores. Si basamos el contraste en la expresión
(12.27) obtenemos la siguiente tabla,
m λ gm p − valor AIC BIC
1 31.1 20 0.053 −8.9 −29.79
2 11.73 13 0.55 −14.27 −27.84
3 6.49 7 0.484 −7.51 −14.82
4 5.27 2 0.072 1.27 −0, 73
por ejemplo, si m = 1 el número de grados de libertad es (1/2) ((7)2
− (9)) = 20. Vemos que
para α = 0.05 no podemos rechazar la hipótesis nula de que un factor es suÞciente. Sin
embargo, el criterio de Akaike indica que el mínimo se obtiene con dos factores, y el criterio
BIC conÞrma, por poca diferencia, la elección de un factor.
Como el p−valor del contraste anterior está en el límite vamos a comparar este test con
el procedimiento propuesto por Joreskog. El primer paso es utilizar la corrección propuesta
por Barlet, que realizamos multiplicando los estadísticos χ2
m por (n−1−(2p+4m+5)/6)/n.
Por ejemplo, el estadístico corregido para p = 1 es,
X2
1 = ((20 − 1 − (2 ∗ 8 + 4 ∗ 1 + 5)/6)/20) ∗ 31.1 = 23.06
en la siguiente tabla presentamos los resultados.
p X2
m X2
m − X2
m+1 gm − gm+1 p − valor
1 23.06 14.76 7 0.039
2 8.30 3.92 6 0.687
3 4.38 1 5 0.962
4 3.38
Este método indica que rechazamos la hipótesis de un factor, pero no podemos rechazar la
hipótesis de dos factores, con lo que concluimos que el número de factores, escogido con el
método de Joreskog, es igual a dos. Como vemos, en este ejemplo el criterio de Joreskov
coindice con el criterio de Akaike
Ejemplo 12.8 Para los datos EPF de la Encuesta de Presupuestos Familiares del Anexo
A.3, aplicaremos la técnica de análisis factorial con la estimación máximo verosímil. Los
datos han sido transformados en logaritmos para mejorar la asimetría, al igual que se hizo
en el análisis de Componentes Principales presentado en los ejemplos 4.2 y 4.3. Para este
análisis también hemos estandarizado las observaciones.
Aceptamos el contraste de un único factor dado que el p-valor es 0.242. La estimación de
los pesos de este factor es aproximadamente una ponderación con menor peso en los epígrafes
de alimentación, vestido y calzado, como se muestra en la tabla 12.5
12.6. ROTACIÓN DE LOS FACTORES 379
X1 X2 X3 X4 X5 X6 X7 X8 X9
Factor 1 0.61 0.64 0.86 0.88 0.82 0.84 0.93 0.89 0.72
Tabla 12.5: Vector de cargas de los factores
12.6 ROTACIÓN DE LOS FACTORES
Como vimos en la sección 12.2.3, la matriz de carga no esta identiÞcada ante multiplicaciones
por matrices ortogonales, que equivalen a rotaciones. En análisis factorial está deÞnido el
espacio de las columnas de la matriz de carga, pero cualquier base de este espacio puede ser
una solución. Para elegir entre las posibles soluciones, se tienen en cuenta la interpretación
de los factores. Intuitivamente, será más fácil interpretar un factor cuando se asocia a un
bloque de variables observadas. Esto ocurrirá si las columnas de la matriz de carga, que
representan el efecto de cada factor sobre las variables observadas, contienen valores altos
para ciertas variables y pequeños para otras. Esta idea puede plantearse de distintas formas
que dan lugar a distintos criterios para deÞnir la rotación. Los coeÞcientes de la matriz
ortogonal que deÞne la rotación se obtendrán minimizando una función objetivo que expresa
la simplicidad deseada en la representación conseguida al rotar. El criterio más utilizado es
el Varimax, que exponemos a continuación.
Criterio Varimax
La interpretación de los factores se facilita si los que afectan a algunas variables no lo
hacen a otras y al revés. Este objetivo conduce al criterio de maximizar la varianza de
los coeÞcientes que deÞnen los efectos de cada factor sobre las variables observadas. Para
precisar este criterio, llamemos δij a los coeÞcientes de la matriz de carga asociados al factor
j en las i = 1, ..., p ecuaciones después de la rotación y δj al vector que es la columna j de
la matriz de carga después de la rotación. Se desea, que la varianza de los coeÞcientes al
cuadrado de este vector sea máxima. Se toman los coeÞcientes al cuadrado para prescindir
de los signos, ya que interesa su valor absoluto. Llamando δ.j =
P
δ2
ij/p a la media de los
cuadrados de los componentes del vector δj, la variabilidad para el factor j es:
1
p
p
X
i=1
(δ2
ij − δ.j)2
=
1
p
p
X
i=1
δ4
ij − (1/p)2
(
p
X
i=1
δ2
ij)2
, (12.33)
y el criterio es maximizar la suma de las varianzas para todos los factores, dada por:
q = (1/p)
mX
j=1
p
X
i=1
δ4
ij − (1/p)2
mX
j=1
(
p
X
i=1
δ2
ij)2
. (12.34)
Sea Λ la matriz de carga estimada inicialmente. El problema es encontrar una matriz
ortogonal M tal que la matriz δ dada por
δ = ΛM,
380 CAPÍTULO 12. ANÁLISIS FACTORIAL
y cuyos coeÞcientes δij viene dados por
δij = λ0
i mj
siendo λ0
i la Þla i de la matriz Λ y mj la columna j de la matriz M que buscamos, veriÞque
la condición de que estos coeÞciente maximicen (12.34). Los términos de la matriz M se
obtendrán derivando (12.34) respecto a cada uno de sus términos mij teniendo en cuenta las
restricciones de ortogonalidad m0
imi = 1; m0
imj = 0 (i 6= j). El resultado obtenido es la
rotación varimax.
Ejemplo 12.9 Si aplicamos una rotación varimax a la estimación MV de los datos de IN-
VEST del ejemplo 7.6 se obtiene el resultado presentado en la Þgura 12.4. Esta nueva matriz
BIOLO. MEDIC. INTER.A AGRIC. QUIMI. INGEN. FISICA INTER.F
0.00.20.40.60.8
Factor1
FISICA INGEN. INTER.F INTER.A AGRIC. MEDIC. QUIMI. BIOLO.
0.00.20.40.60.8
Factor2
Figura 12.4: Resultado de aplicar una rotación varimax para los factores de INVES.
de cargas resulta al multiplicar los coeÞcientes de la matriz ortogonal que deÞnen la rotación,
M, por la matriz de cargas obtenida en la estimación MV y presentada en el ejemplo 12.6
δ =
Λ











0.95 0.25
0.85 0.08
0.92 0.26
0.88 0.45
0.93 0.3
0.86 0.29
0.95 0.05
1 0












M·
0.53 0.85
0.85 −0.53
¸
=












0.71 0.67
0.52 0.68
0.71 0.64
0.85 0.51
0.75 0.63
0.70 0.58
0.55 0.78
0.53 0.85












12.7. ESTIMACIÓN DE LOS FACTORES 381
Rotaciones oblicuas
El modelo factorial está indeterminado no sólo ante rotaciones ortogonales sino ante rota-
ciones oblicuas. En efecto, como vimos en la sección 6.1 el modelo puede establecerse con
factores incorrelados o correlados. La solución obtenida de la estimación de Λ corresponde
siempre a factores incorrelados, pero podemos preguntarnos si existe una solución con factores
correlados que tenga una interpretación más interesante. Matemáticamente esto implica
deÞnir nuevos factores f∗
= Hf, donde H es una matriz no singular que puede interpretarse,
en general, como un giro oblicuo. La nueva matriz de varianzas y covarianzas de los factores
será V∗
f = HH0
.
Existen diversos procedimientos para obtener rotaciones oblicuas, como el Quartmin,
Oblimax, Promax, etc. que el lector puede consultar en la literatura especializada. El prob-
lema de las rotaciones oblicuas es que los factores, al estar correlados, no pueden interpretarse
independientemente.
12.7 ESTIMACIÓN DE LOS FACTORES
En muchos problemas el interés del análisis factorial es determinar la matriz de carga, y
los valores particulares de los factores en los elementos de la muestra no tienen interés. Sin
embargo, en otros casos se desean obtener los valores de las variables factores sobre los
elementos observados. Existen dos procedimientos para estimar los factores: el primero,
debido a Bartlett, supone que el vector de valores de los factores para cada observación es
un parámetro a estimar. El segundo, supone que son variables aleatorias. Vamos a revisar
brevemente ambos procedimientos.
12.7.1 Los factores como parámetros
El vector (p × 1) de valores de las variables en el individuo i, xi, tiene una distribución
normal con media Λfi, donde fi es el vector (m × 1) de factores para el elemento i en la
muestra, y matriz de covarianzas ψ, es decir
xi ∼ Np(Λfi, ψ)
Los parámetros fi pueden estimarse por máxima verosimilitud como se indica en el
Apéndice 12.3. El estimador resultante es el de mínimos cuadrados generalizados, dado
por
bfi =
³
bΛ0 bψ
−1
bΛ
´−1
bΛ0 bψ
−1
xi. (12.35)
que tiene una clara interpretación intuitiva: si conocemos Λ, el modelo factorial
xi = Λfi + ui
es un modelo de regresión con variable dependiente xi, variables explicativas las columnas
de Λ y parámetros fi. Como la perturbación, ui, no se distribuye como N(0, I) sino N(0, ψ),
tendremos que utilizar mínimos cuadrados generalizados, lo que conduce a (12.35).
382 CAPÍTULO 12. ANÁLISIS FACTORIAL
12.7.2 Los factores como variables aleatorias
El segundo método es suponer que los factores son variables aleatorias, y buscar un predictor
lineal que minimice el error cuadrático medio de predicción. Llamando fi como antes a los
valores de los factores en el individuo i y xi al vector de variables observadas, el vector
(fi, xi) tendrá una distribución normal multivariante y el objetivo es encontrar E [fi|xi]. Por
los resultados de la sección 8.5.1 tenemos que:
E [fi|xi] = E [fi] + Cov (fi, xi) V ar (xi)−1
(xi − E (xi))
Como E [fi] = 0 y las covarianzas entre los factores y las variables son los términos de
la matriz de carga, podemos escribir, suponiendo variables de media cero y los parámetros
conocidos:
bfi = E [fi|xi] = Λ0
V−1
xi (12.36)
que es el predictor regresión lineal de los factores sobre los datos. En efecto Λ0
representa
las covarianzas entre factores y variables y V las covarianzas entre variables. Esta ecuación
puede también escribirse (vease el Apéndice 12.3) como
bfi = (I + Λ0
ψ−1
Λ)−1
Λ0
ψ−1
xi. (12.37)
Comparando (12.35) y (12.36) vemos que éste último método puede interpretarse como
una regresión cresta (ridge regression). Supone sumar la unidad a los elementos diagonales
de la matriz Λ0
ψ−1
Λ. Este estimador tiene también una interpretación bayesiana que se
presenta en el Apéndice 12.4.
Si en las ecuaciones (12.35) y (12.37) sustituimos los valores teóricos por los estimados,
obtenemos un vector bfi que representa la estimación del valor de los m factores en el individuo
i. Aplicando sucesivamente estas ecuaciones a los n datos muestrales, x1, ..., xn, obtendremos
los valores de los factores para los n individuos, f1, ..., fn, donde cada fi es un vector (m × 1).
Ejemplo 12.10 Con los datos de ACCIONES estimaremos los valores del factor supuesta la
matriz de carga estimada en ejemplo 12.3 para las variables en logaritmos. Vamos a detallar
su obtención para las primeras 5 acciones de dicho ejemplo. La matriz de datos X contendrá
estas 5 observaciones.
X =






1.22 4.5 3.41
1.63 4.02 2.29
1.5 3.96 2.44
1.25 3.85 2.42
1.77 3.75 1.95






Comencemos por el primer método, mínimos cuadrados generalizados. Los estimadores
de bΛ, bψ
−1
, obtenidos en el ejemplo 12.3 son,
bΛ =


−0.269
−0.229
0.407

 ; bψ
−1
=


1.984 0 0
0 3.834 0
0 0 9.534


12.8. DIAGNOSIS DEL MODELO 383
y aplicando las fórmulas obtenemos,
³
bΛ0 bψ
−1
bΛ
´−1
= 0.5;
³
bΛ0 bψ
−1
bΛ
´−1
bΛ0 bψ
−1
=


−0.55
−1.75
19.24


0
Los 5 primeros valores del primer factor se calculan con bfi = X
µ³
bΛ0 bψ
−1
bΛ
´−1
bΛ0 bψ
−1
¶
,
bfi =






1.22 4.5 3.41
1.63 4.02 2.29
1.5 3.96 2.44
1.25 3.85 2.42
1.77 3.75 1.95








−0.55
−1.75
19.24

 =






57.062
36.128
39.191
39.136
29.982






Para estimar los valores por el segundo método calcularemos :
³
I+bΛ0 bψ
−1
bΛ
´−1
= 0.342;
³
I+bΛ0 bψ
−1
bΛ
´−1
bΛ0 bψ
−1
=


−0.36
−1.15
12.65


0
y los 5 primeros valores del primer factor se calculan con bfi = X
³
I + bΛ0 bψ
−1
bΛ
´−1
bΛ0 bψ
−10
,
bfi =






1.22 4.5 3.41
1.63 4.02 2.29
1.5 3.96 2.44
1.25 3.85 2.42
1.77 3.75 1.95








−0.36
−1.15
12.65

 =






37.52
23.75
25.77
25.73
19.72






Observemos que ambas estimaciones presentan la misma estructura, pero el efecto de
contracción del segundo método hace que los valores obtenidos sean menores.
12.8 DIAGNOSIS DEL MODELO
Residuos de los factores
Para contrastar si el modelo es adecuado conviene calcular los factores bf y los residuos e y
estudiar sus propiedades. De acuerdo con las hipótesis:
u ∼ Np(0, ψ)
Por tanto, si la matriz de covarianzas de los residuos no es diagonal debemos aumentar
el número de factores hasta que los residuos estimados:
bui = ei = xi − Λbfi
veriÞquen las hipótesis. En concreto, contrastaremos si los residuos tienen una distribución
normal. Los residuos pueden indicarnos también la presencia de observaciones atípicas o de
grupos de observaciones que no se ajustan bien al modelo construido.
384 CAPÍTULO 12. ANÁLISIS FACTORIAL
Ejemplo 12.11 Para los datos de EPF calculamos la matriz de varianzas covarianzas de
los residuos del modelo estimado en el ejercicio 12.8, donde se estimó un único factor.
ˆψ =














0.61 0.13 -0.04 -0.03 -0.06 -0.03 0.02 -0.11 0.05
0.13 0.57 -0.01 0.04 -0.01 0.01 -0.05 -0.13 0.04
-0.04 -0.01 0.22 -0.07 -0.07 -0.05 -0.01 0.01 -0.06
-0.03 0.04 -0.07 0.19 -0.03 -0.01 -0.05 -0.03 0.02
-0.06 -0.01 -0.07 -0.03 0.3 0 -0.02 -0.04 -0.01
-0.03 0.01 -0.05 -0.01 0 0.26 -0.06 -0.05 0.1
0.02 -0.05 -0.01 -0.05 -0.02 -0.06 0.1 -0.01 -0.1
-0.11 -0.13 0.01 -0.03 -0.04 -0.05 -0.01 0.18 -0.05
0.05 0.04 -0.06 0.02 -0.01 0.1 -0.1 -0.05 0.45














En la diagonal Þgura la varianza especíÞca, se aprecia que los términos de fuera de la diagonal
son relativamente pequeños. Compararemos esta matriz con la resultante de estimar dos
factores, que en el contraste tiene un p-valor de 0.64, la nueva matriz de varianzas de los
residuos es:
ˆψ =














0.6 0.12 -0.04 -0.04 -0.07 -0.06 0.02 -0.1 0.01
0.12 0.53 0.03 0.02 -0.01 -0.04 -0.01 -0.09 -0.08
-0.04 0.03 0.22 -0.04 -0.05 -0.01 -0.03 0.01 0
-0.04 0.02 -0.04 0.19 -0.02 -0.04 -0.02 0 -0.05
-0.07 -0.01 -0.05 -0.02 0.3 -0.01 -0.01 -0.02 -0.03
-0.06 -0.04 -0.01 -0.04 -0.01 0.18 -0.01 -0.01 -0.05
0.02 -0.01 -0.03 -0.02 -0.01 -0.01 0.03 -0.04 0
-0.1 -0.09 0.01 0 -0.02 -0.01 -0.04 0.19 0.01
0.01 -0.08 0 -0.05 -0.03 -0.05 0 0.01 0.17














y la variabilidad especiÞca ha disminuido en las variables X7 y X9 y fuera de la diagonal, en
general, los valores son más pequeños. Se podía incrementar el número de factores en uno
más, pero se corre el peligro de sobreajustar el modelo y que la interpretación de los pesos
esté demasiado sujeta a los datos en concreto usados.
En las Þguras 12.5 y 12.6 se presentan las cargas de los factores y la representación de las
distintas provincias en el espacio formado por estos dos factores.Las cargas del segundo factor
permiten una interpretación análoga a la descrita para el segundo componente principal. En
la Þgura 12.7 presentamos los histogramas de las distribuciones marginales de los residuos.
Algunos de estos histogramas no parecen seguir una distribución normal.
Residuos del ajuste
Se deÞnen los residuos del ajuste como los términos de S− bV. Frecuentemente es más cómodo
utilizar los residuos estandarizados, donde cada residuo se divide por su desviación típica
asintótica.
12.8. DIAGNOSIS DEL MODELO 385
X7 X8 X4 X3 X6 X5 X9 X2
0.00.20.40.60.8
Factor1
X9 X6 X2 X7 X4 X3 X8 X1
-0.10.10.3
Factor2
Figura 12.5: Representación de la matriz de cargas de los dos primeros factores estimados
por máxima verosimilitud.
Medidas de ajuste del modelo
Podemos construir una medida del ajuste del modelo factorial para cada variable mediante
γ2
i =
h2
i
s2
i
= 1 −
ψ2
i
s2
i
que suele denominarse coeÞciente de correlación al cuadrado entre la variable y los factores.
El coeÞciente de determinación para todo el sistema puede construirse con
R2
= 1 −
¯
¯
¯bψ
¯
¯
¯
1/p
¯
¯
¯ bV
¯
¯
¯
1/p
,
donde
¯
¯
¯bψ
¯
¯
¯es el determinante de la matriz de varianzas residuales y
¯
¯
¯ bV
¯
¯
¯ el estimado por el
modelo.
El estadístico χ2
dado por (12.27) proporciona otra medida global de ajuste. Para calibrar
su valor lo compararemos con sus grados de libertad. Cuando los datos no son normales la
distribución de (12.27) puede desviarse mucho de la χ2
pero, en cualquier caso, su valor
puede utilizarse como un criterio de ajuste.
Ejemplo 12.12 Calculamos el coeÞciente de correlación al cuadrado entre la variable y los
factores para los datos el ejemplo 12.8 en el modelo con dos factores. Como las variables
386 CAPÍTULO 12. ANÁLISIS FACTORIAL
Factor1
Factor2
-2 -1 0 1 2
-101
Almeria
Cadiz
CordobaGranada
Huelva
Jaen
Malaga
Sevilla
Huesca
Teruel
Zaragoza
Asturias
Baleares
Las-Palmas
Tenerife
Cantabria
Avila
Burgos
Leon
Palencia
Salamanca
Segovia
Soria
Valladolid
Zamora
Albacete
Ciudad-Real
Cuenca
Guadalajara
Toledo
Barcelona
Gerona
Lerida
Tarragona
Alicante
Castellon
Valencia
Badajoz
Caceres
La-Coruna
Lugo
Orense
Pontevedra
Madrid
Murcia
Navarra
Alava
Guipuzcoa
Vizcaya
La-Rioja
Ceuta-Melilla
Figura 12.6: Representación de las provincias en los dos primeros factores.
originales estaban estandarizadas, s2
i = 1 para i = 1, . . . , 9, los coeÞcientes se calculan como
1 menos la varianza especiÞca.
X1 X2 X3 X4 X5 X6 X7 X8 X9
γ2
i 0.4 0.47 0.78 0.81 0.7 0.82 0.97 0.81 0.83
El coeÞciente de determinación es
R2
= 1 − (
1.781499 × 10−8
0.0002415762
)1/9
= . 652
y vemos que proporciona un valor promedio de las relaciones de dependencia en el sistema.
12.9 Análisis Factorial ConÞrmatorio
El análisis factorial puede aplicarse como una herramienta exploratoria o como un modelo
para contrastar teorías. En este segundo caso, el número de factores se supone conocido a
priori y se establecen restricciones sobre los elementos de la matriz de carga. Por ejemplo,
algunos pueden ser cero o iguales entre sí. Dada la existencia de información adicional,
12.9. ANÁLISIS FACTORIAL CONFIRMATORIO 387
-2 -1 0 1 2
0.00.20.40.6
X1
-2 -1 0 1
0.00.20.4
X2
-1.0 -0.5 0.0 0.5 1.0 1.5
0.00.40.8
X3
-1.0 -0.5 0.0 0.5 1.0 1.5
0.00.40.8
X4
-1.5 -1.0 -0.5 0.0 0.5 1.0
0.00.20.40.6 X5
-1.5 -0.5 0.0 0.5 1.0 1.5
0.00.40.8
X6
-0.2 0.0 0.2 0.4 0.6
0123
X7
-1.5 -0.5 0.0 0.5 1.0 1.5
0.00.40.8
X8
-0.5 0.0 0.5 1.0
0.00.40.8
X9
Figura 12.7: Histograma de las distribuciones marginales de los residuos.
se supone habitualmente que los factores tienen matriz de varianza y covarianzas Vf no
necesariamente identidad, aunque con restricciones en sus términos.
La ecuación fundamental se convierte en
Vx = ΛVf Λ0
+ ψ
pero ahora las tres matrices desconocidas del sistema, Λ, Vf y ψ contienen numerosas re-
stricciones de manera que el número total de parámetros libres, t, veriÞca
t ≤
p (p + 1)
2
para que el modelo esté identiÞcado.
La estimación se realiza por máxima verosimilitud, pero la restricción Λ0
ψ−1
Λ =diagonal
no suele imponerse si no es necesaria para identiÞcar el modelo.
Los contrastes de bondad del modelo son análogos a los estudiados, pero ahora el número
de grados de libertad será p(p+1)
2
− t, siendo t el número de parámetro libres estimados. Sin
embargo, los efectos de no normalidad son aquí más graves que cuando estimamos todos los
parámetros, como ocurre en análisis factorial exploratorio.
Recomendamos que el análisis factorial conÞrmatorio, se compare siempre con un análisis
exploratorio para conÞrmar que el modelo impuesto no está en contradicción con los datos
observados.
388 CAPÍTULO 12. ANÁLISIS FACTORIAL
12.10 Relación con componentes principales
En componentes principales descomponemos la matriz de varianzas y covarianzas de las X
como:
S = AΓA0
= [a1 . . . an]





λ1 0 · · · 0
0 λ2 · · · 0
...
...
...
0 0 · · · λn








a1
...
a0
n



= [a1 . . . an]



λ1a0
1
...
λna0
n



= λ1a1a0
1 + . . . + λnana0
n
Si λj = 0 para j < h, podemos reconstruir S con los primeros j componentes. Llamando
H = AΓ1/2
, tenemos que:
S = HH0
.
En Análisis factorial descomponemos S como:
S = ΛΛ0
+ ψ,
y como la matriz ψ es diagonal puede recoger las varianzas de las variables, mientras que
la matriz de carga recoge las covarianzas de las variables. Esta es una diferencia importante
entre ambos métodos. El primero trata de explicar las varianzas, mientras que el segundo
explica las covarianzas o correlaciones. Observemos que si bψ ' 0, es lo mismo tomar m
componentes principales que estimar m factores. La diferencia es tanto menor cuanto menor
sea bψ.
Otra forma de estudiar la relación entre ambos métodos es la siguiente: sea X la matriz
de datos original y Z la matriz de valores de los componentes. Entonces:
Z = XA,
o también, como A es ortogonal
X = ZA0
,
que permite reconstruir las variables originales a partir de los componentes. Escribiendo
x1 = α11z1 + . . . + αm1zm + . . . + αpmzp
...
xp = αp1z1 + . . . + αpmzm + . . . + αppzp
con m componentes tenemos:
x1 = α11z1 + . . . + α1mzm + v1
...
xp = αp1z1 + . . . + αmpzm + vp
12.11. LECTURAS RECOMENDADAS 389
Esta representación es aparentemente análoga al modelo factorial, ya que v1 estará in-
correlada con los factores (z1, ..., zm) al incluir únicamente las variables (zm+1, ..., zp) que son
ortogonales a las anteriores. Sin embargo, la diferencia básica es que en el modelo factorial
los errores de las distintas ecuaciones están incorrelados, mientras que en ésta representación
no lo estarán. En efecto, como (v1, ...vp) contienen todas las variables comunes (zm+1, ..., zp)
estarán correladas. Por esta razón, en general los resultados de ambos métodos serán distin-
tos.
Estos resultados indican que si existen m componentes principales que explican una
proporción muy alta de la variabilidad, de manera que la variabilidad especíÞca dada por
los términos diagonales de ψ sea pequeña, el análisis factorial y el análisis de componentes
principales sobre la matriz de correlaciones serán resultados similares. También en este caso
la estimación mediante el método de factores principales conducirá a resultados similares al
de máxima verosimilitud.
Aparte de estas diferencias, ambas técnicas tienen una interpretación diferente: en com-
ponentes principales tratamos de representar graÞcamente los datos, mientras que en análisis
factorial suponemos que los factores generan las variables observadas.
12.11 Lecturas recomendadas
La mayoría de los textos de análisis multivariante incluyen un capítulo de análisis factori-
al. Buenos textos recomendables para complementar lo aqui expuesto son Cuadras (1991),
que presenta una exposición muy detallada y clara, Jobson (1992), Johnson and Wichern
(1998), Mardia et al (1979), Rechner (1998) y Seber (1984). Presentaciones más extensas
se encuentran en Bartholomew y Knott (1999) y Harman (1980). La estimación máximo
verosimil se estudia con detalle en Joreskov (1963) y Lawley y Maxwell (1971), aunque no
se incluyen métodos más modernos de estimación basados en el algoritmo EM o en métodos
bayesianos. Bartholomew y Knott (1999) presentan de forma clara la estimación mediante
el algoritmo EM. Otra buena referencia sobre el tema es Schafer (1997). Para el tratamiento
Bayesiano véase O’ Hagan (1994)
EJERCICIOS
Ejercicio 12.1 Dado el modelo factorial x = Λ f + u , donde x = (x1, x2, x3, x4) tiene
media cero y varianzas ( 1, 2, 1, 7), y donde Λ = (.8, 1, 0, 2)0
, y Var(f) = 1, se pide: (1)
Calcular las covarianzas entre las variables y el factor; (2) Calcular las correlaciones entre
las variables y el factor; (3) Escribir el modelo como un modelo unifactorial con un factor
de varianza igual a 5.
Ejercicio 12.2 Indicar si es posible el siguiente modelo factorial x = Λ f + u , donde
x = (x1, x2, x3) tiene media cero y varianzas (3, 1, 2), y donde Λ = (3, 0, 3)0
, y Var(f) = 1.
Ejercicio 12.3 Dado un modelo factorial con x = (x1, x2, x3, x4, x5,x6) de media cero y
Λ = (λ1λ2) con λ1 = (1, 1, 1, 0, 0, 0)0
, y λ2 = (0, 1, 0, 1, 0, 1) y Var(f) =
·
1 .5
.5 2
¸
,
escribirlo en forma estándar con la normalización Λ0
Λ = Diagonal
390 CAPÍTULO 12. ANÁLISIS FACTORIAL
Ejercicio 12.4 Demostrar utilizando la relación fundamental que
a. Si la varianza especíÞca es igual a la varianza de una variable, la Þla de la matriz de
carga correspondiente a dicha variable debe tener todos los elementos nulos.
b. Si la covarianza entre dos variables es cero, las Þlas correspondientes a estas variables
en la matriz de carga son ortogonales.
c. Si las variables están estandarizadas la correlación entre las variables i y j es el pro-
ducto escalar de las Þlas de la matriz de carga correspondientes a estas variables.
d. Si las variables están estandarizadas, la correlación entre la variable i y el factor j es
el término (ij) de la matriz de carga.
Ejercicio 12.5 Demostrar utilizando la relación fundamental que si las varianzas de los
componentes especíÞcos son idénticos, las columnas de la matriz de carga son vectores propios
de la matriz de covarianzas, y obtener los valores propios.
Ejercicio 12.6 Indicar cuál será el número máximo de factores incorrelados que podemos
estimar con diez variables. ¿Y si los factores están correlados?
Ejercicio 12.7 Demostrar mediante un ejemplo que con el método del factor principal no
se obtiene la misma matriz de carga con variables estandarizadas y sin estandarizar.
Ejercicio 12.8 Se dispone de 20 variables y antes de realizar un análisis factorial se realizan
componentes principales y se eligen los 5 primeros componentes. A continuación se realiza
un análisis factorial sobre estos componentes. ¿Cuántos factores esperaríamos encontrar?
Ejercicio 12.9 Demostrar que si cada columna de la matriz de carga tiene un único ele-
mento no nulo, el modelo factorial no está identiÞcado.
Ejercicio 12.10 Demostrar que si rotamos los factores la comunalidad total de cada variable
no varía.
Ejercicio 12.11 Si Λ = (1, 1, ..., 1)0
indicar la ecuación para estimar el valor del factor en
un individuo si
a. diag(ψ) = p(1, 1, .., 1),
b. diag(ψ) = (1, 2, .., p)
Ejercicio 12.12 Demostrar que en el modelo unifactorial con ψ = σ2
I , el determinante de
bV0 es ((Λ0
Λ) + σ2
)(σ2
)p−1
.
Ejercicio 12.13 Demostrar que si todas las variables tienen perturbaciones con la misma
varianza y ψ =ψ0I, y suponiendo Λ0
Λ = diagonal = D, las columnas de Λ son directamente
vectores propios de la matriz V, con valores propios di +ψ0, donde di es el término diagonal
de D
12.11. LECTURAS RECOMENDADAS 391
APÉNDICE 12.1:ESTIMACIÓN MÁXIMO-VEROSÍMIL DEL
MODELO FACTORIAL
La estimación MV de Λ y ψ requiere escribir la ecuación de verosimilitud con la restricción
Λψ−1
Λ = D = diagonal, derivarla y obtener las condiciones de primer orden. Este proceso
conduce al mismo resultado que resolver la ecuación de estimación por momentos
S = bΛbΛ0
+ bψ (12.38)
con las restricciones de que bΛ sea (p × m) y ψ diagonal. Esta segunda condición se satisface
tomando:
bψ = diag
³
S − bΛbΛ0
´
. (12.39)
Supongamos que a partir de un valor inicial de bΛ obtenemos la matriz bψ mediante (12.39).
El nuevo estimador de Λ debe satisfacer aproximadamente la ecuación S − bψ = bΛbΛ0
. Este
sistema tiene p(p + 1)/2 ecuaciones y p × m incógnitas y en general no tiene solución única.
Para reducirlo a un sistema de p×m ecuaciones post-multipliquemos la ecuación (12.38) por
bψ
−1
bΛ. Reordenando términos, se obtiene el sistema de ecuaciones:
Sbψ
−1
bΛ = bΛ(bΛ0 bψ
−1
bΛ + I) =bΛ(D + Im) (12.40)
donde Im es la matriz identidad de orden m. Esta ecuación cuando bψ
−1
es conocido pro-
porciona un sistema no lineal de (p × m) ecuaciones con (p × m) incógnitas para obtener bΛ,
y sugiere que bΛ puede obtenerse a partir de los vectores propios Sbψ
−1
, pero esta matriz no
es simétrica. Para resolver este problema, premultiplicando por bψ
−1/2
, podemos escribrir
bψ
−1/2
Sbψ
−1/2
(bψ
−1/2
bΛ) = (bψ
−1/2
bΛ)(D + Im) (12.41)
que muestra que podemos obtener bψ
−1/2
bΛ como vectores propios de la matriz simétrica
bψ
−1/2
Sbψ
−1/2
, o tambien, de la matriz simétrica bψ
−1/2
Sbψ
−1/2
− Ip.
Los estimadores MV satisfacen dos propiedades importantes. La primera es
tr
³
SbV−1
0
´
= p
que indica que con la distancia de la traza la matriz estimada está tan cerca como es posible
de la matriz de covarianzas observada S. En efecto, bV0 = S, entonces tr
¡
SS−1
¢
= tr (Ip) = p.
La segunda es que se obtiene el mismo resultado trabajando con variables estandarizadas o
sin estandarizar, es decir si estimamos por MV la matriz de carga con las variables originales
se obtiene el mismo resultado que si (1) estandarizamos las variables restando las medias y
dividiendo por las desviaciones típicas , (2) estimamos por MV la matriz de carga, que es
entonces la matriz de correlación entre las variables originales y los factores, (3) pasamos
de esa matriz de correlación a la matriz de covarianzas multiplicando por las desviaciones
típicas de las variables.
392 CAPÍTULO 12. ANÁLISIS FACTORIAL
Demostremos la primera propiedad. Si bV0 = bψ + bΛbΛ0
es la estimación MV de la matriz
de covarianzas, entonces (véase la sección 2.3.4):
bV−1
0 =
³
bψ + bΛbΛ0
´−1
= bψ
−1
− bψ
−1
bΛ
³
Im + bΛ0 bψ
−1
bΛ
´−1
bΛ0 bψ
−1
y multiplicando por S y tomando trazas :
tr
³
S bV−1
0
´
= tr
³
Sbψ
−1
´
− tr
³
Sbψ
−1
bΛ (Im + D)−1 bΛ0 bψ
−1
´
Utilizando la condición (12.40)
tr
³
S bV−1
0
´
= tr
³
Sbψ
−1
´
− tr
³
bΛbΛ0 bψ
−1
´
y, por las propiedades lineales de la traza,
tr
³
SbV−1
0
´
= tr
h³
S − bΛbΛ0
´
bψ
−1
i
= tr
³
diag
³
S − bΛbΛ0
´
bψ
−1
´
.
donde el último paso proviene de que el producto de dos matrices diagonales es diagonal y la
traza es simplemente la suma de sus elementos diagonales. Por otro lado, la ecuación (12.39)
implica
diag
³
S − bΛbΛ0
´
bψ
−1
= Ip
y tomando trazas en esta ecuación
tr
³
S bV−1
0
´
= tr
³³
S − bΛbΛ0
´
bψ
−1
´
= tr (Ip) = p
y hemos demostrado que el estimador MV veriÞca (??).
Para demostrar la segunda propiedad, supongamos que hacemos la transformación y =
DX, donde D es cualquier matriz diagonal (por ejemplo, estandarizamos las variables lo que
equivale a trabajar con R, matriz de correlación, en lugar de con S, matriz de covarianzas).
Entonces Sy = DSxD y ψy = DψxD. Al calcular la nueva matriz para obtener los valores
y vectores propios, tendremos
ψ−1/2
y Sy
−1
ψ−1/2
y = (DψxD)−1/2
DSxD(DψxD)−1/2
= ψ−1/2
x Sx
−1
ψ−1/2
x
y es idéntica a la anterior.
APÉNDICE: 12.2 CONTRASTES SOBRE EL RANGO DE UNA
MATRIZ
En este apéndice vamos a demostrar que el contraste sobre el número de factores es un
caso particular del contraste general de esfericidad parcial, estudiado en 10.6. Necesitamos
para ello el Lema siguiente:
12.11. LECTURAS RECOMENDADAS 393
Lemma 3 |Im − UU0
| = |Ip − U0
U|. Esta igualdad se demuestra aplicando la fórmula del
determinante de una matriz particionada a los determinantes de la igualdad
·
Im U
U0
Ip
¸
=
·
Ip U0
U Im
¸
.
Vamos a utilizar este lema para demostrar que el contraste de la razón de verosimili-
tudes (12.27) tiene en cuenta únicamente los p − m menores valores propios de la matriz
bψ
−1/2
Sbψ
−1/2
. Partiendo del estimador MV de bV0, tenemos:
¯
¯
¯ bV0
¯
¯
¯ =
¯
¯
¯bΛbΛ0
+ bψ
¯
¯
¯ =
¯
¯
¯bψ
1/2
¯
¯
¯
¯
¯
¯bψ
−1/2
bΛbΛ0 bψ
−1/2
+ Ip
¯
¯
¯
¯
¯
¯bψ
1/2
¯
¯
¯
=
¯
¯
¯bψ
¯
¯
¯
¯
¯
¯bΛ0 bψ
−1/2
bψ
−1/2
bΛ + Im
¯
¯
¯
Llamando D = bΛ0 bψ
−1
bΛ , se obtiene que,
¯
¯
¯bV0
¯
¯
¯ =
¯
¯
¯bψ
¯
¯
¯ |D + Im| =
¯
¯
¯bψ
¯
¯
¯
mY
i=1
(1 + dj) (12.42)
donde dj es el elemento diagonal j de D.
Por otro lado, de la estimación de los parámetros por el método de MV del apéndice 12.1,
hemos visto en la relación (12.41), que la matriz bψ
−1/2
Sbψ
−1/2
− Ip tiene m valores propios
iguales a los términos diagonales de D. En general esta matriz tendrá rango p, y llamemos
también di a sus restantes valores propios para i = m + 1, ..., p. En consecuencia, los valores
propios de la matriz bψ
−1/2
Sbψ
−1/2
serán 1 + di y podemos escribir:
¯
¯
¯bψ
−1/2
Sbψ
−1/2
¯
¯
¯ = |S| /
¯
¯
¯bψ
¯
¯
¯ =
p
Y
i=1
(1 + di) (12.43)
y utilizando (12.42) y (12.43)
¯
¯
¯bV0
¯
¯
¯
|S|
=
¯
¯
¯bψ
¯
¯
¯
Qm
i=1(1 + di)
¯
¯
¯bψ
¯
¯
¯
Qp
i=1(1 + di)
=
1
Qp
i=m+1(1 + di)
con lo que se obtiene Þnalmente:
λF = n log
¯
¯
¯bV0
¯
¯
¯ /|S| = −n log
p
X
i=m+1
(1 + di) (12.44)
y el contraste de verosimilitud depende únicamente de los valores propios más pequeños de
la matriz bψ
−1/2
Sbψ
−1/2
.
Vamos a demostrar ahora que este contrate es un caso particular del contraste de esferi-
cidad parcial, presentado en 10.6, cuyo estadístico es:
λEP = n(p − m) log
Pp
i=m+1 λi
p − m
− n log
p
Y
i=m+1
λi (12.45)
394 CAPÍTULO 12. ANÁLISIS FACTORIAL
donde λi son los valores propios de S, y que el estadístico (12.44) resulta de aplicar este
contrate a la matriz bψ
−1/2
Sbψ
−1/2
. Si el modelo factorial es correcto, asintóticamente S =
ψ + ΛΛ0
y pre y postmultiplicando por ψ−1/2
:
ψ−1/2
Sψ−1/2
= I + ψ−1/2
ΛΛ0
ψ−1/2
(12.46)
que descompone la matriz ψ−1/2
Sψ−1/2
en una de rango m más la matriz identidad. Como
los valores propios de esta matriz son 1 + di, tenemos que
λEP = n(p − m) log
Pp
i=m+1(1 + di)
p − m
− n log
p
X
i=m+1
(1 + di) (12.47)
queda ahora por demostrar que el primer término es cero. Tomando trazas en (12.46).
tr(ψ−1/2
Sψ−1/2
) = p + tr(ψ−1/2
ΛΛ0
ψ−1/2
) = p + tr(Λ0
ψ−1
Λ) = p +
mX
i=1
dj
pero también, por ser 1+di los valores propios de ψ−1/2
Sψ−1/2
, sabemos que tr(ψ−1/2
Sψ−1/2
) =Pp
i=1(1 + di), e igulando ambos resultados para la traza:
p
X
i=1
(1 + di) = p +
mX
i=1
dj
de donde resulta
p
X
i=m+1
di = 0
o, lo que es equivalente
p
X
i=m+1
(1 + di) = p − m.
y sustituyendo en (12.47) el primer término se anula y queda únicamente el segundo, con lo
que obtenemos el contraste de la razón de verosimilitud.
APÉNDICE 12.3 :ESTIMACIÓN DE LOS FACTORES
Sea xi el vector (p × 1) en el individuo i. Su función de densidad será:
f(xi) = |ψ|−1/2
(2π)−p/2
exp
©
−1/2(xi − Λfi)0
ψ−1
(xi − Λfi)
ª
supongamos que ψ y Λ son conocidas y se trata de estimar fi. Entonces, la función de
verosimilitud en logaritmos será:
L = log f(xi) = K − 1/2(xi − Λfi)0
ψ−1
(xi − Λfi)
12.11. LECTURAS RECOMENDADAS 395
donde K es una constante. Maximizar L equivale a minimizar:
M = (xi − Λfi)0
ψ−1
(xi − Λfi)
que es el criterio de mínimos cuadrados. Entonces:
M = x0
iψ−1
xi − 2f0
iΛ0
ψ−1
xi + f0
iΛ0
ψ−1
Λfi.
Derivando respecto a fi e igualando a cero:
dM
dfi
= 0 = −2Λ0
ψ−1
xi + 2Λ0
ψ−1
Λfi
por tanto
fi = (Λ0
ψ−1
Λ)−1
Λ0
ψ−1
xi
sustituyendo en esta expresión Λ y ψ por sus estimadores MV se obtiene el vector ˆfi para
cada observación.
Si el parámetro se considera como variable aleatoria, por las propiedades de la esperanza
condicional
bfi = E [fi|xi] = Λ0
V−1
xi
Utilizando que:
V−1
= (ψ + ΛΛ0
)−1
= ψ−1
− ψ−1
Λ(I + Λ0
ψ−1
Λ)−1
Λ0
ψ−1
,
entonces,
Λ0
V−1
= Λ0
ψ−1
− Λ0
ψ−1
Λ(I + Λ0
ψ−1
Λ)−1
Λ0
ψ−1
Λ0
V−1
= [I − Λ0
ψ−1
Λ(I + Λ0
ψ−1
Λ)−1
]Λ0
ψ−1
Λ0
V−1
= (I + Λ0
ψ−1
Λ)−1
Λ0
ψ−1
.
y sustituyendo en la expresión de bfi, se obtiene:
bfi = (I + Λ0
ψ−1
Λ)−1
Λ0
ψ−1
xi.
APÉNDICE 12.4: INTERPRETACIÓN BAYESIANA DEL ES-
TIMADOR DE LOS FACTORES
El estimador (12.37) tiene una clara interpretación bayesiana. Como a priori, la distribu-
ción del factor, π (fi), es N(0, I), y la verosimilitud f (x|f, Λ, ψ) es N (Λf, ψ), la posterior
condicionada a los parámetros es:
f (fi|x, Λ, ψ) = k f (x|fi, Λ, ψ) π (fi) (12.48)
donde k es una constante. El exponente de la distribución posterior será:
(x − Λf)0
ψ−1
(x − Λf) + f0
f = f0
¡
I + Λ0
ψ−1
Λ
¢
f−
2f0
Λ0
ψ−1
x + x0
ψ−1
x,
396 CAPÍTULO 12. ANÁLISIS FACTORIAL
y completando el cuadrado, el exponente puede escribirse
f0
¡
I + Λ0
ψ−1
Λ
¢
f − 2f0
¡
I + Λ0
ψ−1
Λ
¢ ¡
I + Λ0
ψ−1
Λ
¢−1
Λ0
ψ−1
x+ Resto
es decir
³
f−bf
´0 ¡
I + Λ0
ψ−1
Λ
¢ ³
f−bf
´
donde
bf = E [f|Λ, ψ] =
¡
I + Λ0
ψ−1
Λ
¢−1
Λ0
ψ−1
x (12.49)
y
V ar
³
bf
´
= V ar [f|Λ, ψ] =
¡
I + Λ0
ψ−1
Λ
¢−1
(12.50)
Por tanto, el estimador (12.37) puede interpretarse como la media de la distribución a
posteriori de los factores. Observemos que la condición Λ0
ψ−1
Λ = diagonal hace que los
factores sean, a posteriori, condicionalmente independientes.
Capítulo 13
ANÁLISIS DISCRIMINANTE
13.1 INTRODUCCIÓN
El problema de discriminación o clasiÞcación, que abordaremos en este capítulo, puede
plantearse de varias formas y aparece en muchas áreas de la actividad humana: desde la
diagnosis médica a los sistemas de concesión de créditos o de reconocimiento de falsas obras
de arte. El planteamiento estadístico del problema es el siguiente. Se dispone de un conjunto
amplio de elementos que pueden venir de dos o más poblaciones distintas. En cada elemento
se ha observado una variable aleatoria p− dimensional x, cuya distribución se conoce en
las poblaciones consideradas. Se desea clasiÞcar un nuevo elemento, con valores de las vari-
ables conocidas, en una de las poblaciones. Por ejemplo, la primera aplicación del análisis
discriminante consitió en clasiÞcar los restos de un cráneo descubierto en una excavación
como humano, utilizando la distribución de medidas físicas para los cráneos humanos y los
de antropoides.
El problema de discriminación aparece en muchas situaciones en que necesitamos clasi-
Þcar elementos con información incompleta. Por ejemplo, los sistemas automáticos de
concesión de créditos (credit scoring) implantados en muchas instituciones Þnancieras tienen
que utilizar variables medibles hoy (ingresos, antigüedad en el trabajo, patrimonio, etc) para
prever el comportamiento futuro. En otros casos la información podría estar disponible, pero
puede requerir destruir el elemento, como en el control de calidad de la resistencia a la ten-
sión de unos componentes. Finalmente, en otros casos la información puede ser muy costosa
de adquirir. En ingeniería este problema se ha estudiado con el nombre de reconocimiento
de patrones (pattern recognition), para diseñar máquinas capaces de clasiÞcar de manera
automática. Por ejemplo, reconocer voces y sonidos, clasiÞcar billetes o menedas, reconocer
caracteres escritos en una pantalla de ordenador o clasiÞcar cartas según el distrito postal.
Otros ejemplos de aplicaciones del análisis discriminante son: asignar un texto escrito de
procedencia desconocida a uno de varios autores por las frecuencias de utilización de pal-
abras, asignar una partitura musical o un cuadro a un artista, una declaración de impuestos
como potencialmente defraudadora o no, una empresa como en riesgo de quiebra o no, las
enseñanzas de un centro como teóricas y aplicadas, un paciente como enfermo de cáncer o
no, un nuevo método de fabricación como eÞcaz o no.
Las técnicas que vamos a estudiar reciben también el nombre de clasiÞcación supervisada,
397
398 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
para indicar que conocemos una muestra de elementos bien clasiÞcados que sirve de pauta o
modelo para la clasiÞcación de las siguientes observaciones.
Existen varios enfoques posibles para este problema. El primero, que se presenta en
este capítulo, es el análisis discriminante clásico debido a Fisher, basado en la normalidad
multivariante de las variables consideradas y que es óptimo bajo dicho supuesto. Si todas
las variables son continuas, es frecuente que aunque los datos originales no sean normales
es posible transformar las variables para que lo sean, y los métodos de este capítulo pueden
aplicarse a las variables transformadas. Sin embargo, cuando tengamos variables discretas
y continuas para clasiÞcar, la hipótesis de normalidad multivariante es poco realista, y en el
capítulo siguiente se presentan otros enfoques al problema que pueden funcionar mejor en
estos casos.
13.2 CLASIFICACIÓN ENTRE DOS POBLACIONES
13.2.1 Planteamiento del Problema
Sean P1 y P2 dos poblaciones donde tenemos deÞnida una variable aleatoria vectorial, x, p-
variante. Supondremos que x es absolutamente continua y que las funciones de densidad de
ambas poblaciones, f1 y f2, son conocidas. Vamos a estudiar el problema de clasiÞcar un
nuevo elemento, x0, con valores conocidos de las p variables en una de estas poblaciones.
Si conocemos las probabilidades a priori π1, π2, con π1 + π2 = 1, de que el elemento venga
de cada una de las dos poblaciones, su distribución de probabilidad será una distribución
mezclada
f(x) =π1f1(x)+π2f2(x)
y una vez observado x0 podemos calcular las probabilidades a posteriori de que el elemen-
to haya sido generado por cada una de las dos poblaciones, P(i/x0), con i = 1, 2. Estas
probabilidades se calculan por el teorema de Bayes
P(1|x0) =
P(x0|1)π1
π1P(x0|1)+π2P(x0|2)
y como P(x0|1) = f1(x0)∆x0, tenemos que:
P(1/x0) =
f1(x0)π1
f1(x0)π1 + f2(x0)π2
, (13.1)
y para la segunda población
P(2|x0) =
f2(x0)π2
f1(x0)π1 + f2(x0)π2
. (13.2)
ClasiÞcaremos x0 en la población más probable a posteriori. Como los denominadores son
iguales, clasiÞcaremos x0 en P2 si:
π2f2(x0) > π1f1(x0)
13.2. CLASIFICACIÓN ENTRE DOS POBLACIONES 399
Si las probabilidades a priori son iguales, la condición de clasiÞcar en P2 se reduce a:
f2(x0) > f1(x0)
es decir, clasiÞcamos a x0 en la población más probable, o donde su verosimilitud es más
alta.
Consideración de las consecuencias
En muchos problemas de clasiÞcación los errores que podemos cometer tienen distintas con-
secuencias que podemos cuantiÞcar. Por ejemplo, si una máquina automática clasiÞca equiv-
ocadamente un billete de 10 euros como de 20, y devuelve el cambio equivocado, el coste de
clasiÞcación es de 10 euros. En otros casos estimar el coste puede ser más complejo: si no
concedemos un crédito que sería devuelto podemos perder un cliente y los ingresos futuros
que este podría generar, mientras que si el crédito no se devuelve el coste es la cantidad
impagada. Como tercer ejemplo, si clasiÞcamos un proceso productivo como en estado de
control, el coste de equivocarnos será una producción defectuosa, y si, por error, paramos
un proceso que funciona adecuadamente, el coste será el de la parada y revisión.
En general supondremos que las posibles decisiones en el problema son únicamente dos:
asignar en P1 o en P2. Una regla de decisión es una partición del espacio muestral Ex (que
en general será Rp
) en dos regiones A1 y A2 = Ex − A1, tales que:
si x0 ∈ A1 =⇒ d1 (clasiÞcar en P1).
si x0 ∈ A2 =⇒ d2 (clasiÞcar en P2).
Si las consecuencias de un error de clasiÞcación pueden cuantiÞcarse, podemos incluirlas
en la solución del problema formulándolo como un problema bayesiano de decisión. Supong-
amos que:
1. las consecuencias asociadas a los errores de clasiÞcación son, c(2|1) y c(1|2), donde
c(i|j) es el coste de clasiÞcación en Pi de una unidad que pertenece a Pj. Estos costes
se suponen conocidos;
2. el decisor quiere maximizar su función de utilidad y esto equivale a minimizar el coste
esperado.
Con estas dos hipótesis la mejor decisión es la que minimiza los costes esperados, o
funciones de pérdida de oportunidad, en la terminología de Wald. Los resultados de cada
decisión que se presenta esquemáticamente en la Þgura 13.1. Si clasiÞcamos al elemento en
el grupo 2 las posibles consecuencias son:
(a) acertar, con probabilidad P(2|x0), en cuyo caso no hay ningún coste de penalización;
(b) equivocarnos, con probabilidad P(1|x0), en cuyo caso incurrimos en el coste asociado
c(2|1).
400 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
0
d2 C(2/1)
0
d1
C(1/2)
0P(1/x)
P(2/x)
P(1/x)
P(2/x)
Figura 13.1: Representación de un problema de clasiÞcación entre dos grupos como un
problema de decisión.
El coste promedio, o valor esperado, de la decisión ”d2: clasiÞcar x0 en P2” será:
E(d2) = c(2|1)P(1|x0) + 0P(2|x0) = c(2|1)P(1|x0). (13.3)
Análogamente, el coste esperado de la decisión ”d1: clasiÞcar en el grupo 1” es:
E(d1) = 0P(1|x0) + c(1|2)P(2|x0) = c(1|2)P(2|x0). (13.4)
Asignaremos al elemento al grupo 2 si su coste esperado es menor, es decir, utilizando
(13.1) y (13.2), si:
f2(x0)π2
c (2|1)
>
f1(x0)π1
c (1|2)
. (13.5)
Esta condición indica que, a igualdad de los otros términos, clasiÞcaremos en la población
P2 si
(a) su probabilidad a priori es más alta;
(b) la verosimilitud de que x0 provenga de P2 es más alta;
(c) el coste de equivocarnos al clasiÞcarlo en P2 es más bajo.
En el Apéndice 13.1 se demuestra que este criterio es equivalente a minimizar la proba-
bilidad total de error en la clasiÞcación.
13.2. CLASIFICACIÓN ENTRE DOS POBLACIONES 401
13.2.2 Poblaciones Normales: Función lineal discriminante
Vamos a aplicar el análisis anterior al caso en que f1 y f2 son distribuciones normales con
distintos vectores de medias pero idéntica matriz de varianzas. Para establecer la regla con
carácter general supondremos que se desea clasiÞcar un elemento genérico x, que si pertenece
a la población i = 1, 2 tiene función de densidad:
fi(x) =
1
(2π)p/2|V |1/2
exp
½
−
1
2
(x − µi)0
V−1
(x − µi)
¾
.
La partición óptima, es, de acuerdo con la sección anterior, clasiÞcar en la población P2
si:
f2(x)π2
c(2|1)
>
f1(x)π1
c(1|2)
. (13.6)
Como ambos términos son siempre positivos, tomando logaritmos y sustituyendo fi(x)
por su expresión, la ecuación anterior se convierte en:
−
1
2
(x − µ2)0
V−1
(x − µ2) + log
π2
c(2|1)
> −
1
2
(x − µ1)0
V−1
(x − µ1) + log
π1
c (1|2)
,
Llamando D2
i a la distancia de Mahalanobis entre el punto observado, x, y la media de la
población i:
D2
i = (x − µi)0
V−1
(x − µi)
podemos escribir:
D2
1 − log
π1
c (1|2)
> D2
2 − log
π2
c(2|1)
(13.7)
y suponiendo iguales los costes y las probabilidades a priori, c(1/2) = c(2/1); π1 = π2, la
regla anterior se reduce a:
ClasiÞcar en 2 si D2
1 > D2
2
es decir, clasiÞcar la observación en la población de cuya media esté más próxima, midiendo
la distancia con la medida de Mahalanobis. Observemos que si las variables x tuvieran
V = Iσ2
, la regla equivale a utilizar la distancia euclídea. La Þgura 13.2 muestra las curvas
de equidistancia con la distancia de Mahalanobis para dos poblaciones normales con centros
en el origen y el punto (5,10).
402 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
Figura 13.2: Curvas de equidistancia con la distancia de Mahalanobis para clasiÞcar
13.2.3 Interpretación Geométrica
La regla general anterior puede escribirse de una forma equivalente que permite interpretar
geométricamente el método de clasiÞcación utilizado. La ecuación (13.7) indica que debemos
calcular la distancia de Mahalanobis, corregirla por el término correspondiente a las prob-
abilidades a priori y los costes, y clasiÞcar en el población donde esta distancia modiÞcada
sea mínima. Como las distancias tiene siempre el término común x0
V−1
x, que no depende
de la población, podemos eliminarlo de las comparaciones y calcular el indicador
−µ0
iV−1
x +
1
2
µ0
iV−1
µi − log
πi
c(i|j)
,
que será una función lineal en x y clasiÞcar el individuo en la población donde esta función
sea mínima. Esta regla divide el conjunto de valores posibles de x en dos regiones cuya
frontera viene dada por:
−µ0
1V−1
x +
1
2
µ0
1V−1
µ1 = −µ0
2V−1
x +
1
2
µ0
2V−1
µ2 − log
c(1|2)π2
c(2|1)π1
,
que, como función de x, equivale a:
(µ2 − µ1)0
V−1
x =(µ2 − µ1)0
V−1
µ
µ2 + µ1
2
¶
− log
c(1|2)π2
c(2|1)π1
. (13.8)
Llamando:
w = V−1
(µ2 − µ1) (13.9)
13.2. CLASIFICACIÓN ENTRE DOS POBLACIONES 403
la frontera puede escribirse como:
w0
x = w0 µ2 + µ1
2
− log
c(1|2)π2
c(2|1)π1
(13.10)
que es la ecuación de un hiperplano. En el caso particular en que c(1|2)π2 = c(211)π1,
clasiÞcaremos en P2 si
w0
x > w0
µ
µ1 + µ2
2
¶
. (13.11)
o lo que es equivalente, si
w0
x − w0
µ1 > w0
µ2 − w0
x (13.12)
Esta ecuación indica que el procedimiento para clasiÞcar un elemento x0 puede resumirse
como sigue:
(1) calcular el vector w con (13.9);
(2) construir la variable indicadora discriminante:
z = w0
x = w1x1 + .... + wpxp
que transforma la variable multivariante x en la variable escalar z , que es una com-
binación lineal de los valores de la variable multivariante con coeÞcientes dados por el
vector w;
(3) calcular el valor de la variable indicadora para el individuo a clasiÞcar, x0 = (x10, ..., xp0),
con z0 = w0
x0 y el valor de la variable indicadora para las medias de las poblaciones,
mi = w0
µi. ClasiÞcar en aquella población donde la distancia |z0 − mi| sea mínima.
En términos de la variable escalar z, como el valor promedio de z en Pi es :
E(z|Pi) = mi = w0
µi, i = 1, 2
La regla de decisión (13.12) equivale a clasiÞcar en P2 si:
|z − m1| > |z − m2| (13.13)
Esta variable indicadora, z, tiene varianza:
V ar(z) = w0
V ar(x)w = w0
Vw = (µ2 − µ1)0
V−1
(µ2 − µ1) = D2
. (13.14)
y el cuadrado de la distancia escalar entre las medias proyectadas es la distancia de Maha-
lanobis entre los vectores de medias originales:
(m2 − m1)2
= (w0
(µ2 − µ1))2
= (µ2 − µ1)0
V−1
(µ2 − µ1) = D2
. (13.15)
404 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
Figura 13.3: Representación de la dirección óptima de proyección para discriminar entre las
dos poblaciones.
La variable indicadora z puede interpretarse como una proyección si estandarizamos el
vector w. Dividiendo los dos miembros de (13.11) por la norma de w y llamando u al vector
unitario w/ kwk , la regla de clasiÞcación se convierte en clasiÞcar en P2 si
u0
x − u0
µ1 > u0
µ2 − u0
x, (13.16)
donde, al ser u un vector unitario, u0
x es simplemente la proyección de x en la dirección de
u y u0
µ1 y u0
µ2 las proyecciones de las medias poblacionales en esa dirección.
En la Þgura 13.3 se observa que el hiperplano perpendicular a u por el punto medio
u0
(µ1 +µ2)/2 divide el espacio muestral en dos regiones A1 y A2 que constituyen la partición
óptima buscada. Si c(1|2)π2 6= c(2|1)π1 la interpretación es la misma, pero el hiperplano
frontera se desplaza paralelamente a sí mismo, aumentando o disminuyendo la región A2.
La dirección de proyección, w = V−1
(µ2 −µ1) tiene una clara interpretación geométrica.
Consideremos en primer lugar el caso en que las variables están incorreladas y estandarizadas
de manera que V = I. Entonces, la dirección óptima de proyección es la deÞnida por µ2 −µ1.
En el caso general, la dirección de proyección puede calcularse en dos etapas: primero, se
estandarizan las variables de forma multivariante, para pasar a variables incorreladas con
varianza unidad; segundo, se proyectan los datos transformados sobre la dirección que une
las medias de las variables estandarizadas.
En efecto, el cálculo de w0
x puede escribirse como:
w0
x =
£
(µ2 − µ1)0
V−1/2
¤
(V−1/2
x)
donde V−1/2
existe si V es deÞnida positiva. Esta expresión indica que esta operación equiv-
ale a: (1) estandarizar las variables x pasando a otras y = V−1/2
x que tienen como matriz
13.2. CLASIFICACIÓN ENTRE DOS POBLACIONES 405
de covarianzas la identidad y como vector de medias V−1/2
µ; (2) proyectar las variables
estandarizadas y sobre la dirección µ2(y) − µ1(y) = (µ2 − µ1)0
V−1/2
.
La Þgura 13.4 ilustra algunas direcciones de proyección. En (a) y (b) la dirección de las
linea que une las medias coindice con alguno de los ejes principales de la elipse y por tanto
la dirección w = V−1
(µ2 −µ1) coincide con (µ2 −µ1), ya que este es un vector propio de V,
y por tanto también de V−1
. En (c) la dirección óptima es un compromiso entre (µ2 − µ1)
y las direcciones deÞnidas por los vectores propios de V−1
.
(c)
(a)
(b)
w
w
w
Figura 13.4: En los casos (a) y (b) la dirección óptima coindice con la linea de medias y con
los ejes de la elipse. En el caso (c) es un compromiso entre ambos
13.2.4 Cálculo de Probabilidades de error
La utilidad de la regla de clasiÞcación depende de los errores esperados. Como la distribución
de la variable z = w0
x es normal, con media mi = w0
µi y varianza D2
= (m2−m1)2
, podemos
calcular las probabilidades de clasiÞcar erróneamente una observación en cada una de las dos
poblaciones. En concreto, la probabilidad de una decisión errónea cuando x ∈ P1 es:
P(2|1) = P
½
z ≥
m1 + m2
2
| z es N(m1; D)
¾
y llamando y = (z−m1)/D a una variable aleatoria N(0, 1), y Φ a su función de distribución:
P(2|1) = P
½
y ≥
m1+m2
2
− m1
D
¾
= 1 − Φ
µ
D
2
¶
Análogamente, la probabilidad de una decisión errónea cuando x ∈ P2 es:
P(1|2) = P
½
z ≤
m1 + m2
2
| z es N(m2; D)
¾
=
406 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
= P
½
y ≤
m1+m2
2
− m2
D
¾
= Φ
µ
−
D
2
¶
y ambas probabilidades de error son idénticas, por la simetría de la distribución normal .
Podemos concluir que la regal obtenida hace iguales y mínimas (veáse Apéndice 13.1) las
probabilidades de error y que los errores de clasiÞcación sólo dependen de las distancias de
Mahalanobis entre las medias.
13.2.5 Probabilidades a posteriori
El grado de conÞanza al clasiÞcar una observación depende de la probabilidad acertar. La
probabilidad a posteriori de que la observación pertenezca a la primera población se calcula
con :
P(1|x) =
π1f1(x)
π1f1(x) + π2f2(x)
=
=
π1 exp
©
−1
2
(x − µ1)0
V−1
(x − µ1)
ª
(π1 exp
©
−1
2
(x − µ1)0V−1(x − µ1)
ª
+ π2 exp
©
−1
2
(x − µ2)0V−1(x − µ2)
ª
y llamando D2
1 y D2
2 a las distancias de Mahalanobis entre el punto y cada una de las dos
medias, esta expresión puede escribirse:
P(1|x) =
1
1 + π2
π1
exp
©
−1
2
(D2
2 − D2
1)
ª
y sólo depende de las probabilidades a priori y de las distancias entre el punto y las medias
de ambas poblaciones. Observemos que si π2/π1 = 1, cuanto más alejado esta el punto de la
primera población, es decir, cuanto mayor sea D2
1 respecto a D2
2, mayor serà el denominador
y menor será la probabilidad de que pertenezca a ella, P(1|x), y al contrario.
Ejemplo 13.1 Se desea clasiÞcar un retrato entre dos posibles pintores. Para ello se miden
dos variables: la profundidad del trazo y la proporción que ocupa el retrato sobre la superÞcie
del lienzo. Las medias de estas variables para el primer pintor, A, son (2 y .8) y para el
segundo, B, (2.3 y .7) y las desviaciones típicas de estas variables son .5 y .1 y la correlación
entre estas medidas es .5. La obra a clasiÞcar tiene medidas de estas variables (2.1 y .75).
Calcular las probabilidades de error.
Las distancias de Mahalanobis serán, calculando la covarianza como el producto de la
correlación por las desviaciones típicas:
D2
A = (2.1 − 2, .75 − .8)
·
.25 .025
.025 .01
¸−1 µ
2.1 − 2
75 − .8
¶
= 0, 52
13.3. GENERALIZACIÓN PARA VARIAS POBLACIONES NORMALES 407
y para la segunda
D2
B = (2.1 − 2.3, .75 − .7)
·
.25 .025
.025 .01
¸−1 µ
2.1 − 2.3
.75 − .7
¶
= 0, 8133
Por tanto, asignaremos la obra al primer pintor. El error esperado de clasiÞcación con
esta regla depende de la distancia de Mahalanobis entre las medias que es
D2
= (2. − 2.3, .8 − .7)
·
.25 .025
.025 .01
¸−1 µ
2. − 2.3
.8 − .7
¶
= 2, 6133
y D = 1.6166. La probabilidad de equivocarnos es
P(A/B) = 1 − Φ(
1.6166
2
) = 1 − Φ(.808) = 1 − 0, 8106 = 0, 1894.
De manera que la clasiÞcación mediante estas variables no es muy precisa, ya que podemos
tener un 18,94% de probabilidad de error. Calculemos la probabilidad a posteriori de que
el cuadro pertenezca al pintor A suponiendo que, a priori, ambos pintores son igualmente
probables.
P(A/x) =
1
1 + exp(−0.5(0, 8133 − 0, 52)
=
1
1.86
= 0, 5376
Esta probabilidad indica que al clasiÞcar la obra como perteneciente al pintor A existe
mucha incertidumbre en la decisión, ya que las probabilidades de que pertenezca a cada pintor
son semejantes (0,5376 y 0,4624).
13.3 GENERALIZACIÓN PARA VARIAS POBLA-
CIONES NORMALES
13.3.1 Planteamiento General
La generalización de estas ideas para G poblaciones es simple: el objetivo es ahora dividir
el espacio Ex en G regiones A1, . . . , Ag, . . . , AG tales que si x pertenece a Ai el punto se
clasiÞca en la población Pi. Supondremos que los costes de clasiÞcación son constantes y no
dependen de la población en que se haya clasiÞcado. Entonces, la región Ag vendrá deÞnida
por aquellos puntos con máxima probabilidad de ser generados por Pg, es decir donde el
producto de la probabilidad a priori y la verosimilitud sean máximas:
Ag = {x ∈ Ex|πgfg(x) > πifi(x); ∀i 6= g} (13.17)
Si las probabilidades a priori son iguales, πi = G−1
, ∀i, y las distribuciones fi (x) son
normales con la misma matriz de varianzas, la condición (13.17) equivale a calcular la dis-
tancia de Mahalanobis del punto observado al centro de cada población y clasiÞcarle en
408 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
la población que haga esta distancia mínima. Minimizar las distancias de Mahalanobis¡
x − µg
¢0
V−1
¡
x − µg
¢
equivale, eliminando el término x0
V−1
x que aparece en todas las
ecuaciones, a minimizar el indicador lineal
Lg (x) = −2µ0
gV−1
x + µ0
gV−1
µg. (13.18)
y llamando
wg = V−1
µg
la regla es
min
g
(w
0
gµg − 2w
0
gx)
Para interpretar esta regla, observemos que la frontera de separación entre dos pobla-
ciones, (ij), vendrá deÞnida por:
Aij(x) = Li(x) − Lj(x) = 0 (13.19)
sustituyendo con (13.18) y reordenando los términos se obtiene:
Aij(x) = 2(µi − µj)0
V−1
x + (µi − µj)0
V−1
(µi + µj) = 0
y llamando
wij = V−1
(µi − µj) = wi − wj
la frontera puede escribirse como:
w0
ijx = w0
ij
1
2
(µi + µj).
Esta ecuación admite la misma interpretación como proyección que en el caso de dos
poblaciones. Se construye una dirección wij y se proyectan las medias y el punto x que
tratamos de clasiÞcar sobre esta dirección. La región de indiferencia es cuando el punto
proyectado está equidistante de las medias proyectadas. En otro caso, asignaremos el punto
a la población de cuya media proyectada esté más próxima.
Vamos a comprobar que si tenemos G poblaciones sólo necesitamos encontrar
r = min(G − 1, p)
direcciones de proyección. En primer lugar observemos que, aunque podemos construir¡G
2
¢
= G (G − 1) /2 vectores wij a partir de las G medias, una vez que tenemos G − 1
vectores los demás quedan determinados por éstos. Podemos determinar los G − 1 vectores
wi,i+1, para i = 1, ..., G − 1, y obtener cualquier otro a partir de estas G − 1 direcciones.
Por ejemplo:
wi,i+2 = V−1
(µi − µi+2) = V−1
(µi − µi+1) − V−1
(µi+1 − µi+2) = wi,i+1 − wi+1,i+2.
13.3. GENERALIZACIÓN PARA VARIAS POBLACIONES NORMALES 409
En conclusión, si p > G − 1, el número máximo de vectores w que podemos tener es G − 1,
ya que los demás se deducen de ellos. Cuando p ≤ G − 1, como estos vectores pertenecen a
Rp
el número máximo de vectores linealmente independientes es p.
Es importante resaltar que, como es natural, la regla de decisión obtenida cumple la
propiedad transitiva. Por ejemplo, si G = 3, y obtenemos que para un punto (x)
D2
1(x) > D2
2(x)
D2
2(x) > D2
3(x)
entonces forzosamente debemos concluir que D2
1(x) > D2
3(x) y esta será el resultado que
obtendremos si calculamos estas distancias, por lo que el análisis es coherente. Además, si
p = 2, cada una de las tres ecuaciones Aij(x) = 0 será una recta y las tres se cortarán en
el mismo punto. En efecto, cualquier recta que pase por el punto de corte de las rectas
A12(x) = 0 y A23(x) = 0 tiene la expresión
a1A12(x) + a2A23(x) = 0
ya que si x∗
0 es el punto de corte como A12 (x∗
) = 0, por pertenecer a la primera recta, y
A23 (x∗
) = 0, por pertenecer a la segunda, pertenecerá a la combinación lineal. Como, según
(13.19), A13 (x) = L1 (x) − L3 (x) = L1 (x) − L2 (x) + L2 (x) − L3 (x), tenemos que:
A13(x) = A12(x) + A23(x)
y la recta A13(x) debe siempre pasar por el punto de corte de las otras dos.
13.3.2 Procedimiento operativo
Para ilustrar el procedimiento operativo, supongamos cinco poblaciones con p > 4, con lo
que existirán cuatro reglas de clasiÞcación independientes y las demás se deducen de ellas.
Tenemos dos formas de realizar el análisis. La primera es calcular para las G poblaciones las
distancias de Mahalanobis (o lo que es equivalente, las proyecciones (13.18)) y clasiÞcar el
elemento en la más próxima. La segunda es hacer el análisis comparando las poblaciones dos
a dos. Supongamos que hemos obtenido de las comparaciones 2 a 2 los siguientes resultados:
(i > j indica que la población i es preferida a la j, es decir, el punto se encuentra más
próximo a la media de la población i que a la de j):
1 > 2
2 > 3
4 > 3
5 > 4
Las poblaciones 2, 3 y 4 quedan descartadas (ya que 1 > 2 > 3 y 5 > 4). La duda no
resuelta se reÞere a las poblaciones 1 y 5. Construyendo (a partir de las reglas anteriores) la
regla para discriminar entre estas dos últimas poblaciones, supongamos que
410 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
5 > 1
y clasiÞcaremos en la población 5.
Cuando p < G − 1 el máximo número de proyecciones linealmente independientes que
podemos construir es p, y éste será el máximo número de variables a deÞnir. Por ejemplo,
supongamos que p = 2 y G = 5. Podemos deÞnir una dirección de proyección cualquiera,
por ejemplo
w12 = V−1
(µ1 − µ2)
y proyectar todas las medias (µ1, µ2, ..., µ5) y el punto x sobre dicha dirección. Entonces,
clasiÞcaremos el punto en la población de cuya media proyectada está más próxima. Ahora
bien, es posible que sobre esta dirección coincidan las medias proyectadas de varias pobla-
ciones. Si esto ocurre con, por ejemplo, las µ4 y µ5, resolveremos el problema proyectando
sobre la dirección deÞnida por otra pareja de poblaciones.
Ejemplo 13.2 Una máquina que admite monedas realiza tres mediciones de cada moneda
para determinar su valor: peso (x1), espesor (x2) y la densidad de estrías en su canto (x3).
Los instrumentos de medición de estas variables no son muy precisos y se ha comprobado en
una amplia experimentación con tres tipos de monedas usadas, M1, M2, M3 , que las medidas
se distribuyen normalmente con medias para cada tipo de moneda dadas por:
µ1 = 20 8 8
µ2 = 19.5 7.8 10
µ3 = 20.5 8.3 5
y matriz de covarianzas
V =


4 .8 −5
.8 .25 −.9
−5 −.9 9


Indicar cómo se clasiÞcaría una moneda con medidas (22, 8.5 ,7) y analizar la regla de
clasiÞcación. Calcular las probabilidades de error.
Aparentemente la moneda a clasiÞcar está más próxima a M3 en las dos primeras coor-
denadas, pero más próxima a M1 por x3, la densidad de estrías. La variable indicador para
clasiÞcar entre M1 y M3 es
z = (µ1 − µ3)V−1
x = 1.77x1 − 3.31x2 + .98x3
la media de esta variable para la primera moneda, M1,es 1.77×20−3.31×8+.98×8 =16.71
y para la tercera, M3, 1.77 × 20.5 − 3.31 × 8.3 + .98 × 5 =13.65. El punto de corte es la
media, 15.17. Como para la moneda a clasiÞcar es
z = 1.77 × 22 − 3.31 × 8.5 + .98 × 7 = 17.61
13.3. GENERALIZACIÓN PARA VARIAS POBLACIONES NORMALES 411
la clasiÞcaremos como M1. Este análisis es equivalente a calcular las distancias de Maha-
lanobis a cada población que resultan ser D2
1 = 1.84, D2
2 = 2.01 y D2
3 = 6.69. Por tanto
clasiÞcamos primero en M1, luego en M2 y Þnalmente como M3. La regla para clasiÞcar
entre la primera y la segunda es
z = (µ1 − µ2)V−1
x = −.93x1 + 1.74x2 − .56x3
de estas dos reglas deducimos inmediatamente la regla para clasiÞcar entre la segunda y
la tercera, ya que
(µ2 − µ3)V−1
x = (µ1 − µ3)V−1
x − (µ1 − µ2)V−1
x
Analicemos ahora las reglas de clasiÞcación obtenidas. Vamos a expresar la reglas inicial
para clasiÞcar entre M1 y M3 para las variables estandarizadas, con lo que se evita el problema
de las unidades. Llamando exi a las variables divididas por sus desviaciones típicas ex1 =
x1/2;ex2 = x2/.5, y ex3 = x3/3, la regla en variables estandarizadas es
z = 3.54ex1 − 1.65ex2 + 2.94ex3
que indica que las variables con más peso para decidir la clasiÞcación son la primera y
la tercera, que son la que tienen mayores coeÞcientes. Observemos que con variables es-
tandarizadas la matriz de covarianzas es la de correlación
R =


1 .8 −.83
.8 1 −.6
−.83 −.6 1


El origen de estas correlaciones entre los errores de medida es que si la moneda adquiere
suciedad y aumenta ligeramente su peso, también aumenta su espesor y hace más difícil
determinar su densidad de estrías. Por eso hay correlaciones positivas entre peso y espesor,
al aumentar el peso aumenta el espesor, pero negativas con las estrías. Aunque la moneda que
queremos clasiÞcar tiene mucho peso y espesor, lo que indicaría que pertenece a la clase 3,
entonces la densidad de estrías debería medirse como baja, ya que hay correlaciones negativas
entre ambas medidas, y sin embargo se mide relativamente alta en la moneda. Las tres
medidas son coherentes con una moneda sucia del tipo 1, y por eso se clasiÞca con facilidad
en ese grupo.
Vamos a calcular la probabilidad a posteriori de que la observación sea de la clase M1.
Suponiendo que las probabilidades a priori son iguales esta probabilidad será
P(1/x0) =
exp(−D2
1/2)
exp(−D2
1/2) + exp(−D2
2/2) + exp(−D2
3/2)
y sustituyendo las distancias de Mahalanobis
P(1/x0) =
exp(−1.84/2)
exp(−1.84/2) + exp(−2.01/2) + exp(−6.69/2)
= .50
y análogamente P(2/x0) = .46, y P(3/x0) = .04.
412 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
Podemos calcular las probabilidades de error de clasiÞcar una moneda de cualquier tipo
en otra clase. Por ejemplo, la probabilidad de clasiÞcar una moneda M3 con esta regla como
tipo M1 es
P(z > 15.17/N(13.64,
√
3.07)) = P(y >
15.17 − 13.64
1.75
) = P(y > .87) = .192
como vemos esta probabilidad es bastante alta. Si queremos reducirla hay que aumentar la
distancia de Mahalanobis entre las medias de los grupos, lo que supone ”aumentar” la matriz
V−1
o ”reducir” la matriz V. Por ejemplo, si reducimos a la mitad el error en la medida
de las estrías introduciendo medidores más precisos, pero se mantiene las correlaciones con
las otras medidas, pasamos a la matriz de covarianzas
V2 =


4 .8 −2.5
.8 .25 −.45
−1 −.2 2.25


la regla de clasiÞcación entre la primera y la tercera es ahora
z = (µ1 − µ3)V−1
x = 3.44x1 − 4.57x2 + 4.24x3
y la distancia de Mahalanobis entre las poblaciones 1 y 3 (monedas M1 y M3) ha pasado
de 3.01 a 12.38, lo que implica que la probabilidad de error entre estas dos poblaciones ha
disminuido a 1 − Φ(
√
12.38/2) = 1 − Φ(1.76) = .04 y vemos que la probabilidad de error
ha disminuido considerablemente. Podemos así calcular la precisión en las medidas que
necesitaríamos para conseguir unas probabilidades de error determinadas.
13.4 POBLACIONES DESCONOCIDAS. CASO GEN-
ERAL
13.4.1 Regla estimada de clasiÞcación
Vamos a estudiar cómo aplicar la teoría anterior cuando en lugar de trabajar con poblaciones
disponemos de muestras. Abordaremos directamente el caso de G poblaciones posibles.
Como caso particular, la discriminación clásica es para G = 2. La matriz general de datos
X de dimensiones n × p, (n individuos y p variables), puede considerarse particionada ahora
en G matrices correspondientes a las subpoblaciones. Vamos a llamar xijg a los elementos
de estas submatrices, donde i representa el individuo, j la variable y g el grupo o submatriz.
Llamaremos ng al número de elementos en el grupo g y el número total de observaciones es:
n =
GX
g=1
ng
Vamos a llamar x0
ig al vector Þla (1×p) que contiene los p valores de las variables para el
individuo i en el grupo g, es decir, x0
ig = (xi1g, ...., xipg). El vector de medias dentro de cada
clase o subpoblación será:
13.4. POBLACIONES DESCONOCIDAS. CASO GENERAL 413
xg =
1
ng
ng
X
i=1
xig (13.20)
y es un vector columna de dimensión p que contiene las p medias para las observaciones de
la clase g. La matriz de varianzas y covarianzas para los elementos de la clase g será:
bSg =
1
ng − 1
ng
X
i=1
(xig − xg)(xig − xg)0
(13.21)
donde hemos dividido por ng − 1 para tener estimaciones centradas de las varianzas y co-
varianzas. Si suponemos que las G subpoblaciones tienen la misma matriz de varianzas y
covarianzas, su mejor estimación centrada con todos los datos será una combinación lineal
de las estimaciones centradas de cada población con peso proporcional a su precisión. Por
tanto:
bSw =
GX
g=1
ng − 1
n − G
bSg
y llamaremos W a la matriz de sumas de cuadrados dentro de las clases que viene dada por:
W = (n − G)bSw (13.22)
Para obtener las funciones discriminantes utilizaremos xg como estimación de µg, y bSw
como estimación de V. En concreto, suponiendo iguales las probabilidades a priori y los
costes de clasiÞcación, clasiÞcaremos al elemento en el grupo que conduzca a un valor mínimo
de la distancia de Mahalanobis entre el punto x y la media del grupo. Es decir, llamando
bwg = bS−1
w xg clasiÞcaremos un nuevo elemento x0 en aquella población g donde
min
g
(x0 − xg)0bS−1
w (x0 − xg) = min
g
bw0
g(xg − x0)
que equivale a construir las variables indicadoras escalares
zg,g+1 = bw0
g,g+1x0 g = 1, ..., G
donde
bwg,g+1 = bS−1
w (xg − xg+1) = bwg − bwg+1
y clasiÞcar en g frente a g + 1 si
|zg,g+1 − bmg| < |zg,g+1 − bmg+1|
414 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
donde bmg = bw0
g,g+1xg.
Conviene antes de construir la regla de clasiÞcación realizar un test de que los grupos son
realmente distintos, es decir, que no todas las medias µg son iguales. Este contraste puede
realizarse siguiendo lo expuesto en la sección 10.7. En la apéndice 13.2 se demuestra que en
el caso de dos grupos la función de discriminación lineal bw = bS−1
ω (x2 − x1) puede obtenerse
por regresión, deÞniendo una variable Þcticia que tome los valores cero o uno según que el
dato pertenezca a una u otra población.
13.4.2 Cálculo de Probabilidades de error
El cálculo de probabilidades de error podría hacerse sustituyendo los parámetros descono-
cidos por los estimados y aplicando las fórmulas de la sección 13.2, pero este método no
es recomendable ya que va a subestimar mucho las probabilidades de error al no tener en
cuenta la incertidumbre de estimación de los parámetros. Un mejor procedimiento, que
además no depende de la hipótesis de normalidad, es aplicar la función discriminante a las
n observaciones y clasiÞcarlas. En el caso de 2 grupos, obtendríamos la tabla:
ClasiÞcado
P1 P2
Realidad P1 n11 n12
P2 n21 n22
donde nij es el número de datos que viniendo de la población i se clasiÞca en j. El error
aparente de la regla es:
Error =
n12 + n21
n11 + n22
=
Total mal clasiÞcados
Total bien clasiÞcados
.
Este método tiende a subestimar las probabilidades de error ya que los mismos datos se
utilizan para estimar los parámetros y para evaluar el procedimiento resultante. Un proced-
imiento mejor es clasiÞcar cada elemento con una regla que no se ha construido usándolo.
Para ello, podemos construir n funciones discriminantes con las n muestras de tamaño n − 1
que resultan al eliminar uno a uno cada elemento de la población y clasiÞcar después cada
dato con la regla construida sin él. Este método se conoce como validación cruzada y con-
duce a una mejor estimación del error de clasiÞcación. Si el número de observaciones es muy
alto, el coste computational de la validación cruzada es alto y una solución más rápida es
subdividir la muestra en k grupos iguales y realizar la validación cruzada eliminado en lugar
de una observación uno de estos grupos.
Ejemplo 13.3 Vamos a utilizar los datos de MEDIFIS para clasiÞcar personas por su género
conocidas las medidas físicas de las variables de la tabla A.5. Como los datos para toda la
población de hombre y mujeres son desconocidos, vamos a trabajar con los datos muestrales.
En la muestra hay 15 mujeres (variable sexo=0) y 12 hombres (sexo=1).
En el ejemplo 10.2 comprobamos que las medias de las poblaciones de las medidas físicas
de hombres y mujeres son diferentes. Las funciones discriminantes bwg = bS−1
w xg se indican
en la tabla adjunta
13.5. VARIABLES CANÓNICAS DISCRIMINANTES 415
est pes pie lbr aes dcr lrt
hombres −1.30 −4.4 20.0 10.0 −2.1 24.4 −4.4
mujeres −1.0 −4.4 17.7 9.5 −2.5 25.1 −4.7
diferencia −.3 0 2.3 .5 .4 −.7 .3
La diferencia entre estas dos funciones proporciona la función lineal discriminante. Se
observa que la variable con mayor peso en la discriminación es la longitud del pie. Para
interpretar este resultado, la tabla siguiente indica las diferencias estandarizadas entre los
medias de cada variable en ambas poblaciones. Por ejemplo, la diferencia estandarizada
entre las estaturas es (177.58 − 161.73)/6.4 = 2.477
est pes pie lbr aes dcr lrt
dif medias 15.8 18.65 4.83 7.72 5.67 1.36 4.56
desv. típicas 6.4 8.8 1.5 3.1 2.9 1.7 2.2
dif. estand. 2.47 2.11 3.18 2.48 1.97 .78 2.07
,
La variable que separa más ambas poblaciones es la longitud del pie. Como, además,
la longitud del pie esta muy correlada con la estatura y la longitud del brazo, conocida la
longitud del pie estas variables no son tan informativas, lo que explica su bajo peso en la
función discriminante.
Si aplicamos la función discriminante para clasiÞcar los datos muestrales obtenemos un
porcentaje de éxitos del 100%. Todas las observaciones se clasiÞcan bien. Aplicando vali-
dación cruzada se obtiene
ClasiÞcado
M H
Realidad M 13 2
H 2 10
Ejemplo 13.4 que supone una proporción de aciertos de 23/27=0.852. Las observaciones
mal clasiÞcadas son las 2, 7, 9, y 18. Vemos que el método de validación cruzada da una
idea más realista de la eÞcacia del procedimiento de clasiÞcación.
13.5 VARIABLES CANÓNICAS DISCRIMINANTES
13.5.1 El caso de dos grupos
La función lineal discriminante para dos grupos fue deducida por primera vez por Fisher por
un razonamiento intuitivo que vamos a resumir brevemente. El criterio propuesto por Fisher
es encontrar una variable escalar:
z = α0
x (13.23)
tal que maximice la distancia entre las medias proyectadas con relación a la variabilidad
resultante en la proyección. Intuitivamente, la escala z permitirá separar lo más posible
ambos grupos.
La media de la variable z en el grupo 1, que es la proyección del vector de medias sobre
la dirección de α, es bm1 = α0
x1, y la media en el grupo 2 es bm2 = α0
x2. La varianza de
416 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
la variable z será la misma en ambos grupos, α0
Vα, y la estimaremos con s2
z = α0
Swα. Se
desea escoger α de manera que la separación entre las medias m1 y m2 sea máxima. Una
medida adimensional de esta separación es:
φ =
µ
bm2 − bm1
sz
¶2
,
y esta expresión es equivalente a:
φ =
(α0
(x2 − x1))2
α0Swα
. (13.24)
En esta relación α representa una dirección, ya que φ es invariante ante multiplicaciones
de α por una constante: si β = pα, φ(β) = φ(α). Para encontrar la dirección α que
maximice φ, derivando (13.24) e igualando a cero:
dφ
dα
= 0 =
2α0
(x2 − x1)(x2 − x1)0
α0
Swα − 2Swα (α0
(x2 − x1))2
(α0Swα)2
que escribiremos:
(x2 − x1)α0
Swα = Swα (α0
(x2 − x1))
o también
(x2 − x1) = Swα
(α0
(x2 − x1))
α0Swα
que resulta en
α = λSw
−1
(x2 − x1)
donde λ = (α0
Swα)/α0
(x2−x1). Como, dada α, λ es una constante y la función a optimizar
es invariante ante constantes, podemos tomar α normalizado para que λ = 1, con lo que
resulta:
α = Sw
−1
(x2 − x1) (13.25)
que es la dirección w de proyección que hemos encontrado en la sección anterior. Además:
α0
Swα = (x2 − x1)0
Sw
−1
(x2 − x1) = D2
(x2, x1) = ( bm2 − bm1)2
y la varianza de la variable resultante de la proyección es la distancia de Mahalanobis entre
las medias. También:
α0
(x2 − x1) = (x2 − x1)0
Sw
−1
(x2 − x1) = D2
(x2, x1)
y comparando con (13.24) vemos que φ es la distancia de Mahalanobis entre las medias.
El procedimiento obtenido conduce a buscar una dirección de proyección que maximice la
distancia de Mahalanobis entre los centros de ambas poblaciones. Observemos que si Sw= I
la distancia de Mahalanobis se reduce a la euclídea y la dirección de proyección es paralela
al vector que une ambas medias. Finalmente, observemos que esta regla se ha obtenido sin
imponer ninguna hipótesis sobre la distribución de la variable x en las poblaciones.
13.5. VARIABLES CANÓNICAS DISCRIMINANTES 417
13.5.2 Varios Grupos
El enfoque de Fisher puede generalizarse para encontrar variables canónicas que tengan máx-
imo poder discriminante para clasiÞcar nuevos elementos entre G poblaciones. El objetivo
es, en lugar de trabajar con las p variables originales x, deÞnir un vector z = (z1, ..., zr)0
de
r variables canónicas, donde r = min(G − 1, p), que se obtengan como combinación lineal
de las originales, zi = u0
ix, y que permitan resolver el problema de clasiÞcación de la forma
siguiente:
(1) Proyectamos las medias de las variables en los grupos, xg , sobre el espacio determi-
nado por las r variables canónicas. Sean z1, ..., zg las variables r × 1 cuyas coordenadas son
estas proyecciones.
(2) Proyectamos el punto x0 a clasiÞcar y sea z0 su proyección sobre dicho espacio.
(3) ClasiÞcamos el punto en aquella población de cuya media se encuentre más próxima.
Las distancias se miden con la distancia euclídea en el espacio de las variables canónicas z.
Es decir, clasiÞcaremos en la población i si:
(z0 − zi)0
(z0 − zi) = min
g
(z0 − zg)0
(z0 − zg)
Con varios grupos la separación entre las medias la mediremos por el cociente entre la
variabilidad entre grupos, o variabilidad explicada por los grupos, y la variabilidad dentro de
los grupos, o no explicada o residual. Este es el criterio habitual para comparar varias medias
en el análisis de la varianza y conduce al estadístico F de Fisher. Para obtener las variables
canónicas discriminantes comenzamos buscando un vector u0
1, de norma uno, tal que los
grupos de puntos proyectados sobre él tengan separación relativa máxima. La proyección de
la media de las observaciones del grupo g en esta dirección será la variable escalar:
zg = u0
1xg
y la proyección de la media para todos los datos será:
zT = u0
1xT
donde xT es el vector p×1 que contiene las medias de las p variables para las n observaciones
de la muestra uniendo todos los grupos. Tomando como medida de la distancia entre las
medias de los grupos proyectadas z1, ..., zg su variación total dada por
PG
g=1 ng(zg − zT )2
, y
comparando esta cantidad con la variabilidad dentro de los grupos, dada por
P P
(zig −zg)2
,
la separación relativa entre las medias, vendrá dada por el estadístico :
φ =
P
ng(zg − zT )2
P P
(zig − zg)2
.
y si todos los datos provienen de la misma población y no existen grupos distintos esta
variable se distribuye como una F con G − 1 y n − G + 1 grados delibertad. Vamos a
expresar este criterio en función de los datos originales. La suma de cuadrados dentro de
grupos, o variabilidad no explicada, para los puntos proyectados, es:
V NE =
ng
X
j=1
GX
g=1
(zjg − zg)2
=
ng
X
j=1
GX
g=1
u0
(xjg − xg)(xjg − xg)0
u = u0
Wu
418 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
donde W está dada por
W =
ng
X
j=1
GX
g=1
(xjg − xg)(xjg − xg)0
que coincide con (13.22). Esta matriz tiene dimensiones p× p y tendrá, en general, rango p,
suponiendo n − G ≥ p. Estima la variabilidad de los datos respecto a sus medias de grupo,
que es la misma, por hipótesis, en todos ellos.
La suma de cuadrados entre grupos, o variabilidad explicada, para los puntos proyectados
es:
V E =
GX
g=1
ng(zg − zT )2
= (13.26)
=
X
ngu0
(xg − xT )(xg − xT )0
u =
= u0
Bu
siendo B la matriz de suma de cuadrados entre grupos, que puede escribirse:
B =
GX
g=1
ngaga0
g
siendo ag = xg − xT . La matriz B es cuadrada p × p y simétrica y se obtiene como suma de
G matrices de rango uno formadas por los vectores ag, que no son independientes, ya que
están ligados por la relación
PG
g=1 ngag = 0,que implica que el rango de B será G − 1.
En resumen, la matriz W mide las diferencias dentro de grupos y la B las diferencias
entre grupos. La cantidad a maximizar puede también escribirse:
φ =
u0
1Bu1
u0
1Wu1
, (13.27)
derivando e igualando a cero de la forma habitual:
dφ
du1
= 0 =
2Bu1(u0
1Wu1) − 2(u0
1Bu1)Wu1
(u0
1Wu1)2
= 0
entonces:
Bu1 = Wu1
µ
u0
1Bu1
u0
1Wu1
¶
es decir, por
Bu1 = φWu1
y suponiendo W no singular:
W−1
Bu1 = φu1
13.5. VARIABLES CANÓNICAS DISCRIMINANTES 419
que implica que u1 debe de ser un vector propio de W−1
B y entonces φ es su valor propio
asociado. Como queremos maximizar φ, que es el valor del estadístico F en un contrate
escalar sobre las medias proyectadas, u será el vector propio asociado al mayor valor propio
de la matriz W−1
B.
Podemos plantearnos obtener un segundo eje tal que maximice la separación φ, pero con
la condición de que la nueva variable canónica z2 = u0
2x esté incorrelada con la primera, z1 =
u0
1x. Puede demostrarse análogamente que esto ocurre si tomamos el segundo vector propio
(ligado al segundo valor propio) de la matriz W−1
B. En general, sean α1, . . . , αr los valores
propios no nulos de W−1
B y u1, . . . , ur los vectores propios ligados a los valores propios no
nulos. Las variables escalares zj = u0
jx ordenadas por los valores propios α1 > α2 > . . . > αr
proporcionan máxima separación en el sentido de que el estadístico F para contrastar si
existen diferencias entre los G grupos proyectados tiene un valor igual a αj
. Además, estas
variables escalares zj están incorreladas, tanto dentro de grupos como en toda la muestra.
Para comprobarlo sea zj el vector n × 1 resultado de proyectar los puntos muestrales en la
dirección u0
j, es decir, zj = Xuj. Esta variable tendrá media zj = 10
zj/n = 10
Xuj/n = x0
T uj
y la covarianza entre dos variables escalares, zj y zh vendrá dada por
cov(zj, zh) =
1
n
nX
i=1
(zji − zj)(zhi − zh) =
1
n
nX
i=1
u0
j(xi − xT )(xi − xT )0
uh
y llamando T a la matriz de suma de cuadrados totales la covarianzas entre las variables
canónicas son u0
jTuh. Si descomponemos estas variables en grupos, de manera que cada vari-
able zj da lugar a G variables zjg donde g indica el grupo, puede comprobarse analogamente
que las covarianzas entre zjg y zhg, sumadas para todos los grupos vienen dadas por u0
jWuh.
Vamos a demostrar que, para dos vectores propios distintos, h 6= j:
u0
hWuj = u0
hTuj = 0,
donde T = W + B.
Comprobemos esta propiedad. Supongamos que αh > αj. Los vectores propios de W−1
B
veriÞcan que
(W−1
B)uh = αhuh
es decir
Buh = αhWuh. (13.28)
Por tanto, para otro vector propio distinto uj, donde αh 6= αj, tenemos:
Buj = αjWuj (13.29)
multiplicando (13.28) por u0
j y (13.29) por u0
h:
u0
jBuh = αhu0
jWuh
u0
hBuj = αju0
hWuj
420 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
Como los primeros miembros son iguales, los segundos deben de serlo y al ser αh 6= αj,
forzosamente u0
jWuh = 0 = u0
jBuh = u0
jTuh.
Observemos que los vectores propios de la matriz W−1
B no serán, en general, ortogonales
ya que aunque las matrices W−1
y B son simétricas, su producto no necesariamente lo es.
Además, el rango de esta matriz, W−1
B, será r = min(p, G − 1), (recordemos que el rango
del producto de dos matrices es menor o igual que el de las originales) y éste es el máximo
número de factores discriminantes que podemos obtener.
La matriz W−1
B ha sido llamada por Rao matriz de distancias de Mahalanobis gener-
alizada, ya que su traza es la suma de las distancias de Mahalanobis entre la media de cada
grupo y la media total. En efecto, tenemos que
tr(W−1
B) = tr
X
(xg − xT )0
(W/ng)−1
(xg − xT )
13.5.3 Variables canónicas discriminantes
Este procedimiento proporciona r = min(p, G − 1) variables canónicas discriminantes que
vienen dadas por
z = U0
rx (13.30)
donde Ur es una matriz p×r que contiene en columnas los vectores propios de W−1
B y x un
vector p× 1. El vector r × 1, z, recoge los valores de las variables canónicas para el elemento
x, que son las coordenadas del punto en el espacio deÞnido por las variables canónicas.
Las variables canónicas así obtenidas resuelven el problema de clasiÞcación. En efecto,
para clasiÞcar un nuevo individuo x0 basta calcular sus coordenadas z0 con (13.30) y asignarlo
al grupo de cuya media transformada esté más próxima con la distancia euclídea.
Un problema importante es investigar cuántas dimensiones necesitamos para la discrimi-
nación, ya que es posible que la mayoría de la capacidad de separación de las poblaciones se
consiga con las primeras variables canónicas. Para estudiar este problema supongamos que
los vectores propios de W−1
B en vez de tomarlos con norma unidad, ui,los estandarizamos
con vi = ui/ |u0
iWui|1/2
de manera que estos vectores vi sigan siendo vectores propios de
W−1
B pero ahora veriÞcan v0
iWvi = 1. Entonces, la variabilidad explicada por la variable
canónica vi es, por (13.26),
V E(vi) = v0
iBvi
pero al ser vi un vector propio de W−1
B veriÞca
Bvi = αiWvi
y multiplicando por v0
i y teniendo en cuenta que por construcción v0
iWvi = 1 :
V E(vi) = v0
iBvi = αi,
que indica que la variabilidad explicada por la variable canónica vi es igual a su valor propio
asociado. Por tanto, los valores propios de W−1
B estandarizados para que v0
iWvi = 1 nos
13.5. VARIABLES CANÓNICAS DISCRIMINANTES 421
indican la variabilidad explicada que cada variable canónica aporta al problema de discrim-
inación. Cuando p y G son grandes es frecuente que la mayor capacidad de discriminación
se consiga con unas pocas variables canónicas.
Los resultados de clasiÞcación que se obtienen con las variables canónicas son idénticos
a los obtenidos con la distancia de Mahalanobis (véase Hernández y Velilla, 2001, para un
estudio completo de este problema). Esto es inmediato de comprobar si G = 2, caso de dos
poblaciones, o cuando las medias sean colineales. En ambos casos la matriz B tiene rango
uno y el vector propio de W−1
B unido al valor propio no nulo proporciona automáticamente
la función lineal discriminante de Fisher. Para comprobarlo basta notar que si G = 2 la
matriz B es:
B =
n1n2
n1 + n2
(x1 − x2)(x1 − x2)0
y el vector propio asociado al valor propio no nulo de W−1
B es W−1
(x1 − x2), que ya
obtuvimos anteriormente. Si las medias de las G poblaciones están en una línea recta,
entonces:
(x1 − xT ) = p1(x2 − xT ) = ... = kj(xg − xT ) = c(x1 − x2)
y la matriz B puede escribirse
B =
GX
g=1
(xg − xT )(xg − xT )0
= k∗
(x1 − x2)(x1 − x2)0
y su vector propio asociado al valor propio no nulo de W−1
B es proporcional a W−1
(x1 −x2).
Ejemplo 13.5 Vamos a estudiar la discriminación geográÞca entre los países del mundo del
banco de datos MUNDODES. Los 91 países incluidos se han clasiÞcado a priori como del
este de Europa (9 países, clave 1), América central y del sur (12 países, clave 2), Europa
Occidental mas Canadá y EEUU (18 países, clave 3), Asia (25 países, clave 4) y Africa (27
países, clave 5). La variable PNB se ha expresado en logaritmos neperianos, de acuerdo con
los resultados descriptivos que obtuvimos en el capítulo 3.
Se presenta la salida del programa SPSS para la discriminación múltiple que proporciona
los resultados del análisis discriminante utilizando las variables canónicas
Las medias de los cinco grupos en cada variable son:
G TN TM MI EH EM LPNB
1 15.15 10.52 18.14 67.35 74.94 7.48
2 29.17 9.416 51.32 62.70 68.53 7.25
3 13.01 9.583 8.044 71.25 77.97 9.73
4 30.31 8.072 56.488 63.08 65.86 7.46
5 44.52 14.622 99.792 50.63 54.14 6.19
Total 29.46 10.734 55.281 61.38 66.03 7.51
y la columna total indica las medias para el conjunto de los datos.
Las desviaciones típicas en los grupos son:
G TN TM MI EH EM LPNB
422 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
1 3.97 2.16 6.97 2.22 1.50 .48
2 7.38 5.51 31.69 4.92 5.31 .66
3 1.85 1.37 1.734 2.51 2.18 .44
4 10.01 3.77 46.02 7.92 9.73 1.69
5 5.685 4.79 30.58 7.09 7.03 1.04
Total 13.69 4.68 46.30 9.72 11.13 1.64
y la matriz W con 86 grados de libertad es
TN TM MI EH EM LPNB
TN 46.90
TM 11.89 15.63
MI 139.41 87.49 1007.64
EH -27.42 -18.76 -169.71 37.55
EM -31.88 -21.08 -194.29 40.52 46.20
LPNB -3.54 -2.18 -22.42 4.60 5.43 1.25
que podemos expresar como matriz de correlaciones:
TN TM MI EH EM LPNB
TN 1.00000
TM .43930 1.00000
MI .64128 .69719 1.00000
EH -.65345 -.77451 -.87247 1.00000
EM -.68487 -.78452 -.90052 .97278 1.00000
LPNB -.46341 -.49350 -.63275 .67245 .71588 1.00000
Las funciones de clasiÞcación lineales para cada grupo son:
G = 1 2 3 4 5
TN 3.4340 3.7363 3.3751 3.6194 3.9314
TM 9.7586 9.1856 9.6773 8.6879 8.9848
MI 1.7345 1.7511 1.7387 1.7107 1.6772
EH -.1319 .28153 .7638 1.7363 .59934
EM 16.962 16.3425 15.780 14.347 15.342
LPNB -9.422 -8.2661 -5.999 -6.703 -7.053
(Constante) -690.658 -683.135 -690.227 -642.071 -647.1495
y los valores propios de W−1
B y la proporción de variacion explicada son:
Fcn Val. pr. Var. %
1* 3.9309 69.33 69.33
2* 1.1706 20.65 89.97
3* .4885 8.62 98.59
4* .0802 1.41 100.00
Se observa que la primera función discriminante o variable canónica, deÞnida por el
primer vector propio de la matriz W−1
B explica el 69% de la variabilidad y que las dos
primeras explican conjuntamente el 89,97%.
Los coeÞcientes de las variables canónicas indican que las variable más importantes son
globalmente la esperanza de vida de la mujer y la tasa de natalidad.
13.5. VARIABLES CANÓNICAS DISCRIMINANTES 423
funciones discriminantes canónicas
Primera Variable canónica
43210-1-2-3-4
Segundavariablecanonica
3
2
1
0
-1
-2
-3
-4
G
Centroidesdegrupo
Group5
Group4
Group3
Group2
Group1
9190
89
88
87
86
85
84
83
82
81
80
79
78
77
76
75
74
73
72
71
70
69
68
67
66
65
6463
62
61
60
59
58
5756
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40 39
38
37
36
35
34
3332
31
30
2928
27
26
25
24
23
22
21
20
19
17
16
15
14
13
12
11
10
9
87
6
5
4
3
2
1
Figura 13.5: GráÞco de proyección de los puntos sobre las dos primeras variables canónicas.
En el gráÞco pueden verse las proyecciones de los paises sobre las dos primeras variables
canónicas. Los resultados de la clasiÞcación con las 4 variables canónicas se resumen en
siguiente tabla, donde r representa la clasiÞcación real y p la previsa por el modelo.
p1 p2 p3 p4 p5
r1 8 1
r2 1 9 1 1
r3 18
r4 2 2 19 2
r5 1 4 22
Se observa que se clasiÞcan bien los paises europeos y entre los asiáticos es donde aparece
más variabilidad.
En este caso los errores aparentes obtenidos clasiÞcando con la distancia de Mahalanobis
(sin validación cruzada) y con las variables canónicas son los mismos. La salida adjunta
de MINITAB incluye la información básica. En primer lugar se presenta el resultado de
clasiÞcar con las funciones discriminantes:
True Group....
Group 1 2 3 4 5
1 8 1 0 0 0
2 1 9 0 2 1
3 0 1 18 2 0
4 0 0 0 19 4
5 0 1 0 2 22
N Total 9 12 18 25 27
N Correct 8 9 18 19 22
Propor. 0.89 0.75 1.0 0.76 0.82
N = 91 N Correct = 76 Proportion Correct = 0.835
y a continuación el resultado aplicando validación cruzada:
Colocado Verdadero grupo
424 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
Group 1 2 3 4 5
1 8 1 1 0 0
2 1 8 0 4 1
3 0 1 17 2 0
4 0 1 0 16 5
5 0 1 0 3 21
N. Total 9 12 18 25 27
N Correct 8 8 17 16 21
Propor. 0.89 0.67 0.94 0.64 0.78
N = 91 N Correct = 70 Propor. Correct = 0.769
funciones lineales discriminantes
1 2 3 4 5
Con. -689.05 -681.53 -688.62 -640.46 -645.54
C2 3.43 3.74 3.38 3.62 3.93
C3 9.76 9.19 9.68 8.69 8.98
C4 1.73 1.75 1.74 1.71 1.68
C5 -0.13 0.28 0.76 1.74 0.60
C6 16.96 16.34 15.78 14.35 15.34
C9 -9.42 -8.27 -6.00 -6.70 -7.05
La tabla siguiente resume los resultados con validación cruzada.
p1 p2 p3 p4 p5
r1 8 1
r2 1 8 1 1 1
r3 1 17
r4 4 2 16 3
r5 1 5 21
Finalmente la matriz de distancias entre las medias de los grupos con la distancia de
Mahalanobis es
EO(1) AL(2) E(3) AS(4) AF(5)
EO(1) 7.2 7.8 20.3 25.2
AL(2) 10.9 6.5 7.6
E(3) 15.4 30.0
AS(4) 1.9
AF(5)
Se observa que la mayor distancia aparece entre el grupo E (que incluye los paises de
europa occidental más Canadá y EEUU) y Africa. La segunda es entre EO y Africa. La
distancia menor es entre Asia y Africa.
13.6 DISCRIMINACIÓN CUADRÁTICA. DISCRIM-
INACIÓN DE POBLACIONES NO NORMALES
Si admitiendo la normalidad de las observaciones la hipótesis de igualdad de varianzas no
fuese admisible, el procedimiento de resolver el problema es clasiÞcar la observación en el
13.6. DISCRIMINACIÓN CUADRÁTICA. DISCRIMINACIÓN DE POBLACIONES NO NORMALES
grupo con máxima probabilidades a posteriori. Esto equivale a clasiÞcar la observación x0
en la grupo donde se minimice la función :
min
j∈(1,...,G)
·
1
2
log |Vj| +
1
2
(x0 − µj)0
V−1
j (x0 − µj) − ln(Cjπj)
¸
Cuando Vj y µj son desconocidos se estiman por Sj y xj de la forma habitual. Ahora el
término x0
0
V−1
j x0 no puede anularse, al depender del grupo, y las funciones discriminantes
no son lineales y tendrán un término de segundo grado. Suponiendo que los costes de
clasiÞcación son iguales en todos los grupos, clasiÞcaremos nuevas observaciones con la regla
:
min
j∈(1,...,G)
·
1
2
log | bVj| +
1
2
(x0 − bµj)0 bV−1
j (x0 − bµj) − ln πj
¸
En el caso particular de dos poblaciones y suponiendo las mismas probabilidades a priori
clasiÞcaremos una nueva observación en la población 2 si
log | bV1| + (x0 − bµ1)0 bV−1
1 (x0 − bµ1) > log | bV2| + (x0 − bµ2)0 bV−1
2 (x0 − bµ2)
que equivale a
x0
0( bV−1
1 − bV−1
2 )x0 − 2x0
0(bV−1
1 bµ1 − bV−1
2 bµ2) > c (13.31)
donde c = log(| bV2|/| bV1|) + bµ2
0 bV−1
2 bµ2 − bµ1
0 bV−1
1 bµ1. Llamando
bV−1
d = ( bV−1
1 − bV−1
2 )
y
bµd = bVd( bV−1
1 bµ1 − bV−1
2 bµ2)
y deÞniendo las nuevas variables
z0 = bV
−1/2
d x0
y llamando z0 = (z01, ..., z0p)0 y deÞniendo el vector m = (m1, ..., mp)0
= bV
1/2
d (bV−1
1 bµ1 −
bV−1
2 bµ2), la ecuación (13.31) puede escribirse
p
X
i=1
z2
0i − 2
p
X
i=1
z0imi > c
Esta es una ecuación de segundo grado en las nuevas variables z0i. Las regiones resultantes
con estas funciones de segundo grado son típicamente disjuntas y a veces difíciles de interpre-
tar en varias dimensiones. Por ejemplo, la Þgura (13.6) muestra un ejemplo unidimensional
del tipo de regiones que se obtienen con la discriminación cuadrática.
426 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
Figura 13.6: Ejemplo de discriminación cuadrática. La zona de clasiÞcación de P1 es la zona
central y la de P2 la de las colas
El número de parámetros a estimar en el caso cuadrático es mucho mayor que en el
caso lineal. En el caso lineal hay que estimar Gp + p(p + 1)/2 y en el caso cuadrático
G(p+p(p+1)/2) . Por ejemplo con 10 variables y 4 grupos pasamos de estimar 95 parámetros
en el caso lineal a 260 en el caso cuadrático. Este gran número de parámetros hace que,
salvo en el caso en que tenemos muestras muy grandes, la discriminación cuadráticas sea
bastante inestable y, aunque las matrices de covarianzas sean muy diferentes, se obtengan
con frecuencia mejores resultados con la función lineal que con la cuadrática. Un problema
adicional con la función discriminante cuadrática es que es muy sensible a desviaciones de la
normalidad de los datos. La evidencia disponible indica que la clasiÞcación lineal es en estos
casos más robusta. Recomendamos siempre calcular los errores de clasiÞcación con ambas
reglas utilizando validación cruzada y en caso de que las diferencias sean muy pequeñas
quedarse con la lineal.
Aparece también un problema de discriminación cuadrática en el análisis de determinadas
poblaciones no normales. (Véase Lachenbruch (1975)). En el caso general de poblaciones
arbitrarias tenemos dos alternativas: (a) aplicar la teoría general expuesta en 13.2 y obten-
er la función discriminante que puede ser complicada, b) aplicar la teoría de poblaciones
normales, tomar como medida de distancia la distancia de Mahalanobis y clasiÞcar x en la
población Pj para la cual la D2
:
D2
= (x − xj)0 bV−1
j (x − xj)
es mínima.
Para poblaciones discretas estas aproximaciones no son buenas. Se han propuesto méto-
dos alternativos basados en la distribución multinomial o en la distancia χ2
cuya eÞcacia
está aun por determinarse.
Ejemplo 13.6 Si aplicamos la discriminación cuadrática a los datos de las medidas físicas
13.7. DISCRIMINACIÓN BAYESIANA 427
se obtiene la tabla de errores de clasiÞcación por validación cruzada (sin aplicar validación
cruzada se acierta el 100% como en el caso lineal)
ClasiÞcado
M H
Realidad M 11 4
H 5 7
que supone un porcentaje de aciertos del 67%, menor que en el caso lineal. No hay
evidencia de que la discriminación cuadrática suponga ninguna ventaja en este caso.
13.7 DISCRIMINACIÓN BAYESIANA
Hemos visto en la sección 13.2 que el enfoque Bayesiano permite dar una solución general
del problema de clasiÞcación cuando los parámetros son conocidos. Cuando los parámetros
deben estimarse a partir de los datos, el enfoque Bayesiano aporta también una solución
directa del problema que tiene en cuenta la incertidumbre en la estimación de los parámetros,
a diferencia del enfoque clásico que ignora esta incertidumbre. La solución es válida sean o
no iguales las matrices de covarianza. El procedimimiento para clasiÞcar una observación,
x0, dada la muestra de entrenamiento X, es asignarla a la población más probable. Para ello
se obtiene el máximo de las probabilidades a posteriori de que la observación a clasiÞcar, x0,
venga de cada una de las poblaciones dada la muestra X. Estas probabilidades se calculan
por
P(i/x0, X) =
fi(x0|X)πi
PG
g=1 fg(x|X)πj
donde las densidades fg(x0|X), que se denominan predictivas a posteriori o simplemente
predictivas, son proporcional a las probabilidades de que la observación x0 se genere por la
población g. Estas densidades se obtienen a partir de la verosimilitud promediando sobre los
posibles valores de los parámetros en cada población con su distribución a posteriori:
fg(x0|X) =
Z
f(x0|θg)p(θg|X)dθg (13.32)
donde θg son los parámetros de la población g.
Vamos a estudiar como obtener estas probabilidades. En primer lugar, la distribución a
posteriori de los parámetros se calcula de la forma habitual mediante
p(θg|X) =kf(X|θg)p(θg).
Como vimos en la sección 9.2.2 la verosimilitud para la población g con ng elementos mues-
trales y media muestra xg y varianza Sg es
f(X|θg) =k
¯
¯V−1
g
¯
¯ng/2
exp(−
ng
2
tr(V−1
g
©
Sg + (xg − µg)(xg − µg)0
ª
)
428 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
y con la prior de referencia
p(µg, V−1
g ) = k
¯
¯V−1
g
¯
¯−(p+1)/2
se obtiene la posterior
p(µg, V−1
g /X)=k
¯
¯V−1
g
¯
¯(ng−p−1)/2
exp(−
ng
2
tr(V−1
g
©
Sg + (xg − µg)(xg − µg)0
ª
La distribución predictiva se obtendrá con (13.32), donde ahora θi = (µg, V−1
g ). Integrando
respecto a estos parámetros puede obtenerse, (véase Press, 1989, para los detalles de la
integración ) que la distribución predictiva es t multivariante
p(x0/X, g) =
·
nπ(ng + 1)
ng
¸−p/2
Γ
¡ng
2
¢
Γ
¡ng−p
2
¢|Sg|−1/2
·
1 +
1
ng + 1
(x0 − xg)0
S−1
g (x0 − xg)
¸−ng/2
Con esta distribución podemos calcular las probabilidades a posteriori para cada población.
Alternativamente, para decidir entre la población i y la j podemos calcular el ratio de las
probabilidades a posteriori, dado por :
P(i|x)
P(j|x)
= cij
πi
πj
.
|Sj|1/2
|Si|1/2
³
1 + 1
nj+1
(x0 − xj)0
S−1
j (x0 − xj)
´nj/2
³
1 + 1
ni+1
(x0 − xi)0S−1
i (x0 − xi)
´ni/2
donde πi son las probabilidades a priori, Sj las matrices de varianza y covarianzas estimadas,
y
cij =
·
ni(nj + 1)
nj(ni + 1)
¸p/2
Γ
¡ni
2
¢
Γ
¡nj−p
2
¢
Γ
¡nj
2
¢
Γ
¡ni−p
2
¢
Si los tamaños muestrales son aproximadamente iguales, ni ' nj, entonces cij ' 1.
El clasiÞcador óptimo es cuadrático. Si suponemos que las matrices de covarianza de los
grupos son iguales de nuevo obtenemos la función lineal discriminante (véase Aitchinson y
Dunsmore, 1975).
13.8 Lecturas complementarias
El análisis discriminante clásico aquí presentado se estudia en todos los libros de análisis
multivariante. Presentaciones a un nivel similar al aquí expuesto se encuentran en Cuadras
(1991), Flury (1997), Johnson and Wichern (1998), Mardia et al (1979), Rechner (1998) y
Seber (1984). Un texto básico muy detallado y con muchas extensiones y regerencias se
encuentra en McLachlan (1992). Lachenbruch, (1975) contiene muchas referencias históric-
as. Enfoques más aplicados centrados en al análisis de ejemplos y salidas de ordenador se
persenta en Huberty (1994), Hair el al (1999) y Tabachnick y Fidell (1996). Un enfoque
bayesiano al problema de la clasiÞcación puede consultarse en Press (1989).
13.8. LECTURAS COMPLEMENTARIAS 429
Ejercicios
13.1 Suponga que se desea discriminar entre dos poblaciones normales con vectores de
medias (0,0) y (1,1) , varianzas (2,4) y coeÞciente de correlación lineal r=.8. Construir la
función lineal discriminante e interpretarla.
13.2 Discutir cómo varían las probabilidades de error en el problema anterior como función
del coeÞciente de correlación. ¿Ayuda la correlación a la discriminación?
13.3 Las probabilidades a priori en el problema 13.1 son 0.7 para la primera población y
0,3 para la segunda. Calcular la función lineal discriminante en este caso.
13.4 Se desea discriminar entre tres poblaciones normales con vectores de medias (0,0),
(1,1) y (0,1) con varianzas (2,4) y coeÞciente de correlación lineal r =.5. Calcular y dibujar
las funciones discriminantes y hallar su punto de corte.
13.5 Si los costes de equivocarnos en el problema anterior no son los mismos, de manera
que el coste de clasiÞcar en la tercera población cuando viene de la primera es el doble de
los demás, calcular las funciones discriminantes.
13.6 JustiÞque que los valores propios de W−1
B son positivos, demostrando que esta
matriz tiene los mismos valores propios que la matriz W−1/2
BW−1/2
.
13.7 JustiÞcar que se obtienen las mismas variables canónicas discriminantes utilizando
las matrices W y B, que las matrices asociadas de varianzas corregidas por grados de libertad.
13.8 Demostrar que es lo mismo obtener el mayor vector propio de W−1
B y el menor de
T−1
W.
13.9 Demostrar que el primer componente principal cuando hay dos grupos viene dado
por v = c(W − λI)−1
(x1 − x2) (sugerencia: Si T = W + B, el primer componente es el
mayor autovector (ligado al mayor autovalor) de T y veriÞca T v = Wv + Bv =λv. Como
B = k(x1 − x2)(x1 − x2)0
, tenemos que Wv + c(x1 − x2) = λv).
13.10 Demostrar que si (x1 − x2) es un vector propio de W−1
la dirección discriminante
es el eje natural de distancia entre las medias y coincide con el primer componente principal.
13.11 Demostrar que la distancia de Mahalanobis es invariante a transformaciones lineales
comprobando que si y = Ax + b, con A cuadrada y no singular, se veriÞca que D2
(yi, yj) =
D2
(xi, xj). (Sugerencia: utilizar que Vy = AVxA0
y V−1
y = (A0
)−1
V−1
x A0
)
APÉNDICE 13.1:EL CRITERIO MINIMIZAR LA PROBABIL-
IDAD DEL ERROR
El criterio de minimizar la probabilidad de error puede escribirse como minimizar PT ,
donde:
PT (error) = P(1|x ∈ 2) + P(2|x ∈ 1)
siendo P(i|x ∈ j) la probabilidad de clasiÞcar en la población i una observación que proviene
de la j. Esta probabilidad viene dada por el área encerrada por la distribución j en la zona
de clasiÞcación de i, es decir:
P(i|x ∈ j) =
Z
Ai
fj(x)dx
por tanto:
PT =
Z
A1
f2(x)dx+
Z
A2
f1(x)dx
430 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
y como A1 y A2 son complementarios:
Z
A1
f2(x)dx = 1−
Z
A2
f2(x)dx
que conduce a:
PT = 1 −
Z
A2
(f2(x) − f1(x))dx
y para minimizar la probabilidad de error debemos maximizar la integral. Esto se consigue
deÞniendo A2 como el conjunto de puntos donde el integrando es positivo, es decir:
A2 = {x|f2(x) > f1(x)}
y obtenemos de nuevo el criterio antes establecido.
APÉNDICE 13.2: DISCRIMINACIÓN Y REGRESIÓN
Un resultado interesante es que la construcción de una función discriminante en el caso
de dos poblaciones, puede abordarse como un problema de regresión.
Consideremos las n observaciones como datos en un modelo lineal y deÞnamos unas
variable respuesta y que toma el valor +k1, cuando x ∈ P1 y −k2, cuando x ∈ P2. Podemos
asignar a k1 y k2 valores cualesquiera, aunque, como veremos, los cálculos se simpliÞcan si
hacemos estas constantes iguales al número de elementos de la muestra en cada clase. El
modelo será:
yi = β1(x1i − x1) + β2(x2i − x2) + ... + βp(xpi − xp) + ui i = 1, 2 (13.33)
donde hemos expresado las x en desviaciones. El estimador de mínimos cuadrados es:
bβ = (eX0 eX)−1 eX0
Y (13.34)
donde eX es la matriz de los datos en desviaciones.
Sea x1 el vector de medias en el primer grupo, x2 en el segundo y xT el correspondiente
a todas las observaciones. Supongamos que en la muestra hay n1 datos del primer grupo y
n2 del segundo. Entonces,
xT =
n1x1 + n2x2
n1 + n2
. (13.35)
Sustituyendo (13.35) en el primer término de (13.34):
eX0 eX =
n1+n2X
i=1
(xi − xT )(xi − xT )0
=
=
n1X
i=1
(xi − xT )(xi − xT )0
+
n1+n2
X
i=1+n1
(xi − xT )(xi − xT )0
.
13.8. LECTURAS COMPLEMENTARIAS 431
Como
n1X
i=1
(xi − xT )(xi − xT )0
=
n1X
i=1
(xi − x1 + x1 − xT )(xi − x1 + x1 − xT )0
=
=
n1X
i=1
(xi − x1)(xi − x1)0
+ n1(x1 − xT )(x1 − xT )0
ya que los términos cruzados se anulan al ser
Pn
i=1(xi − x1) = 0. Procediendo análogamente
para el otro grupo, podemos escribir:
eX0 eX =
n1X
i=1
(xi − x1)(xi − x1)0
+
n1+n2X
i=n1+1
(xi − x2)(xi − x2)0
(13.36)
+n1(x1 − xT )(x1 − xT )0
+ n2(x2 − xT )(x2 − xT )0
Los primeros dos términos conducen a la matriz W de sumas de cuadrados dentro de
grupos que, como hemos visto, estima V, mediante:
bV = S =
1
n1 + n2 − 2
W. (13.37)
Los segundos dos términos son las sumas de cuadrados entre grupos. Sustituyendo xT
por (13.35):
x1 −
n1x1 + n2x2
n1 + n2
=
1
n1 + n2
n2(x1 − x2), (13.38)
con lo que resulta:
(x1 − xT )(x1 − xT )0
=
µ
n2
n1 + n2
¶2
(x1 − x2)(x1 − x2)0
(13.39)
(x2 − xT )(x2 − xT )0
=
µ
n1
n1 + n2
¶2
(x2 − x1)(x2 − x1)0
(13.40)
Sustituyendo (13.39) y (13.40) en (13.36) obtenemos que:
eX0 eX = (n1 + n2 − 2)S +
n1n2
n1 + n2
(x1 − x2)(x1 − x2)0
que implica
³
eX0 eX
´−1
= (n1 + n2 − 2)−1
S−1
+ aS−1
(x1 − x2)(x1 − x2)0
S−1
(13.41)
donde a es una constante. Por otro lado:
eX0
Y =
n1+n2X
i=1
yi(xi − xT ) = k1
n1X
i=1
(xi − xT ) − k2
n2X
i=1
(xi − xT )
432 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE
sustituyendo xT por su expresión (13.35), resulta, por (13.38):
eX0
Y =
k1n1n2
n1 + n2
(x1 − x2) +
k2n1n2
n1 + n2
(x1 − x2) = (x1 − x2)kT (13.42)
siendo kT = n1n2(k1 + k2)/(n1 + n2). Sustituyendo (13.41) y (13.42) en la fórmula (13.34)
se obtiene que:
bβ = k.S−1
(x1 − x2)
que es la expresión de la función discriminante clásica.
Capítulo 14
DISCRIMINACIÓN LOGÍSTICA Y
OTROS MÉTODOS DE
CLASIFICACIÓN
14.1 INTRODUCCIÓN
El problema de discriminación o clasiÞcación cuando conocemos los parámetros de las dis-
tribuciones admite una solución general que hemos visto en el capítulo anterior. Sin embargo,
en la mayoría de las aplicaciones los parámetros son desconocidos y deben estimarse a partir
de los datos. Si la distribución conjunta de las observaciones es normal multivariante, uti-
lizar las distancias de Mahalanobis estimadas suele dar buenos resultados y será óptimo con
muestras grandes. Sin embargo, es frecuente que los datos disponibles para la clasiÞcación
no sean normales. Por ejemplo, en muchos problemas de clasiÞcación se utilizan variables
discretas. En estos casos no tenemos garantías de que los métodos estudiados en el capítulo
13 sean óptimos.
En este capítulo presentamos otros métodos de clasiÞcación. Una posibilidad es intentar
construir un modelo que explique los valores de la variable de clasiÞcación. Por ejemplo,
si se desea discriminar entre créditos que se devuelven o que presentan problemas para su
cobro, puede añadirse a la base de datos una nueva variable, y, que tome el valor cero
cuando el crédito se devuelve sin problemas, y el valor uno en otro caso. El problema de
discriminación se convierte en prever el valor de la variable Þcticia, y, en un nuevo elemento
del que conocemos el vector de variables x. Si el valor previsto está más próximo a cero que
a uno, clasiÞcaremos al elemento en la primera población. En otro caso, lo haremos en la
segunda. Para modelar este tipo de relaciones se utilizan los modelos de respuesta cualitativa,
que se revisan en la sección siguiente. Dentro de esta clase el modelo más utilizado es el
modelo logístico, que se estudia con cierto detalle en las secciones siguientes.
Además del modelo logístico, presentamos brevemente en este capítulo otros métodos de
discriminación, que pueden verse como procedimientos generales de aproximar la función de
clasiÞcación en casos complejos no lineales y que requiren el uso intensivo del ordenador. El
primero de estos métodos es el de los árboles de clasiÞcación, CART, que es un algoritmo
para llevar a la práctica una idea simple pero efectiva, especialmente cuando muchas de
433
434CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN
las variables de clasiÞcación son binarias. El segundo es el de las redes neuronales, que son
aproximaciones universales de funciones y, convenientemente construidas, pueden dar buenos
resultados en casos no lineales. El tercero es los métodos no paramétricos, que utilizan
aproximaciones locales. El cuarto ha sido propuesto recientemente por Vapnik (2000) y
constituye una Þlosofía alternativa a las redes neuronales para aproximar funciones generales.
La eÞcacia de estos procedimientos es todavía objeto de investigación.
14.2 EL MODELO LOGIT
14.2.1 Modelos con respuesta cualitativa
Consideremos el problema de la discriminación entre dos poblaciones. Una forma de abordar
el problema es deÞnir una variable de clasiÞcación, y, que tome el valor cero cuando el
elemento pertenece a la primera población, P1, y uno cuando pertenece a la segunda, P2.
Entonces, la muestra consistirá en n elementos del tipo (yi, xi) , donde yi es el valor en ese
elemento de la variable binaria de clasiÞcación y xi un vector de variables explicativas. A
continuación, construiremos un modelo para prever el valor de la variable Þcticia binaria en
un nuevo elemento cuando se conocen las variables x. El primer enfoque simple es formular
el modelo de regresión:
y = β0 + β0
1x + u (14.1)
y, hemos visto en el capítulo anterior, que si estimamos los parámetros por mínimos cuadra-
dos este procedimiento es equivalente a la función lineal discriminante de Fisher y es óptimo
para clasiÞcar si la distribución conjunta de las variables explicativas es normal multivari-
ante, con la misma matriz de covarianzas. Sin embargo, este modelo presenta problemas de
interpretación. Tomando esperanzas en (14.1) para x = xi:
E [y|xi] = β0 + β0
1xi (14.2)
Llamemos pi a la probabilidad de que y tome el valor 1 (pertenezca a la población P2) cuando
x = xi :
pi = P (y = 1|xi) (14.3)
la variable y es binomial y toma los valores posibles uno y cero con probabilidades pi y 1−pi.
Su esperanza será :
E [y|xi] = pi × 1 + (1 − pi) × 0 = pi (14.4)
y de (14.2) y (14.4), concluimos que:
pi = β0 + β0
1xi (14.5)
Esta formulación tiene dos problemas principales:
14.2. EL MODELO LOGIT 435
1. Si estimamos el modelo lineal (14.1), la predicción byi = bpi estima, por (14.5), la prob-
abilidad de que un individuo con características deÞnidas por x = xi pertenezca a la
segunda población. Sin embargo pi debe estar entre cero y uno, y no hay ninguna
garantía de que la predicción byi veriÞque esta restricción: podemos obtener probabil-
idades mayores que la unidad o negativas. Esto no es un problema para clasiÞcar la
observación, pero sí lo es para interpretar el resultado de la regla de clasiÞcación.
2. Como los únicos valores posibles de y son cero y uno la perturbación ui sólo puede
tomar los valores 1 − β0 + β1xi = 1 − pi y −β0 − β0
1xi = −pi con probabilidades pi y
(1 − pi) . La esperanza de la perturbación es cero ya que:
E [ui] = pi (1 − pi) + (1 − pi) (−pi) = 0
pero la perturbación no sigue una distribución normal. En consecuencia, los esti-
madores minimocuadráticos de los coeÞcientes del modelo (14.1) no serán eÞcientes.
La varianza de ui es:
V ar (ui) = (1 − pi)2
pi + (1 − pi) p2
i = (1 − pi) pi,
y las perturbaciones son heterocedásticas. Para estimar los parámetros del modelo se
debería utilizar mínimos cuadrados ponderados.
A pesar de estos dos inconvenientes, este modelo simple estimado por mínimos cuadrados
conduce a una buena regla de clasiÞcación, ya que, según la interpretación de Fisher, maxi-
miza la separación entre los grupos, sea cual sea la distribución de los datos. Sin embargo,
cuando los datos no son normales, o no tienen la misma matriz de covarianzas, la clasiÞcación
mediante una ecuación de relación lineal no es necesariamente óptima.
Si queremos que el modelo construido para discriminar nos proporcione directamente la
probabilidad de pertenecer a cada población, debemos transformar la variable respuesta para
garantizar que la respuesta prevista esté entre cero y uno. Escribiendo:
pi = F (β0 + β0
1xi) ,
pi estará entre cero y uno si escogemos F para que tenga esa propiedad. La clase de funciones
no decrecientes acotadas entre cero y uno es la clase de las funciones de distribución, por
lo que el problema se resuelve tomando como F cualquier función de distribución. Algunas
posibilidades consideradas son:
(1) Tomar como F la función de distribución de una uniforme. Esto equivale a truncar
el modelo de regresión, ya que entonces:
pi = 1 si β0 + β0
1xi ≥ 1
pi = β0 + β0
xi 0 < β0 + β0
1xi < 1
pi = 0 β0 + β0
1xi ≤ 0.
Esta solución no es sin embargo satisfactoria ni teóricamente (un pequeño incremento de x
produce en los extremos un salto muy grande, cuando sería más lógico una evolución gradual),
ni prácticamente: la estimación del modelo es difícil e inestable debido a la discontinuidad.
436CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN
(2) Tomar como F la función de distribución logística, dada por:
pi =
1
1 + e−β0−β0
1xi
. (14.6)
Esta función tiene la ventaja de la continuidad. Además como:
1 − pi =
e−β0−β0
1xi
1 + e−β0−β0
1xi
=
1
1 + eβ0+β0
1xi
resulta que:
gi = log
pi
1 − pi
= β0 + β0
1xi (14.7)
que es un modelo lineal en esta transformación que se denomina logit. La variable Logit,
g, representa en una escala logarítmica la diferencia entre las probabilidades de pertenecer
a ambas poblaciones, y al ser una función lineal de las variables explicativas nos facilita la
estimación y la interpretación del modelo.
(3) Tomar otra distribución, como por ejemplo escoger F igual a la distribución normal
estándar. Se obtiene entonces el modelo probit, que es muy similar al logit, sin tener las
ventajas de interpretación del modelo logístico, como veremos a continuación.
14.2.2 El modelo logit con datos normales
El modelo logit se aplica a una amplia gama de situaciones donde las variables explicativas
no tienen una distribución conjunta normal multivariante. Por ejemplo, si algunas son
categóricas, podemos introducirlas en el modelo logit mediante variables Þcticias como se
hace en el modelo de regresión estándar. Una ventaja adicional de este modelo es que si las
variables son normales veriÞcan el modelo logit. En efecto, supongamos que las variables
x provienen de una de dos poblaciones normales multivariantes con distinta media pero la
misma matriz de varianzas covarianzas. Hemos visto en el capítulo anterior (sección 12.2)
que, suponiendo las probabilidades a priori de ambas poblaciones iguales:
pi = P (y = 1|xi) =
f1 (xi)
f1 (xi) + f2 (xi)
(14.8)
y, utilizando la transformación logit, (14.7):
gi = log
f1 (xi)
f2 (xi)
= −
1
2
(xi − µ1)0
V−1
(xi − µ1) +
1
2
(xi − µ2)0
V−1
(xi − µ2)
y simpliÞcando
gi =
1
2
¡
µ2V−1
µ2 − µ1V−1
µ1
¢
+ (µ1 − µ2)0
V−1
xi.
Por tanto, gi es una función lineal de las variables x, que es la característica que deÞne
el modelo logit. Comparando con (14.7) la ordenada en el origen, β0, es igual
β0 =
1
2
¡
µ2V−1
µ2 − µ1V−1
µ1
¢
= −
1
2
w0
(µ1 + µ2)
14.2. EL MODELO LOGIT 437
donde w = V−1
(µ1 − µ2) , y el vector de pendientes
β1 = w
Observemos que la estimación de bw mediante el modelo logístico no es eÞciente en el
caso normal. En efecto, en lugar de estimar los p (p + 1) /2 términos de la matriz bV y los
2p de las medias x1 y x2, con el modelo logístico estimamos únicamente p + 1 parámetros
β0, β1, . . . βp. En el caso de normalidad se obtiene un mejor procedimiento con la regla de
Fisher, que estima bV, x1 y x2, la distribución completa de las x, mientras que el modelo
logístico estima sólo los p + 1 parámetros de la distribución de y condicionada a x. Como:
f (x, y) = f (y|x) f (x)
perdemos información al considerar sólo la condicionada f (y|x) –como hace el modelo
logístico– en lugar de la conjunta f (x, y), que se utiliza en el enfoque del capítulo anterior.
Efron (1975) demostró que cuando los datos son normales multivariantes y estimamos los
parámetros en la muestra, la función de discriminación lineal de Fisher funciona mejor que
regresión logística
En resumen, en el caso de normalidad la regla discriminante es mejor que el modelo
logístico. Sin embargo, la función logística puede ser más eÞcaz cuando los poblaciones
tengan distinta matriz de covarianzas o sean marcadamente no normales. En el campo de la
concesión automática de créditos (Credit Socoring) existen numerosos estudios comparando
ambos métodos. La conclusión general es que ninguno de los dos métodos supera al otro de
manera uniforme y que depende de la base de datos utilizada. Rosenberg y Gleit (1994) y
Hand y Henley (1997) han presentado estudios sobre este problema.
14.2.3 Interpretación del Modelo Logístico
Los parámetros del modelo son β0, la ordenada en el origen, y β1 =
¡
β1, ..., βp
¢
, las pendi-
entes. A veces se utilizan también como parámetros exp(β0) y exp(βi), que se denominan
los odds ratios o ratios de probabilidades, e indican cuanto se modiÞcan las probabilidades
por unidad de cambio en las variables x. En efecto, de (14.7) deducimos que
Oi =
pi
1 − pi
= exp(β0).
p
Y
j=1
exp(βj)xj
.
Supongamos dos elementos, i, k, con todos los valores de las variables iguales excepto la
variable h y xih = xjh +1. El cociente de los ratios de probabilidades (odds ratio) para estas
dos observaciones es:
Oi
Ok
= eβh
e indica cuanto se modiÞca el ratio de probabilidades cuando la variable xh aumenta una
unidad. Sustituyendo bpi = .5 en el modelo logit, entonces,
438CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN
log
pi
1 − pi
= β0 + β1xi1 + ... + βpxip = 0,
es decir,
xi1 = −
β0
β1
−
p
X
j=2
βjxij
β1
,
y xi1 representa el valor de x1 que hace igualmente probable que un elemento, cuyas restantes
variables son xi2, ..., xip, pertenezca a la primera o la segunda población.
14.3 LA ESTIMACIÓN DEL MODELO LOGIT
14.3.1 Estimación MV
Supondremos una muestra aleatoria de datos (xi, yi), i = 1, ..., n. La función de probabili-
dades para una respuesta yi cualquiera es:
P(yi) = pyi
i (1 − pi)1−yi
yi = 0, 1
y para la muestra :
P (y1, . . . yn) =
nY
i=1
pyi
i (1 − pi)1−yi
.
Tomando logaritmos:
log P(y) =
nX
i=1
yi log
µ
pi
1 − pi
¶
+
X
log (1 − pi) (14.9)
la función soporte (de verosimilitud en logaritmos) puede escribirse como
log P(β) =
nX
i=1
(yi log pi + (1 − yi) log(1 − pi)). (14.10)
donde β0
=
¡
β0, β1, . . . , βp
¢
es un vector de p + 1 componentes, incluyendo la constante
β0 que determina las probabilidades pi. Maximizar la verosimilitud puede expresarse como
minimizar una función que mide la desviación entre los datos y el modelo. En el capítulo
10 se deÞnió la desviación de un modelo mediante D(θ) = −2L(θ) y por tanto la desviación
del modelo será:
D(β) = −2
nX
i=1
(yi log pi + (1 − yi) log(1 − pi)). (14.11)
14.3. LA ESTIMACIÓN DEL MODELO LOGIT 439
y hablaremos indistintamente de de maximizar el soporte o minimizar la desviación del
modelo. Se deÞne la desviación de cada dato (deviance) por:
di = −2(yi log pi + (1 − yi) log(1 − pi)). (14.12)
y miden el ajuste del modelo al dato (yi, xi). En efecto, observemos en primer lugar que como
los bpi son menores que uno, sus logaritmos son negativos, por lo que la desviación es siempre
positiva. Además, en el calculo de la desviación sólo interviene uno de sus dos términos, ya
que yi solo puede valer cero o uno. Entonces:
• Si yi = 1, y la observación pertenece a la segunda población, el segundo término de
la desviación es nulo y di = −2 log pi. La observación tendrá una desviación grande si
la probabilidad estimada de pertenecer a la segunda población, pi, es pequeña, lo que
indica que esta observación está mal explicada por el modelo.
• Si yi = 0, y la observación pertenece a la primera población, sólo interviene el segundo
término de la desviación di = −2 log (1−pi). La desviación será grande si pi es grande,
lo que indica que la probabilidad de pertenecer a la verdadera población es pequeña y
el modelo ajusta mal dicho dato.
Para maximizar la verosimilitud, expresando pi en función de los parámetros de interés,
β ,en (14.9) obtenemos la función soporte:
L (β) =
nX
i=1
yix0
iβ −
nX
i=1
log
³
1 + ex0
iβ
´
(14.13)
que derivaremos para obtener los estimadores MV. Escribiendo el resultado como vector
columna:
∂L (β)
∂β
=
nX
i=1
yixi −
nX
i=1
xi
µ
ex0
iβ
1 + ex0
iβ
¶
(14.14)
e igualando este vector a cero y llamando bβ a los parámetros que satisfacen el sistema de
ecuaciones:
nX
i=1
yixi =
X
xi
µ
1
1 + e−xc0
iβ
¶
=
X
byixi (14.15)
Estas ecuaciones establecen que el producto de los valores observados por las variables
explicativas debe ser igual al de los valores previstos. También, que los residuos del modelo,
ei = yi − byi, deben ser ortogonales a las variables x. Esta condición es análoga a la obtenida
en el modelo de regresión estándar, pero ahora el sistema (14.15) resultante no es lineal en
los parámetros bβ. Para obtener el valor bβMV que maximiza la verosimilitud acudiremos a
440CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN
un algoritmo tipo Newton-Raphson. Desarrollando el vector (∂L (β) /∂β) alrededor de un
punto βa, se tiene
∂L (β)
∂β
=
∂L (βa)
∂β
+
∂2
L (βa)
∂β∂β0 (β − βa) ;
para que el punto βa corresponda al máximo de verosimilitud su primera derivada debe
anularse. Imponiendo la condición ∂L (βa) /∂β = 0, se obtiene:
βa = bβ+
µ
−
∂2
L (βa)
∂β∂β0
¶−1 µ
∂L (β)
∂β
¶
(14.16)
que expresa cómo obtener el punto máximo βa, a partir de un punto próximo cualquiera β.
La ecuación depende de la matriz de segundas derivadas, que, en el óptimo, es la inversa
de la matriz de varianzas y covarianzas asintótica de los estimadores MV . Para obtener su
expresión, derivando por segunda vez en (14.14), se obtiene:
cM−1
=
µ
−
∂2
L (β)
∂β∂β0
¶
=
nX
i=1
xix0
iωi (14.17)
donde los coeÞcientes ωi están dados por:
ωi =
ex0
iβ
³
1 + e
x0
i
β
´2 = pi(1 − pi) (14.18)
Sustituyendo en (14.16) las expresiones (14.17) y (14.14) y evaluando las derivadas en un
estimador inicial bβ, se obtiene el siguiente método para obtener un nuevo valor del estimador,
βa, a partir del bβ
βa = bβ +
à nX
i=1
xix0
ibωi
!−1
³X
xi (yi − bpi)
´
(14.19)
donde bpi y bωi se calculan con el valor bβ. El algortimo puede escribirse como:
βa = bβ +
³
X0 cWX
´−1
X0
³
Y− bY
´
(14.20)
donde cW es una matriz diagonal con términos bpi (1 − bpi) y bY el vector de valores esperados
de Y. La matriz de varianzas y covarianzas de los estimadores así obtenidos es aproximada-
mente, según (14.20),
³
X0 cWX
´−1
. Observemos que la ecuación (14.20) indica que debemos
14.3. LA ESTIMACIÓN DEL MODELO LOGIT 441
modiÞcar el estimador si los residuos no son ortogonales a las variables explicativas, es decir
si X0
³
Y− bY
´
6= 0. La modiÞcación del estimador depende de esta diferencia y se reparte
entre los componentes de bβ en función de su matriz de varianzas y covarianzas estimada.
La forma habitual de implementar este método es el siguiente algoritmo iterativo que
proporciona en convergencia el estimador MV de β.
1. Fijar un valor arbitrario inicial, bβ1, para los parámetros y obtener el vector bY1 para
dicho valor en el modelo logit. Por ejemplo, si bβ1 = 0,
byi = bpi =
1
1 + e−0
=
1
2
y el vector bY tiene todas sus componentes iguales a 1/2.
2. DeÞnir una variable auxiliar zi de residuos estandarizados por:
zi =
yi − byi
p
byi (1 − byi)
=
yi − bpi
p
bpi (1 − bpi)
o vectorialmente:
Z =cW−1/2
(Y− bY)
donde cW es una matriz diagonal con términos byi (1 − byi).
3. Estimar por mínimos cuadrados una regresión con variable dependiente Z y matriz
de regresores T =cW1/2
X. Los parámetros estimados con esta regresión, bb1, vendrán
dados por:
bb1 = (T0
T)
−1
T0
Z
=
³
X0 cWX
´−1
X0
³
Y− bY
´
y, comparando con (14.20), vemos que b1 estima el incremento βa − bβ1 de los parámet-
ros que nos acerca al máximo.
4. Obtener un nuevo estimador de los parámetros bβ2 del modelo logístico mediante
bβ2 = bβ1 + bb1
5. Tomar el valor estimado resultante de la etapa anterior, que en general llamaremos bβh,
y sustituirlo en la ecuación del modelo logístico para obtener el vector de estimadores
bY
³
bβh
´
= bYh. Utilizando este vector bYh construir la matriz cWh y las nuevas variables
Zh y Th
Zh = cW
−1/2
h
³
Y− bYh
´
,
Th = cW
1/2
h X,
y volver a la etapa 2. El proceso se repite hasta obtener la convergencia
³
bβh+1 ' bβh
´
.
442CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN
14.3.2 Contrastes
Si queremos contrastar si una variable o grupo de variables incluidas dentro de la ecuación es
signiÞcativo, podemos construir un contraste de la razón de verosimilitudes comparando el
máximo de la función de verosimilitud para el modelo con y sin estas variables. Supongamos
que β = (β1β2), donde β1 tiene dimensión p−s, y β2 tiene dimensión s. Se desea contrastar
si el vector de parámetros:
H0 : β2 = 0.
frente a la alternativa
H1 : β2 6= 0
El contrate de razon de verosimilitudes utiliza que λ = 2L(H1) − 2L(H0), donde L(H1) es el
máximo del soporte cuando estimamos los parámetros bajo H1 y L(H0) es el máximo cuando
estimamos los parámetros bajo H0 es, si H0 es cierta, una χ2
s. Una manera equivalente de
deÞnir el contraste es llamar D(H0) = −2L(bβ1) a la desviación cuando el modelo se estima
bajo H0, es decir, suponiendo que β2 = 0, y D(H1) = −2L(bβ1
bβ2) a la desviación bajo
H1. La desviación será menor con el modelo con más parámetros (la verosimilitud será
siempre mayor bajo H1 y, si H0 es cierta, la diferencia de desviaciones, que es el contraste
de verosimilitudes
χ2
s = D(H0) − D(H1) = 2L(bβ1
bβ2) − 2L(bβ1)
se distribuye como una χ2
s con s grados de libertad.
En particular este test puede aplicarse para comprobar si un parámetro es signiÞcativo
y debe dejarse en el modelo. Sin embargo, es más habitual en estos casos comparar el
parámetro estimado con su desviación típica. Los cocientes
wj =
bβj
s(bβj)
se denominan estadísticos de Wald y en muestras grandes se distribuyen, si el verdadero
valor del parámetro es cero, como una normal estándar.
Una medida global del ajuste es
R2
= 1 −
D(bβ)
D0
= 1 −
L(bβ)
L(β0)
donde el numerador es la desviación (verosimilitud en el máximo) para el modelo con
parámetros estimados bβ y el denominador la desviación (verosimilitud) para el modelo que
sólo incluye la constante β0. Observemos que, en este último caso, la estimación de la prob-
abilidad pi es constante para todos los datos e igual a m/n siendo m el número de elementos
en la muestra con la variable y = 1. Entonces, sustituyendo en (14.11) la desviación máxima
14.3. LA ESTIMACIÓN DEL MODELO LOGIT 443
que corresponde al modelo más simple posible con sólo β0 que asigna la misma probabilidad
a todos los datos, es
D0 = −2L(β0)= − 2m log m − 2(n − m) log(n − m) + 2n log n.
Por otro lado, si el ajuste es perfecto, es decir todas las observaciones con y = 1 tienen
pi = 1 y las de y = 0 tienen pi = 0, entonces, según (14.9) la desviación es cero y L(bβ) = 0
y R2
= 1. Por el contrario, si las variables explicativas no inßuyen nada la desviación con
las variables explicativas será igual que sin ellas, L(bβ) = L(β0) y R2
= 0.
Ejemplo 14.1 Vamos a utilizar los datos de MEDIFIS para construir un modelo logit que
clasiÞque una persona como hombre o mujer en función de sus medidas físicas.
Si intentamos explicar la variables binaria, género, en función de todas las variables
observadas obtenemos que el modelo es
log
pi
1 − pi
= −488.84 + 11.84pie +
2.93aes − 5.10dcr − 10.5lrt − 3.73est + 4.59lbr + .14pes
el modelo ajusta perfectamente los datos y no es posible calcular desviaciones típicas para los
coeÞcientes. El modelo no es único. El problema es que tenemos sólo 27 observaciones y con
las siete variables clasiÞcamos fácilmente todas las observaciones. Sin embargo, el modelo
obtenido puede ser muy malo para clasiÞcar otras observaciones.
Vamos a contruir el modelo paso a paso. La variable con mayor coeÞciente en la ecuación
anterior es el pie con lo que comenzaremos con esta variable. Estimando el modelo estimado
con el programa SPSS (con MINITAB no se produce convergencia del algoritmo), el modelo
es:
log
pi
1 − pi
= −433 + 11.08pie
Los dos parámetros están muy correlados y las desviaciones típicas son muy grandes. El
valor inicial de la desviación es D0=37.1. Después de estimar el modelo la desviación es D=
3.8. La diferencia entre desviaciones nos proporciona el contraste para ver si la variable pie
es signiÞcativa. Esta diferencia es 33.27 que bajo la hipótesis de que el parámetro es cero
será aproximadamente una distribución ji-cuadrado con 1 grado de libertad. El valor es tan
grande que rechazamos la hipótesis a cualquier nivel de signiÞcación y concluimos que el pie
es muy útil para discriminar.
Es interesante que, en este caso, el estadístico de Wald lleva a un resultado distinto.
Como los parámetros están muy correlados, la desviación típica del coeÞciente del pie es
108.9, y el estadístico de Wald es 11.08/ 108.= .01 que no es signiÞcativo.
Si aplicamos esta ecuación para clasiÞcar los datos muestrales obtenemos un porcentaje
de éxitos del 96%. Sólo una observación se clasiÞca mal como indica la tabla
ClasiÞcado
M H
Realidad M 15 0
H 1 11
444CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN
Ejemplo 14.2 Vamos a intentar introducir una variable adicional en el modelo logístico
anterior que contiene sólo el pie. Introducimos la estatura, y el modelo estimado es
log
pi
1 − pi
= −440.85 + 12.0pie − −.169est
con desviaciones típicas (4092), (104.9) y (0, 5243) . El coeÞciente de estatura es -.1693
con error estándar .5243 dando lugar a un estadístico de Wald de .3, con lo que concluimos
que este coeÞciente no es signiÞcativo. La desviación de este modelo es 3.709. Por tanto la
reducción en desviación debida a la variable estatura con respecto al modelo que sólo incluye
el pié es sólo de 3.80-3.71=.09, que no es signiÞcativa comparada con una ji-cuadrado con
1 grado de libertad. Este resultado es previsible ya que el modelo con las siete variables
tiene una desviación de cero y el que contiene sólo el pie una desviación de D= 3.8: el
contraste de que las seis variables adicionales no inßuyen lleva, en consecuencia, a un valor
del estadístico de 3.8, y este valor en la hipótesis de que las variable no inßuyen debe provenir
de una χ2
6 con seis grados de libertad, lo que concuerda con lo observado, y debemos concluir
que ninguna de las variables adicionales inßuye. La conclusión es pues que únicamente con
el pie podemos clasiÞcar estos datos con poco error.
Si comparemos estos resultados con los del capítulo anterior (ejemplo 13.3) son bastante
consistentes porque allí ya observamos que la variable más importante era el pié. El por-
centaje de clasiÞcación de la función lineal discriminante era del 100% que disminuía al
85% con validación cruzada. En el modelo logístico con sólo una variable hemos obtenido
el 96% de éxito. Con validación cruzada este valor disminuye algo, pero mucho menos que
en el ejemplo 13.3 debido a la economía de parámetros que hace que se produzca menos
sobreajuste.
Ejemplo 14.3 Vamos a utilizar los datos de MUNDODES para ver cuáles son las variables
que clasiÞcan mejor a un país como perteneciente al continente africano. La función logit
estimada es
log
pi
1 − pi
= 15.58 + .18tn − .14tm
−.033mi + .05lpnb + .13em − .47eh
Las variables tn, mi y eh son signiÞcativas, con un cociente entre la estimación del
parámetro y la desviación típica de 6.8, 2.09 y 2.5 respectivamente. La desviación inicial es
D(β0)=-2(27log27+64log64-91log91)= 110.66. Por otro lado, la desviación del modelo esti-
mado es -2 L(bβ) = 41.41 y la diferencia entre estas dos cantidades proporciona el contraste de
que las variables no inßuyen. Si esto es cierto la diferencia, 69.25 será una ji-cuadrado con
6 grados de libertad. Como este valor es muy grande rechazamos esta hipótesis y admitimos
que las variables inßuyen. El pseudo coeÞciente de determinación es
R2
= 1 −
41.41
110.66
= .63
La tabla de clasiÞcación con este modelo es
14.4. EL MODELO MULTILOGIT 445
ClasiÞcado
nA A
Realidad nA 61 3
A 5 22
que supone una proporción de éxitos de 83/91, o de 91%.
14.3.3 Diagnosis
Los residuos del modelo logit (que a veces se denominan residuos de Pearson) se deÞnen por:
ei =
yi − bpi
p
bpi(1 − bpi)
y, si el modelo es correcto, serán variables de media cero y varianza unidad que pueden
servirnos para hacer la diagnosis del modelo. El estadístico χ2
=
Pn
i=1 e2
i permite realizar
un contraste global de la bondad del ajuste. Si el modelo es adecuado se distribuye asintóti-
camente como una χ2
con gl = n − p − 1 , donde p + 1 es el número de parámetros en el
modelo.
En lugar de los residuos de Pearson se utiliza mucho las desviaciones de las observaciones
o pseudoresiduos, deÞnidas en (14.12) por di = −2(yi log bpi+(1−yi) log(1−bpi)), que aparece,
de manera natural, en la maximización de la función de verosimilitud.
Podemos hacer un contraste de razón de verosimilitudes de la bondad del modelo como
sigue: la hipótesis nula será que el modelo es adecuado, es decir, las probabilidades pueden
calcularse con el modelo logístico con p + 1 parámetros. La hipótesis alternativa será que el
modelo no es adecuado y las n probabilidades son libres (supuesto que las x son distintas).
Entonces, la desviación bajo H0 es D(H0), mientras que bajo H1 cada observación queda
perfectamente clasiÞcada dando pi = 0 si pertenece a la primera población y pi = 1 si
pertenece a la segunda, y la desviación es cero porque todas las observaciones se clasiÞcan
sin error. El contraste de la razón de verosimilitudes se reduce al estadístico desviación
global:
D(H0) = −2
X
(yi log bpi + (1 − yi) log(1 − bpi))
que, si el modelo es correcto, será también asintóticamente una χ2
con n − p − 1 grados de
libertad
14.4 EL MODELO MULTILOGIT
El modelo logit puede generalizarse para más de dos poblaciones, es decir, para variables
respuesta cualitativas con más de dos niveles posibles. Supongamos G poblaciones, entonces,
llamando pig a la probabilidad de que la observación i pertenezca a la clase g, podemos
escribir:
pig =
eβ0g+β0
1gxi
1 +
PG−1
j=1 e−β0j−β0
1jxi
j = 1, ..., G − 1 (14.21)
446CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN
y
piG =
1
1 +
PG−1
j=1 e−β0j−β0
1jxi
con lo que automáticamente garantizamos que
PG
g=1 pig = 1. Diremos que las probabilidades
pig satisfacen una distribución logística multivariante. La comparación entre dos categorías
se hace de la forma habitual
pig
pij
=
eβ0g+β0
1gxi
eβ0j+β0
1jxi
= e(β0g−β0j)
e(β0
1g−β0
1j)xi
Esta ecuación indica que las probabilidades relativas entre dos alternativas no dependen del
resto. Esa hipótesis puede generalizarse (véase Maddala, 1983).
La estimación y contrastes de esos modelos son extensiones directas de los logit ya es-
tudiados y no entraremos en los detalles que el lector interesado puede encontrar en Fox
(1984)
14.5 OTROS MÉTODOS DE CLASIFICACIÓN
14.5.1 Árboles de ClasiÞcación
Un procedimiento alternativo de clasiÞcación debido a Breiman y Friedman (véase
Breiman et al., 1984) son los árboles de clasiÞcación (ClassiÞcation and Regression Trees,
CART). Este procedimiento no utiliza un modelo estadístico formal y es más bien un al-
goritmo para clasiÞcar utilizando particiones binarias sucesivas utilizando los valores de una
variable cada vez. La idea del procedimiento se resume en la Þgura 14.1. Suponemos que
se dispone de una muestra de entrenamiento, que incluye la información del grupo al que
pertenece cada dato y que servirá para construir el criterio de clasiÞcación. Posteriormente
se aplicará el criterio para clasiÞcar nuevos datos. Comenzamos con un nudo inicial y nos
preguntamos como dividir el conjunto de datos disponibles en dos partes más homogéneas
utilizando el valor de una de las variables. La variable se escoge de manera que una par-
tición de los datos en función de que su valor para esta variable sea mayor o menor que
una constante proporcione una división de los datos en dos conjuntos lo más homogeneos
posibles.
El algortimo comienza seleccionando una variable, supongamos que la xi, y obteniendo
un punto de corte, c, de manera que separemos los datos que tienen x1 ≤ c de aquellos con
x1 > c. De este nudo incial saldrá ahora dos, uno al que llegarán las observaciones con x1 ≤ c
y otro al que llegarán las que tienen x1 > c. En cada uno de estos nudos se vuelve a repetir
el proceso de seleccionar una variable y un punto de corte dividir la muestra en dos partes
más homogéneas. El proceso termina cuando hayamos clasiÞcado todas las observaciones
(o casi todas) correctamente en su grupo. La construcción del árbol requiere las decisiones
siguientes:
1. La selección de las variables y de sus puntos de corte para hacer las divisiones.
2. Cuando un nudo se considera terminal y cuando se continua dividiendo.
14.5. OTROS MÉTODOS DE CLASIFICACIÓN 447
x2?
x3?
x5?
x7?
G2
x4?
G3
x6?
G1 G4 G1G3
SI
SI
SI
NO
NO
NO
NO
NO
SI
SI
x1<c?
Figura 14.1: Ejemplo de árbol de clasiÞcación
3. La asignación de las clases a los nudos terminales.
Supongamos que se desea clasiÞcar las observaciones en G grupos. Por el primer nudo,
llamado nudo raiz y marcado en la Þgura por x1, pasarán todas las observaciones, mientras
que por cualquier otro nudo sólo pasarán las observaciones que veriÞcan las condiciones de
llegada a ese nudo. Por ejemplo, en el nudo x2?. sólo se encuentran aquellas observaciones
para las que se responde SI a la pregunta : ¿es x1 < c?. Podemos entonces asociar a cada
nudo el subconjunto de observaciones que pasarán por él. Para decidir la variable que va a
utilizarse para hacer la partición en un nudo se calcula primero la proporción de observaciones
que pasan por el nudo para cada uno de los grupos. Llamando a los nudos t = 1, ..., T, y
p(g|t) a las probabilidades de que las observaciones que llegan al nudo t pertenezcan a cada
una de las clases, se deÞne la impureza del nudo t por
I(t) = −
GX
g=1
p(g|t) log p(g|t)
esta medida se llama entropía, es no negativa y mide la diversidad. Se utilizó en la sección
4.2.3 para obtener criterios de proyección. Por ejemplo, con dos grupos la impureza es
I(t) = −p log p − (1 − p) log(1 − p)
Esta función está representada la Þgura 14.2. Se observa que la heterogeneidad o diversidad
es máxima es cuando p=.5, y tiende a cero cuando p se aproxima a cero o a uno.
448CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN
Figura 14.2: Representacion de la entropia como funcion de la probabilidad de un grupo
Con G grupos, si en el nudo t todas las observaciones pertenecen al grupo g, de manera
que p(g|t) = 1, y p(i|t) = 0, i 6= g, la entropía o impureza del nudo es I(t) = 0 (tomamos
0log0 = 0, que es su valor límite). En otro caso, la impureza será positiva y será máxima
cuando p(g|t) = G−1
. La variable utilizada para realizar la división de los datos en un nudo se
selecciona minimizando la heterogeneidad o impureza resultante de la división. Consideremos
preguntas q posibles del tipo: ¿es xi < a? y sean pS y pN las proporciones de las observaciones
del nudo t que irán a los nudos resultantes de responder ”Si” a la pregunta q (nudo tS) y al
responder ”No” (nudo tN ). Llamemos I(tS) y I(tN ) a las impurezas resultantes de estos nudos
que surgirán como consecuencia de la pregunta q. El cambio en entropía o heterogeneidad
después de la pregunta q, será la diferencia entre la entropía del nudo, I(t), y la entropía
después del nudo, que vendrá dada por pSI(tS) + pN I(tN ). El cambio en entropía producido
por la pregunta q es:
∆I(t, q) = I(t) − pSI(tS) − pN I(tN ) (14.22)
y se desea escoger q para maximizar el cambio de entropía en el nudo. El procedimiento
es el siguiente: se deÞne un conjunto de preguntas q del tipo xi < a, para i = 1, ..., p y
a ∈ (−∞, ∞). Para cada pregunta se calcula la disminución de impureza o entropía que
implica y se escoge aquella pregunta que maximice la impureza resultante medida por (14.22).
La clasiÞcación en los nudos terminales se hace asignado todas las observaciones del nudo
al grupo más probable en ese nudo, es decir, aquel grupo con máxima p(g|t). Si la impureza
del nudo es cero, todas las observaciones pertenecen al mismo grupo, y la clasiÞcación de las
observaciones podría hacerse sin error, en otro caso, si la impureza del nudo no es cero, la
clasiÞcación tendrá un cierto error.
Este proceso de construcción del árbol puede generar muchos nudos cuando el número de
variables es grande y se plantea el problema de cómo simpliÞcar o podar el árbol para hacerlo
más manejable con poca pérdida de información. Además, pueden utilizarse otras medidas
14.5. OTROS MÉTODOS DE CLASIFICACIÓN 449
de diversidad para realizar las divisiones. No entraremos en los detalles de los algoritmos
existentes que el lector interesado puede encontrar en Breiman et al. (1984)
Los árboles de clasiÞcación suelen dar buenos resultados cuando muchas de las variables
de clasiÞcación son cualitativas y cuando las relaciones entre las variables son muy lineales.
Sin embargo, son más ineÞcaces que los procedimientos clásicos cuando las variables son
aproximadamente normales. La evidencia disponible sobre su eÞcacia es distintos tipos de
problemas es todavía pequeña.
Ejemplo 14.4 Ilustraremos la idea de los árboles de clasiÞcación con los datos de MEDIFIS.
La impureza total de los datos inicialmente es
I0 = −(12/27) log(12/27) − (15/27) log(15/27) = .687
consideremos preguntas del tipo pie< a?. Si tomamos a = 41, y llamamos q1 a la pregunta
pie<41? , la muestra se divide en 18 casos con respuesta SI y 9 con respuesta NO. La
impureza en los nudos resultantes será: Para el nudo NO, la impureza es cero, porque todos
los elementos del nudo son hombres. En el nudo SI de los 18 elementos 15 son mujeres y 3
hombres con lo que la impureza será
I(S, q1) = −(15/18) log(15/18) − (3/18) log(3/18) = .451
con lo que la impureza resultante con esta pregunta es
∆I(q1) = .687 − (9/27).0 − (18/27)(.451) = .387
Comparemos este resultado con el obtenido con la pregunta q2 : pie< 40?. Ahora la
muestra se divide en 16 y 11. La impureza del grupo SI es
I(S, q2) = −(15/16) log(15/16) − (1/16) log(1/16) = .234
y la impureza del grupo No es cero. La reducción de impureza de esta pregunta es
∆I(q2) = .687 − (11/27).0 − (16/27)(.234) = .548
por tanto, es mejor dividir con la pregunta q2 que con la q1, ya que obtenemos un grupo
más homogeneo como resultado de la división. Otras posibles preguntas se analizan de la
misma forma.
14.5.2 Redes Neuronales
Las redes neuronales son algoritmos generales de análisis de datos basados en un uso intensivo
del ordenador. Su justiÞcación proviene de que, en condiciones generales, pueden aproximar
cualquier función del tipo
y = f(x1, ..., xp)
Supongamos para simpliÞcar la discriminación entre dos grupos. Entonces, y es una
variable binaria, cero- uno, y el problema es encontrar la función f que mejor se ajusta
450CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN
x1 x2 x3
x4 x5
y
Figura 14.3: Representación de una red neuronal con una capa intermedia.
a los datos observados. Las redes neuronales se construyen a partir de elementos llama-
dos nodos, unidades, o neuronas. Estas unidades reciben un conjunto de entradas, x, que
representaremos por la variable vectorial x, y calculan una variable escalar de salida apli-
cando una ponderación a los componentes de la entrada, añadiendo una constante de sesgo
y transformando el resultado de forma no lineal como:
z = g(w0
x)
donde w es un vector y g una función generalmente no lineal. El vector x incorpora una
variable adicional, x0 = 1, de manera existe un término de sesgo w0 incluido en el vector de
pesos w0
= (w0, ..., wp). Se han propuesto distintos tipos de funciones g pero la función más
utilizada en problemas de clasiÞcación es la función logística
g(t) = 1/(1 + e−t
)
que proporcionará una salida entre cero y uno. Otra función utilizada es g(t) = sign(t)
que produce una respuesta binaria con valores posibles 1 y -1. Por ejemplo, el modelo
logístico puede verse como una red neuronal de un sólo nodo y función g logística. Aunque
existen muchas estructuras de redes neuronales posibles, la más utilizada para clasiÞcación
es el perceptrón, que consiste en un conjunto de neuronas clasiÞcadas en capas y cuya
representación gráÞca se ilustra en la Þgura (14.3). Esta estructura contiene cinco neuronas
de entrada, tres en la capa intermedia y una de salida.
Las variables de entrada, (x1, ..., xp), que caracterizan al elemento a clasiÞcar se intro-
ducen por las neuronas iniciales. Por ejemplo, la red de la Þgura 14.3 es adecuada para
clasiÞcar elementos donde se han medido cinco variables. En la neuronas iniciales la función
de respuesta es la unidad, es decir x = f(x), y estas neuronas sirven para distribuir las
14.5. OTROS MÉTODOS DE CLASIFICACIÓN 451
variables x en la segunda capa de neuronas. Supongamos que la capa intermedia contiene
M neuronas (en la Þgura M = 3), entonces cada neurona intermedia i = 1, ..., M recibe un
vector de entrada xi y genera una variable escalar de salida
zi = gi(w0
ixi) (14.23)
Por ejemplo, en la Þgura 14.3 la neurona de la capa terminal recibe el vector z = (z1, z2, z3)0
y genera una salida y. Pueden existir varias neuronas terminales y las respuestas de la capa
intermedia pasan a las neuronas de salida, y cada una de ellas producirá una variable de salida
de acuerdo con una función f. Supongamos que existen j = 1, ..., J neuronas terminales. La
salida que producirá la neurona j será
yj = fj(w0
jzj) = fj(w0
jGj(W, x))
donde w0
j es la función de ponderación en esta neurona y zj es el vector de entrada a la
neurona que esta compuesto por las salidas de las neuronas de la capa intermedia. Este vector
de entrada tiene M componentes, tantos como salidas intermedias, y cada uno viene dado por
(14.23), por lo que puede expresarse como zj = (z1j, ..., zMj) = (g1(w0
1x1), ..., gM (w0
M xM )) =
Gj(W, x). Por ejemplo, si suponemos que tanto las tres funciones de la capa intermedia
como la terminal de la Þgura 14.3 proporciona una respuesta logística, la respuesta Þnal es:
y = g(w40 + w41z1 + w42z2 + w43z3)
donde g es la función logística. Sustituyendo z por su expresión, que es una función logística
de las variables de entrada, tenemos Þnalmente que
y = g(w40 + w4i
3X
i=1
w4ig(w0
ix))
La clasiÞcación se realiza en función del valor de la variable y. Por ejemplo, si y > .5 el dato
se clasiÞca en la primera población y si y < .5 en la segunda.
Para llevar a la práctica este método, hay que estimar los parámetros que deÞnen cada
función gi. Por ejemplo, en la red de la Þgura 14.3 para cada neurona hay que estimar seis
pesos, el coeÞciente constante del sesgo más los pesos para cada una de las cinco variables,
lo que supone 6×3 = 18 parámetros para la capa intermedia, más los 6 de la capa Þnal,
lo que supone un total de 24 parámetros. Si llamamos ci a la variable binaria que incluye
las etiquetas de los datos, por ejemplo, ci = 1 cuando pertenece a la primera clase y ci = 0
cuando pertenece a la segunda, la estimación de los pesos se obtiene minimizando :
E =
nX
i=1
(ci − yi)2
=
nX
i=1
(ci − f(x, w))2
con respecto a los parámetros w o pesos que caracterizan la red. Esta función, que es no
lineal en los parámetros, se minimiza frecuentemente con un algoritmo del gradiente, donde
los pesos se modiÞcan en cada iteración proporcionalmente al gradiente de esta función
wij → wij + η
∂E
wij
452CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN
siendo η la longitud de paso. El lector interesado en los detalles puede acudir a Ripley (1996).
Las redes neuronales necesitan muestras grandes para estimar eÞcientemente los muchos
parámetros que se introducen. La experiencia disponible parece indicar que si la estructura
de la red neuronal se diseña bien, en situaciones estándar pueden dar resultados similares a
los métodos clásicos, y pueden comportarse mejor en situaciones donde las relaciones entre
las variables de clasiÞcación sean muy no lineales. Sin embargo la experiencia disponible
es muy limitada por la falta de reglas precisas sobre el número de neuronas a colocar en
la capa intemedia y los problemas de convergencia de los algoritmos de estimación, dado el
alto número de parámetros a estimar. Por ejemplo, supongamos que queremos clasiÞcar en
4 clases posibles datos de dimensión 10. Si utilizamos cinco neuronas en la capa intermedia
y 3 neuronas de salida (necesitamos G − 1 neuronas de salida) esto supone 88 parámetros
a estimar. Un inconveniente de las redes neuronales es la falta de una teoría que oriente
sobre las situaciones en que darán buenos resultados y aquellas en las que pueden ser muy
ineÞcientes.
14.5.3 Métodos no Paramétricos
Vecinos más próximos
Un procedimiento de clasiÞcación simple y que ha dado buenos resultados con poblaciones
no normales es el siguiente:
(1) DeÞnir una medida de distancia entre puntos, habitualmente la distancia de Maha-
lanobis.
(2) Calcular las distancias del punto a clasiÞcar, x0, a todos los puntos de la muestra.
(3) Seleccionar los m puntos muestrales más próximos al que pretendemos clasiÞcar.
Calcular la proporción de estos m puntos que pertenece a cada una de las poblaciones.
ClasiÞcar el punto x0 en la población con mayor frecuencia de puntos entre los m.
Este método se conoce como m− vecinos próximos. En el caso particular de m = 1 el
método consiste en asignarle a la población al que pertenece el elemento más próximo. Un
problema clave de este método es claramente la selección de m. Una práctica habitual es
tomar m =
√
ng donde ng es un tamaño de grupo promedio. Otra posibilidad es probar con
distintos valores de m, aplicarselo a los puntos de la muestra cuya clasiÞcación es conocida
y obtener el error de clasiÞcación en función de m. Escoger aquel valor de m que conduzca
al menor error observado.
Estimación de densidades
Si la densidad de las observaciones no es normal y tenemos una muestra grande podemos
intentar estimar directamente la distribución de los datos. Para clasiÞcar un punto x0, no
necesitamos estimar toda la densidad sino sólo la densidad en ese punto, ya que la clasiÞcación
se realiza maximizando la probabilidad a posteriori, es decir, maximizando
max
g
πgfg(x0)
Un estimador ingenuo de la densidad de la población g en el punto x0 es construir un
hipercubo con centro en x0 y lado h, contar los puntos provenientes de la densidad g incluidos
14.5. OTROS MÉTODOS DE CLASIFICACIÓN 453
en el, ng(x0) y estimar la densidad por el cociente entre la frecuencia relativa de puntos en
el cubo y su volumen. Es decir
fg(x0) =
ng(x0)
nghp
Este es un procedimiento similar al de los vecinos más próximos, pero en lugar de Þjar el
número m de puntos más próximos Þjamos un entorno h y contamos cuantos puntos de cada
distribución están en dicho intervalo. La regla anterior puede escribirse como
fg(x0) =
1
nghp
nX
i=1
p
Y
j=1
K
µ
xij − x0j
h
¶
donde la función K se denomina el núcleo y tiene la propiedad
K
µ
xij − x0j
h
¶
=
1, si |xij − x0j| ≤ h
0, en otro caso
Este estimador de la densidad es muy irregular, ya que los puntos o bien entran en el
hipercubo y contribuyen con valor uno a la densidad en el punto, o no cuentan en absoluto
para determinar la densidad. Un estimador mejor es permitir que los puntos contribuyan a
la estimación de la densidad en función de su distancia, lo que puede hacerse sustituyendo
el núcleo rectangular por una función suave que promedie la información de los puntos en
función de su distancia. Un núcleo muy utilizado es el normal, dado por
K(u) =
1
√
2π
exp(−
u2
2
).
El procedimiento puede mejorarse teniendo en cuenta la dependencia de las variables y
utilizando un núcleo multivariante que tenga en cuanta esta dependencia. Por ejemplo, un
núcleo normal multivariante conduciría a :
fg(x0) =
1
nhp |Sg|1/2
nX
i=1
exp
½
−
1
2h2
(xi − x0)0
S−1
g (xi − x0)
¾
donde Sg es una estimación de la matriz de covarianzas en el grupo g. En general es frecuente
tomar la misma matriz Sg en todos los grupos y estimarla como una media ponderada de
las matrices de cada grupo.
El problema de este método es que la estimación de la densidad depende críticamente
de la elección del parámetro h, que es desconocido. Puede utilizarse el error de clasiÞcación
como comentamos antes para estimar h. Remitimos al lector interesado a McLachan (1992)
para un estudio detallado de este tema. Más recientemente algunos autores han tratado de
mejorar la idea de vecinos más próximos introduciendo criterios de invarianza ante rotaciones
para mejorar las propiedades del método, véase Hastie y Simard (1998). Otros autores han
utilizado estimación no paramétrica para estimar directamente las relaciones no lineales de
clasiÞcación, vease por ejemplo Hastie, Tibshirani y Buja (1994).
454CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN
14.5.4 Otros Métodos
Un método reciente que está adquiriendo cierta popularidad es el denominado SVM (support
vector machines), véase Vapnik (2000) y Cherkassky y Mulier (1998). Este método adopta
un punto de vista distinto del habitual: en lugar de buscar una reducción del espacio de
los datos y resolver el problema en ese espacio de dimensión menor busca un espacio de
dimensión mayor donde los puntos pueden separarse de forma lineal. Para entender la
Þlosofía del método deÞnamos problemas separables linealmente. Supongamos que tenemos
una muestra de n elementos del tipo (yi, xi) donde yi es la variable binaria de clasiÞcación,
que, por conveniencia ahora, tomamos con valores posibles -1 y +1 en lugar de cero y uno,
y xi ∈ Rp
es el vector de variables para la observación i. Este conjunto de n datos es
linealmente separable si es posible encontrar un vector w ∈ Rp
que deÞna un plano que nos
separe perfectamente las observaciones. Es decir, todas las observaciones de un grupo, por
ejemplo las de yi = −1 se encuentran a un lado del plano y veriÞcan que w0
xi + b < −1,
para un cierto escalar b, mientras que los puntos del otro grupo con yi = 1 están al otro lado
y veriÞcan w0
xi + b > 1. Estas dos desigualdades pueden también escribirse conjuntamente
como
yi(w0
xi + b) ≥ 1 para i = 1, ..., n
Sea
f(xi) = w0
xi + b
el valor del hiperplano de separación óptima entre los dos conjuntos para un punto xi. La
distancia entre un punto cualquiera, xi, y el hiperplano viene dada por la proyección del punto
en la dirección w, que es el vector ortogonal al plano. Esta proyección se calcula mediante
w0
xi/ kwk . Como los puntos veriÞcan yi(w0
xi + b) ≥ 1, maximizaremos las distancias de los
puntos al plano maximizando
yi(w0
xi + b)
kwk
para todos los puntos muestrales. Esto ocurrirá si el numerador es positivo y el denominador
tan pequeño como sea posible, lo que conduce al problema de programación cuadrática
min kwk2
yi(w0
xi + b) ≥ 1, i = 1, ..., n
14.6. LECTURAS COMPLEMENTARIAS 455
x
xx
x
x
x
+ +
+
+
+
+
+
+
x
w
f=0
f=1
f=-1
Figura 14.4: Representación de dos clases de puntos separables linealmente en cierto espacio,
el plano separador f y el vector w ortogonal al plano.
Cuando los datos no son linealmente separables el procedimiento habitual es proyectar los
datos sobre un espacio de dimensión menor y utilizar funciones no lineales para separarlos
grupos. Por ejemplo, en discriminación con dos poblaciones normales multivariantes con
distinta matriz de covarianzas es frecuente que los datos no sean linealmente separables y
entonces como hemos visto proyectamos los datos sobre un espacio de dimensión menor y
utilizamos una función cuadrática para discriminar sobre las proyecciones en dicho espacio.
En enfoque del vector soporte (VSM) es aplicar una transformación a los datos que los
lleve a un espacio de dimensión mucho mayor que p y entonces aplicar una discriminación
lineal como la que se ha presentado. La clave del procedimiento es darse cuenta que para
resolver el problema en un espacio de dimensión alta solo necesitamos conocer los productos
escalares entre las observaciones y si deÞnimos adecuadamente un producto escalar en el
espacio ampliado tenemos resuelto el problema. Los detalles técnicos de implantación del
método dejan todavía muchos interrogantes por resolver y el lector interesado puede acudir
a la referencias indicadas al comienzo de la sección.
14.6 Lecturas complementarias
El modelo logistíco se estudia en Hosmer y Lemeshow (1989), Cramer (1991) y Fox (1984).
Estos modelos son casos particulares de los modelos lineales generalizado estudiados por
Mc Cullagh y Nelder (1989). Su aplicación para discriminación se presentan claramente
en McLachlan (1992), que contiene numerosas referencias a otros métodos no presentados
en este libro. Las redes neuronales para clasiÞcación se explican en Hand (1997), Ripley
(1996), Hertz et al. (1991) y Bishop (1995). El libro de McLachlan (1992) es una buena
referencia general para métodos alternativos de discriminación. Veáse también Fukunaga
(1990). La teoria de aprendizaje estadístico y su aplicación para la construcción de máquinas
456CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN
de clasiÞcación se presenta en Cherkassky y Mulier (1998) y Vapnik (2000).
Ejercicios
14.1 Escribir la transformación logit como la diferencia entre las funciones soporte del
dato a clasiÞcar bajo los dos modelos posibles.
14.2 Demostrar que el estimador de β0 en el modelo logístico si β1 = ... = βp = 0 viene
dado por bβ0 = log bp/(1 − bp) donde bp =
P
yi/n. Interpretar este resultado.
14.3 Supongamos que los datos tienen observaciones repetidas de manera que para cada
xi se han observado ni datos y ri de ellos pertenecen a la población con y = 1 y ni −ri a la de
y = 0. Demostrar que la función soporte puede escribirse entonces como L(β) =
P
ri log pi +P
(ni − ri) log(1 − pi).
14.4 Demostrar que si las dos poblaciones bajo consideración son normales multivariantes
con distiantas medias y matriz de covarianzas, la función logit para clasiÞcar la observación
x es g(x) = a+b0
x+x0
Ax, determinar la expresión de a, b y A en función de los parámetros
del modelo.
14.5 Demostrar que para clasiÞcar una observación en las condiciones del ejemplo 14.2 la
función logística es lineal en los parámetros y por lo tanto el modelo logístico puede aplicarse
analogamente en este caso, aunque el número de parámetros a estimar es mayor.
14.6 Demostrar que en el caso de una única variable explicativa, si las observaciones
de los dos grupos estan separadas, en el sentido de que todas las observaciones con y = 0
están en una zona xi < c y todas las de y = 1 en la zona xi > c, la función soporte es
L(β) =
P
xi>c log pi +
P
xi<c log(1 − pi) y por tanto puede tomar el valor máximo cero si
hacemos pi = 1 para las observaciones con xi > c y pi = 0 para las observaciones con xi < c.
14.7 Demostrar que el ejercicio 14.6 podemos aproximarnos arbitrariamente al valor
L(β) = 0 tomando bβ0 = −cbβ1 y haciendo que bβ1 sea arbitrariamente grande.
14.8 Explicar, a la vista de los ejercicios 14.6 y 14. 7 porque el método de máxima
verosimilitud va a fallar si todas las observaciones están perfectamente separadas, en el
sentido deÞnido en 14.6
Capítulo 15
CLASIFICACIÓN MEDIANTE
MEZCLAS DE DISTRIBUCIONES
15.1 FUNDAMENTOS
En este capítulo volveremos al problema del análisis de conglomerados para analizar la
homogeneidad de una muestra y encontrar grupos si existen, problema que ya estudiamos,
desde un punto de vista descriptivo, en el capítulo 8. En este capítulo supondremos que
los datos se han generado por una mezcla de G distribuciones desconocidas y preentaremos
métodos para identiÞcar los grupor. Hay tres métodos principales para partir una muestra
heterogénea en grupos más homogéneos.
El primero, y más antiguo, es el método de k-medias, (o G medias en nuestra notación)
que se presentó en el capítulo 8 como un algortimo heurístico para maximizar una medida de
homogeneidad al partir la muestra en G grupos. En este capítulo veremos que las hipótesis
que hagamos respecto a los componentes de la mezcla implican distintos criterios a maximizar
con el algoritmo de k-medias.
El segundo, es tratar de estimar los parámetros de los componentes de la mezcla y
clasiÞcar después las observaciones a los grupos por sus probabilidades de pertenencia a las
distintas poblaciones. En este capítulo estudiaremos con detalle el caso en el que los datos
provienen de una mezcla de G poblaciones normales.
El tercero, es proyectar los puntos sobre distintas direcciones que separen los grupos lo
más posible y clasiÞcar las observaciones en grupos mediante estas proyecciones univariantes.
Los procedimientos de partición de la muestra en grupos o conglomerados a partir de la
hipótesis de que los datos provienen de mezclas de distribuciones, están relacionados con el
análisis discriminante que vimos en el capítulo 13. En ambos casos suponemos mezclas, y
queremos encontrar criterios para asignar nuevas observaciones a las distintas poblaciones.
Sin embargo, en análisis discriminante suponemos que las poblaciones son conocidas, o ten-
emos una muestra de cada población (a veces llamada muestra de entrenamiento), donde las
observaciones están clasiÞcadas sin error, de manera que podemos estimar los parámetros
de cada distribución. En análisis de conglomerados ni conocemos el número de poblaciones
ni disponemos de datos previos de clasiÞcación, y toda la información sobre el número de
grupos y su estructura debe obtenerse de la muestra disponible.
457
458 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES
15.2 EL METODO de K-MEDIAS para mezclas
Para obtener criterios que podamos aplicar al caso de conglomerados, volvamos a revisar el
problema de discriminar entre G poblaciones normales multivariantes N
¡
µg, Vg
¢
, cuando
se dispone de una muestra de entrenamiento donde se conoce la procedencia de las observa-
ciones, y sea ng al número de elementos de la muestra que provienen de la población g, donde
g = 1, . . . , G, y
P
ng = n. Aplicando los resultados de la sección 10.2.2, la verosimilitud de
la muestra será, sumando los soportes :
log f (x1, . . . xn) = −
GX
g=1
ng
2
log |Vg| −
GX
g=1
ng
2
tr
¡
V−1
g S
¡
µg
¢¢
donde S
¡
µg
¢
= 1
ng
Png
i=1
¡
xi − µg
¢ ¡
xi − µg
¢0
. Según esta ecuación la estimación de cada
vector de medias, µg, será xg, la media muestral y la función soporte concentrada en este
parámetro será:
log f (x1, . . . xn) = −
GX
g=1
ng
2
log |Vg| −
GX
g=1
ng
2
tr
¡
V−1
g Sg
¢
donde
Sg =
1
ng
ng
X
i=1
(xi − xg) (xi − xg)0
.
Supongamos que admitimos la hipótesis Vg = σ2
I, es decir las variables están incorreladas
y tienen la misma varianza entre sí y en todos los grupos. Entonces, la función soporte se
reduce a:
log f (x1, . . . xn) = −
np
2
log σ2
−
1
2σ2
tr
à g
X
i=1
ngSg
!
y llamando
W =
g
X
i=1
ngSg
maximizar la verosimilitud supondría
min tr(W)
15.2. EL METODO DE K-MEDIAS PARA MEZCLAS 459
que es el criterio de la traza, equivale a minimizar la suma ponderada de las varianzas
estimadas en cada grupo. Este criterio se obtuvo, por otros métodos, en el capítulo 8, y es el
que se utiliza en el algoritmo de k-medias. Tiene la ventaja de ser simple y fácil de calcular,
pero no es invariante ante transformaciones lineales y no tiene en cuenta las correlaciones.
Si admitimos la hipótesis Vg = V, la verosimilitud es equivalente a la del problema de
discriminación clásica estudiado en el capítulo 13, y viene dada por :
log f (x1, . . . xn) = −
n
2
log |V| −
1
2
tr
Ã
V−1
à gX
i=1
ngSg
!!
y la estimación MV de V es entonces
bV =
1
n
g
X
i=1
ngSg =
1
n
W,
e insertando esta estimación en la función de verosimilitud, maximizar la verosimilitud equiv-
ale a:
min |W|
que es el criterio del determinante, propuesto por Friedman and Rubin (1967). Este criterio
si es invariante a transformaciones lineales, y, como veremos, tiende a identiÞcar grupos
elípticos.
En el caso general en que las poblaciones tienen distinta matriz de varianzas y covarianzas,
la estimación MV de Vg es Sg y el máximo de la función de verosimilitud es
log f (x1, . . . xn) = −
1
2
X
ng log |Sg| −
np
2
, (15.1)
y maximizar esta verosimilitud equivale a:
min
X
ng log |Sg| (15.2)
En otros términos, cada grupo debe tener ”volumen” mínimo. Suponemos que cada grupo
tiene ng > p + 1, de manera que |Sg| sea no singular, lo que exige que n > G (p + 1).
Un criterio adicional propuesto por Friedman y Rubin (1967) es partir de la descom-
posición del análisis de la varianza multivariante y maximizar el tamaño de la distancia de
Mahalanobis generaliza entre los grupos dada por W−1
B. De nuevo el tamaño de esta matriz
puede medirse por la traza o el determinante, pero este criterio no ha dado buenos resultados
en el análisis de conglomerados (vease Seber, 1984).
Cualquiera de estos criterios puede maximizarse con un algoritmo similar al k—medias
que vimos en la capítulo 8. El criterio del determinante es fácil de implementar y, como se
demuestra en el apéndice 15.1, tiende a producir grupos elípticos, mientras que el de la traza
460 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES
produce grupos esféricos. El criterio (15.2) tiene el inconveniente de que es necesario imponer
restricciones fuertes sobre el número de observaciones en cada grupo para que las matrices no
sean singulares, ya que si el número de grupos es grande, el número de parámetros a estimar
puede ser muy alto. En la práctica, parece mejor permitir algunos rasgos comunes en las
matrices de covarianzas y esto no es fácil de imponer con este criterio. Además, si un grupo
tiene pocas observaciones y |Sg| es casi singular, este grupo tendrá un peso desproporcionado
en el criterio y el algoritmo tiende a caer es ese tipo de soluciones. Por esta razón ese criterio,
aunque tiene interés teórico, se utiliza poco en la práctica.
15.2.1 Número de grupos
En la práctica el número de grupos, G, es desconocido y el algoritmo se calcula para distinto
valores de G, G = 1, 2, .... Comparar las soluciones obtenidas no es simple, porque cualquiera
de los criterios disminuirá si aumentamos el número de grupos. En efecto, según el análisis
de la varianza multivariante, la variabilidad total puede descomponerse como:
T = W + B (15.3)
Intuitivamente, el objetivo de la división en grupos es conseguir que B, la variabilidad entre
los grupos, sea lo más grande posible, mientras que W, la variabilidad dentro de cada
grupo, sea lo más pequeña posible. Dada una división cualquiera en grupos, si elegimos uno
cualquiera de ellos podemos aplicarle de nuevo esta descomposición, con lo que reduciremos
de nuevo la variabilidad descomponiendo más este grupo. Por tanto, no podemos utilizar
ningún criterio basado en el tamaño de W para comparar soluciones con grupos distintos,
ya que simpre podemos disminuir W haciendo más grupos.
Como vimos en el capítulo 8 podemos realizar un test F aproximado calculando la re-
ducción proporcional de variabilidad que se obtiene aumentando un grupo adicional. El test
es:
H =
tr(WG) − tr(WG+1)
tr(WG+1)/(n − G − 1)
(15.4)
y, en la hipotesis de que G grupos son suÞcientes, el valor de H puede compararse con
una F con p, p(n − G − 1) grados de libertad. La regla de Hartigan (1975), implantada en
algunos programas informáticos, es continuar dividiendo el conjunto de datos si este cociente
es mayor que 10.
Un criterio adicional para seleccionar los grupos es el propuesto por Calinski y Harabasz
(1974). Este criterio parte de la descomposición (15.3) y selecciona el valor de G maximizando
CH = max
tr(B)/(G − 1)
tr(W)/(n − G)
(15.5)
Ambos criterios parecen funcionar bien en las aplicaciones y están relacionados (veáse los
ejercicios 15.1 y 15.2)
15.2. EL METODO DE K-MEDIAS PARA MEZCLAS 461
G = 2 G = 3 G = 4 G = 5 G = 6
eh 30 20 14 15 14
em 35 22 13 16 12
mi 509 230 129 76 83
tm 15 11 9 9 9
tn 64 58 37 35 26
Total 653 341 202 151 144
H 77.4 61.5 30.4 6.2
CH 265.9 296.3 356.6 359.7 302
Tabla 15.1: Tabla con la varianza promedio dentro de los grupos para cada variable con
distinto número de grupos con el algoritmo de k-medias.
Ejemplo 15.1 Vamos a comprar los dos criterios para seleccionar el número de grupos en el
algoritmo de k-medias con el criterio de la traza para los datos de los países. Vamos a utilizar
únicamente las 5 variables demográÞcas de MUNDODES. Comenzaremos con los resultados
del programa SPSS. Para decidir el número de grupos este programa nos proporciona una
tabla con las varianzas de cada variable dentro de los grupos. La tabla 15.1 resume esta
información:
Por Þlas esta tabla da la suma de cuadrados en todos los grupos para cada variable
dividida por el número de grados de libertad de esta suma que es n−G, que es la información
obtenida directamente del programa, com veremos a continuación. La table total es la suma
de estas varianzas que es la traza de W. A continuación tenemos los estadísticos H y CH para
determinar el número de grupos. Ambos criterios conducen a cinco grupos en este ejemplo.
Para ilustrar una salida estandar de un programa informatico, la tabla siguiente propro-
ciona la salida del programa SSPS para 5 grupos. El programa proporciona los centros de
los cinco grupos y la suma de cuadrados entre los grupos para cada variable dividida por sus
grados de libertad, G − 1 = 4. Esta es la columna Cluster MS. En la tabla de Análisis de
la varianza tenemos también las varianzas de cada variable dentro de los grupos, que están
en la columna Error MS. Esta columna es la que se ha copiado redondeada en la tabla 15.1,
que contiene la suma de las varianzas de las variables.
Final Cluster Centers.
Cluster EH EM MI TM TN
1 64.475 68.843 37.575 7.762 29.868
2 43.166 46.033 143.400 20.022 46.577
3 70.122 76.640 11.288 8.920 15.017
4 57.342 60.900 74.578 10.194 39.057
5 51.816 54.458 110.558 13.875 43.008
Analysis of Variance.
Variable Cluster MS DF Error MS DF F Prob
462 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES
EH 1805.3459 4 15.059 86.0 119.8792 .000
EM 2443.0903 4 16.022 86.0 152.4812 .000
MI 46595.0380 4 76.410 86.0 609.7986 .000
TM 289.2008 4 9.507 86.0 30.4191 .000
TN 3473.4156 4 34.840 86.0 99.6950 .000
Tabla Salida del Programa SPSS para 5 grupos con los datos de MUNDODES
Ejercicio 15.1 Se observa en la tabla 15.1 que la variable mi tiene mucha más varianza que
las demás, y, por tanto, va a tener un peso muy importante en la construcción de los grupos,
que van a hacerse principalmente por los valores de esta variable. La tabla de las varianzas
muestra que el número de grupos es cinco, ya que al aumentar a seis la disminución de las
varianzas es muy pequeña.
Para ilustrar el cálculo de los estadísticos para determinar el número de grupos, llamando
MS(G) a la Þla de totales en la tabla 15.1, esta Þla será igual a tr(WG)/(n − G), y el
estadistico se calcula como
H =
tr(WG) − tr(WG+1)
tr(WG+1)/(n − G − 1)
=
(n − G)MS(G) − (n − G − 1)MS(G + 1)
MS(G + 1)
Ejemplo 15.2 donde n = 91 y G es el número de grupos indicado por columnas. Así se
obtiene la Þla de H, y de acuerdo con el criterio de Hartigan escogeríamos cinco grupos. .
Esta tabla incluye también la información para calcular el criterio (15.5). El numer-
ador de esta expresión es la suma de los términos cluster MS para todas las variables y el
denominador la suma de la columna Error MS. Para G=5 el criterio CH es
CH =
1805.34 + .. + 3473.42
15.06 + ... + 34.84
=
54606
151.8
= 359.7
y la aplicación de este criterio lleva también a cinco grupos.
Comparando las medias de la solución para cinco grupos, vemos que el grupo con menor
mortalidad infantil es el tres, que incluye los paises de Europa menos Albania, y el de mayor
mortalidad el dos con los países más pobres de Africa. La Þgura 15.1 presenta un histograma
de la variable mi. Se observa que esta variable que va a tener un peso dominante en la
formación de los grupos indica claramente la heterogeneidad de la muestra.
Para ilustra el funcionamiento de distintos programas la tabla siguiente indica la salida del
programa MINITAB para cinco grupos con las variables sin estandarizar, y estandarizadas
A. Resultados de MUNDODES, variables sin estandarizar. MINITAB
Number of Within cluster Average distance Maximum distance
observations sum of squares from centroid from centroid
Cluster1 21 10060.590 19.308 57.601
Cluster2 14 797.147 7.200 10.897
15.2. EL METODO DE K-MEDIAS PARA MEZCLAS 463
mortalidad infantil
180.0
170.0
160.0
150.0
140.0
130.0
120.0
110.0
100.0
90.0
80.0
70.0
60.0
50.0
40.0
30.0
20.0
10.0
0.0
30
20
10
0
Desv. típ. = 46.30
Media = 55.3
N = 91.00
Figura 15.1: Histograma de la variable mortalidad infantil indicando la presencia de entre
cuatro y cinco grupos de paises
Cluster3 28 829.039 5.005 10.008
Cluster4 9 826.444 8.724 15.306
Cluster5 19 2713.755 11.338 19.143
Cluster Centroids
Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5
tn 4.4762 2.7857 2.7143 3.3333 4.3684
tm 44.5381 22.8571 13.4429 34.1222 39.0579
mi 16.5095 6.4714 9.4250 9.1000 10.1947
eh 124.6333 23.5500 9.1143 45.7111 74.5789
em 48.1095 67.3643 70.7464 62.4333 57.3421
B: Resultados de MUNDODES, variables estandarizadas
Number of Within cluster Average distance Maximum distance
observations sum of squares from centroid from centroid
Cluster1 20 14.440 0.817 1.275
Cluster2 10 9.932 0.736 2.703
Cluster3 29 20.771 0.792 1.535
Cluster4 22 32.443 1.134 2.132
Cluster5 10 6.679 0.727 1.621
464 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES
Cluster Centroids
Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5
tn 0.6955 -1.7841 -0.1214 0.9070 -1.2501
tm 0.6007 -0.9921 -0.9665 1.2233 -0.0978
mi -0.3585 0.3087 -0.5867 1.3417 -0.8421
eh 0.3300 -0.7676 -0.9455 1.3758 -0.1771
em -0.2078 0.5478 0.9537 -1.4424 0.2754
Salida del programa MINITAB para 5 grupos con los datos de MUNDODES
con y sin estandarizar.
Ejemplo 15.3 Este programa nos da la suma de cuadrados dentro de los grupos por clusters
(grupos) en lugar de por variables. Los resultados para datos sin estandarizar son parecido
pero no idénticos, como puede verse comparando las medias de las variables en los grupos.
Al estandarizar las variables los resultados cambian sustancialmente, al tener un peso mayor
el resto de las variables. Los grupos son más homogéneos por continentes y en Europa se
separan los paises occidentales y los orientales.
15.3 ESTIMACIÓN DE MEZCLAS DE NORMALES
Un enfoque natural para realizar la subdivisión de la muestra en grupos o conglomerados es
suponer que los datos se han generado como una mezcla de distribuciones normales multi-
variantes y estimar conjuntamente los parámetros de las distribuciones que forman la mezcla
y las probabilidades a posteriori de cada dato de pertenecer a cada una de los componentes
de la mezcla. Vamos a presentar este enfoque.
15.3.1 Las ecuaciones de máxima verosimilitud para la mezcla
Supongamos que los datos provienen de una mezcla de distribuciones
f(x) =
GX
g=1
πgfg(x),
la función de verosimilitud será
l(θ|X) =
nY
i=1
(
GX
g=1
πgfg(xi))
y puede escribirse como la suma de Gn
términos correspondientes a todas las posibles clasi-
Þcaciones de la n observaciones entre los G grupos. La función soporte de la muestra será
L(θ|X) =
nX
i=1
log f(xi) =
nX
i=1
log
GX
g=1
πgfg(xi) (15.6)
15.3. ESTIMACIÓN DE MEZCLAS DE NORMALES 465
Supongamos que cada fg(x) es normal k-dimensional con vector de medias µg y matriz de
covarianzas Vg, de manera que θ = (π1, ..., πG, µ1, ..., µG, V1, ..., VG). Sustituyendo estas
densidades por su expresión, la verosimilitud será
L(θ|X) =
nX
i=1
log(
GX
g=1
πg |Vg|−1/2
(2π)−p/2
exp(−
1
2
(xi − µg)0
V−1
g (xi − µg)). (15.7)
Observemos que si hacemos en esta función bµg = xi, la estimación de Vg es cero y si πg 6= 0,
el cociente πg |Vg|−1/2
tiende a inÞnito y también lo hará la función soporte. Por tanto, esta
función tiene muchos máximos, ligados a soluciones donde cada densidad viene determinada
exactamente por una observación. Para evitar estas singularidades supondremos que, como
mínimo, hay p observaciones de cada modelo, y trataremos de encontrar un máximo local
de esta función que proporcione un estimador consistente de los parámetros.
Un problema adicional de esta función de verosimilitud es que las distribuciones normales
no están identiÞcadas, ya que el orden 1, ..., G es arbitrario. Para resolver este problema
podemos suponer que las distribuciones 1, ..., G corresponden a π1 ≥ π2 ≥ ... ≥ πG o
deÞnir el orden de las distribuciones por una medida del tamaño de la media o la matriz de
covarianzas.
Para maximizar esta función con relación a las probabilidades πi hay que tener en cuenta
que
PG
g=1 πg = 1. Introduciendo esta restricción con un multiplicador de Lagrange en (15.6),
la función a maximizar es
L(θ|X) =
nX
i=1
log
GX
g=1
πgfg(xi) − λ(
GX
g=1
πg − 1). (15.8)
Derivando respecto a las probabilidades:
∂L(θ|X)
∂πg
=
nX
i=1
fg(xi)
PG
g=1 πgfg(xi)
− λ = 0
y multiplicando por πg, supuesto πg 6= 0 ya que en otro caso el modelo g es redundante,
podemos escribir
λπg =
nX
i=1
πig (15.9)
donde hemos llamado πig a :
πig = πgfg(xi)
PG
g=1 πgfg(xi)
(15.10)
Estos coeÞcientes representan la probabilidad de que una vez observado el dato xi haya
sido generada por la normal fg(x). Estas probabilidades se denominan a posteriori y se
calculan por el teorema de Bayes. Su interpretación es la siguiente. Antes de observar xi la
probabilidad de que cualquier observación, y en particular la xi, venga de la clase g es πg. Sin
466 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES
embargo, después de observar xi, esta probabilidad se modiÞca en función de lo compatible
que sea este valor con el modelo g. Esta compatibilidad se mide por fg(xi) : si este valor
es relativamente alto, aumentará la probabilidad de que venga del modelo g. Naturalmente
para cada dato
PG
g=1 πig = 1.
Para determinar el valor de λ, sumando (15.9) para todos los grupos
λ =
nX
i=1
GX
g=1
πig = n
y sustituyendo en (15.9), las ecuaciones para estimar las probabilidades a priori son
bπg = 1
n
Pn
i=1 πig. (15.11)
que proporcionan las probabilidades a priori como promedio de las probabilidades a poste-
riori.
Vamos a calcular ahora las estimaciones de los parámetros de las distribuciones normales.
Derivando la función soporte respecto a las medias:
∂L(θ|X)
∂µg
=
nX
i=1
πgfg(x)V−1
g (xi − µg)
PG
g=1 πgfg(x)
= 0 g = 1, ..., G
que puede escribirse como
cµg =
Pn
i=1
πigPn
i=1 πig
xi. (15.12)
La media de cada distribución se estima como una media ponderada de todas las obser-
vaciones con pesos ωi = πig/
Pn
i=1 πig, donde ωig ≥ 0, y
Pn
i=1 ωig = 1. Los pesos, ωig,
representan la probabilidad relativa de que la observación i pertenezca a la población g.
Análogamente, derivando respecto a Vg y utilizando los resultados de la sección 10.2 obten-
emos que:
cVg =
Pn
i=1
πigPn
i=1 πig
(xi − cµg)(xi − cµg)0
(15.13)
que tiene un interpretación similar, como promedio de desviaciones de los datos respecto a
sus medias, con pesos proporcionales a las probabilidades a posteriori.
Para resolver estas ecuaciones (15.11), (15.12) y (15.13) y obtener los estimadores nece-
sitamos las probabilidades πig, y para calcular estas probabilidades con (15.10) necesitamos
los parámetros del modelo. Intuitivamente podríamos iterar entre ambas etapas y esta es la
solución que se obtiene con el algoritmo EM.
15.3.2 Resolución mediante el algoritmo EM
Para aplicar el algoritmo EM transformemos el problema introduciendo un conjunto de
variables vectoriales no observadas (z1, ..., zn), que tienen como función indicar de qué modelo
15.3. ESTIMACIÓN DE MEZCLAS DE NORMALES 467
proviene cada observación. Con este objetivo, zi será una variable binaria vectorial G × 1
que tendrá sólo un componente igual a uno, el correspondiente al grupo del que proviene el
dato xi, y todos los demás igual a cero. Por ejemplo xi vendrá de la población 1 si zi1 = 1
y zi2 = zi2 = ... = ziG = 0. Se veriÞcará que
PG
g=1 zig = 1 y
Pn
i=1
PG
g=1 zig = n. Con estas
nuevas variables, la función de densidad de xi condicionada a zi puede escribirse
f(xi/zi) =
GY
g=1
fg(xi)zig
. (15.14)
En efecto, en zi solo un componente zig es distinto de cero y ese componente deÞnirá cual
es la función de densidad de las observaciones. Análogamente, la función de probabilidades
de la variable zi será
p(zi) =
GY
g=1
πg
zig
. (15.15)
Por otro lado, la función de densidad conjunta es
f(xi, zi) = f(xi/zi)p(zi),
que, por (15.14) y (15.15), podemos escribir
f(xi, zi) =
GY
g=1
(πgfg(xi))zig
El soporte de la verosimilitud conjunta es
LC(θ|X, Z) =
nX
i=1
log f(xi, zi) =
nX
i=1
GX
g=1
zig log πg +
nX
i=1
GX
g=1
zig log fg(xi) (15.16)
Si las variables zig que deÞnen la población de la que proviene cada dato fueran conocidas,
la estimación de los parámetros es inmediata, y la hemos comentado en el problema de análisis
discriminante. La media de cada componente se estima como promedio de las observaciones
generadas por el componente, que puede escribirse
bµg =
nX
i=1
GX
g=1
zigxi,
y la matriz de covarianzas de cada grupo se calculará teniendo en cuenta sólo las observaciones
de ese grupo mediante
cVg =
nX
i=1
GX
g=1
zig(xi − xg)(xi − xg)0
.
468 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES
Sin embargo, el problema es que ahora las variables de clasiÞcación no son conocidas. La
solución que proporciona el algoritmo EM es estimar las variables zig mediante las probabil-
idades a posteriori, y después utilizar estas fórmulas.
El algoritmo EM comienza con una estimación inicial bθ
(0)
. En el paso E calcularemos el
valor esperado de las observaciones ausentes en la verosimilitud completa (15.16) condicio-
nando a los parámetros iniciales y a los datos observados. Como la verosimilitud es lineal en
zig, esto equivale a sustituir las variables ausentes por sus esperanzas. Las variables ausentes,
zig, son variables binomiales con valores 0,1, y
E(zig/X,bθ
(0)
) = p(zig = 1/X,bθ
(0)
) = p(zig = 1/xi, bθ
(0)
) = bπ
(0)
ig
donde bπ
(0)
ig es la probabilidad de que la observación xi venga del modelo j cuando ya se ha
observado xi y los parámetros de los modelos son los dados por bθ
(0)
. Estas son las proba-
bilidades a porteriori que se calculan por (15.10) utilizando como valores de los parámetros
los especiÞcados en bθ
(0)
. Al sustituir las variables ausentes por sus esperanzas se obtiene
L∗
C(θ|X) =
nX
i=1
GX
g=1
bπ
(0)
ig log πg +
nX
i=1
GX
g=1
π
(0)
ig log fg(xi)
En la etapa M se maximiza esta función respecto a los parámetros θ. Observemos que los
parámetros πg aparecen sólo en el primer término y los de las normales sólo en el segundo.
Podemos pues obtenerlos independientemente. Comenzando por los πg, estos parámetros
están sujetos a que su suma debe ser uno, por lo que la función a maximizar es
nX
i=1
GX
g=1
bπ
(0)
ig log πg − λ(
GX
g=1
πg − 1)
que conduce a (15.11) con los valores πig ahora Þjos a bπ
(0)
ig . Para obtener los estimadores
de los parámetros de la normal, derivando el segundo término se obtienen las ecuaciones
(15.12) y (15.13), donde ahora las probabilidades πig son iguales a bπ
(0)
ig . La resolución de
estas ecuaciones conduce a un nuevo vector de parámetros, bθ
(1)
, y el algoritmo se itera hasta
obtener convergencia. En resumen, el algoritmo es:
1. Partir de un valor bθ
(0)
y calcular bπ
(0)
ig con (15.10)
2. Resolver (15.11), (15.12) y (15.13) para obtener bθ = (bπ,bµ, bV)
3. Volver con este valor a 1 e iterar 1 y 2 hasta convergencia.
15.3.3 Aplicación al análisis de conglomerados
Se han propuesta distintas implementaciones de las mezclas de normales para resolver proble-
mas de conglomerados. En nuestra opinión el método más prometedor es debido a BanÞeld y
15.3. ESTIMACIÓN DE MEZCLAS DE NORMALES 469
Raftery (1993) y Dasgupta y Raftery (1988), que han diseñado un método basado en mezclas
de distribuciones normales y un algoritmo, MCLUST, que funciona bien en la práctica. La
bases del procedimiento son comenzar el algoritmo EM con una estimación inicial obtenida
mediante análisis jerárquico y reparameterizar las matrices de covarianzas para que puedan
tener partes comunes y partes especíÞcas. En síntesis el procedimiento consiste en :
1. Seleccionar un valor M para el máximo número de grupos y reparametrizar las
distribuciones normales que forman los grupos.
2. Estimar los parámetros de la mezcla con el algoritmo EM para G = 1, ..., M. Las
condiciones iniciales del algoritmo se establecen con un método jerárquico de los estudiados
en el capítulo 9.
3. Seleccionar el número de grupos por el criterio BIC.
Vamos a analizar cada una de estas etapas
Reparametrizaciones
Un inconveniente de la parametrización habitual de las mezclas de normales es que las
matrices de covarianzas se suponen o bien iguales, resultando en p(p + 1)/2 parámetros,
o bien desiguales, con Gp(p + 1)/2 parámetros. Si la dimensión del espacio es grande y
podemos tener mucho grupos, suponer que todas las matrices son distintas puede implicar
un número gigantesco de parámetros que puede hacer la estimación mediante el algoritmo
EM muy lenta e incluso impracticable.
Una solución propuesta por BanÞeld y Raftery (1993) es parametrizar las matrices de
covarianza por su descomposición espectral como
Vg = λgCgAgC0
g
donde Cg es una matriz ortogonal con los vectores propios de Vg y λgAg es la matriz de
valores propios, siendo el escalar λg el valor mayor propio de la matriz. Recordemos que los
vectores propios de la matriz indican orientación, mientras que los valores propios indican
tamaño, en el sentido de volumen ocupado en el espacio por el grupo. De esta forma podemos
permitir que las orientaciones de ciertos grupos sean distintas, o que el tamaño de otros sea
distinto. Por ejemplo, podemos suponer que el tamaño es el mismo pero las orientaciones
son diferentes. Entonces Vg = λCgAC0
g . No entraremos en los detalles, que el lector puede
consultar en Dasgupta y Raftery (1998) y las referencias que allí se indican.
Número de Grupos
El criterio para seleccionar el número de grupos es minimizar el BIC. Vimos en la sección
10.5.3 que el criterio de Schwartz aproxima las probabilidades a posteriori de cada modelo.
Sustituyendo la expresión de la verosimilitud en el máximo de la mezcla de normales en la
expresión del BIC y eliminando constantes, este criterio en este caso equivale a:
BIC = min
X
ng log |Sg| + n (p, G) ln n
donde n (p, G) es el número de parámetros en el modelo. Conviene indicar que, aunque este
criterio parece funcionar bien en la práctica para escoger el número de grupos, las hipótesis
470 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES
de regularidad que se efectúan para deducir el BIC como aproximación de la probabilidad a
posteriori no se veriÞcan en el caso de las mezclas, por lo que este criterio puede aplicarse
como una guía y no como una regla automática. El criterio AIC es
AIC = min
X
ng log |Sg| + n (p, G) n
15.4 MÉTODOS BAYESIANOS
15.4.1 Estimación Bayesiana de Mezclas de Normales
El enfoque bayesiano puede aplicarse a la estimación de mezclas de distribuciones. Hemos
visto en la sección 15.3 que la verosimilitud de una mezcla contiene Gn
términos, correspon-
dientes a las posibles asignaciones de las n observaciones de la muestra a las G poblaciones
posibles. Al multiplicar por la prior, p(θ), la posterior tendrá también Gn
términos y salvo
en el caso de n muy pequeño es inmanejable.
La introducción de variables faltantes ha permitido resolver la estimación mediante el al-
goritmo EM. Este mismo enfoque lleva a una solución rápida del problema mediante Muestreo
de Gibbs. Introduciendo las variables no observadas, zi, tenemos que, conocida zi, la den-
sidad de xi es normal multivariante, con parámetros determinados por la componente de zi
igual a uno. Podemos escribir
f(xi|ziθ) ∼ Np(
GY
g=1
µ
zig
i ,
GY
g=1
V
zig
i )
por otra parte, la variable zi tiene una distribución multinomial con parámetros
f(zi|θ) ∼ MG(1; πi1, ..., πiG).
Estas dos funciones determinan la verosimilitud de la muestra
`(θ|X, Z) =
nY
i=1
f(xi|ziθ)f(zi|θ)
que será el producto de 2n términos: n distribuciones normales con parámetros determinados
por las componentes de zi distintos de cero y n coeÞcientes πig, determinados también por
los zi .
Los problemas de singularidad indicados al estudiar la verosimilitud de distribuciones
mezcladas se acentúan si tomamos distribuciones impropias, por lo que en la estimación de
mezclas conviene tomar distribuciones propias. Eligiendo distribuciones conjugadas, tomare-
mos una distribución de Dirichlet sobre las proporciones de la mezcla, una normal para la
media dada la varianza, y una de Wishart para la precisión. Es decir, a priori
p(π) ∼ D(α)
p(µi|V−1
i ) ∼ Np(µi0, Vi/ni0)
15.4. MÉTODOS BAYESIANOS 471
p(V−1
i ) ∼ Wp(mi0, Mi/mi0)
La posterior de los parámetros y las observaciones faltantes dados los datos será
p(θ, Z|X) = f(X|θ, Z)f(Z|θ)p(θ) = `(θ|X, Z)p(θ)
Podemos aplicar el Muestro de Gibbs para obtener muestras de esta distribución. La idea
es muestrear iterando entre las dos distribuciones condicionadas p(θ|X, Z) y p(Z|X, θ). En
la primera suponemos una asignación de las observaciones entre los grupos y obtenemos
la estimación de los parámetros. Esta distribución es fácil de obtener como veremos, ya
que cada observación queda identiÞcada dentro de un grupo. En la segunda suponemos
un valor para los parámetros y calculamos la probabilidad de que cada observación venga
de cada grupo. De nuevo esta distribución es fácil de obtener. Al Þnal, tendremos un
conjunto de muestras de Monte Carlo de estas distribuciones, (θ(1)
, Z(1)
), ...., (θ(N)
, Z(N)
).
Los valores (θ(1)
, ...., θ(N)
) permitirán estimar la distribución a posteriori de los parámetros
dados los datos, mientras que las secuencias (Z(1)
, ...., Z(N)
) proporcionaran las probabilidad
a posteriori de que cada observación pertenezca a cada grupo, dados los datos.
Comencemos con el muestreo de p(θ|X, Z). Fijado Z = Z(h)
, podemos, para cada grupo,
obtener una muestra de valores de los parámetros como sigue:
(1) Para cada media con
p(µg|V−1
g , X, Z(h)
) ∼ Np(µgp, Vgp)
donde la media a posteriori se calcula de la forma habitual, pero utilizando solo las observa-
ciones que han sido clasiÞcadas en Z(g)
como pertenecientes al grupo g :
µgp =
ng0µg0 + ng(Z(h)
)¯xg(Z(h)
)
ng0 + n(Z(h))
donde ng(Z(h)
) es el número de observaciones en el grupo g dado por
ng(Z(h)
) =
nX
i=1
zig
y ¯xg(Z(h)
) la media de estas observaciones, dada por
¯xg(Z(h)
) =
Pn
i=1 zigxi
Pn
i=1 zig
.
Análogamente, la varianza de la posterior será
Vgp =
Vg
ng0 + ng(Z(h))
.
(2) Para las matrices de precisión con
p(V−1
g |X, Z(g)
) ∼ Wp(mgp, Mgp)
472 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES
donde
mgp = ng0 + mg0
y
M−1
gp = mg0M−1
+ ng(Z(h)
)Sg+
ng(Z(h)
)ng0
ng(Z(h)) + n0
(¯xg − µg0)(¯xg − µg0)0
,
y la varianza muestral en cada grupo se estima con las observaciones de ese grupo por
ng(Z(h)
)Sg =
nX
i=1
zig(xi − x)(xi − x)0
.
(3) Para las probabilidades con
p(πg|X, Z(g)
)∼ D(α1 + n1(Z(h)
), ..., αG + nG(Z(h)
)).
Una vez obtenido el vector de parámetros θ(g)
obtendremos un nuevo valor de Z = Z(g+1)
mediante:
(4) Simular Z = (z1, ..., zn) de
f(zi|X, θ(g)
)∼MG(1; πi1(θ(g)
), ..., πiG(θ(g)
)),
donde las probabilidades a posteriori de las observaciones vienen dadas por:
πig(θ(g)
) =
πgfg(xi|θ(g)
)
PG
g=1 πgfg(xi|θ(g)
)
.
Un problema adicional en la estimación mediante muestreo de Gibbs es la falta de identi-
Þcación de los componentes de la mezcla, que señalamos en la sección 15.3.3. Una posibilidad
es introducir un orden entre las distribuciones, pero esta solución puede no ser siempre ade-
cuada. Vease Stephens (2000) y Celeux y otros (2000) para discusiones recientes de este
problema.
15.5 MÉTODOS DE PROYECCIÓN
Una alternativa a los métodos anteriores es buscar direcciones de proyección de los datos
donde puedan aparecer los distintos grupos y después buscar los grupos sobre estas direc-
ciones univariantes. Alternativamente podemos proyectar sobre dos direcciones, un plano, y
buscar grupos en el plano. La ventaja de este enfoque es que no necesitamos especiÞcar a
priori el número de grupos, ni comparar soluciones con número de grupos muy distintos.
Una intuición sobre las posible buenas direcciones de proyección nos lo proporciona el
siguiente resultado: supongamos que tenemos una muestra donde cada dato puede venir
de una de dos poblaciones normales que tienen la misma matriz de covarianzas, que es de-
sconocida, y medias distintas, también desconocidas. La procedencia de cada observación
15.5. MÉTODOS DE PROYECCIÓN 473
es también desconocida. Se desea encontrar una dirección de proyección de las observa-
ciones que nos proporcione, si es posible, la máxima separación entre las poblaciones. Puede
demostrarse que aunque no conocemos la procedencia de cada obervación es posible clasiÞcar
con la función lineal discriminante, que sabemos es óptima para clasiÞcar en este problema.
Si suponemos que la probabilidad de que cada dato venga de cada una de las dos poblaciones
es la misma, Peña y Prieto (2000) han demostrado que entonces la dirección que minimiza la
kurtosis de la proyección es la función lineal discriminante de Fisher (véase el apéndice 15.3).
Este resultado puede extenderse a varias poblaciones: las reglas óptimas de clasiÞcación de
Fisher se obtiene minimizando la kurtosis de las proyecciones.
Este resultado sugiere separar los grupos buscando las direcciones que nimimizan la
kurtosis y proyectando los datos sobre estas direcciones. Como es posible que además de los
grupos existan datos atípicos aislados, o grupos muy pequeños alejados del resto, y hemos
visto en el capítulo 4 que estos atípicos se maniÞestan en las direcciones con máxima kurtosis,
podemos pensar en un algortimo que incluya en la búsqueda también estas direcciones. Esto
conduce al siguiente método propuesto por Peña y Prieto (2001b):
(1) Comenzar proyectando los datos sobre las direcciones que maximizan el coeÞciente
de kurtosis de los datos proyectados. A continuación proyectar los datos sobre el espacio
ortogonal a la direccion encontrada y seleccionar ahora la dirección sobre ese subespacio
donde se maximiza el coeÞciente de kurtosis. Repetir el proceso de proyección ortogonal a
las direcciones ya encontradas y selección de una nueva dirección maximizando la kurtosis.
De esta manera se obtienen p direcciones ortogonales de proyección.
(2) Repetir el cálculo de direcciones de (1) pero ahora buscando direcciones que minimizan
el coeÞciente kurtosis.
(3) Explorar cada una de estas 2p direcciones para encontrar grupos y datos atípicos
de la forma siguiente. Se obtienen los estadísticos ordenados de los datos proyectados y se
consideran los saltos entre estadísticos ordenados. Si los datos proyectados provienen de una
distribución unimodal, estos saltos deben tener una pauta conocida, con saltos grandes en
los extremos y pequeños saltos en el centro de la distribución.
Para decidir cuando se produce un salto sobre una dirección se utilizan las propiedades de
los estadísticos de orden. Puede demostrarse que si tenemos una muestra de datos normales
y los transformamos con su función de distribución, los estadísticos ordenados de los datos
transformados tienen una distribución uniforme, y entonces puede estudiarse fácilmente la
distribución de los espacios o saltos. Por esta razón el procedimiento estandariza los datos
proyectados con la función de distribución inversa de la normal univariante antes de comenzar
a buscar saltos en los datos proyectados. El algoritmo para explorar las direcciones es:
1. Para cada dirección dk, k = 1, . . . , 2p, se calcula la proyección de los datos sobre ella
mediante uki = x0
idk.
2. Se estandarizan las observaciones , zki = (uki − mk)/sk, donde mk =
P
i uki/n es la
media de las proyecciones y s2
k =
P
i(uki − mk)2
/(n − 1) su varianza.
3. Se ordenan las proyecciones zki para cada k, y se obtienen los estadísticos ordenados
zk(i). A continuación estos estadísticos se transforman con la función de distribución
inversa de la normal estandar ¯zki = Φ−1
(zk(i)).
474 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES
4. Se calculan los espacios, que son las diferencias entre valores consecutivos de los es-
tadísticos de orden transformados γki = ¯zk,i+1 − ¯zki.
5. Se buscan valores altos de los espacios γki, que corresponderán a huecos en la distribu-
ción de los datos. En efecto, si el estadístico de orden trece es 10 y el de orden catorce
20 el espacio es 20-10=10 y si este valor es mucho mayor que los otros espacios indica
que hay un hueco sin datos entre estos valores, que puede corresponder a la sepación
entre dos grupos de datos. Un valor alto del espacio indicará la presencia de más de un
grupo de datos. Para determinar los valores altos de γki introducimos una constante,
κ = 1 − 0.11/n
/p10/(3n)
, donde κ se calcula a partir de la distribución de los espacios
(veáse Peña y Prieto para los detalles), y decidimos que comienza un nuevo grupo de
datos cuando γkj > κ . En concreto, deÞnimos i0k = 0 y calculamos
r = inf
j
{n > j > i0k : γkj > κ}.
Si r < ∞, esto indica la presencia de varios grupos, en otro caso se pasa a analizar la
dirección siguiente.
6. Marcar todas las observaciones l que veriÞcan ¯zkl ≤ ¯zkr como pertenecientes a grupos
diferentes que las que veriÞcan ¯zkl > ¯zkr. Hacer i0k = r y volver a 5 para repetir la
búsqueda de huecos en los datos.
Despues de este análisis se realiza un paso Þnal para asignar las observaciones a los grupos
identiÞcados, como sigue.
1. Sea G el número de grupos identiÞcados, se ordenan los grupos por número de obser-
vaciones de manera que el grupo 1 es el mayor y el G el menor. Suponemos que las
observaciones se han renumerado de manera que ahora las observaciones ig−1 + 1 to ig
pertenecen al grupo g (i0 = 0 and iG = n).
2. Para cada grupo g = 1, . . . , G :
(a) Se calcula la media y la matriz de covarianzas de las observaciones del grupo si
hay la menos p + 1 datos.
(b) Calcular las distancias de Mahalanobis para todas las observaciones que no están
en el grupo g,
D2
j = (xj − mg)
0
S−1
g (xj − mg), j ≤ ig−1, j > ig.
(c) Asignar al grupo g las observaciones que satisfacen D2
j ≤ χ2
p,0.99.
(d) Si ninguna observación se reclasiÞca ir al grupo g + 1. En otro caso, renumerar
las observacione como en 1 y repetir el proceso para el mismo grupo g.
15.6. LECTURAS COMPLEMENTARIAS 475
15.6 Lecturas complementarias
La literatura sobre los métodos aquí presentados es extensa. Anderberg (1973), Everitt
(1993), Gordon (1981), Hartigan (1975), Mirkin (1996) , Spath y Bull (1980) y Spath (1985)
están dedicados a métodos de agrupamiento y presentan los métodos clásicos. Las ideas de
proyección y estimación de normales son más recientes y están descritos en artículos. BanÞeld
and Raftery (1993) and Dasgupta and Raftery (1998) describen el algoritmo Mclust para
estimar mezclas de normales. Para métodos de proyección véase Friedman (1987), Jones and
Sibson (1987), Posse (1995), Nason (1995) y Peña y Prieto (2001).
EJERCICIOS
Ejercicio 15.2 Demostrar que el criterio de Hartigan para el algoritmo de k-medias equivale
a continuar añadiendo grupos hasta que tr(WG) < tr(WG+1)(n − G + 9)/(n − G − 1)
(Sugerencia utilizar que tr(W) = SCDG, e imponer la condición de que el valor de F sea
mayor que 10)
Ejercicio 15.3 Demostrar que para n grande el criterio de r Calinski y Harabasz para el
algoritmo de k medias equivale aproximadamente a seleccionar el número de grupos G si
tr(WG) < tr(WG+1)G/(G − 1)
Ejercicio 15.4 Demostrar que en la estimación de mezclas de normales, si las distribuciones
tienen Vg= σ2
gI, la estimación MV de σ2
g se obtiene con cσ2
g =
Pn
i=1
πigPn
i=1 πig
(xi − cµg)0
(xi −
cµg).
Ejercicio 15.5 Demostrar que si tenemos una mezcla de g poblaciones normales Ni(µi, V )
con distinta media pero la misma matriz de covarianzas y con probabilidades πi con
P
i πi =
1, si proyectamos las observaciones sobre una dirección u y llamamos z = u0
x a los datos
proyectados, su media es E(z) = ¯m = u0
µ donde µ =
P
i πiµi y su varianza var(z) =
u0
(V + B)u, donde B =
P
i πi(µi − µ)(µi − µ)
0
.
Ejercicio 15.6 Demostrar que en el ejercicio anterior el cuarto momento de los datos
proyectados es 3 (u0
(V + B)u)2
− 3 (u0
Bu)2
+
P
i πi(u0
Biu)2
.
APÉNDICE 15.1 COMPARACIÓN DEL CRITERIO DE LA
TRAZA Y EL DETERMINANTE
Supongamos, para simpliÞcar dos grupos. Estudiemos, en primer lugar, cómo aumenta la
variabilidad dentro del primer grupo al incluir un nuevo elemento del segundo. Supongamos
que el primer grupo tiene n puntos (x1, ..., xn) con centro en m, y le añadimos un nuevo
punto, x∗
. La nueva media al incluir ese elemento será, llamando d = (x∗
− m)
m∗
= m+
1
n + 1
d
y el cambio en la matriz de suma de cuadrados
W∗
=
X
(xi − m−
1
n + 1
d)(xi − m−
1
n + 1
d)0
476 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES
descomponiendo esta suma en la de los primeros n elementos originales del grupo más el
último, tenemos que
W∗
= W+
n
(n + 1)2
dd0
+ (x∗
− m∗
)(x∗
− m∗
)0
y como
x∗
− m∗
=
n
n + 1
d
sustituyendo, tenemos Þnalmente que:
W∗
= W +
n
n + 1
dd0
(15.17)
Con el criterio de la traza, el cambio en la matriz W es:
tr(W∗
− W) =
n
n + 1
tr(dd0
) =
n
n + 1
d0
d
y el cambio será mínimo si incluimos el punto de mínima distancia euclídea respecto al
centro de grupo. Por un razonamiento análogo, podemos analizar el problema simétrico de
la disminución de variabilidad al eliminar un elemento de un grupo y concluir que el criterio
de la traza lleva a minimizar las distancias euclídeas entre los puntos y sus medias de grupo.
Analicemos el criterio del determinante. Suponiendo en (15.17), para simpliÞcar el ra-
zonamiento, que
n
n + 1
es la unidad, tenemos que:
|W∗
| − |W| = |W + dd0
| − |W| , (15.18)
y como:
|W + dd0
| = |W(I + W−1
dd0
)| = |W| |I + W−1
dd0
|, (15.19)
y, por otro lado, al tener W−1
dd0
rango uno:
|I + W−1
dd0
| = Π(1 + λi) = 1 + λ1 = 1 + tr(W−1
dd0
)
= 1 + tr(d0
W−1
d) = 1 + d0
W−1
d,
con lo que concluimos con la relación
|W + dd0
| = |W| + |W|d0
W−1
d.
Sustituyendo ahora este valor en (15.18), resulta que minimizaremos el efecto de añadir
un punto sobre el determinante si minimizamos:
|W|d0
W−1
d,
que equivale a minimizar la distancia de Mahalanobis entre el punto y el centro de los
datos. Podemos concluir que, en general, el criterio de la traza minimiza distancias euclídeas,
mientras que el del determinante minimiza distancias de Mahalanobis.
Capítulo 16
CORRELACIÓN CANÓNICA
16.1 INTRODUCCIÓN
El análisis de correlaciones canónicas es debido a Hotelling. Este investigador estudió en
1936 la relación entre resultados de test de capacidad intelectual y medidas físicas de un
grupo de personas. Hotelling pretendía investigar las relaciones entre ambos conjuntos de
variables y conocer cuantas dimensiones independientes tenía la relación existente entre ellas.
En general, correlación canónica se utiliza cuando un conjunto de variables multivariantes
puede dividirse en dos grupos homogéneos (por criterios económicos, demográÞcos, sociales,
etc.), y se desea estudiar la relación entre ambos conjuntos de variables. En particular, los
dos grupos pueden corresponder a las mismas variables medidas en dos momentos distintos
en el tiempo, el espacio,..., etc.
Supongamos que disponemos de un conjunto de datos de n individuos y k variables
que pueden subdividirse en dos grupos: el primero incluye p variables y el segundo q, donde
p+q = k. Por ejemplo, las primeras p variables representan las inversiones realizadas por una
empresa y las restantes q variables representan distintas medidas de beneÞcios. Es posible
que p = q. Por ejemplo, cuando medimos las p variables en el instante t y en el instante t+1.
Llamaremos X en este capítulo a la matriz n × p que contienen los valores de las p primeras
variables en los n elementos (individuos, países, empresas, etc...) e Y a la matriz (n × q)
que contienen los valores de las q segundas variables medidas sobre esos mismos n elementos.
Para medir la relación entre ambos conjuntos vamos a buscar una combinación lineal de las
p primeras variables que tenga la máxima correlación con una combinación lineal de las q
segundas variables. Es decir, llamando:
x∗
= Xα =
p
X
i=1
αixi
a una combinación lineal de las variables del primer grupo, y:
y∗
= Yβ =
q
X
j=1
βjxj
a una combinación lineal de las variables del segundo, se desea encontrar los vectores α y β
tales que las nuevas variables x∗
e y∗
tengan máxima correlación.
477
478 CAPÍTULO 16. CORRELACIÓN CANÓNICA
Es posible que una vez encontrada la primera relación entre estas dos variables indicado-
ras no exista más relacion entre ambos conjuntos de variables y entonces decimos que toda
la relación entre ambos conjuntos se resume en una dimensión. Para comprobarlo, podemos
buscar una segunda variable indicadora del primer conjunto, que este incorrelada con la
primera, y que tenga correlación máxima con otra variable indicadora del segundo conjun-
to. Procediendo de esta manera, podemos obtener r = min(p, q) relaciones entre variables
indicadoras de ambos grupos que pueden ordenarse por orden de importancia. Determinar
el número de relaciones entre las variables (variables indicadoras incorreladas de un conjun-
to relacionadas con el otro) permite juzgar cuantas dimensiones distintas tiene la relación.
En el análisis de correlación canónica ambos conjuntos de variables se consideran simetri-
camente, pero es posibles que queremos explicar el conjunto de variables dependientes Y
mediante las independientes X. El procedimiento habitual (regresión múltiple) es construir
un indicador de la variables dependientes y relacionarlo con las independientes mediante una
regresión múltiple. Este procedimiento es razonable cuando exista sólo una dimensión en
la relación, pero puede ser engañoso si existen varias. El análisis de correlación canónica
permite determinar cuantas dimensiones relevantes tiene la relación entre ambos conjuntos
de variables.
16.2 Construcción de las variables canónicas
16.2.1 La primera variable canónica
Supondremos que x es un vector p × 1 con distribución Np(0, V11) e y un vector q × 1
con distribución Nq(0, V22), de manera que las variables están medidas en desviaciones a la
media. Entonces, construyendo el vector (p+q)×1 con todas las variables, [x0
y0
]0
, la matriz
de covarianzas para el conjunto de todas las variables es:
Vx,y = E
µ·
x
y
¸
[x0
y0
]
¶
=
·
V11 V12
V21 V22
¸
.
Queremos encontrar dos vectores, α y β, que deÞnan dos nuevas variables escalares,
x∗
= α0
x , y∗
= β0
y, con máxima correlación. El coeÞciente de correlación entre x∗
e y∗
es:
ρ(x∗
y∗
) =
E [α0
xy0
β]
E [α0xx0α]1/2
[β0
yy0β]
1/2
que puede escribirse:
ρ =
α0
V12β
(α0V11α)1/2(β0
V22β)1/2
.
Como nos interesa la magnitud, y no el signo, de la correlación vamos a maximizar
el cuadrado de la correlación entre (x∗
, y∗
) respecto a α y β. Para ello, impondremos la
condición de varianzas unitarias, es decir,
V ar(x∗
) = α0
V11α = 1 (16.1)
16.2. CONSTRUCCIÓN DE LAS VARIABLES CANÓNICAS 479
V ar(y∗
) = β0
V22β = 1 (16.2)
y la función objetivo es:
Maximizar ρ2
=
(α0
V12β)2
(α0V11α) (β0
V22β)
(16.3)
con las restricciones (16.1) y (16.2). Introduciendo estas restricciones mediante multipli-
cadores de Lagrange, la función a maximizar es:
M = (α0
V12β)
2
− λ (α0
V11α − 1) − µ (β0
V22β − 1) .
Derivando, respecto a los vectores de coeÞcientes y escribiendo los resultados como vector
columna, utilizando que V0
12 = V21:
∂M
∂α
= 2V12β − 2λV11α, (16.4)
∂M
∂β
= 2V21α − 2µV22β. (16.5)
Igualando a cero estas ecuaciones, se obtiene:
V12β = λV11α (16.6)
V21α = µV22β. (16.7)
Para resolver este sistema, multipliquemos la primera ecuación por α0
y la segunda por
β0
y utilicemos las igualdades (16.1) y (16.2). Entonces:
α0
V12β =λα0
V11α =λ,
β0
V21α =µβ0
V22β =µ,
y como λ = (α0
V12β) = (β0
V21α) = µ, concluimos con el sistema:
V12β =λV11α, (16.8)
V21α =λV22β. (16.9)
Despejando β de la segunda ecuación, β = λ−1
V−1
22 V21α, y sustituyendo en la primera:
V12
¡
λ−1
V−1
22 V21
¢
α = λV11α
que conduce a:
¡
V−1
11 V12V−1
22 V21
¢
α = λ2
α. (16.10)
480 CAPÍTULO 16. CORRELACIÓN CANÓNICA
Por tanto, α es el vector propio ligado al valor propio λ2
de la matriz cuadrada de
dimensión p:
Ap×p = V−1
11 V12V−1
22 V21 (16.11)
con valor propio λ2
. Análogamente, se obtiene que β debe ser el vector propio ligado al valor
propio λ2
de la matriz
Bq×q = V−1
22 V21V−1
11 V12. (16.12)
Observemos que, por (16.3) y (16.10), λ2
= µ2
= ρ2
es el cuadrado del coeÞciente de
correlación entre las variables canónicas x∗
, y∗
, por lo que tendremos que tomar el vector
propio ligado al mayor valor propio.
En resumen, la solución buscada requiere:
1. construir las dos matrices cuadradas de dimensiones p y q, A y B deÞnidas por (16.11)
y (16.12). El vector propio asociado a su máximo valor propio (que es el mismo en
ambas) proporciona las variables canónicas.
2. Este mayor valor propio de ambas matrices es el cuadrado del coeÞciente de correlación
entre las variables canónicas.
Observemos que de las ecuaciones (16.8) y (16.9) resulta:
α = V−1
11 V12βλ−1
(16.13)
β = V−1
22 V21αλ−1
(16.14)
Por lo que sólo necesitamos obtener vectores propios de una de las matrices. Conocido el
vector α podemos obtener el vector β con (16.14) y análogamente, conocido β obtenemos
α con (16.13). Además de (16.10) obtenemos V12V−1
22 V21α = λ2
V11α y multiplicando por
α0
e imponiendo la condición (16.1) tenemos que
λ2
= α0
V12V−1
22 V21α (16.15)
que indica que el coeÞciente de correlación canónica, λ2
,es el cuadrado del coeÞciente de
correlación múltiple entre la variable x∗
= α0
x y las variables y. En efecto, las covarianzas
entre x∗
e y vienen dadas por el vector V21α y las correlaciones por D
−1/2
22 V21α , donde D22
es una matriz diagonal que contiene las varianzas de las variables y. Entonces el coeÞciente
de correlación múltiple es
%2
= r12R−1
22 r12 = (α0
V12D
−1/2
22 )(D22V−1
22 D22)(D
−1/2
22 V21α) = λ2
16.3. LAS R VARIABLES CANÓNICAS 481
16.3 Las r variables canónicas
El proceso descrito puede continuarse, buscando una segunda variable escalar canónica, x∗
2,
construida como combinación lineal de las originales x, ortogonal a la primera, y que tenga
máxima correlación con otra variable escalar y∗
2, combinación lineal de las y y que sea a su
vez ortogonal a y∗
1. Así podemos obtener 2r combinaciones lineales,
¡
x∗
1, . . . x∗
q
¢
,
¡
y∗
1, . . . , y∗
q
¢
donde r =mínimo (p, q), que llamaremos variables canónicas. Las matrices A y B dadas
por (16.11) y (16.12) tienen un rango igual al mínimo de p, q, y si extraemos sus r valores
propios no nulos y los vectores propios unidos a dichos valores propios, podemos formar r
combinaciones lineales de las variables de ambos grupos que:
(a) Tienen correlación máxima cuando provienen del mismo valor propio.
(b) Están incorreladas dentro de cada grupo.
(c) Están incorreladas si corresponden a distintos vectores propios.
Vamos a demostrar este resultado. Para demostrar que las matrices A y B tienen valores
propios reales no negativos, probaremos que A y B tienen los mismos valores propios que
una matriz semideÞnida positiva.
Lema: Las matrices R−1
Q y R−1/2
QR−1/2
tienen los mismos valores propios. Además si v
es un vector propio de la primera, R1/2
v lo es de la segunda.
Demostración: Sea λ un valor propio de R−1
Q y sea v su vector propio asociado. Entonces
R−1
Qv = λv
premultiplicando por R1/2
se obtiene
R−1/2
Qv = λR1/2
v
y escribiendo esta relación como:
R1/2
QR−1/2
(R1/2
v) = λ(R1/2
v)
y llamando h = R1/2
v, tenemos que
R1/2
QR−1/2
h = λh
Por tanto, λ es un valor propio de las matrices R−1
Q y R1/2
QR−1/2
, y su vector propio
asociado es, respectivamente, v y R1/2
v.
Corolario
Las matrices A y HH0
donde
A = V−1
11 V12V−1
22 V21
H = V
−1/2
11 V12V
−1/2
22
482 CAPÍTULO 16. CORRELACIÓN CANÓNICA
H0
H = V
−1/2
11 V12V−1
22 V21V
−1/2
11
tienen los mismos valores propios.
Este corolario es un caso particular del Lema tomando R = V11, Q = V12V−1
22 V21. La
matriz A tiene los valores propios de HH0
y la B los de H0
H. Como estas matrices son
semideÞnidas positivas, los valores propios de A y B son reales y no negativos. Vamos a ver
las propiedades de los vectores propios.
Vectores propios
Sean αi, αj dos vectores propios de A correspondientes a raíces distintas. Los vec-
tores propios correspondientes de HH0
para esas mismas raíces son, según el lema, V
1/2
11 αi
y V
1/2
11 αj. Como los vectores propios de matrices simétricas son ortogonales, tendrá que
veriÞcarse que
³
V
−1/2
11 αi
´0 ³
V
−1/2
11 αj
´
= α0
iV11αj = 0
lo que implica que las variables x∗
i = x0
αi y x∗
j = x0
αj correspondientes a distintos indi-
cadores del mismo grupo están incorreladas, ya que, al tener varianza unidad, su correlación
será:
Cov(x∗
i , x∗
j ) = α0
iE [xx0
] αj = α0
iV11αj = 0.
Demostraremos ahora que las variables indicadoras de grupos distintos correspondientes
a distintos vectores propios, x∗
i y y∗
j , también están incorreladas. Como
Cov
¡
x∗
i , y∗
j
¢
= E
£
α0
ixy0
βj
¤
= α0
iV12βj
y utilizando (16.6)
Cov
¡
x∗
i , y∗
j
¢
= α0
i (λjV11αj) = 0.
con lo que hemos comprobado que las variables indicadores ligadas a distintos valores propios
estan incorreladas dentro de cada grupo y entre grupos.
16.3.1 Propiedades de las variables y correlaciones canónicas
El procedimiento que hemos expuesto proporciona r variables canónicas cuyas propiedades
vamos a resumir brevemente.
1. Las variables canónicas son indicadores de los dos conjuntos de variables que se deÞnen
por pares, con la condición de máxima correlacion.
2. Los coeÞcientes de las variables canónicas son los vectores propios ligados al mismo
valor propio de las matrices V
−1/2
ii VijV−1
jj Vji , para i = 1, 2 y i 6= j.
3. Si α0
ix es una variable canónica también lo es -α0
ix, y los signos de las variables canóni-
cas suelen tomarse de manera que las correlaciones entre las variables canónicas α0
x y
β0
y sean positivos.
16.4. ANÁLISIS MUESTRAL 483
4. Las correlaciones canónicas, λ2
i , son el cuadrado del coeÞciente de correlación entre las
dos variables canónicas correspondientes.
5. Las correlaciones canónicas son invariantes ante transformaciones lineales de las vari-
ables, son propiedades del conjunto de variables y no se modiÞcan si sustituimos las r
variables de un conjunto por r combinaciones lineales de ellas linealmente independi-
entes. (véase ejercicio 16.1)
6. La primera correlación canónica, λ2
1, es mayor o igual que el mayor coeÞciente de
correlación simple al cuadrado entre una variable de cada conjunto.
7. El coeÞciente de correlación canónica λ2
i es el coeÞciente de determinación en una
regresión multiple con respuesta la variable y∗
i = β0
iy, y variables explicativas las x.
También es el coeÞciente de determinación entre la regresión múltiple entre x∗
i = α0
ix
y el conjunto de las y. (ver ejercicio 16.3)
Las variables canónicas son los predictores óptimos en el sentido siguiente: supongamos
que se desea encontrar un conjunto de r = min(p, q) variables combinaciones lineales de
las variables de cada grupo, x∗
= Γx, y y∗
= Θy, que estén incorreladas, ΓV11Γ0
= I y
ΘV22Θ0
= I y de manera que x∗
e y∗
estén próximos. Si tomamos como criterio minimizar
E(kx∗
− y∗
k2
) se obtienen las variables canónicas. Este resultado es debido a Izenman(1975)
y Yohai y Garcia Ben (1980).
16.4 ANÁLISIS MUESTRAL
En la práctica, los valores poblacionales no son conocidos y tendremos que estimarlos a
partir de la muestra. Supondremos que hemos restado las medias muestrales a cada variable
para trabajar con variables de media cero. En la hipótesis de normalidad multivariante,
como las variables canónicas son funciones de la matriz de covarianzas entre las variables
y el estimador máximo verosimil de esta matriz es S, la matriz de covarianzas muestral,
concluimos que los estimadores máximo verosímiles de las variables canónicas se obtienen al
extraer los r = min(p, q) mayores valores propios, y sus vectores propios asociados, de las
matrices
ˆA = S−1
11 S12S−1
22 S21,
y
ˆB = S−1
22 S21S−1
11 S12,
donde las Sij son las estimación MV de las matrices Vij, y se obtiene particionando conve-
nientemente la matriz S de covarianzas entre las p + q variables (véase Anderson, cap 12
para un análisis más detallado). Estas matrices son los equivalentes muestrales de (16.11) y
(16.12).
En la práctica, suponiendo p ≥ q, basta obtener los valores propios de la matriz de
dimensión menor, ˆB en este caso, y sus vectores propios asociados. Los vectores propios lig-
ados a estos valores propios de la otra matriz, ˆA, se obtendrán transformando estos vectores
484 CAPÍTULO 16. CORRELACIÓN CANÓNICA
de la forma S−1
ii Sij para llevarlos a la dimensión adecuada. Por ejemplo, supongamos que
v es un vector propio de ˆB, y veriÞca S−1
22 S21S−1
11 S12v = λ2
v, entonces, multiplicando por
S−1
11 S12 tenemos que S−1
11 S12S−1
22 S21(S−1
11 S12v) = λ2
(S
−1
11 S12v) y comprobamos que S−1
11 S12v
es el vector propio de ˆA ligado al valor propio λ2
. A continuación vamos a comprobar que
las correlaciones conónicas son invariantes a transformaciones lineales de las variables..
Invarianza del Análisis
Si estandarizamos las variables y trabajamos con las matrices de correlación las correla-
ciones canónicas no varían. Al estandarizar la matriz bA se convertirá en:
R1 = R−1
11 R12R−1
22 R21,
donde las matrices Rij son las matrices de correlación deÞnidas Rij = D
−1/2
i SijD
−1/2
j ,(i, j =
1, 2), siendo Di y Dj matrices diagonales que contienen las varianzas de las variables. Vamos
a comprobar que las matrices bA y R1 tienen los mismos valores propios. Utilizando la relación
Rij = D
−1/2
i SijD
−1/2
j , tenemos que:
R1 = D
1/2
1 S−1
11 S12S−1
22 S21D
−1/2
1 = D
1/2
1
bAD
−1/2
1 , (16.16)
y la ecuación para obtener los valores propios de R1 :
|R1 − λI| = 0
puede escribirse como
|D1/2
|| bA − λI||D−1/2
| = 0
y las ecuaciones |R1 −λI| = 0 y |bA−λI| = 0 tienen las mismas soluciones, y las matrices R1
y bA tendrán los mismos valores propios. Por tanto, las correlaciones canónicas son idénticas.
Los vectores propios de R1 pueden obtenerse a partir de los de bA, ya que si v es un vector
propio de R1:
R1v = λ2
v
entonces, por (16.16):
D
1/2
1
bAD
−1/2
1 v = λ2
v,
es decir
bA(D
−1/2
1 v) = λ2
(D
−1/2
1 v).
y (D
−1/2
1 v) es un vector propio de bA ligado al mismo valor propio. Por tanto, la variable
canónica ligada a λ2
se obtiene con variables estandarizadas multiplicando la matriz de
variables estandarizadas
³
X D
−1/2
1
´
por el vector propio de R1, v, mientras que partiendo
de las variables originales multiplicamos la matriz X por el vector propio de bA, D
−1/2
1 v, con
lo que las dos variables obtenidas son idénticas.
16.4. ANÁLISIS MUESTRAL 485
Ejemplo 16.1 Como ejemplo consideramos los datos de los hogares españoles. Tomaremos
como variables X los gastos en alimentación, bebidas y tabaco (x1), en vestido y calzado (x2),
en menaje (x3), en transportes y comunicación (x4) y en esparcimiento y enseñanza (x5).
La matriz de correlaciones entre estas variables es, redondeada a la segunda cifra decimal
R11 =






1
.29 1
.13 .25 1
.23 .23 .35 1
.33 .32 .22 .36 1






Como variables Y incluiremos el número de personas en la unidad de gastos (y1), el
número de personas mayores de 14 años (y2), el nivel educativo del sustentador principal
(y3) y el número de perceptores con ingresos (y4). La matriz de correlación es:
R22 =




1
.55 1
.11 .04 1
.53 −.11 .00 1




La matriz de correlaciones cruzadas entre ambos grupos de características es:
R12 =






.46 .03 .22 .40
.34 .18 .32 .14
.05 −.02 .51 −.02
.33 .13 .26 .25
.29 .17 .23 .17






Esta matriz proporciona por Þlas las correlaciones de cada variable del grupo x con las y.
La suma de los valores absolutos de las Þlas es una medida descriptiva global de la dependen-
cia. La variable x más correlada con las y es la primera, ya que la suma de las correlaciones
(0, 46 + 0, 03 + 0, 22 + 0, 40 = 1, 11), mientras que para las demás estos números son 0, 98,
0, 60, 0, 97 y 0, 86. Por columnas las sumas son 1, 47, 0, 53, 1, 54, 0, 98. Las variables 1, 2
y 4 del primer grupo y 1, 3 del segundo parecen ser las correlacionadas entre los bloques,
por lo que esperamos que estas variables tengan mayor peso en la primera variable canónica.
Los valores y vectores propios de la matriz A = R−1
11 R12R22R21 se encuentran en la tabla
16.1
486 CAPÍTULO 16. CORRELACIÓN CANÓNICA
λ2
.44 .21 .05 .01
α .76 .41 .63 −.11
.43 −.05 −.45 −.71
.31 −.87 .34 .08
.38 .27 −.24 .65
.04 −.03 −.48 .22
β −.78 −.51 −.28 −.65
.27 .10 .96 .38
−.56 .80 .01 .11
−.07 −.31 .08 .65
Tabla 16.1. Valores y vectores propios para las variables de los hogares
Como vemos la máxima correlación entre una combinación de las variables del primer
grupo y otra del segundo se da entre la combinacion que incluye las variables (1, 2, 3, 4) del
primer grupo y (1, 3) del segundo. Esta máxima correlación entre las variables de gasto y de
estructura de la familia, explica un 44/(44+21+5+1)=62% de la variabilidad y corresponde
a la relación entre el indicador de gasto:
x∗
1 = .76x1 + .43x2 + .31x3 + .38x4 + .04x5
que es un promedio de los gastos dando mayor peso a la alimentación, con la variable
y∗
1 = .78y1 − .27y2 + .56y3 + .07y4
donde hemos cambiado el signo del vector propio para facilitar la interpretación. Esta
variable pondera principalmente el tamaño de la familia (y1) y el nivel de educación del
sustentador principal (y3). La interpretación de este resultado es que cuanto mayor sea el
indicador y∗
mayor será el indicador de gasto. Ambas variables son medidas de ”tamaño”
global de las variables en ambos conjuntos.
Las segundas variables canónicas explican un 21/71=29,58% y son indicativas de la forma
de los datos. El indicador de las variables de gastos contrapone los gastos en alimentación
y transporte a los de menaje y encuentra que este indicador está especialmente relacionado
un indicador de la diferencia entre el nivel de educación y el tamaño familiar. El gráÞco
muestra la relación entre las variables x∗
2, y∗
2. Se observa que aquellas familiar con bajo gasto
en menaje (x∗
2 alto) tienen pocos miembros en la unidad familiar (y1 bajo) y alto nivel de
educación (y3 alto). Los otros dos componentes explican muy poco de la relación.
Si realizamos este mismo análisis para las variables en logaritmos se obtiene la tabla 8.2.
Se observa que ahora el primer componente explica el 50% de la variabilidad y tiene una
interpretación similar al caso anterior.
16.5. INTERPRETACIÓN GEOMÉTRICA 487
λ2
.50 .06 .01 .001
−.80 .10 .68 −.24
.18 .38 −.56 −.21
αr −.07 .28 .18 −.65
.55 .39 .14 .68
.11 −.78 .57 −.05
−.88 −.49 −.53 .43
β .38 .23 .60 .52
−.27 .84 .04 −.11
.08 −.00 .60 −.73
Tabla 16.2. Valores y vectores propios para las variables en logaritmos
16.5 INTERPRETACIÓN GEOMÉTRICA
Vamos a comprobar que las correlaciones canónicas representan relaciones de dependencia
entre los subespacios generados por los dos conjuntos de variables. Esta propiedad justiÞca
que el análisis de correlaciones canónicas sea invariante ante reparametrizaciones. Supong-
amos que disponemos en cada conjunto de variables distintas (no relacionadas linealmente)
de manera que las matrices X, de dimensiones n × p, e Y, de dimensiones n × q, son de
rango completo, es decir rg(X) = p, rg(Y) = q y p + q < n, y las p columnas de X generan
un subespacio de dimensión p y las q columnas de Y otro de dimensión q. Supongamos
que estamos interesados en encontrar dos vectores, uno en cada subespacio, que estén tan
próximos como sea posible. El primer vector, x∗
, por pertenecer al espacio S(X) generado
por las columnas de X, será de la forma x∗
= Xα y el segundo, y∗
, por pertenecer al sube-
spacio S(Y) generado por las columnas de Y, será y∗
= Yβ. Los vectores x∗
e y∗
estarán
lo más cerca posible (ver Þgura 16.1), si x∗
es colineal con la proyección de y∗
sobre S(X) y
viceversa.
Para formular esta propiedad, llamemos P1 y P2 a las matrices proyección sobre los
espacios S(X) y S(Y) que vendrán dadas por:
P1 = X(X0
X)−1
X0
(16.17)
P2 = Y(Y0
Y)−1
Y0
. (16.18)
entonces la condición exigida es:
P1y∗
= λx∗
P2x∗
= µy∗
que equivale a:
£
X(X0
X)−1
X0
¤
Yβ =λXα
488 CAPÍTULO 16. CORRELACIÓN CANÓNICA
£
Y(Y0
Y)−1
Y0
¤
Xα =µYβ
y multiplicando por 1/nX0
la primera y 1/nY0
la segunda, resulta S12β = λS11α y S21α =
µS22β. De la primera deducimos que S−1
11 S12β = λα y de la segunda S−1
22 S21α = µβ.
Sustituyendo el valor de β en la primera ecuación obtenemos
S−1
11 S12S−1
22 S21α = µλα
que muestra que α es un vector propio de la matriz A encontrada en (16.11). Las primeras
variables canónicas representan los vectores de S(X) y S(Y) más próximos.
Una medida de la distancia entre los subespacios generados por las columnas de X y las
Y es el coseno del ángulo entre ambos subespacios, que se calcula por:
Cos θ =
(α0
X0
)(Yβ)
(α0X0Xα)1/2
(β0
Y0Yβ)1/2
,
de donde resulta:
Cos θ2
= δ2
=
(α0
S12β)2
(α0S11α)(β0
S22β)
,
que permite concluir que la máxima correlación canónica es el coseno del ángulo que forman
los subespacios generados por X y por Y.
P1
P2
x*
y*
Figura 16.1: Representación de las primeras variables canónicas de los espacios P1 y P2
16.6 CONTRASTES
Podemos construir un contraste de que los dos conjuntos de variables están incorrelados, es
decir, V12 = 0, bajo la hipótesis de que los vectores x son Np(0, V11) y los y son Nq(0, V22).
16.6. CONTRASTES 489
El contraste de que ambos vectores están incorrelados es equivalente al contraste de que
todas las correlaciones canónicas son nulas. Lo estableceremos como:
H0 : V12 = 0
H1 : V12 6= 0
Bajo H0 la verosimilitud conjunta, f(x1, ..., xn, y1, ..., yn), se descompone en f(x1, ..., xn)
f(y1, ..., yn). El ratio de las verosimilitudes máximas entre las dos hipótesis es:
f(H1)
f(H0)
=
(2π)−n(p+q)
|S|−n/2
e−n(p+q)/2
(2π)−np |S11|−n/2
e−np/2(2π)−nq |S22|−n/2
e−nq/2
donde S es la estimación de la matriz de varianzas y covarianzas conjunta y S11 y S22 las
estimaciones correspondientes a cada bloque. El contraste de razón de verosimilitudes será:
λ = 2(log(H1) − log(H0)) = −n log
|S|
|S11| |S22|
. (16.19)
Como |S| = |S11||S22 − S21S−1
11 S12| = |S11||S22||I − S−1
22 S21S−1
11 S12|, tenemos que
λ = −n log(|I − S−1
22 S21S−1
11 S12|) = −n log
à rY
j=1
¡
1 − λ2
j
¢
!
donde r = min(p, q) y λ2
j son los valores propios de S−1
22 S21S−1
11 S12, es decir, los coeÞcientes
de correlación canónica al cuadrado. Finalmente el contraste es:
λ = −n
rX
j=1
log(1 − λ2
j ) (16.20)
que sigue asintóticamente una distribución χ2
con grados de libertad igual al número de
términos de V12 que son pq. La aproximación mejora si tomamos en lugar de n, la corrección
de Bartlett n − 1/2(p + q + 3), con lo que el test resulta:
x2
= −
µ
n −
1
2
(p + q + 3)
¶ rX
j=1
log(1 − λ2
i ) (16.21)
que llevaremos a las tablas de las χ2
con pq grados de libertad. Rechazaremos H0 cuando
este estadístico sea grande, lo que ocurrirá cuando los coeÞcientes de correlación canónica
λ2
j sean grandes.
Este contraste puede extenderse para contrastar que los primeros s coeÞcientes de cor-
relación canónica son distintos de cero y los restantes r − s son iguales a cero. La hipótesis
nula será que la dependencia entre las variables puede expresarse mediante s variables indi-
cadoras, mientras que la alternativa supone que no hay reducción de la dimensión posible y
que describir la dependencia require las r dimensiones. El test es entonces:
H0 : λi > 0 i = 1, . . . , s; λS+1 = . . . = λr = 0
H1 : λi > 0 i = 1, . . . , s; al menos uno λj > 0, j = s + 1, . . . , r
490 CAPÍTULO 16. CORRELACIÓN CANÓNICA
y el contraste de la razón de verosimilitudes conduce, como en el caso anterior, a comparar
los determinantes de la matriz de covarianzas estimadas bajo H0 y H1. Bajo H1 esta esti-
mación es S y |S| = |S11| |S22|
Qr
j=1
¡
1 − λ2
j
¢
, mientras que bajo H0 el determinante estimado
debe ser |S11| |S22|
Qs
j=1
¡
1 − λ2
j
¢
. Por tanto, el estadístico para el contraste de la razón de
verosimilitudes es:
λ = −
µ
n −
1
2
(p + q + 3)
¶ rX
j=s+1
log(1 − λ2
j ) (16.22)
que se distribuye como una χ2
con (p − s) (q − s) grados de libertad. De nuevo rechazamos
H0 cuando el estadístico (16.22) sea grande.
Ejemplo 16.2 El contraste de que dos conjuntos de variables son independientes para los
datos de los hogares del ejemplo 16.1 será, como 75 − (5 + 4 + 3) /2 = 69,
x2
= −69 (log (1 − .44) + log (1 − .21) + log (1 − .05) + log (1 − .01))
= 60, 5
El p valor de 60,5 en una distribución χ2
con 20 grados de libertad es menor de 0,0001,
con lo que rechazamos H0. Aceptando que la primera es distinta de cero, el contraste es
x2
= −69 (log (1 − .21) + log (1 − .05) + log (1 − .01)) = 20.498
y corresponde a una χ2
con (5 − 1)(4 − 1) = 12 grados de libertad. El p valor es aproxi-
madamente .05, y rechazaremos H0. Sin embargo, para las dos raíces restantes:
x2
= −69 (log (1 − .05) + log (1 − .01)) = 4.23
y si la hipótesis de que las dos raíces son cero corresponde a una χ2
con 6 grados de libertad.
Como el p valor de 4.23 en esta distribución aceptaremos H0 y concluiremos que sólo hay
dos dimensiones en la relación entre las variables.
16.7 EXTENSIONES A MÁS DE DOS GRUPOS
Supongamos que tenemos 3 conjuntos de variables X1 (n × p1), X2 (n × p2), X3 (n × p3).
Podemos buscar tres variables x∗
i = Xiαi (i = 1, 2, 3), una en cada grupo, de manera que la
matriz R (3 × 3) de correlaciones entre estas tres variables resultante sea ”grande”. Según
como deÞnamos el tamaño de esta matriz tenemos distintos métodos. Podemos:
16.8. RELACIÓN CON OTRAS TÉCNICAS ESTUDIADAS 491
(1) Maximizar la suma de las correlaciones al cuadrado, es decir
max
³X
r2
ij
´
(16.23)
donde rij = Corr
¡
x∗
i , x∗
j
¢
.
(2) Maximizar el mayor valor propio de R.
(3) Minimizar el determinante de R.
En el caso de dos grupos los tres criterios conducen a los coeÞcientes de correlación
canónica. Para varios grupos estos tres criterios no llevan necesariamente a los mismos
resultados. Para comprobarlo, en el caso de grupos de variables la matriz de correlación de
las dos variables canónicas es:
R =
·
1 r
r 1
¸
supuesto r > 0 el primer criterio conduce a maximizar r, el segundo también, ya que el
mayor valor propio de R es 1+r. En el tercer caso el determinante es |1 − r2
| y minimizar el
determinante equivale a maximizar r, con lo que en los tres casos maximizamos la correlación
entre las combinaciones lineales.
El cálculo de las correlaciones canónicas para varios conjuntos requiere en general cálculos
iterativos. El lector interesado puede acudir a Kettenring (1971) y Gnanadesikan (1977).
16.8 RELACIÓN CON OTRAS TÉCNICAS ESTU-
DIADAS
Además de su interés propio, el análisis de correlaciones canónicas cubre como casos par-
ticulares las técnicas de regresión y, por extensión, las de análisis discriminante. En efecto,
supongamos primero el caso más simple en que cada uno de los conjuntos tiene únicamente
una variable.La correlación canónica entre x e y es el coeÞciente de correlación al cuadrado.
En efecto, en este caso p = q = 1 y R11 = R22 = 1 y R12 = R21 = rxy. Entonces:
R−1
11 R12R−1
22 R21 = r2
xy = λ2
Si el conjunto x tiene varias variables p = 1 y q ≥ 1. La correlación canónica entre la
variable endógena o respuesta y el conjunto de las exógenas o regresores es el cuadrado del
coeÞciente de correlación múltiple. En efecto, ahora R11 = 1, y llamando r12 al vector de
correlaciones entre la endógena y las exógenas y R22 a la matriz de correlaciones entre las
variables exógenas:
λ2
= R−1
11 R12R−1
22 R21 = r0
12R−1
22 r21 = R2
1.2
492 CAPÍTULO 16. CORRELACIÓN CANÓNICA
Se obtiene el mismo resultado a partir de las matrices de covarianzas: Entonces S11 = s2
y;
bβ = S−1
22 S21
λ2
=
Sx0y
bβ
s2
y
=
V E
V T
= R2
El análisis discriminante puede también abordarse desde correlación canónica. Si deÞni-
mos G − 1 variables explicativas y mediante:
yi = 1 si la observación pertenece al grupo 1, i = 1, ..., G − 1
0 en otro caso
Podemos disponer estas G − 1 variables binarias en una matriz Y, n × (G − 1). Por
otro lado tendremos la matriz X, n × p de las p variables explicativas. La correlación
canónica entre las matrices de datos Y y X es análoga al análisis factorial discriminante.
Puede demostrarse que, llamando S a la matriz cuadrada p + G − 1 de covarianzas entre las
variables Y y X, y utilizando la notación del capítulo 13, nS11 = T y nS12S−1
22 S21 = B.
Las correlaciones canónicas obtenidas con la matriz S−1
11 S12S−1
22 S21 serán las obtenidas con
la matriz T−1
B. Para ver la relación entre estas correlaciones canónicas y las obtenidas en
análisis dicriminante con la matriz W−1
B, observemos que si llamamos ai a los vectores que
deÞenen las variables canónicas y λ a las correlaciones conónicas:
T−1
Bai = λiai
entonces
(W + B)−1
Bai = λiai
que puede escribirse (I + W−1
B)
−1
W−1
Bai = λiai, es decir W−1
Bai = λiai + λiW−1
Bai,
que equivale a
W−1
Bai = [λi/(1 − λi)]ai
con lo que, llamando αj a los valores propios que deÞnen las variables canónicas discrimi-
nantes vemos que estas variables son idénticas a las obtenidas por correlaciones conónicas y
los valores propios que deÞenen estas variables están relacionados por:
αj =
λi
1 − λi
16.9 ANÁLISIS CANÓNICO ASIMÉTRICO
El análisis de correlaciones canónicas es simétrico en las variables: si intercambiamos X
por Y, el número de variables canónicas no se modiÞca, las correlaciones entre las variables
canónicas son idénticas y los vectores que deÞnen las variables canónicas se intercambian.
16.9. ANÁLISIS CANÓNICO ASIMÉTRICO 493
Existen situaciones donde esta simetría no es deseable. Puede ocurrir que las X sean
variables exógenas que queremos utilizar para prever las endógenas Y, y queremos un pro-
cedimiento que tenga en cuenta esta asimetría, es decir que maximice la explicación de las
variables Y. El análisis de correlaciones canónicas no resuelve el problema. Podemos tener
una alta correlación entre β0
Y y α0
X y una baja correlación entre cada variable del con-
junto Y y α0
X. Por ejemplo, supongamos que en todas las observación se da la relación
aproximada :
y1 + . . . + yq ' α0
x
entonces podemos tener un coeÞciente próximo a la unidad entre las dos combinaciones
lineales (1, . . . , 1) y y α0
x, pudiendo ser, sin embargo, la correlación entre α0
x y cada una
de las variables yi baja.
Si el objetivo es prever cada uno de los componentes podríamos hacer regresiones entre
cada uno de ellos y las variables x. Si las variables están estandarizadas eso supone construir
ecuaciones de regresión byi = x0 bβi para cada una de las q variables y donde los coeÞcientes de
cada regresión vienen dados por bβi = R−1
x r1x. Sin embargo, de esta manera obtendríamos
q ecuaciones distintas, una para cada variable y. Vamos a ver como obtener una ecuación
única, α0
x, que tenga buenas propiedades para prever el conjunto de las y.
Para medir la capacidad predictiva de un conjunto de variables respecto al otro se intro-
ducen los coeÞcientes de redundancia, que deÞnimos a continuación.
16.9.1 CoeÞcientes de redundancia
Supongamos para simpliÞcar que las variables originales están estandarizadas (media cero
y varianza unidad) y que las combinaciones lineales Xαi se obtienen con la condición de
varianza unitaria, es decir
1
n
α0
iX0
Xαi= α0
iRxxαi= 1.
La correlación entre la variable y1 y una variable indicadora x0
α, construida como com-
binación lineal de las variables x, será:
E [y1x0
α] = r0
1xα
donde r0
1x = (r11, ..., r1p) es el vector de correlaciones entre la variable y1 y las p variables x.
La correlación de las q variables y con la variable α0
x será
E [yx0
α] = Ryxα
donde Ryxα es la matriz (q × p) de correlaciones entre las q variables y y las variables
x. Se deÞne el coeÞciente de redundancia para explicar el conjunto de las variables y con
la variable x0
α, como el valor promedio del cuadrado de las correlaciones entre las y y la
variable indicadora α0
x, es decir:
CR
¡
y|x0
α
¢
=
1
q
α0
Ryx Rxy α (16.24)
494 CAPÍTULO 16. CORRELACIÓN CANÓNICA
Si tenemos r = min (p, q) combinaciones lineales x 0
α1, . . . , x 0
αr, la redundancia total
para explicar el conjunto de las variables y con el conjunto de las variables x a través de
estas combinaciones lineales es:
R (y|x) =
rX
i=1
CR
¡
y|x0
αi
¢
, (16.25)
y es una medida de la correlación. Análogamente podríamos construir R (x|y) que es, en
general, distinta de R (y|x) .
Las expresiones del coeÞciente de redundancia y de la redundancia total se deÞnen entre
las variables y y ciertas combinaciones lineales x αi. En el caso en que los coeÞcientes α se
obtengan por correlación canónica, puede demostrarse que
R (y|x) =
tr (RyxR−1
xx Rxy)
tr (Ryy)
(16.26)
que puede escribirse como:
R (y|x) =
rX
j=1
1
q
R2
j (16.27)
donde R2
j es el coeÞciente de correlación múltiple al cuadrado en una regresión entre la
variable yj y el conjunto de las variables X. En efecto, el numerador de (16.26) es la suma
de los términos diagonales de la matriz, que tienen la forma r0
yjx R−1
xx ryjx, que es la expresión
del cuadrado del coeÞciente de correlación múltiple entre una variable yj y un vector de
variables x, ambas estandarizadas, y el denominador tr (Ryy) = q, por estar las variables
estandarizadas.
16.9.2 Análisis canónico asimétrico
Supongamos que se desea encontrar la combinación x0
α con máxima correlación con cada
variable yi individualmente, de manera que la suma de las correlaciones al cuadrado entre
x0
α y las variables y sea máxima. Esto supone maximizar α0
RxyRyxα con la restricción
α0
Rxxα = 1, lo que conduce a la ecuación
RxyRyxα =γRxxα
y vemos que α debe ser un vector propio de la matriz H = R−1
xx RxyRyx.
Análogamente a correlación canónica podríamos preguntarnos por una segunda variable
x0
α2, ortogonal a la primera, que tenga máxima correlación con el vector de variables endó-
genas. Este problema lleva a tomar el segundo vector propio de la matriz H. De la misma
forma, las restantes variables x0
α3, . . . , x0
αq (suponemos p > q) se obtendrán como vectores
propios de la matriz H.
Este mismo análisis puede aplicarse para explicar las variables X con las Y, pero aho-
ra el problema no es simétrico, ya que los vectores propios de las matrices R−1
xx RxyRyx y
R−1
yy RyxRxy no serán en general iguales, ni estas matrices tendrán vectores propios ortogo-
nales.
Este tipo de análisis ha sido desarrollado por Stewart y Love (1968) y Gudmundsson
(1977).
16.10. LECTURAS COMPLEMENTARIAS 495
16.10 Lecturas complementarias
El análisis de correlaciones canónicas se presenta en la mayoría de los textos generales de
análisis multivariante. Buenas exposiciones del análisis de correlaciones canónicas se encuen-
tran en Rechner (1998) y Anderson (1984). El lector interesado en un estudio más detallado
de las distribuciones de los estadísticos puede acudir a Muirhead (1982). El análisis canóni-
co se ha utilizado mucho en series temporales para determinar la dimensión de una serie
temporal. Algunas de estas aplicaciones pueden encontrarse en Peña, Tiao and Tsay (2001).
EJERCICIOS
16.1 Demostrar que si transformamos las variables con yn = Fy + a y xn = Gx + a,
donde F y G son matrices no singulares las correlaciones canónicas obtenidas con las matrices
de varianzas y covarianzas de estas nuevas variables son idénticas a las de las variables
originales (sugerencia, calcular la matriz An (16.11) para estas nuevas variables y comprobar
que An se escribe como An = (G0
)−1
AnG0
)
16.2 Comprobar que si transformamos las variables como en el ejercicio anterior las
variables canónicas si se modiÞcan
16.3 Demostrar que el coeÞciente de correlación canónica λ2
i es el coeÞciente de determi-
nación en una regresión multiple con respuesta la variable y∗
i = β0
iy, y variables explicativas
las x. (Sugerencia, comprobar que la correlación entre y∗
i y x es β0
iV21 y utilizar la expresión
del coeÞciente de correlación múltiple como ryxR−1
x ryx y la expresión (16.15)).
B I B L I O G R A F I A
Aitchinson,J. (1986), The Statistical Analysis of Compositional Data, Chapman and Hall,
London.
Aluja, T. y Morineau, A. (1999), Aprender de los datos : El análisis de componentes
principales, EUB, Barcelona.
Anderson, T.W. (1984), An Introduction to Multivariate Statistical Analysis, (2 ed), New
York, Wiley.
Anderberg, G.M.R. (1973), Cluster Analysis for Applications, New York, Academic Press.
Arnold, S.F. (1981), The Theory of Linear Models and Multivariate Observations, New
York, Wiley.
Barnett, V. (1981), Interpreting Multivariate Data, New York, Wiley.
Bartholomew, D. J. y Knott, M. (1999), Latent Variable Models and Factor Analysis,
Arnold.
Basilewsky, A. (1983), Applied Matrix Algebra, in the Statistical Science, North-Holland.
Batista, J.M. y Martínez, M.R. (1989), Análisis Multivariante, ESADE.
496 CAPÍTULO 16. CORRELACIÓN CANÓNICA
Benzecri, J. (1976), L’analyse des données, Dunod.
Bernstein I. H. (1987), Applied Multivarite Analysis, Springer - Verlag.
Bertir, P. y Bouroche, J.M. (1975), Analysis des données multidimensionelles, Press Univ.
France.
Bolche, B. y Huang, C. (1974), Multivariate Statistical Methods for Business and Eco-
nomics, Prentice Hall.
Bollen, K. A. (1989) Structural Equations with Latent Variables, Wiley
Breiman, L. et al (1984) ClassiÞcation and Regression Trees, Wadsworth.
Cuadras, C.M. (1991), Métodos de Análisis Multivariante, Editorial Universitaria de Barcelona
(2 edición).
Coxon A.P.M.(1982),The User’s guide to Multidimensional Scaling, Exeter,NH: Heinemann
Educational Books.
Cherkassky, V. y Mulier, F. (1998), Learning from Data, Wiley
Davidson M. L. (1983), Multidimensional Scaling, Wiley.
Dempster, A.P., (1969), Elements of continuous multivariante analysis, Addison-Wesley.
Dillon, W., Goldstein, M. (1984), Multivariate Analysis, New York, Wiley.
Drosbeke, J.J., Fichet, B. et Tassi P. (1992), Modeles por l’analyse des donnees multidi-
mensionnelle, Economica.
Eaton, M.L. (1983), Multivariate Statistics, New York, Wiley.
EscoÞer, B. et Pagés, J. (1992), Análisis factoriales simples y múltiples, Universidad del
País Vasco.
Escudero, L. F. (1977), Reconocimiento de patrones, Paraninfo.
Everitt, B.S. (1978), Graphical Techniques for Multivariate Data, New York, North-Holland.
Everitt, B.S. (1984), An Introduction to Latent variable models, Chapman and Hall.
Everitt, B.S. (1993), Cluster Analysis , Oxford University Press.
Finn, J. D. (1974), A General Model for Multivariate Analysis, Holt, Rinehart and Win-
ston.
Fox, J. (1984). Linear Statistical Models and related methods with applications to social
research, Wiley.
Flury, B. (1997), A First Course in Multivariate Statistics, Springer.
16.10. LECTURAS COMPLEMENTARIAS 497
Flury, B. (1988), Common Principal Components and Related Multivariate Methods, Wiley.
Flury, B. y Riedwyl, H. (1988), Multivariate Statistics, Chapman and Hall.
Fakunaga, K. (1990), Introduction to Statistical Pattern Recognition (2a
edición), Academic
Press.
GiÞ, A. (1990), Nonlinear Multivariate Analysis, Wiley.
Giri, C.C. (1977), Multivariate Statistical Inference, New York, Academic Press.
Gnanadesikan, R. (1997), Methods for Statistical Data Analysis of Multivariate Observa-
tions, New York, Wiley (2a
edición).
Goldstein, M. y Dillon, W.R. (1978), Discrete Discriminant Analysis, New York, Wiley.
Gordon A. D. (1981), ClassiÞcation, Chapman and Hall.
Gower, J and Hand D. (1996), Biplots, Chapman and Hall
Green, P. E. (1978) Mathematical tools for applied multivariate analysis, Academic Press
Green, P, E, Carmone, F, J, y Smith S, M, (1989), Multidimensional Scaling: Methods and
Applications, Boston: Allyn y Bacon.
Greenacre, M.J. (1984), Theory and Applications of correspondence analysis, Academic
Press.
Greenacre, M.J. (1993), Correspondence Analysis in Practice, Academic Press.
Greenacre, M.J.and Blasius (1994), Correspondance Analysis in the Social Science, Acad-
emic Press.
Hair, J. F. et al (1995), Multivariate Data Analysis with Readings, Prentice Hall.
Hand, D. J. (1997) Construction and Assessment of ClassiÞcation Rules, Wiley
Harman, H.H. (1980), Análisis Factorial Moderno, Saltés, Madrid.
Hartigan, J.A. (1975), Clustering Algorithms, New-York, Wiley.
Huberty,C. (1994) Applied Discriminant Analyisis, Wiley
Jackson, J.E. (1991), A User’s guide to principal components, Wiley.
Jambu, M. (1991), Exploratory and Multivariate Data Analysis, Academic Press.
Johnson, N.L. y Kotz, (1972), Distributions in Statistics: Continuos Multivariate Distrib-
utions, New York, Wiley.
Joliffe, I. T. (1986), Principal Components Analysis, Springer-Verlag.
498 CAPÍTULO 16. CORRELACIÓN CANÓNICA
Johnson, R.A. y Wichern, D.W. (1998), Applied Multivariate Statistical Analysis, (Fourth
edition), Prentice Hall
Jöreskog, K,G, (1963) Statistical estimation in Factor Analysis, Almqvist and Wicksell.
Jöreskog, K.G. y Sörbon, D. (1979), Advances in Factor Analysis and Structural Equation
Models, Cambridge, MA:ABT.
Kachigan, S.K. (1982), Multivariate Statistical Analysis, New York, Radins Press.
Karson, M.J. (1982), Multivariate Statistical Methods, The Iowa State, University Press.
Kendall, M.G. y Stuart, A. (1967), The Advaced Theory of Statistics, Vol. 2, New York
Harper.
Kendall, M. (1975), Multivariate Analysis, Charles Griffin, Londres.
Kruskal, J.B. y Wish, M. (1978), Multidimensional Scaling, Murray Hill, N.J. Bell Labora-
tories.
Krzanowski, W.J. (1988), Principles of Multivariate Analysis: A. User’s Perspective, Ox-
ford University Press, Oxford.
Krzanowski, W.J.and Marriot, F. H. C. (1994), Multivariate Analysis: Part I, Edward
Arnold, London.
Krzanowski, W.J.and Marriot, F. H. C. (1995), Multivariate Analysis: Part II, Edward
Arnold, London.
Lachenbruch, P.A. (1975), Discriminant Analysis, New York, Hafner Press.
Lawley, D.N. y Maxwell, A.E. (1971), Factor Analysis as a Statistical Method, New York,
American Elsevier.
Lebart, L. y Fenelon, J.P. (1973), Statistique et Informatique Appliquees, París, Dunod.
Lebart, L., Morineau, A. y Fenelon, J.P. (1985), Tratamiento estadístico de datos, Marcom-
bo.
Lebart, L., Morineau, A. y Warwick, K.M. (1984). Multivariate Descriptive Analysis, New
York, Wiley.
Lebart, L., Morineau, A. y Piron, M. (1997), Statistique exploratoire multidimensionnelle,
Dunod.
Lebart, L., Salem, A. y Bécue M. (2000), Análisis estadístico de textos, Milenio.
Lefebre, J. (1976), Introduction aux Analyses Statistiques Multidimensionnelles, Masson,
Paris.
McLachan, G. J. y Basford, K. (1988) Mixture Models, Marcel Dekker.
16.10. LECTURAS COMPLEMENTARIAS 499
McLachan, G. J. (1992) Discriminant Analysis and Statistical Pattern Recognition, Wiley
Mardia, K.V., Kent, J.T. y Bibby, J.M. (1979), Multivariate Analysis, New York, Academic
Press.
Maxwell, A.E. (1977). Multivariate Analysis in Behavioural Research, Chapman and Hall
McQuarrie, A. D. R. y Tsai, C. L.(1998): Regression and time series model selection,
Singapore: World ScientiÞc.
Miller, A. J. (1990): Subset Selection in Regression, Chapman and Hall
Mirkin, B. (1996), Mathematical ClassiÞcation and Clustering, Kluwer Academic Publishers
Morrison, B.F. (1976), Multivariate Statistical Methods, (2 ed.), New York, Academic Press.
Muirhead, R.J. (1982), Aspect of Multivariate Analysis, New York, Wiley.
Press, S.J. (1972), Applied Multivariate Analysis, Holt, Rinehart.
Rao, C.R. (1973), Linear Statistical Inference and its Applications, New York, Wiley.
Rechner, A. C. (1995) Methods of Multivariate Analysis, Wiley
Rechner, A. C. (1998) Multivariate Inference and its Applications, Wiley
Sánchez Carrión, J.J. (1984). Introducción a las técnicas de Análisis Multivariante aplicados
a las Ciencias Sociales, CIS.
Saporta, G. (1990). Probabilités Analyse de données et statistique, Tecnip.
Schafer, J. L. (1997), Analysis of Incomplete Multivariate Data, Chapman and Hall.
Schiffman, S.S., Reynolds, M.L. y Young, F.W. (1981). Introduction to Multidimensional
Scaling, New York, Academic Press.
Seber, G.A.F. (1984), Multivariate Observations, New York, Wiley.
Spath, H. y Bull, U. (1980), Cluster Analysis of Algorithms for Data Reduction and Clas-
siÞcations of Objects, New York, Wiley.
Spath, H. (1985), Cluster Dissection and Analysis, Chichester: Ellis Horwood.
Srivastava, M.S. y Carter, E.M., (1983), An Introduction to Applied Multivariate Statistics,
New York, North Holland.
Srivastava, M.S. y Khatri, C.G. (1979), An Introduction to Multivariate Statistics, New
York, North Holland.
Stevens, J. (1986). Applied Multivariate Analysis for the Social Sciences.
500 CAPÍTULO 16. CORRELACIÓN CANÓNICA
Tabachnik, B. G. y Fidell, L. S. (1996) Using Multivariate Statistics, HarperCollins.
Tastsuoka, M (1971). Multivariate Analysis, Monterrey CA, Brooks/Cok.
Tatsuoka, M. (1988). Multivariate thecniques, Macmillan Publ.
Torrens-Ibern, J. (1972), Modèles et methodes de l’analyse factorielle, Dunod.
Vapnik, V. V. (2000) The Nature of Statistical Learning (2a
edición), Springer
Whittaker, J. (1990), Graphical Models in Applied Multivariate Statistics, Wiley.
Young, F.W. (1987), Multidimensional Scaling: History, Theory and Applications, (R.M.
Hamer, ed.) HillsdaleNJ: Lawrence Erlbaum Associates.
Otras referencias
Anderson, T.W. (1963). Asymptotic Theory for Principal Componentes. Annals of
Statistics, 34, 122-148.
Anderson, T.W. (1996). R.A. Fisher and Multivariate Analysis. Statistical Science, 11,1
20-34.
Anderson, T.W., and Bahadur, R.R. (1962), “ClassiÞcation into two multivariate normal
distributions with different covariance matrices,” Annals of Mathematical Statistics, 33, 420-
431.
Aitchinson,J. y Dunsmore, I.R. (1975), Statistical Prediction Analysis, Cambridge Uni-
versity Press.
Atkinson, A.C. (1994), “Fast Very Robust Methods for the Detection of Multiple Out-
liers”, Journal of the American Statistical Association, 89, 1329—1339.
BanÞeld, J.D., and Raftery, A. (1993), “Model-Based Gaussian and Non-Gaussian Clus-
tering,” Biometrics, 49, 803-821.
Bartlett, M. S. (1954), ”A note on multiplying factors for various chi-squared approxi-
mations,” J. Royal Statistical Society B, 16,296-298.
Barnett, V., and Lewis, T. (1978) Outliers in Statistical Data. Wiley.
Bartholomew, D. J. (1995). Spearman and the origin and development of factor analysis.
British Journal of Statistical and Mathematical Psycology, 48, 211-220
Bensmail, H., and Celeux, G. (1997), “Inference in Model- Based cluster analysis,” Sta-
tistics and Computing, 7, 1-10.
Bernardo J. M. y Smith, A. F. M. (1994): Bayesian Theory. Wiley.
Bibby ,J. y Toutenberg, H. (1977) Prediction and improved estimation in linear models.
Wiley.
Binder, D. A. (1978), “Bayesian Cluster Analysis,” Biometrika, 65, 31-38.
Box, G. E. P. (1949) “A general distribution theory for a class of likelihood criteria”,
Biometrika, 36, 317-346.
Box, G. E. P. y Tiao, G. C. (1968) “A Bayesian Approach to Some Outlier Problems”,
Biometrika, 55, 119—129.
16.10. LECTURAS COMPLEMENTARIAS 501
Box, G. E. P. y Tiao, G. C. (1973): Bayesian Inference in Statistical Analysis. Addison-
Wesley.
Boser, B. Guyon, I. and Vapnik. V. (1992). A training algorithem for optimal margin
classiÞers. Proceedings of COLT II, Philadelphia.
Breiman, L. et al. (1984). ClassiÞcation and Regression Trees. Wadsworth.
Caballero, B. y Peña, D.(1987) Un estudio estadístico de la Investigación cientíÞca en los
países de la OCDE”. Estadística Española. 29, 114, 151-178.
Carlin
Casella, G. y Berger, R. L.(1990). Statistical Inference. Thomson.
Cuadras,C. (1993). Interpreting an Inequality in Multiple Regression. The American
Statistician , 47, 256-258.
Celeux, G., Hurn, M., and Robert, C. P. (2000). “Computational and Inferencial Difficul-
ties with mixture posterior distributions,” Journal of the American Statistical Association,
95, 957-970.
Cook, D., Buja, A., Cabrera, J., and Hurley, C. (1995), “Grand Tour and Projection
Pursuit,” Journal of Computational and Graphical Statistics, 4, 155-172.
Cherkassky, V. y Mulier, F. (1998), Learning from Data, Wiley.
Chow, G. (1981) A Comparison of the Information and Posterior Probability Criteria for
model Selection. Journal of Econometrics, 16,21-33.
Dasgupta, A., and Raftery, A. E. (1998) ” Detecting Features in Spatial Point Processes
With Clutter via Model-Based Clustering, ” Journal of the American Statistical Association,
93, 294-302.
David, H.A. (1998),” Statistics in U.S. Universities in 1933 and the establishment of the
statistical laboratory at Iowa State,” Statistical Science, 13, 66-74.
Donoho, D.L. (1982), “Breakdown Properties of Multivariate Location Estimators”.
Ph.D. qualifying paper, Harvard University, Dept. of Statistics.
Efron, B. (1982). The Jackknife, the Bootstrap and other resampling plans. SIAM.
Philadelphia.
Efron (1975) demostró que cuando los datos so
Efron, B. y Tibshirani, J. (1993). An introduction to the Bootstrap. Chapman and Hall.
Friedman, J.H. (1987), “Exploratory Projection Pursuit,” Journal of the American Sta-
tistical Association, 82, 249-266.
Friedman, H.P., and Rubin, J. (1967), “On some Invariant Criteria for Grouping Data,”
Journal of the American Statistical Association, 62, 1159-1178.
Friedman, J.H., and Tukey, J.W. (1974), “A Projection Pursuit Algorithm for Explorato-
ry Data Analysis,” IEEE Transactions on Computers, C-23, 881-889.
Gill, P.E., Murray, W., and Wright, M.H. (1981), Practical Optimization. Academic
Press.
Fox, J. (1984). Linear Statistical Models and related Methods. Wiley.
Gamerman, D. (1997). Markov Chain Monte Carlo. Chapman and Hall.
Gelman, A., Carlin, J., Stern, H. y Rubin, D. B. (1997). Bayesian Data Analysis. Chap-
man and Hall.
Graybill, F. A. (1976): Theory and Application of the Linear Model. Wadsworth Publ.
Com.
502 CAPÍTULO 16. CORRELACIÓN CANÓNICA
Graybill (1983)
Gudmundsson, G. (1977). ”Multivariate Analysis of Economic Variables”, Applied Sta-
tistics, 26, 1, 48-59.
Hample, F. R. y otros (1986): Robust Statistics. Wiley.
Hand, D. J. at al (2000) Data mining for fun and proÞt. Statistical Science, 15,111-131.
Hardy, A. (1996), “On the Number of Clusters,” Computational Statistics and Data
Analysis, 23, 83-96.
Hartigan, J.A. (1975), Clustering Algorithms. New York: Wiley.
Hartigan, J.A., and Wong, M.A. (1979), “A k-means clustering algorithm,” Applied Sta-
tistics, 28, 100-108.
Huber, P.J. (1985), “Projection Pursuit,” The Annals of Statistics, 13, 435-475.
Hastie , T. y Simard, P. Y. (1988) Metrics and Models for Handwritten character recog-
nition. Statistical Science, 13, 54-65.
Hastie, T., Tibshirani R. y Buja A. (1994) Flexible discriminant analysis for optimal
scoring. Journal of American Statistical Association, 428, 1255-1270.
Hernández y Velilla, 2001
Izenman A. J. (1975), Reduced Rank Regression for the multivariate linear model. J.
Multivariate Analysis, 5, 248-264.
Jeffreys, H. (1961), Theory of Probability. Oxford Clarendon Press.
Jones, M.C., and Sibson, R. (1987), What Is Projection Pursuit?, Journal of the Royal
Statistical Society, Series A, 150, 1-18.
Jöreskog, K.G. (1973), A general method for estimating a structural equation model.
En A.S. Goldberg and O.D.Ducan, eds, Structural Equation Models in the Social Sciences.
Academic Press, pp 85-112.
Juan, J. y Prieto, F. J. (2001),” Using Angles to identify concentrated multivariate
outliers,” Technometrics, 3, 311-322.
Justel, A. y Peña, D. (1996),” Gibbs Sampling Will Fail in Outlier Problems with Strong
Masking,”. Journal of Computational and Graphical Statistics, 5,2, 176-189.
Justel A., Peña, D. y Zamar,R. (1997),”A Multivariate Kolmogorov Smirnov goodness of
Þt test,” Statistics and Probability Letters, 35, 251-259.
Kettenring, J. R. (1971),” Canonical analysis of several sets of variables,” Biometrika,
58, 33-451.
Lanterman, A. D. (2001),” Schwarz, Wallace and Rissanen: intertwining themes in the-
ories of model selection,” International Statistical Review, 69, 185-212.
Little R. J .A. y Rubin, D. (1987), Statistical analysis con missing Data. Wiley
Lee, P. M. (1997), Bayesian Statistics. Oxford University Press.
MacQueen J. B.(1967) Some methods for classiÞcation and analysis of multivariate obser-
vations. Proceedings of the 5th Berkely Simposium in Mathematical Statistics and Probability,
pp 281-297. University of California Press
Maronna, R., and Jacovkis, P.M. (1974), “Multivariate Clustering Procedures with Vari-
able Metrics,” Biometrics, 30, 499-505.
Maronna, R.A. (1976), “Robust M-Estimators of Multivariate Location and Scatter,”
The Annals of Statistics, 4, 51—67.
16.10. LECTURAS COMPLEMENTARIAS 503
Maronna, R.A. and Yohai, V.J. (1995), “The Behavior of the Stahel-Donoho Robust
Multivariate Estimator,” Journal of the American Statistical Association, 90, 330—341.
Nason, G. (1995), “Three-Dimensional Projection Pursuit,” Applied Statistics, 44, 411-
430.
O’Hagan, A. (1994). Bayesian Inference. Edward Arnold.
Peña, D. (2001). Fundamentos de Estadística. Alianza Editorial
Peña, D. (2002). Regresión y Diseño de Experimentos. Alianza Editorial
Peña, D. y Guttman, I. (1993)
Peña, D. y Prieto,F. J (2000),” The Kurtosis Coefficient and the Linear Discriminant
Function ” Statistic and Probability Letters, 49, 257-261.
Peña, D. y Prieto,F. J. (2001a) ”Robust covariance matrix estimation and multivariate
outlier detection,” (con discusión), Technometrics, 3, 286-310,
Peña, D. y Prieto,F. J (2001b) ” Cluster IdentiÞcation using Projections,” The Journal
of American Statistical Association, 96, December 2001
Peña D. y Rodriguez, J. (2002) ” A powerful portmanteau test for time series,” The
Journal of American Statistical Association, June 2002, (en prensa)
Peña, D., Tiao, G. C. y Tsay, R. S. (2001), A Course in Time Series, Wiley
Posse, C. (1995), “Tools for Two-Dimensional Exploratory Projection Pursuit,” Journal
of Computational and Graphical Statistics, 4, 83-100.
Pollock D. S. G. (1993) The Algebra of Econometrics. Wiley
Press, S. J. (1989): Bayesian Statistics. Wiley.
Robsert, C. P. (1994). The Bayesian Choice. Springer.
Robert, C. P. y Casella, G. (1999). Montecarlo Statistical Methods. Springer-Verlag.
Rocke, D.M. and Woodruff, D.L. (1996), “IdentiÞcation of Outliers in Multivariate
Data,” Journal of the American Statistical Association, 91, 1047—1061.
Ruspini, E.H. (1970), “Numerical Methods for Fuzzy Clustering,” Information Science,
2, 319-350.
Rousseeuw, P.J. and van Zomeren, B.C. (1990), “Unmasking Multivariate Outliers and
Leverage Points,” Journal of the American Statistical Association, 85, 633—639.
Spearman C. (1904) General intelligence, objectively determined and measured, Ameri-
can Journal of Psycology, 15, 201-293.
Stahel, W.A. (1981), “Robuste Schatzungen: InÞnitesimale Optimalitat und Schatzungen
von Kovarianzmatrizen,” Ph.D. Thesis, ETH Zurich.
Stewart, D. y Love, W. (1968). ”A General Canonical Correlation Index”, Psychological
Bulletin, 70, 160-163.
Titterington, D. M., Smith, A. F. M. y Makov, U.E. (1987). Statistical Analysis of Þnite
mixture distributions. Wiley.
Velilla (1993)
Wolfe, J. H. (1970) Pattern Clustering by multivarite mixture analysis. Multivariate
Behavioral Research, 5, 329-350.
Vapnik, V. (1996) The nature of Statistical Learning. Springer-Verlag.
504 CAPÍTULO 16. CORRELACIÓN CANÓNICA
Yohai, V. y Garcia Ben, M. (1980), ” Canonical variables as optimal predictors,” Annals
of Statistics, 8, 865-869.
Zellner, A. (editor) (1980): Bayesian Analysis in Econometrics and Statistics. North
Holland.
Apéndice A
Datos
En este capítulo Þguran las tablas de datos y una breve descripción de las variables de todos
los conjuntos de datos analizados en el libro.
La siguiente tabla muestra asociado al nombre de cada conjunto las técnicas multivari-
antes que se le han aplicado.
EUROALI EUROSEC EPF INVEST MEDIFIS MUNDODES
Comp. Principales F F
Anál. Factorial F F
Correlaciones Cano. F
Cordenadas Prin. F F
Anál. Discriminante F
Anál. de Congl.
Regre. Logist.
Descriptiva
Anál. de corres.
505
506 APÉNDICE A. DATOS
EUROALI
CR CB H L P C F N FV
Albania 10.1 1.4 0.5 8.9 0.2 42.3 0.6 5.5 1.7
Austria 8.9 14 4.3 19.9 2.1 28 3.6 1.3 4.3
Bélgica 13.5 9.3 4.1 17.5 4.5 26.6 5.7 2.1 4
Bulgaria 7.8 6 1.6 8.3 1.2 56.7 1.1 3.7 4.2
Checoslova. 9.7 11.4 2.8 12.5 2 34.3 5 1.1 4
Dinamarca 10.6 10.8 3.7 25 9.9 21.9 4.8 0.7 2.4
Alemania-E. 8.4 11.6 3.7 11.1 5.4 24.6 6.5 0.8 3.6
Finlandia 9.5 4.9 2.7 33.7 5.8 26.3 5.1 1 1.4
Francia 18 9.9 3.3 19.5 5.7 28.1 4.8 2.4 6.5
Grecia 10.2 3 2.8 17.6 5.9 41.7 2.2 7.8 6.5
Hungria 5.3 12.4 2.9 9.7 0.3 40.1 4 5.4 4.2
Irlanda 13.9 10 4.7 25.8 2.2 24 6.2 1.6 2.9
Italia 9 5.1 2.9 13.7 3.4 36.8 2.1 4.3 6.7
Países Bajos 9.5 13.6 3.6 23.4 2.5 22.4 4.2 1.8 3.7
Noruega 9.4 4.7 2.7 23.3 9.7 23 4.6 1.6 2.7
Polonia 6.9 10.2 2.7 19.3 3 36.1 5.9 2 6.6
Portugal 6.2 3.7 1.1 4.9 14.2 27 5.9 4.7 7.9
Rumania 6.2 6.3 1.5 11.1 1 49.6 3.1 5.3 2.8
España 7.1 3.4 3.1 8.6 7 29.2 5.7 5.9 7.2
Suecia 9.9 7.8 3.5 24.7 7.5 19.5 3.7 1.4 2
Suiza 13.1 10.1 3.1 23.8 2.3 25.6 2.8 2.4 4.9
Reino Unido 17.4 5.7 4.7 20.6 4.3 24.3 4.7 3.4 3.3
URSS 9.3 4.6 2.1 16.6 3 43.6 6.4 3.4 2.9
Alemania-O. 11.4 12.5 4.1 18.8 3.4 18.6 5.2 1.5 3.8
Yugoslavia 4.4 5 1.2 9.5 0.6 55.9 3 5.7 3.2
Tabla A.1: Datos EUROALI
EUROALI Este conjunto de datos está constituido por 25 observaciones y 9 variables.
Las obsrvaciones corresponden a países Europeos, y las variables al porcentaje de consumo
de proteínas que cada tipo de alimento proporciona.
Las variables son: Carnes rojas (CR), Carnes blancas (CB), Huevos (H), Leche (L),
Pescado (P), Cereales (C), Fecula (F), Nueces (N), Fruta y verdura (FV).
Datos : Tabla A.1
Fuente: Eurostat, 1999
EUROSEC El número de observaciones es 26 y el de variables 9. Las observaciones
corresponden a países Europeos. Las variables miden el porcentaje de empleo en los distintos
sectores económicos.
507
EUROSEC
Agr Min Man PS Con SI Fin SPS TC
Bélgica 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2
Dinamarca 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1
Francia 10.8 0.8 27.5 0.9 8.9 16.8 6 22.6 5.7
Alemania-E 6.7 1.3 35.8 0.9 7.3 14.4 5 22.3 6.1
Irlanda 23.2 1 20.7 1.3 7.5 16.8 2.8 20.8 6.1
Italia 15.9 0.6 27.6 0.5 10 18.1 1.6 20.1 5.7
Luxenburgo 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2
Paises Bajos 6.3 0.1 22.5 1 9.9 18 6.8 28.5 6.8
Reino Unido 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4
Austria 12.7 1.1 30.2 1.4 9 16.8 4.9 16.8 7
Finlandia 13 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6
Grecia 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11 6.7
Noruega 9 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4
Portugal 27.8 0.3 24.5 0.6 8.4 13.3 2.7 16.7 5.7
España 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5
Suecia 6.1 0.4 25.9 0.8 7.2 14.4 6 32.4 6.8
Suiza 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7
Turkia 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2
Bulgaria 23.6 1.9 32.3 0.6 7.9 8 0.7 18.2 6.7
Checos. 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7
Alemania-O 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4
Hungria 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8
Polonia 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9
Rumanía 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5
URSS 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3
Yugoslavia 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4
Tabla A.2: Datos EUROSEC
Los sectores son: Agricultura, Minería, Industria, Energía, Construcción, Servicios In-
dustriales, Finanzas, Servicios, Transportes y Comunicaciones.
Datos: Tabla A.2
Fuente: Euromonitor (1979, pp. 76-77).
508 APÉNDICE A. DATOS
ENCUESTA DE PRESUPUESTOS FAMILIARES
X1 X2 X3 X4 X5 X6 X7 X8 X9
Almería 618957 295452 522128 167067 58288 280035 129219 307967 107334
Cádiz 683940 203619 426690 124162 60657 285888 127792 313238 83523
Córdoba 590770 265604 487143 113386 37131 237320 116764 247536 79924
Granada 547353 238822 458338 119540 40340 236694 103901 272308 72813
Huelva 649225 245722 570631 99250 61953 253286 123244 238880 83070
Jaén 556210 183295 332662 86364 37160 136992 57607 189811 57311
Málaga 617778 201348 508252 121010 63518 256973 128336 323632 93971
Sevilla 621570 208156 549399 137408 45101 298000 118269 308524 84514
Huesca 577107 249310 412907 107976 39602 335334 90547 227266 92103
Teruel 545238 199788 343919 122154 42281 224286 90291 237747 77938
Zaragoza 556737 266468 496989 132517 54106 235188 118931 282369 79718
Asturias 624941 280273 530828 132066 57679 340013 149265 315478 120856
Baleares 564220 226816 602397 144005 86803 358290 150551 351555 131802
Las Palmas 632640 201704 522846 153775 84148 327988 173031 305628 114627
Tenerife 523476 171072 467424 118857 65247 303598 142620 283563 80959
Cantabria 604083 287943 654929 119269 63320 302277 116752 276663 105421
Ávila 543595 242609 388063 92808 47035 254563 74522 250853 82061
Burgos 602307 255567 600121 162166 51308 280023 132161 301813 111224
León 623047 245240 500414 136030 41667 333066 119657 267506 146434
Palencia 589710 206048 449113 113714 34787 248620 115825 294068 109264
Salamanca 488784 167814 400049 78217 24476 195065 69846 193056 54442
Segovia 528040 184840 455368 103446 46337 217156 91436 259705 116303
Soria 679722 232673 503695 129768 55000 272249 117587 300014 120803
Valladolid 567361 223201 566433 140573 46111 254216 149041 327774 98430
Zamora 544527 178835 402354 99953 32143 227163 70283 231577 125332
Albacete 535939 199559 425598 137799 55967 232209 104866 291708 91735
Ciudad Real 545912 227255 487651 125740 44001 230820 88650 230213 90886
Cuenca 506814 194156 420488 109533 50961 220678 78673 270038 103288
Guadalajara 546909 179824 477446 115585 40129 299174 94923 287703 87720
Toledo 583325 255527 411896 130747 65345 282127 105872 241749 122189
Barcelona 702920 257429 702315 168696 97595 365255 239187 379319 99929
Gerona 684186 285047 566149 149308 77553 259839 191400 329089 134786
Lérida 696542 283134 508906 146773 90828 402073 180652 353124 152924
Tarragona 586122 283112 557653 150464 62853 331848 185713 381485 114876
Alicante 579355 205685 490235 134254 68141 297939 117710 316675 111756
Castellón 496559 201606 411972 107739 42939 212051 84610 241795 77370
Valencia 539570 228072 464127 138419 62471 285948 134751 384939 96564
Badajoz 430442 204529 332948 91831 41112 187500 77481 203808 61478
Cáceres 569808 222756 403547 119078 47904 248571 100282 285880 89736
EPF (continúa)
509
X1 X2 X3 X4 X5 X6 X7 X8 X9
La Coruña 692445 249121 506616 141805 56114 277401 142246 289111 108489
Lugo 719078 286277 414893 142629 62779 301867 101889 216693 119398
Orense 598669 182378 370866 106873 31779 221028 114728 205921 90184
Pontevedra 736441 263479 468984 136204 50815 344289 129685 309349 100255
Madrid 670577 253928 864553 148014 86601 393664 232387 440275 130290
Murcia 610718 210169 470859 128627 46866 318508 102978 311262 114457
Navarra 669082 324877 704572 221954 81180 415313 185493 411027 156493
Alava 664450 234132 631137 189169 58406 313033 164730 355280 98942
Guipuzcua 643141 254653 668435 151454 61985 302491 169527 405259 109995
Vizcaya 635929 283160 677817 156612 67899 337253 176222 423122 132572
La Rioja 634839 209753 542656 127615 54684 269843 126717 322845 121844
Ceuta y Melilla. 678733 192344 362317 81673 27191 138705 81979 226279 65135
Tabla A.3: EPF
EPF Estos datos corresponden a 51 observaciones y 9 variables. Las observaciones son las
provincias españolas más Ceuta yMelilla, que aparecen unidas como una única provincia, y
las variables los nueve epígrafes en los que se desglosa la Encuesta de Presupuestos Familiares
en España.
Las variables son: X1= alimentación, X2= vestido y calzado, X3= vivienda, X4= movil-
iario doméstico, X5= gastos sanitarios, X6= transporte, X7= enseñanza y cultura, X8=
turismo y ocio, X9= otros gastos.
Datos tabla A.3
Fuente: Encuesta de Presupuestos Familiares del año 1990/91
510 APÉNDICE A. DATOS
PUBLICACIONES CIENTIFICAS DE LOS PAISES DE LA OCDE
INTER.A INTER.F AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FÍSICA
EE.UU 815.319 379.851 88.663 58.104 255.864 440.134 111.015 162.288
UK 162.103 90.332 35.158 29.802 59.63 92.725 6.409 34.349
JP 105.856 78.811 13.978 16.758 55.634 308.926 32.039 40.538
F 118.935 76.186 13.818 11.253 49.938 120.065 9.984 35.792
G 91.099 85.037 11.74 20.337 41.233 66.087 11.304 22.093
C 72.722 49.459 14.041 16.722 23.139 101.9 12.034 14.645
I 42.905 29.734 7.904 13.444 31.078 36.322 5.833 11.351
A 36.121 22.236 12.419 9.863 12.186 19.641 4.898 6.299
H 29.912 18.036 6.563 7.548 13.721 23.029 3.798 6.775
S 28.568 16.19 3.985 9.502 14.852 18.341 2.387 3.549
CH 26.495 14.518 3.378 3.636 11.096 19.304 2.556 5.784
E 16.425 11.818 3.089 3.981 7.196 15.493 1.258 2.692
B 17.311 11.791 3.24 4.011 8.098 11.964 1.772 3.417
D 14.677 555 2.635 5.667 8.368 14.266 1.197 1.999
AU 10.957 13.154 1.433 2.372 5.928 6.713 1.318 2.278
FI 11.012 6.457 2.028 4.756 5.731 6.647 1.001 1.669
N 9.075 5.432 1.803 3.299 4.801 5.326 912 853
Y 4.686 2.957 2.031 1.194 1.806 7.046 801 1.861
GR 3.72 2.749 692 1.293 1.518 2.415 896 1.366
IR 6.786 214 432 1.119 1.355 98 522 941
P 1.221 1.929 388 386 564 12 493 413
Tabla A.4: Datos INVEST
INVEST Este conjunto de datos presenta 21 observaciones de 8 variables. Las observa-
ciones corrsponden a los países de la OCDE y las variables son el número de publicaciones
cientíÞcas recogidas en el trienio 1982-84 en ocho bases de datos de producción cientíÞca.
Las variables se han llamado según la orientación de la base de datos: InterA(por interdis-
ciplinaria), Inter F (por interdisciplinaria), Agric., Biolo., Medic., Quimic., Ingen. y Física.
Datos: tabla A.4
Fuente: Caballero y Peña (1987).
511
MEDIDAS FÍSICAS
Obs. sexo est pes pie lbr aes dcr lrt
1 0 159 49 36 68 42 57 40
2 1 164 62 39 73 44 55 44
3 0 172 65 38 75 48 58 44
4 0 167 52 37 73 41.5 58 44
5 0 164 51 36 71 44.5 54 40
6 0 161 67 38 71 44 56 42
7 0 168 48 39 72.5 41 54.5 43
8 1 181 74 43 74 50 60 47
9 1 183 74 41 79 47.5 59.5 47
10 0 158 50 36 68.5 44 57 41
11 0 156 65 36 68 46 58 41
12 1 173 64 40 79 48 56.5 47
13 0 158 43 36 68 43 55 39
14 1 178 74 42 75 50 59 45
15 1 181 76 43 83 51 57 43
16 1 182 91 41 83 53 59 43
17 1 176 73 42 78 48 58 45
18 0 162 68 39 72 44 59 42
19 0 156 52 36 67 36 56 41
20 0 152 45 34 66 40 55 38
21 1 181 80 43 76 49 57 46
22 1 173 69 41 74 48 56 44
23 0 155 53 36 67 43 56 38
24 1 189 87 45 82 53 61 52
25 0 170 70 38 73 45 56 43
26 1 170 67 40 77 46.5 58 44.5
27 0 168 56 37.5 70.5 48 60 40
Tabla A.5: Datos MEDIFIS
MEDIFIS Este conjunto de datos contiene 28 observaciones de 8 variables. Las observa-
ciones cooresponde a estudiantes españoles y las variables a sus características físicas. Las
variables son: género (0 mujer, 1 hombre), estatura (en cm), peso (en Kgr), longitud de pie
(en cm.), longitud de brazo (en cm.), anchura de la espalda (en cm.), diámetro del cráneo
(en cm.), longitud entre la rodilla y el tobillo (en cm.).
Datos: tabla A.5
Fuente:Elaboración propia
512 APÉNDICE A. DATOS
DESARROLLO EN EL MUNDO
Tasa Nat. Tasa Mort. Mort.Inf Esp.Hom Esp.Muj. PNB
Albania 24,7 5,7 30,8 69,6 75,5 600
Bulgaria 12,5 11,9 14,4 68,3 74,7 2250
Checos. 13,4 11,7 11,3 71,8 77,7 2980
Hungria 11,6 13,4 14,8 65,4 73,8 2780
Polonia 14,3 10,2 16 67,2 75,7 1690
Rumania 13,6 10,7 26,9 66,5 72,4 1640
URSS 17,7 10 23 64,6 74 2242
Bielorrusia 15,2 9,5 13,1 66,4 75,9 1880
Ucrania 13,4 11,6 13 66,4 74,8 1320
Argentina 20,7 8,4 25,7 65,5 72,7 2370
Bolivia 46,6 18 111 51 55,4 630
Brasil 28,6 7,9 63 62,3 67,6 2680
Chile 23,4 5,8 17,1 68,1 75,1 1940
Colombia 27,4 6,1 40 63,4 69,2 1260
Ecuador 32,9 7,4 63 63,4 67,6 980
Guayana 28,3 7,3 56 60,4 66,1 330
Paraguay 34,8 6,6 42 64,4 68,5 1110
Perú 32,9 8,3 109,9 56,8 66,5 1160
Uruguay 18 9,6 21,9 68,4 74,9 2560
Venezuela 27,5 4,4 23,3 66,7 72,8 2560
Mexico 29 23,2 43 62,1 66 2490
Bélgica 12 10,6 7,9 70 76,8 15540
Finlandia 13,2 10,1 5,8 70,7 78,7 26040
Dinamarca 12,4 11,9 7,5 71,8 77,7 22080
Francia 13,6 9,4 7,4 72,3 80,5 19490
Alemania 11,4 11,2 7,4 71,8 78,4 22320
Grecia 10,1 9,2 11 65,4 74 5990
Irlanda 15,1 9,1 7,5 71 76,7 9550
Italia 9,7 9,1 8,8 72 78,6 16830
Paises Bajos 13,2 8,6 7,1 73,3 79,9 17320
Noruega 14,3 10,7 7,8 67,2 75,7 23120
Portugal 11,9 9,5 13,1 66,5 72,4 7600
España 10,7 8,2 8,1 72,5 78,6 11020
Suecia 14,5 11,1 5,6 74,2 80 23660
Suiza 12,5 9,5 7,1 73,9 80 34064
Reino Unido 13,6 11,5 8,4 72,2 77,9 16100
Austria 14,9 7,4 8 73,3 79,6 17000
Japon 9,9 6,7 4,5 75,9 81,8 25430
Canada 14,5 7,3 7,2 73 79,8 20470
MUNDODES (continúa)
513
Tasa Nat Tasa Mort Mort.Inf Esp.Hom Esp.Muj. PNB
EEUU 16,7 8,1 9,1 71,5 78,3 21790
Afganistan 40,4 18,7 181,6 41 42 168
Bahrein 28,4 3,8 16 66,8 69,4 6340
Iran 42,5 11,5 108,1 55,8 55 2490
Irak 42,6 7,8 69 63 64,8 3020
Israel 22,3 6,3 9,7 73,9 77,4 10920
Jordania 38,9 6,4 44 64,2 67,8 1240
Kuwait 26,8 2,2 15,6 71,2 75,4 16150
Oman 45,6 7,8 40 62,2 65,8 5220
Arabia Saudi 42,1 7,6 71 61,7 65,2 7050
Turkia 29,2 8,4 76 62,5 65,8 1630
Emiratos Arabes 22,8 3,8 26 68,6 72,9 19860
Bangladesh 42,2 15,5 119 56,9 56 210
China 21,2 6,7 32 68 70,9 380
Hong Kong 11,7 4,9 6,1 74,3 80,1 14210
India 30,5 10,2 91 52,5 52,1 350
Indonesia 28,6 9,4 75 58,5 62 570
Malasia 31,6 5,6 24 67,5 71,6 2320
Mongolia 36,1 8,8 68 60 62,5 110
Nepal 39,6 14,8 128 50,9 48,1 170
Pakistan 30,3 8,1 107,7 59 59,2 380
Filipinas 33,2 7,7 45 62,5 66,1 730
Singapur 17,8 5,2 7,5 68,7 74 11160
Srilanka 21,3 6,2 19,4 67,8 71,7 470
Tailandia 22,3 7,7 28 63,8 68,9 1420
Argelia 35,5 8,3 74 61,6 63,3 2060
Angola 47,2 20,2 137 42,9 46,1 610
Botswana 48,5 11,6 67 52,3 59,7 2040
Congo 46,1 14,6 73 50,1 55,3 1010
Egipto 38,8 9,5 49,4 57,8 60,3 600
Etiopia 48,6 20,7 137 42,4 45,6 120
Gabon 39,4 16,8 103 49,9 53,2 390
Gambia 47,4 21,4 143 41,4 44,6 260
Ghana 44,4 13,1 90 52,2 55,8 390
Kenya 47 11,3 72 56,5 60,5 370
Libia 44 9,4 82 59,1 62,6 5310
Malawi 48,3 25 130 38,1 41,2 200
Marruecos 35,5 9,8 82 59,1 62,5 960
MUNDODES (continúa)
514 APÉNDICE A. DATOS
Tasa Nat. Tasa Mort Mort.Inf Esp.Hom Esp.Muj. PNB
Mozambique 45 18,5 141 44,9 48,1 80
Namibia 44 12,1 135 55 57,5 1030
Nigeria 48,5 15,6 105 48,8 52,2 360
Sierra Leona 48,2 23,4 154 39,4 42,6 240
Somalia 50,1 20,2 132 43,4 46,6 120
Surafrica 32,1 9,9 72 57,5 63,5 2530
Sudan 44,6 15,8 108 48,6 51 480
Swaziland 46,8 12,5 118 42,9 49,5 810
Tunez 31,1 7,3 52 64,9 66,4 1440
Uganda 52,2 15,6 103 49,9 52,7 220
Tanzania 50,5 14 106 51,3 54,7 110
Zaire 45,6 14,2 83 50,3 53,7 220
Zambia 51,1 13,7 80 50,4 52,5 420
Zimbabwe 41,7 10,3 66 56,5 60,1 640
Tabla A.6: MUNDODES)
MUNDODES Este conjunto de datos consta de 91observaciones y 6 variables. Las ob-
servaciones corresponden a 91 países. Las variables son indicadores de desarrollo. Las seis
variables son :
Tasa Nat.: Ratio de natalidad por 1000 habitantes
Tasa Mort: Ratio de mortalidad por 1000 habitantes
Mort.Inf: Mortalidad infantil (por debajo de un año)
Esp.Hom: Esperanza de vida en hombres
Esp.Muj.: Esperanza de vida en mujeres
PNB: Producto Nacional Bruto per cápita
Datos: tabla A.6
Fuente: ”UNESCO 1990 Demographic Year Book” y de ”The Annual Register 1992”.
515
ACCIONES DE LA BOLSA DE MADRID
Obs. X1 X2 X3
1 3.4 89.7 30.2
2 5.1 55.7 9.9
3 4.5 52.3 11.5
4 3.5 47.0 11.2
5 5.9 42.7 7.0
6 5.1 30.6 6.9
7 4.6 64.4 11.8
8 5.0 51.0 9.6
9 3.2 54.4 14.7
10 3.4 45.7 13.2
11 6.5 39.9 5.2
12 4.4 40.3 13.7
13 5.1 52.4 11.0
14 5.8 43.9 8.0
15 4.6 52.8 14.4
16 7.2 65.8 7.8
17 7.2 58.1 7.7
Obs. X1 X2 X3
18 4.4 58.5 12.1
19 7.8 84.3 11.0
20 16.0 96.5 6.0
21 16.7 100.0 6.8
22 15.2 92.3 5.2
23 17.5 99.9 6.8
24 16.2 93.5 6.1
25 14.7 100.0 6.6
26 15.3 99.9 5.9
27 15.8 100.0 6.9
28 18.3 96.3 5.7
29 15.9 100.0 6.1
30 16.1 92.5 6.1
31 9.7 87.6 7.7
32 6.9 53.6 6.6
33 14.4 87.8 5.2
34 14.9 34.5 4.69
Tabla A.7: ACCIONES
ACCIONES Este conjunto de datos presenta 34 observaciones y 3 variables. Las obser-
vaciones corresponden a distintas acciones que cotizan en el mercado continuo español y las
variables a tres medidas de rentabilidad de estas acciones durante un período de tiempo.
Las variables son : X1 es la rentabilidad efectiva por dividendos, X2 es la proporción de
beneÞcios que va a dividendos y X3 el ratio entre precio por acción y beneÞcios.
Datos : Tabla A.7
Fuente: Elaboración propia

Más contenido relacionado

PPTX
PROGRAMACION LINEAL - METODO SIMPLEX
PPTX
Presentacion Algebra Lineal
DOCX
Coeficiente de asimetría de pearson
PPTX
Optimización de Sistemas y Funciones: Método de Lagrange
PPTX
Calculo Diferencial Sucesiones y Series
PDF
Solucionario ecuaciones2
PDF
Archivo con demostraciones de espacios vectoriales
PPTX
Metodo de newton raphson-ANTONIO ZEGARRA
PROGRAMACION LINEAL - METODO SIMPLEX
Presentacion Algebra Lineal
Coeficiente de asimetría de pearson
Optimización de Sistemas y Funciones: Método de Lagrange
Calculo Diferencial Sucesiones y Series
Solucionario ecuaciones2
Archivo con demostraciones de espacios vectoriales
Metodo de newton raphson-ANTONIO ZEGARRA

La actualidad más candente (20)

PPT
Gradientes aritméticos y geométricos
PDF
2do Trabajo de Matemática Aplicada II - Limites y continuidad en complejos - ...
PDF
Solucionario principios de Administración financiera 11 edición Gitman I
DOCX
Problemas de tarea trasporte
PDF
Tema 3: Métodos de Solución para Modelos de Programación Lineal
PDF
Deteccion de nuevas construcciones a partir de ortofotos icv
PPTX
Método simplex
PDF
Matlab teoria
PDF
Regresion por mínimos cuadrados
PPT
2 Semana Analisis Multivariante Parte I
PDF
1 distribucion binomial y sus momentos
PDF
Ecuaciones paramétricas
PDF
tabla-de-propiedades-del-logaritmo-potencias-y-raices
DOCX
Ejercicios resueltos y explicados (conjuntos ortogonales)
PDF
Distribución normal y t de student
PPTX
Teoría de la Estimación
PPT
1.3 Medidas De Tendencia Central
PDF
Ecuaciones diferenciales exactas
PPTX
MAPA MENTAL ESTIMACION
PDF
Gradientes aritméticos y geométricos
2do Trabajo de Matemática Aplicada II - Limites y continuidad en complejos - ...
Solucionario principios de Administración financiera 11 edición Gitman I
Problemas de tarea trasporte
Tema 3: Métodos de Solución para Modelos de Programación Lineal
Deteccion de nuevas construcciones a partir de ortofotos icv
Método simplex
Matlab teoria
Regresion por mínimos cuadrados
2 Semana Analisis Multivariante Parte I
1 distribucion binomial y sus momentos
Ecuaciones paramétricas
tabla-de-propiedades-del-logaritmo-potencias-y-raices
Ejercicios resueltos y explicados (conjuntos ortogonales)
Distribución normal y t de student
Teoría de la Estimación
1.3 Medidas De Tendencia Central
Ecuaciones diferenciales exactas
MAPA MENTAL ESTIMACION
Publicidad

Similar a Daniel peña análisis de datos multivariantes (20)

PDF
Metodos
PDF
Aa i modulo 4
PDF
Serie aprender a_investigar,_módulo_4_análisis_de_la_información
PDF
Serie aprender a investigar 4
PDF
EstadisticaIngenieros.pdf
PDF
Metodos de la fisica matematica
PDF
Calculo tensorial bueno
PDF
Algebra_Lineal (3) GABRIELA GERONIMO.pdf
PDF
notas de análisis numerico
PDF
Notas de algebra lineal
PDF
Algebra lineal
PDF
Algoritmos programacion-python
PDF
Algoritmos y programacion_i_-_con_lengua
PDF
METODOS M. DE LA FÍSICA. OSCAR REULA.pdf
PDF
Funciones cuadráticas
PDF
Guia_Analisis_Exp.pdf
PDF
Probabilidad y estadistica elementales
PDF
Documento completo _---matematica basica para agronomia
PDF
Introducción a la programación en C
PDF
Introducción a la programación en c
Metodos
Aa i modulo 4
Serie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a investigar 4
EstadisticaIngenieros.pdf
Metodos de la fisica matematica
Calculo tensorial bueno
Algebra_Lineal (3) GABRIELA GERONIMO.pdf
notas de análisis numerico
Notas de algebra lineal
Algebra lineal
Algoritmos programacion-python
Algoritmos y programacion_i_-_con_lengua
METODOS M. DE LA FÍSICA. OSCAR REULA.pdf
Funciones cuadráticas
Guia_Analisis_Exp.pdf
Probabilidad y estadistica elementales
Documento completo _---matematica basica para agronomia
Introducción a la programación en C
Introducción a la programación en c
Publicidad

Último (20)

DOC
Manual de Convivencia 2025 actualizado a las normas vigentes
PPTX
MATEMATICAS GEOMETRICA USO TRANSPORTADOR
PDF
La Formacion Universitaria en Nuevos Escenarios Ccesa007.pdf
DOC
4°_GRADO_-_SESIONES_DEL_11_AL_15_DE_AGOSTO.doc
PDF
2.0 Introduccion a processing, y como obtenerlo
PDF
La Inteligencia Emocional - Fabian Goleman TE4 Ccesa007.pdf
DOCX
PLAN DE AREA DE CIENCIAS SOCIALES TODOS LOS GRUPOS
PPTX
LAS MIGRACIONES E INVASIONES Y EL INICIO EDAD MEDIA
PDF
Como usar el Cerebro en las Aulas SG2 NARCEA Ccesa007.pdf
PDF
Mi Primer Millon - Poissant - Godefroy Ccesa007.pdf
PDF
Los hombres son de Marte - Las mujeres de Venus Ccesa007.pdf
PDF
MATERIAL DIDÁCTICO 2023 SELECCIÓN 1_REFORZAMIENTO 1° BIMESTRE_COM.pdf
DOCX
PLAN DE CASTELLANO 2021 actualizado a la normativa
PDF
Escuelas Desarmando una mirada subjetiva a la educación
PDF
EL aprendizaje adaptativo bajo STEM+H.pdf
PDF
TOMO II - LITERATURA.pd plusenmas ultras
PDF
Texto Digital Los Miserables - Victor Hugo Ccesa007.pdf
PPTX
Historia-Clinica-de-Emergencia-Obstetrica 1.10.pptx
PDF
Introducción a la historia de la filosofía
PDF
Los10 Mandamientos de la Actitud Mental Positiva Ccesa007.pdf
Manual de Convivencia 2025 actualizado a las normas vigentes
MATEMATICAS GEOMETRICA USO TRANSPORTADOR
La Formacion Universitaria en Nuevos Escenarios Ccesa007.pdf
4°_GRADO_-_SESIONES_DEL_11_AL_15_DE_AGOSTO.doc
2.0 Introduccion a processing, y como obtenerlo
La Inteligencia Emocional - Fabian Goleman TE4 Ccesa007.pdf
PLAN DE AREA DE CIENCIAS SOCIALES TODOS LOS GRUPOS
LAS MIGRACIONES E INVASIONES Y EL INICIO EDAD MEDIA
Como usar el Cerebro en las Aulas SG2 NARCEA Ccesa007.pdf
Mi Primer Millon - Poissant - Godefroy Ccesa007.pdf
Los hombres son de Marte - Las mujeres de Venus Ccesa007.pdf
MATERIAL DIDÁCTICO 2023 SELECCIÓN 1_REFORZAMIENTO 1° BIMESTRE_COM.pdf
PLAN DE CASTELLANO 2021 actualizado a la normativa
Escuelas Desarmando una mirada subjetiva a la educación
EL aprendizaje adaptativo bajo STEM+H.pdf
TOMO II - LITERATURA.pd plusenmas ultras
Texto Digital Los Miserables - Victor Hugo Ccesa007.pdf
Historia-Clinica-de-Emergencia-Obstetrica 1.10.pptx
Introducción a la historia de la filosofía
Los10 Mandamientos de la Actitud Mental Positiva Ccesa007.pdf

Daniel peña análisis de datos multivariantes

  • 1. ANÁLISIS DE DATOS MULTIVARIANTES Daniel Peña 23 de enero de 2002
  • 2. 2
  • 3. Índice General 0.1 Prefacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1 INTRODUCCIÓN 13 1.1 EL ANÁLISIS DE DATOS MULTIVARIANTES . . . . . . . . . . . . . . . 13 1.2 ESTRUCTURA DEL LIBRO . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3 PROGRAMAS DE ORDENADOR . . . . . . . . . . . . . . . . . . . . . . . 18 1.4 UN POCO DE HISTORIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.5 LECTURAS COMPLEMENTARIAS . . . . . . . . . . . . . . . . . . . . . . 21 2 ÁLGEBRA MATRICIAL 23 2.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.2 VECTORES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.2.1 DeÞniciones básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2.2 Dependencia Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3 MATRICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3.1 DeÞniciones básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.3.2 Productos entre matrices . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.3.3 Rango de una matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.3.4 Matrices Cuadradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.3.5 Matrices Particionadas . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.4 VECTORES Y VALORES PROPIOS . . . . . . . . . . . . . . . . . . . . . . 46 2.4.1 DeÞnición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.4.2 Valores y vectores propios de matrices simétricas . . . . . . . . . . . 49 2.4.3 Diagonalización de Matrices Simétricas . . . . . . . . . . . . . . . . . 52 2.4.4 Raiz cuadrada de una matriz semideÞnida positiva . . . . . . . . . . 54 2.4.5 Descomposición en valores singulares . . . . . . . . . . . . . . . . . . 56 2.4.6 (*)Diagonalización de Matrices generales . . . . . . . . . . . . . . . . 56 2.4.7 (*)Inversas Generalizadas . . . . . . . . . . . . . . . . . . . . . . . . 57 2.5 (*)PROYECCIÓN ORTOGONAL . . . . . . . . . . . . . . . . . . . . . . . 58 2.5.1 Matrices Idempotentes . . . . . . . . . . . . . . . . . . . . . . . . . . 58 2.5.2 Proyección Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 2.6 (*)DERIVADAS MATRICIALES . . . . . . . . . . . . . . . . . . . . . . . . 64 3
  • 4. 4 ÍNDICE GENERAL 3 DESCRIPCIÓN DE DATOS MULTIVARIANTES 67 3.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.2 DATOS MULTIVARIANTES . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.2.1 Tipos de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.2.2 La matriz de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.2.3 Análisis univariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.3 MEDIDAS DE CENTRALIZACIÓN: EL VECTOR DE MEDIAS . . . . . . 72 3.4 LA MATRIZ DE VARIANZAS Y COVARIANZAS . . . . . . . . . . . . . . 74 3.4.1 Cálculo a partir de la matriz de datos centrados . . . . . . . . . . . . 75 3.4.2 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.4.3 Variables redundantes: El caso con Matriz S singular . . . . . . . . . 80 3.5 MEDIDAS GLOBALES DE VARIABILIDAD . . . . . . . . . . . . . . . . . 83 3.5.1 La variabilidad total y la varianza promedio . . . . . . . . . . . . . . 83 3.5.2 La Varianza Generalizada . . . . . . . . . . . . . . . . . . . . . . . . 83 3.5.3 La variabilidad promedio . . . . . . . . . . . . . . . . . . . . . . . . 85 3.6 VARIABILIDAD Y DISTANCIAS . . . . . . . . . . . . . . . . . . . . . . . 86 3.6.1 El concepto de distancia . . . . . . . . . . . . . . . . . . . . . . . . . 86 3.6.2 La Distancia de Mahalanobis . . . . . . . . . . . . . . . . . . . . . . 88 3.6.3 La distancia promedio . . . . . . . . . . . . . . . . . . . . . . . . . . 89 3.7 MEDIDAS DE DEPENDENCIA LINEAL . . . . . . . . . . . . . . . . . . . 91 3.7.1 Dependencia por pares: La matriz de correlación . . . . . . . . . . . 91 3.7.2 Dependencia de cada variable y el resto: Regresión Múltiple . . . . . 92 3.7.3 Dependencia directa entre pares: Correlaciones parciales . . . . . . . 95 3.7.4 El coeÞciente de Dependencia . . . . . . . . . . . . . . . . . . . . . . 96 3.8 La matriz de precisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.9 COEFICIENTES DE ASIMETRÍA Y KURTOSIS . . . . . . . . . . . . . . . 99 4 ANALISIS GRAFICO Y DATOS ATIPICOS 107 4.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.2 REPRESENTACIONES GRÁFICAS . . . . . . . . . . . . . . . . . . . . . . 107 4.2.1 Histogramas y diagramas de dispersión . . . . . . . . . . . . . . . . . 107 4.2.2 Representación mediante Þguras . . . . . . . . . . . . . . . . . . . . . 111 4.2.3 (*)Representación de Proyecciones . . . . . . . . . . . . . . . . . . . 112 4.3 TRANSFORMACIONES LINEALES . . . . . . . . . . . . . . . . . . . . . . 114 4.3.1 Consecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.3.2 Estandarización univariante . . . . . . . . . . . . . . . . . . . . . . . 115 4.3.3 (*)Estandarización multivariante . . . . . . . . . . . . . . . . . . . . 115 4.4 TRANSFORMACIONES NO LINEALES . . . . . . . . . . . . . . . . . . . 117 4.4.1 Simplicidad en las distribuciones . . . . . . . . . . . . . . . . . . . . 117 4.4.2 Simplicidad en las relaciones . . . . . . . . . . . . . . . . . . . . . . . 119 4.5 DATOS ATÍPICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 4.5.1 DeÞnición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 4.5.2 Los efectos de los atípicos . . . . . . . . . . . . . . . . . . . . . . . . 121 4.5.3 (*)IdentiÞcación de grupos de atípicos . . . . . . . . . . . . . . . . . 122
  • 5. ÍNDICE GENERAL 5 4.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 5 COMPONENTES PRINCIPALES 137 5.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 5.2 PLANTEAMIENTO DEL PROBLEMA . . . . . . . . . . . . . . . . . . . . 138 5.3 CALCULO DE LOS COMPONENTES . . . . . . . . . . . . . . . . . . . . . 141 5.3.1 Cálculo del primer componente . . . . . . . . . . . . . . . . . . . . . 141 5.3.2 Cálculo del segundo componente . . . . . . . . . . . . . . . . . . . . . 144 5.3.3 Generalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 5.4 PROPIEDADES DE LOS COMPONENTES . . . . . . . . . . . . . . . . . . 149 5.5 ANÁLISIS NORMADO O CON CORRELACIONES . . . . . . . . . . . . . 151 5.6 INTERPRETACIÓN DE LOS COMPONENTES . . . . . . . . . . . . . . . 155 5.6.1 Selección del número de componentes . . . . . . . . . . . . . . . . . . 158 5.6.2 Representación gráÞca . . . . . . . . . . . . . . . . . . . . . . . . . . 159 5.6.3 Datos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 5.6.4 Distribución de los componentes . . . . . . . . . . . . . . . . . . . . . 163 5.7 Generalizaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 5.8 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 6 ESCALADO MULTIDIMENSIONAL 179 6.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 6.2 ESCALADOS MÉTRICOS: COORDENADAS PRINCIPALES . . . . . . . 180 6.2.1 Construcción de variables a partir de las distancias . . . . . . . . . . 180 6.3 Matrices compatibles con métricas euclídeas . . . . . . . . . . . . . . . . . . 183 6.3.1 Construcción de las Coordenadas Principales . . . . . . . . . . . . . . 186 6.4 RELACIÓN ENTRE COORDENADAS Y COMPONENTES PRINCIPALES 189 6.5 BIPLOTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 6.6 ESCALADO NO MÉTRICO . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 6.7 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 7 ANÁLISIS DE CORRESPONDENCIAS 201 7.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 7.2 BÚSQUEDA DE LA MEJOR PROYECCIÓN . . . . . . . . . . . . . . . . . 202 7.2.1 Proyección de las Filas . . . . . . . . . . . . . . . . . . . . . . . . . . 203 7.2.2 Proyección de las columnas . . . . . . . . . . . . . . . . . . . . . . . 210 7.2.3 Análisis Conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 7.3 LA DISTANCIA JI-CUADRADO . . . . . . . . . . . . . . . . . . . . . . . . 214 7.4 ASIGNACIÓN DE PUNTUACIONES . . . . . . . . . . . . . . . . . . . . . 220 7.5 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 8 ANÁLISIS DE CONGLOMERADOS 227 8.1 FUNDAMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 8.2 MÉTODOS CLÁSICOS DE PARTICIÓN . . . . . . . . . . . . . . . . . . . 228 8.2.1 Fundamentos del algoritmo de k-medias . . . . . . . . . . . . . . . . 228 8.2.2 Implementación del algoritmo . . . . . . . . . . . . . . . . . . . . . . 228
  • 6. 6 ÍNDICE GENERAL 8.2.3 Número de grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 8.3 MÉTODOS JERÁRQUICOS . . . . . . . . . . . . . . . . . . . . . . . . . . 240 8.3.1 Distancias y Similaridades . . . . . . . . . . . . . . . . . . . . . . . . 240 8.3.2 Algoritmos Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . 244 8.3.3 Métodos Aglomerativos . . . . . . . . . . . . . . . . . . . . . . . . . . 244 8.4 CONGLOMERADOS POR VARIABLES . . . . . . . . . . . . . . . . . . . 252 8.4.1 Medidas de distancia y similitud entre variables . . . . . . . . . . . . 252 8.5 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 9 DISTRIBUCIONES MULTIVARIANTES 257 9.1 CONCEPTOS BÁSICOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 9.1.1 Variables aleatorias vectoriales. . . . . . . . . . . . . . . . . . . . . . 257 9.1.2 Distribución conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . 258 9.1.3 Distribuciones marginales y condicionadas . . . . . . . . . . . . . . . 259 9.1.4 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 9.1.5 La maldición de la dimensión . . . . . . . . . . . . . . . . . . . . . . 262 9.2 PROPIEDADES DE VARIABLES VECTORIALES . . . . . . . . . . . . . . 263 9.2.1 Vector de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 9.2.2 Esperanza de una función . . . . . . . . . . . . . . . . . . . . . . . . 264 9.2.3 Matriz de varianzas y covarianzas . . . . . . . . . . . . . . . . . . . . 264 9.2.4 Transformaciones de vectores aleatorios. . . . . . . . . . . . . . . . . 265 9.2.5 Esperanzas de transformaciones lineales . . . . . . . . . . . . . . . . . 266 9.3 Dependencia entre variables aleatorias . . . . . . . . . . . . . . . . . . . . . 267 9.3.1 Esperanzas condicionadas . . . . . . . . . . . . . . . . . . . . . . . . 267 9.3.2 Varianzas condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 268 9.3.3 Matriz de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 9.3.4 Correlaciones Múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . 270 9.3.5 Correlaciones Parciales . . . . . . . . . . . . . . . . . . . . . . . . . . 270 9.4 LA DISTRIBUCIÓN MULTINOMIAL . . . . . . . . . . . . . . . . . . . . . 271 9.5 LA DISTRIBUCIÓN DE DIRICHLET . . . . . . . . . . . . . . . . . . . . . 273 9.6 LA NORMAL k-DIMENSIONAL . . . . . . . . . . . . . . . . . . . . . . . . 274 9.6.1 Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . . 277 9.7 DISTRIBUCIONES ELÍPTICAS . . . . . . . . . . . . . . . . . . . . . . . . 281 9.7.1 Distribuciones esféricas . . . . . . . . . . . . . . . . . . . . . . . . . . 281 9.7.2 Distribuciones elípticas . . . . . . . . . . . . . . . . . . . . . . . . . 282 9.8 (*)LA DISTRIBUCIÓN DE WISHART . . . . . . . . . . . . . . . . . . . . . 283 9.8.1 Concepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 9.8.2 Propiedades de la distribución . . . . . . . . . . . . . . . . . . . . . . 285 9.9 LA T2 DE HOTELLING . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 9.10 DISTRIBUCIONES MEZCLADAS . . . . . . . . . . . . . . . . . . . . . . . 288 9.11 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
  • 7. ÍNDICE GENERAL 7 10 INFERENCIA CON DATOS MULTIVARIANTES 295 10.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 10.2 Fundamentos de la Estimación Máximo Verosimil . . . . . . . . . . . . . . . 295 10.3 Estimación de los parámetros de variables normales p-dimensionales. . . . . 297 10.4 El método de la razón de verosimilitudes . . . . . . . . . . . . . . . . . . . . 299 10.5 Contraste sobre la media de una población normal . . . . . . . . . . . . . . . 301 10.6 Contrastes sobre la matriz de varianzas de una población normal . . . . . . . 303 10.6.1 Contraste de un valor particular . . . . . . . . . . . . . . . . . . . . . 304 10.6.2 Contraste de independencia . . . . . . . . . . . . . . . . . . . . . . . 305 10.6.3 Contraste de esfericidad . . . . . . . . . . . . . . . . . . . . . . . . . 305 10.6.4 (*)Contraste de esfericidad parcial . . . . . . . . . . . . . . . . . . . . 306 10.6.5 Ajustes en la distribución . . . . . . . . . . . . . . . . . . . . . . . . 307 10.7 Contraste de igualdad de varias medias: el Análisis de la Varianza Multivariante307 10.8 Contrastes de datos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 10.9 Contrastes de Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 10.9.1 Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 10.10Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 11 METODOS DE INFERENCIA AVANZADA MULTIVARIANTE 321 11.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 11.2 ESTIMACIÓN MV CON DATOS FALTANTES . . . . . . . . . . . . . . . . 322 11.2.1 Estimación MV con el algoritmo EM . . . . . . . . . . . . . . . . . . 323 11.2.2 Estimación MV de mezclas . . . . . . . . . . . . . . . . . . . . . . . . 325 11.2.3 Estimación de poblaciones normales con datos ausentes . . . . . . . . 331 11.3 ESTIMACIÓN ROBUSTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 11.4 ESTIMACIÓN BAYESIANA . . . . . . . . . . . . . . . . . . . . . . . . . . 337 11.4.1 Concepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337 11.4.2 Distribuciones a priori . . . . . . . . . . . . . . . . . . . . . . . . . . 339 11.4.3 Cálculo de la Posterior . . . . . . . . . . . . . . . . . . . . . . . . . . 340 11.4.4 Estimación Bayesiana de referencia en el modelo normal . . . . . . . 341 11.4.5 Estimación con información a priori . . . . . . . . . . . . . . . . . . . 342 11.5 CONTRASTES BAYESIANOS . . . . . . . . . . . . . . . . . . . . . . . . . 344 11.5.1 Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 11.5.2 Comparación entre los contraste bayesianos y los clásicos . . . . . . . 346 11.6 Selección de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346 11.6.1 El Criterio de Akaike . . . . . . . . . . . . . . . . . . . . . . . . . . . 346 11.6.2 El criterio BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 11.6.3 Relación entre el BIC y EL AIC . . . . . . . . . . . . . . . . . . . . . 350 11.7 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 12 ANÁLISIS FACTORIAL 355 12.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 12.2 EL MODELO FACTORIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 12.2.1 Hipótesis básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
  • 8. 8 ÍNDICE GENERAL 12.2.2 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 12.2.3 Unicidad del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 358 12.2.4 Normalización del modelo factorial . . . . . . . . . . . . . . . . . . . 360 12.2.5 Número máximo de factores . . . . . . . . . . . . . . . . . . . . . . . 361 12.3 EL MÉTODO DEL FACTOR PRINCIPAL . . . . . . . . . . . . . . . . . . 362 12.3.1 Estimación de las comunalidades . . . . . . . . . . . . . . . . . . . . 363 12.3.2 Generalizaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368 12.4 ESTIMACIÓN MÁXIMO VEROSÍMIL . . . . . . . . . . . . . . . . . . . . . 370 12.4.1 Estimación MV de los parámetros . . . . . . . . . . . . . . . . . . . . 370 12.4.2 Otros métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . 372 12.5 DETERMINACIÓN DEL NÚMERO DE FACTORES . . . . . . . . . . . . 374 12.5.1 Contraste de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . 374 12.5.2 Criterios de selección . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 12.6 ROTACIÓN DE LOS FACTORES . . . . . . . . . . . . . . . . . . . . . . . 379 12.7 ESTIMACIÓN DE LOS FACTORES . . . . . . . . . . . . . . . . . . . . . . 381 12.7.1 Los factores como parámetros . . . . . . . . . . . . . . . . . . . . . . 381 12.7.2 Los factores como variables aleatorias . . . . . . . . . . . . . . . . . . 382 12.8 DIAGNOSIS DEL MODELO . . . . . . . . . . . . . . . . . . . . . . . . . . 383 12.9 Análisis Factorial ConÞrmatorio . . . . . . . . . . . . . . . . . . . . . . . . . 386 12.10Relación con componentes principales . . . . . . . . . . . . . . . . . . . . . . 388 12.11Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389 13 ANÁLISIS DISCRIMINANTE 397 13.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397 13.2 CLASIFICACIÓN ENTRE DOS POBLACIONES . . . . . . . . . . . . . . . 398 13.2.1 Planteamiento del Problema . . . . . . . . . . . . . . . . . . . . . . . 398 13.2.2 Poblaciones Normales: Función lineal discriminante . . . . . . . . . . 401 13.2.3 Interpretación Geométrica . . . . . . . . . . . . . . . . . . . . . . . . 402 13.2.4 Cálculo de Probabilidades de error . . . . . . . . . . . . . . . . . . . 405 13.2.5 Probabilidades a posteriori . . . . . . . . . . . . . . . . . . . . . . . . 406 13.3 GENERALIZACIÓN PARA VARIAS POBLACIONES NORMALES . . . . 407 13.3.1 Planteamiento General . . . . . . . . . . . . . . . . . . . . . . . . . . 407 13.3.2 Procedimiento operativo . . . . . . . . . . . . . . . . . . . . . . . . . 409 13.4 POBLACIONES DESCONOCIDAS. CASO GENERAL . . . . . . . . . . . 412 13.4.1 Regla estimada de clasiÞcación . . . . . . . . . . . . . . . . . . . . . 412 13.4.2 Cálculo de Probabilidades de error . . . . . . . . . . . . . . . . . . . 414 13.5 VARIABLES CANÓNICAS DISCRIMINANTES . . . . . . . . . . . . . . . 415 13.5.1 El caso de dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . 415 13.5.2 Varios Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 13.5.3 Variables canónicas discriminantes . . . . . . . . . . . . . . . . . . . 420 13.6 DISCRIMINACIÓN CUADRÁTICA. DISCRIMINACIÓN DE POBLACIONES NO NORMALES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424 13.7 DISCRIMINACIÓN BAYESIANA . . . . . . . . . . . . . . . . . . . . . . . 427 13.8 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
  • 9. ÍNDICE GENERAL 9 14 DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFI- CACIÓN 433 14.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433 14.2 EL MODELO LOGIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434 14.2.1 Modelos con respuesta cualitativa . . . . . . . . . . . . . . . . . . . . 434 14.2.2 El modelo logit con datos normales . . . . . . . . . . . . . . . . . . . 436 14.2.3 Interpretación del Modelo Logístico . . . . . . . . . . . . . . . . . . . 437 14.3 LA ESTIMACIÓN DEL MODELO LOGIT . . . . . . . . . . . . . . . . . . 438 14.3.1 Estimación MV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438 14.3.2 Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442 14.3.3 Diagnosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445 14.4 EL MODELO MULTILOGIT . . . . . . . . . . . . . . . . . . . . . . . . . . 445 14.5 OTROS MÉTODOS DE CLASIFICACIÓN . . . . . . . . . . . . . . . . . . 446 14.5.1 Árboles de ClasiÞcación . . . . . . . . . . . . . . . . . . . . . . . . . 446 14.5.2 Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449 14.5.3 Métodos no Paramétricos . . . . . . . . . . . . . . . . . . . . . . . . 452 14.5.4 Otros Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454 14.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 15 CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES 457 15.1 FUNDAMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457 15.2 EL METODO de K-MEDIAS para mezclas . . . . . . . . . . . . . . . . . . 458 15.2.1 Número de grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 15.3 ESTIMACIÓN DE MEZCLAS DE NORMALES . . . . . . . . . . . . . . . 464 15.3.1 Las ecuaciones de máxima verosimilitud para la mezcla . . . . . . . . 464 15.3.2 Resolución mediante el algoritmo EM . . . . . . . . . . . . . . . . . . 466 15.3.3 Aplicación al análisis de conglomerados . . . . . . . . . . . . . . . . . 468 15.4 MÉTODOS BAYESIANOS . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 15.4.1 Estimación Bayesiana de Mezclas de Normales . . . . . . . . . . . . . 470 15.5 MÉTODOS DE PROYECCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . 472 15.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 16 CORRELACIÓN CANÓNICA 477 16.1 INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477 16.2 Construcción de las variables canónicas . . . . . . . . . . . . . . . . . . . . . 478 16.2.1 La primera variable canónica . . . . . . . . . . . . . . . . . . . . . . . 478 16.3 Las r variables canónicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481 16.3.1 Propiedades de las variables y correlaciones canónicas . . . . . . . . . 482 16.4 ANÁLISIS MUESTRAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483 16.5 INTERPRETACIÓN GEOMÉTRICA . . . . . . . . . . . . . . . . . . . . . 487 16.6 CONTRASTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488 16.7 EXTENSIONES A MÁS DE DOS GRUPOS . . . . . . . . . . . . . . . . . . 490 16.8 RELACIÓN CON OTRAS TÉCNICAS ESTUDIADAS . . . . . . . . . . . . 491 16.9 ANÁLISIS CANÓNICO ASIMÉTRICO . . . . . . . . . . . . . . . . . . . . 492
  • 10. 10 ÍNDICE GENERAL 16.9.1 CoeÞcientes de redundancia . . . . . . . . . . . . . . . . . . . . . . . 493 16.9.2 Análisis canónico asimétrico . . . . . . . . . . . . . . . . . . . . . . . 494 16.10Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495 A Datos 505 0.1 Prefacio El crecimiento de los ordenadores y la facilidad de adquirir y procesar grandes bancos de datos en todas las ciencias ha estimulado el desarrollo y utilización del análisis estadístico multivariante en muchas disciplinas. En las Ciencias Económicas y empresariales los métodos estadísticos multivariantes se utilizan para cuantiÞcar el desarrollo de un país, determinar las dimensiones existentes entre ingresos y gastos familiares, comprender el comportamiento de los consumidores y medir la calidad de productos y servicios. En Ingeniería para diseñar máquinas inteligentes que reconozcan formas o caracteres, para construir clasiÞcadores que aprendan interactivamente con el entorno y para establecer sistemas de control de procesos. En Ciencias de la computación para desarrollar sistemas de inteligencia artiÞcial. En Medi- cina para construir procedimientos automáticos de ayuda al diagnóstico. En Psicología para interpretar los resultados de pruebas de aptitudes. En Sociología y Ciencia Política para el análisis de encuestas de actitudes y opiniones sociales y políticas. Este libro presenta las técnicas actuales más utilizadas del Análisis multivariante. Su contenido se ha seleccionado para que pueda ser útil a distintos tipos de audiencias, pero esta especialmente orientado como texto en un curso orientado a las aplicaciones pero donde se desee proporcionar al estudiante los fundamentos de las herramientas presentadas de manera que se facilite su utilización inteligente conociendo sus posibilidades y limitaciones. Para conseguir este objetivo, el libro incluye numerosos ejemplos de aplicación de la técnicas, pero también presenta con cierto detalle los fundamentos estadísticos de las técnicas expuestas. En la exposición se ha procurado prescindir de los detalles técnicos que tienen más interés para especialistas, y este material se ha presentado en los apéndices y en los ejercicios al Þnal de cada capítulo. Por otro lado, se recomienda que los estudiantes realizen un proyecto donde apliquen los métodos estudiados a sus propios datos, para que adquieran la experiencia práctica que les permitirá utilizarlos después con éxito en su trabajo profesional. Este libro ha tenido una largo período de gestación. Mi interés por el Análisis Multivari- ante se lo debo a Rafael Romero, Catedrático en la Universidad Politécnica de Valencia y excelente profesor, de quien aprendí, a Þnales de los años 70, la potencia de estos métodos como herramientas de investigación empírica y su inmenso campo de aplicación. La primera versión de este libro tenía la mitad del tamaño actual y se redactó por primera vez a Þnales de los años 80 para un curso de Doctorado en la Universidad Politécnica de Madrid. Desde entonces, cada año el manuscrito ha ido sufrido revisiones y ampliaciones, fruto de su uso como notas de clase en varias universidades, y especialmente en la Universidad Carlos III de Madrid. Estoy agradecido a mis estudiantes del curso de doctorado sobre análisis multivari- ante que han sugerido muchas mejoras y detectado errores y erratas de versiones anteriores. En esa labor estoy especialmente en deuda con Ana Justel, Juan Antonio Gil, Juan Carlos
  • 11. 0.1. PREFACIO 11 Ibañez, Mónica Benito, Pilar Barrios, Pedro Galeano y Rebeca Albacete, por sus numerosas sugerencias y cuidadosa lectura de versiones anteriores de estos capítulos. He tenido también la fortuna de contar con excelentes comentarios de mis colegas Carlos Cuadras, Javier Girón, Jorge Martinez, Alberto Muñoz, Rosario Romera, Juan Romo, Santiago Velilla, George Tiao, Victor Yohai y Rubén Zamar, que me han ayudado a mejorar el texto en muchos aspectos. El libro incorpora resultados recientes, fruto de investigaciones conjuntas con Javier Prieto y Julio Rodriguez, con los que ha sido un placer trabajar y de los que ha aprendido mu- cho. Además, Julio Rodriguez, me ha ayudado en la preparación de muchos de los ejemplos y ha leído y comentado sucesivas versiones del manuscrito encontrando siempre formas de mejorarlo.
  • 13. Capítulo 1 INTRODUCCIÓN 1.1 EL ANÁLISIS DE DATOS MULTIVARIANTES Describir cualquier situación real, por ejemplo, las características físicas de una persona, la situación política en un país, las propiedades de una imagen, el rendimiento de un proceso, la calidad de una obra de arte o las motivaciones del comprador de un producto, requiere tener en cuenta simultáneamente varias variables. Para describir las características físicas de una persona podemos utilizar variables como su estatura, su peso, la longitud de sus brazos y de sus piernas, etc. Para describir la situación política de un país, variables como la existencia o no de un régimen democrático, el grado de participación política de los ciudadanos, el número de partidos y sus aÞliados, etc. El análisis de datos multivariantes tienen por objeto el estudio estadístico de varias variables medidas en elementos de una población. Pretende los siguientes objetivos. 1. Resumir el conjunto de variables en una pocas nuevas variables, construidas como transformaciones de las originales, con la mínima pérdida de información. 2. Encontrar grupos en los datos si existen. 3. ClasiÞcar nuevas observaciones en grupos deÞnidos. 4. Relacionar dos conjuntos de variables. Vamos a explicar estos objetivos. El lector habrá encontrado que la descripción de una realidad compleja donde existen muchas variables se simpliÞca mediante la construccíon de uno o varios índices o indicadores que la resumen. Por ejemplo, el crecimiento de los precios en una economía se resume en un índice de precios, la calidad de una universidad o de un departamento se resume en unos pocos indicadores y las dimensiones del cuerpo humano se resumen en la ropa de confección en unas pocas variables indicadoras del conjunto. Disponer de estas indicadores tiene varias ventajas: (1) si son pocas podemos representarlas gráÞca- mente y comparar distintos conjuntos de datos o instantes en el tiempo; (2) simpliÞcan el análisis al permitir trabajar con un número menor de variables; (3) si las variables indicado- ras pueden interpretarse, podemos mejorar nuestro conocimiento de la realidad estudiada. El análisis multivariante de datos proporciona métodos objetivos para conocer cuántas vari- ables indicadoras, que a veces se denomina factores, son necesarias para describir una realidad compleja y determinar su estructura. El segundo objetivo es identiÞcar grupos si existen. Si observamos un conjunto de vari- 13
  • 14. 14 CAPÍTULO 1. INTRODUCCIÓN ables en empresas, esperamos los datos indiquen una división de las empresas en grupos en función de su rentabilidad, su eÞcacia comercial o su estructura productiva. En muchas situaciones los grupos son desconocidos a priori y queremos disponer de un procedimien- to objetivo para obtener los grupos existentes y clasiÞcar las observaciones. Por ejemplo, deseamos construir una tipología de clientes, de votantes o de procesos productivos. Un tercer objetivo relacionado con el anterior aparece cuando los grupos están bien deÞnidos a priori y queremos clasiÞcar nuevas observaciones. Por ejemplo, queremos clasiÞcar a clientes que solicitan créditos como Þables o no, personas como enfermas o no, o diseñar una máquina que clasiÞque monedas o billetes en clases preÞjadas. Para alcanzar estos tres objetivos una herramienta importante es entender la estructura de dependencia entre las variables, ya que las relaciones entre las variables son las que permiten resumirlas en variables indicadoras, encontrar grupos no aparentes por las variables individuales o clasiÞcar en casos complejos. Un problema distinto es relacionar dos conjuntos de variables. Por ejemplo, podemos disponer de un conjunto de variables de capacidad intelectual y otros de resultados profesionales y queremos relacionar ambos conjuntos de variables. En particular, los dos grupos de variables pueden corresponder a las mismas variables medidas en dos momentos distintos en el tiempo o en el espacio y queremos ver la relación entre ambos conjuntos. Las técnicas de análisis multivariante tienen aplicaciones en todos los campos cientíÞcos y comenzaron desarrollándose para resolver problemas de clasiÞcación en Biología, se ex- tendieron para encontrar variables indicadoras y factores en Psicometría, Marketing y las Ciencias sociales y han alcanzado una gran aplicación en Ingeniería y Ciencias de la com- putación como herramientas para resumir la información y diseñar sistemas de clasiÞcación automática y de reconocimiento de patrones. Algunos ejemplos indicativos de sus aplica- ciones en distintas disciplinas, muchos de los cuales serán objeto de análisis detallado en este libro, son: Administración de Empresas: Construir tipologías de clientes. Agricultura: ClasiÞcar terrenos de cultivo por fotos aéreas. Arqueología: ClasiÞcar restos arqueológicos. Biometría: Identicar los factores que determinan la forma de un organismo vivo. Ciencias de la Computación: Diseñar algoritmos de clasiÞcación automática. Ciencias de la Educación: Investigar la efectividad del aprendizaje a distancia. Ciencias del medio ambiente: Investigar las dimensiones de la contaminación ambiental. Documentación: ClasiÞcar revistas por sus artículos y construir indicadores bibliométri- cos. Economía: IdentiÞcar las dimensiones del desarrollo económico. Geología: ClasiÞcar sedimentos. Historia: Determinar la importancia relativa de los factores que caracterizan los periodos prerevolucionarios. Ingeniería: Transmitir óptimamente señales por canales digitales. Lingüística: Encontrar patrones de asociación de palabras. Medicina: IdentiÞcar tumores mediante imágenes digitales. Psicología: Determinar los factores que componen la inteligencia humana Sociología y Ciencia Política: Consstruir tipologías de los votantes de un partido.
  • 15. 1.2. ESTRUCTURA DEL LIBRO 15 Algunas de esas aplicaciones han tenido una repercusión importante en la evolución del análisis mutivariante, como veremos en la sección 1.4. 1.2 ESTRUCTURA DEL LIBRO Los datos de partida para un análisis multivariante están habitualmente en una tabla de dos o mas dimensiones y para trabajar con ellos es muy conveniente considerar la tabla como una o varias matrices. El capítulo 2 presenta los fundamentos matemáticos de álgebra lineal que son necesarios para trabajar con matrices y entender sus propiedades. Este capítulo está diseñado de forma instrumental para proporcionar los conceptos básicos y las técnicas necesarias para los análisis estadísticos presentados en los capítulos posteriores. El análisis multivariante pude plantearse a dos niveles. En el primero, el objetivo es utilizar sólo los datos disponibles y extraer la información que contienen. Los métodos encaminados a este objetivo se conocen como métodos de exploración de datos, y se presentan en la primera parte del libro que cubre los capítulos 3 al 8. A un nivel más avanzado, se pretende obtener conclusiones sobre la población que ha generado los datos, lo que requiere la construcción de un modelo que explique su generación y permita prever lo datos futuros. En este segundo nivel hemos generado conocimiento sobre el problema que va más allá del análisis particular de los datos disponibles. Los métodos encaminados a este objetivo se conocen como métodos de inferencia, y se presentan en la segunda parte del libro, capítulos 9 al 16 . El primer paso en la descripción de datos multivariantes es describir cada variable y comprender la estructura de dependencia que existe entre ellas. Este análisis se presenta en el capítulo 3. Siempre que sea posible conviene utilizar técnicas gráÞcas para resumir y representar la información contenida en los datos, y analizar la forma de medir las variables para obtener una representación lo más simple posible. Estos problemas se estudian en el capítulo 4. Estos dos capítulos extienden al caso multivariante la descripción habitual de datos estadísticos estudiada en los textos básicos de Estadística. El problema de resumir o condensar la información de un conjunto de variables se abor- da, desde el punto de vista descriptivo, construyendo una nuevas variables indicadoras que sinteticen la información contenida en las variables originales. Existen distintos métodos ex- ploratorios para conseguir este objetivo. Con variables continuas, el método más utilizado se conoce como componentes principales, y se estudia en el capítulo 5. Los componentes prin- cipales nos indican las dimensiones necesarias para representar adecuadamente los datos. Con ellos podemos hacer gráÞcos de los datos en pocas dimensiones, con mínima pérdida de información, para entender su estructura subyacente. El análisis de componentes principales puede generalizarse en dos direcciones: la primera cuando los datos disponibles no corresponden a variables sino a similitudes o semejanzas entre elementos. Interesa entonces investigar cuantas dimensiones tienen estas similitudes, este es el objetivo de las escalas multidimensionales, que se estudian en el capítulo 6. La segunda generalización de componentes principales es para datos cualitativos, que se presentan en una tabla de contingencia, y esto conduce al análisis de correspondencias, que se presenta en el capítulo 7. Esta técnica permite además cuantiÞcar de forma objetiva atributos cualitativos.
  • 16. 16 CAPÍTULO 1. INTRODUCCIÓN El problema descriptivo de investigar si los elementos de nuestra muestra forman un grupo homogéneo o no, y, en caso de que existan varios grupos de datos identicar que elementos pertenecen a cada uno, se aborda con las herramientas de métodos de agrupamiento (cluster methods en inglés). Por ejemplo, supongamos que tenemos una encuesta de los gastos en los hogares españoles. Podemos encontrar que, de manera natural, la estructura de gastos es distinta en los hogares unipersonales que en los que conviven adultos con niños pequeños, y la relación entre distintas variables del gasto puede ser distinta en ambos. Conviene, en estos casos, dividir la muestra en grupos de observaciones homogéneas y estudiarlos separadamente. En otros casos el análisis de la homogeneidad de los datos tiene por objeto construir tipologías: de consumidores, de artistas por su utilización del color, de productos, o del tipo de consultas en una página web. Estos métodos se estudian en el capítulo 8. Las técnicas descriptivas para resumir, condensar y clasiÞcar datos y relacionar variables se conocen a veces como técnicas de exploración de datos multivariantes, y se han pop- ularizado en los últimos años en ingeniería y ciencias de la computación con el nombre de minería de datos, nombre que indica la capacidad de estas técnicas para extraer informa- ción a partir de la matería prima datos. Los capítulos 3 al 8 forman pues un curso básico de minería de datos. Sin embargo estas herramientas no permiten directamente obtener con- clusiones generales respecto al proceso o sistema que genera los datos. Para ello necesitamos los métodos presentados en la segunda parte del libro, que comprende los capítulos, 9 al 16, y allí se aborda el objetivo más ambicioso de crear conocimiento respecto al problema mediante un modelo estadístico. La construcción de un modelo estadístico requiere el concepto de probabilidad y las her- ramientas básicas para la construcción de modelos para varias variables se exponen en el capítulo 9. La construcción del modelo requiere estimar los parámetros del modelo a partir de los datos disponibles, y contrastar hipótesis respecto a su estructura. Los fundamentos de la inferencia multivariante se estudian en el capítulo 10. Algunos problemas de esti- mación multivariante pueden formularse como estimación con valores ausentes, y un método eÞciente para llevar a cabo esta estimación, el algoritmo EM, se presenta en el capítulo 11. Este capítulo aborda también la estimación (1) permitiendo la posibilidad de que una pequeña fracción de los datos incluyan errores de medida o datos heterogeneos; (2) incorpo- rando además información a priori respecto a los parámetros. En el primer caso tenemos la estimación robusta y en el segundo la Bayesiana (que, como la clásica, puede además hac- erse robusta). Este capítulo considera además el problema de seleccionar el mejor modelo explicativo entre varios posibles. Los modelos para generar conocimiento mediante una reducción del número de variables se conocen como modelos de análisis factorial, y pueden verse como una generalización de los componentes principales. Si podemos reemplazar un conjunto amplio de variables por unos pocos factores o variables latentes, no observables, que permiten prever las variables originales hemos aumentado nuestro conocimiento del problema. En primer lugar, descubri- mos el mecanismo generador de los datos, en segundo podemos realizar predicciones respecto a datos no observados pero generados por el mismo sistema. Este es el objeto del análisis factorial que se presenta en el capítulo 12. El problema de la homogeneidad se aborda desde el punto de vista inferencial según dos puntos de vista principales. El primero es el problema de clasiÞcación o discriminación:
  • 17. 1.2. ESTRUCTURA DEL LIBRO 17 Objetivos Enfoque descriptivo (información) Enfoque inferencial (conocimiento Resumir los datos Descripción de datos (Cap. 3 y 4) Constr. de modelos (Cap 9, 10 y1 Obtener indicadores Componentes principales (Cap. 5) Análisis Factorial (Cap. 12) Escalas multid. (Cap.6) Análisis de Correspon.(Cap. 7) ClasiÞcar Análisis de Conglomerados (Cap. 8) A. Discriminante (Cap.13 y 14) Construir grupos Análisis de Conglomerados (Cap. 8) Clas. con mezclas (Cap 15) Relacionar Conj. variab. Regres. mul.(Cap 3) y Mult. (Cap 16) Correlación canónica (Cap. 16) Tabla 1.1: ClasiÞcación de los métodos multivariantes estudiados en este libro conocemos que los datos pueden provenir de una de dos (o más) poblaciones conocidas y se desea clasiÞcar un nuevo dato en una de las poblaciones consideradas. Por ejemplo, se desea clasiÞcar declaraciones de impuestos como correctas o fraudulentas, personas como enfermos o sanos, empresas como solventes o no, billetes por su valor en una maquina automática, cartas escritas a mano por su código postal en un máquina clasiÞcadora, preguntas a un contestador telefónico por su contenido. Este es el objetivo de los métodos de análisis discriminante presentados en los capítulos 13 y 14. El segundo punto de vista es investigar si los datos disponibles han sido generados por una sola o varias poblaciones desconocidas. Los métodos para clasiÞcar las observaciones se conocen como métodos de clasiÞcación mediante mezclas, y se estudian en el capítulo 15. Estos métodos generalizan los métodos de agrupamiento estudiados desde el punto de vista descriptivo. El problema inferencial multivariante de relacionar variables aparece cuando estas se separan en dos conjuntos, y tiene varias variantes: (1) Análisis de la varianza multivariante: el primero incluye variables cualitativas y el segundo variables continuas, y queremos ver el efecto de las cualitativas sobre las del segundo grupo. Por ejemplo, observamos en distintas clases de una universidad, deÞnidas por variables cualitativas como titulación, curso etc, varias variables que miden los resultados de las encuestas de evaluación docente y se desea investigar como los resultados varían en las distintos clases. Este tema se estudia en el capítulo 10 como una aplicación directa de los contrastes estadísticos multivariantes (2) Regresión multivariante: el primer conjunto incluye variables continuas o discretas y queremos utilizarlas para explicar las variables continuas del segundo grupo. Por ejemplo, queremos relacionar un conjunto de variables de inversión con un grupo de variables resultado en distintas empresas. Estos métodos se presentan brevemente en el capítulo 16. (3) Correlación canónica: queremos encontrar indicadores del primer grupo que explique lo más posible a los indicadores de las variables del segundo grupo. El número de relaciones independientes entre los indicadores nos informa respecto a la dimensión de la relación. Por ejemplo, queremos buscar indicadores de la inversión en empresas, medida por un conjunto de variables, que explicen indicadores de resultado, construidos también como resumen de un conjunto de variables de resultados económicos. Estos métodos se desarrollan en el capítulo 16. La tabla1.1 resume la clasiÞcación de métodos multivariantes estudiados en el libro.
  • 18. 18 CAPÍTULO 1. INTRODUCCIÓN omo 1.3 PROGRAMAS DE ORDENADOR Es impensable aplicar el análisis multivariante sin utilizar el ordenador y recomendamos al lector que reproduzca los ejemplos y realice los ejercicios del libro con cualquiera de los programas estadísticos disponibles. En el libro se han utilizado, por orden de diÞcultad,los siguientes: (1) STATGRAPHICS que permite aplicar las herramientas básicas contenidas en el libro, teniendo buenas capacidades gráÞcas fáciles de usar. (2) MINITAB es un programa más completo, también de fácil manejo. Es más completo que el anterior y más comodo para la manipulación de datos y la lectura de Þcheros en distintos formatos. (3) SPSS es un programa más avanzado y con mejores capacidades para el manejo de datos. Está dirigido a investigadores sociales que desean analizar grandes encuestas con variables de distintos tipos y permite mucha ßexibilidad en la entrada de los datos y en su manipulación, así como en la presentación de los resultados. Además este programa tiene algoritmos de cálculo bastante Þables y muy contrastados con distintas aplicaciones. (4) S-PLUS está dirigido a un usuario con buena formación estadística, e incluye muchas rutinas que el lector puede combinar para hacer análisis de datos más a su medida. Puede programarse también fácilmente para implantar nuevos desarrollos, y contiene los métodos más modernos que todavía no se han implantado en SPSS. El programa R es similar a S-PLUS y tiene la ventaja de ser de distribución gratuita. (5) MATLAB y GAUSS son programas con excelentes capacidades para la manipulación matricial, por lo que son muy recomendables para los lectores que quieran escribir sus propios programas y probar análisis nuevos, no incluidos en los paquetes tradicionales. Tienen la ventaja de la ßexibilidad y el inconveniente de que son menos automáticos para análisis tradicionales. Además de estos programas existen otros muchos paquetes estadísticos, como SAS, BMDP, STATA, etc, que estan también bien adaptados para aplicar las técnicas multi- variantes descritas en este libro, pero sobre los que el autor tiene menos experiencia directa. 1.4 UN POCO DE HISTORIA El primer método para medir la relación estadística entre dos variables es debido a Francis Galton (1822-1911), que introduce el concepto de recta de regresión y la idea de correlación entre variables en su libro Natural Inheritance, publicado en 1889 cuando Galton tenía 67 años. Estos descubrimientos surgen en sus investigaciones sobre la transmisión de los rasgos hereditarios, motivadas por su interés en contrastar empíricamente la teoría de la evolución de las especies, propuesta por su primo Charles Darwin en 1859. El concepto de correlación es aplicado en las ciencias sociales por Francis Edgeworth (1845-1926), que estudia la normal multivariante y la matriz de correlación. Karl Pearson (1857-1936), un distinguido estadístico británico creador del famoso contraste ji-cuadrado que lleva su nombre, obtuvo el estimador
  • 19. 1.4. UN POCO DE HISTORIA 19 del coeÞciente de correlación en muestras, y se enfrentó al problema de determinar si dos grupos de personas, de los que se conocen su medidas físicas, pertenen a la misma raza. Este problema intrigó a Harold Hotelling (1885-1973), un joven matemático y economista americano, que, atraído por la Estadística, entonces una joven disciplina emergente, viaja en 1929 a la estación de investigación agrícola de Rothamsted en el Reino Unido para trabajar con el ya célebre cientíÞco y Þgura destacada de la estadística, R. A. Fisher (1890-1962). Hotelling se interesó por el problema de comparar tratamientos agrícolas en función de varias variables, y descubrió las semejanzas entre este problema y el planteado por Pearson. Debemos a Hotelling (1931) el contraste que lleva su nombre, que permite comparar si dos muestras multivariantes vienen de la misma población. A su regreso a la Universidad de Columbia en Nueva York, Truman Kelley, profesor de pedadogía en Harvard, planteó a Hotelling el problema de encontrar los factores capaces de explicar los resultados obtenidos por un grupo de personas en test de inteligencia. Hotelling (1933) inventó los componentes principales, que son indicadores capaces de resumir de forma óptima un conjunto amplio de variables y que dan lugar posteriormente al análisis factorial. El problema de obtener el mejor indicador resumen de un conjunto de variables había sido abordado y resuelto desde otro punto de vista por Karl Pearson en 1921, en su trabajo para encontrar el plano de mejor ajuste a un conjunto de observaciones astronómicas. Posteriormente, Hotelling generaliza la idea de componentes principales introduciendo el análisis de correlaciones canónicas, que permiten resumir simultaneamente dos conjuntos de variables. El problema de encontrar factores que expliquen los datos fué planteado por primera vez por Charles Spearman (1863-1945), que observó que los niños que obtenían buenas puntua- ciones en un test de habilidad mental también las obtenían en otros, lo que le llevó a postular queeran debidas a un factor general de inteligencia, el factor g (Spearman, 1904). L. Thur- stone (1887-1955) estudió el modelo con varios factores y escribió uno de los primeros textos de análisis factorial (Thurstone, 1947). El análisis factorial fué considerado hasta los años 60 como una técnica psicométrica con poca base estadística, hasta que los trabajos de Lawley y Maxwell (1971) establecieron formalmente la estimación y el contraste del modelo factorial bajo la hipótesis de normalidad. Desde entonces, las aplicaciones del modelo factorial se han extendido a todas las ciencias sociales. La generalización del modelo factorial cuando tenemos dos conjuntos de variables y unas explican la evolución de las otras es el modelo LISREL, que ha sido ampliamente estudiado por Joreskov (1973), entre otros. La primera solución al problema de la clasiÞcación es debida a Fisher en 1933. Fisher inventa un método general, basado en el análisis de la varianza, para resolver un problema de discriminación de cráneos en antropología. El problema era clasiÞcar un cráneo encon- trado en una excavación arqueológica como perteneciente a un homínido o no. La idea de Fisher es encontrar una variable indicadora, combinación lineal de las variables originales de las medidas del cráneo, que consiga máxima separación entre las dos poblaciones en consid- eración. En 1937 Fisher visita la India invitado por P. C. Mahalanobis (19***), que había inventado la medida de distancia que lleva su nombre, para investigar las diferentes razas en la India. Fisher percibe enseguida la relación entre la medida de Mahalanobis y sus resultados en análisis discriminante y ambos consiguen uniÞcar estas ideas y relacionarlas con los resultados de Hotelling sobre el contraste de medias de poblaciones multivariantes. Unos años después, un estudiante de Mahalanobis, C. R. Rao, va a extender el análisis de
  • 20. 20 CAPÍTULO 1. INTRODUCCIÓN Fisher para clasiÞcar un elemento en más de dos poblaciones. Las ideas anteriores se obtienen para variables cuantitativas, pero se aplican poco de- spués a variables cualitativas o atributos. Karl Pearson había introducido el estadístico que lleva su nombre para contrastar la independencia en una tabla de contingencia y Fisher, en 1940, aplica sus ideas de análisis discriminante a estas tablas. Paralelamente, Guttman, en psicometría, presenta un procedimiento para asignar valores numéricos (construir escalas) a variables cualitativas que está muy relacionado con el método de Fisher. Como éste últi- mo trabaja en Biometría, mientras Guttman lo hace en psicometría, la conexión entre sus ideas ha tardado más de dos décadas en establecerse. En Ecología, Hill (1973) introduce un método para cuantiÞcar variables cualitativas que esta muy relacionado con los enfoques anteriores. En los años 60 en Francia un grupos de estadísticos y lingüistas estudian tablas de asociación entre textos literarios y J. P. Benzecri inventa el análisis de corresponden- cias con un enfoque geométrico que generaliza, y establece en un marco común, muchos de los resultados anteriores. Benzecri visita la Universidad de Princeton y los laboratorios Bell donde Carroll y Shepard están desarrollando los métodos de escalado multidimensional para analizar datos cualitativos, que habían sido iniciados en el campo de la psicometría por Torgeson (1958). A su vuelta a Francia, Benzecri funda en 1965 el Departamento de Estadística de la Universidad de París y publica en 1972 sus métodos de análisis de datos cualitativos mediante análisis de correspondencias. La aparición del ordenador transforma radicalmente los métodos de análisis multivari- ante que experimentan un gran crecimiento desde los años 70. En el campo descriptivo los ordenadores hacen posible la aplicación de métodos de clasiÞcación de observaciones (análi- sis de conglomerados o análisis cluster) que se basan cada vez más en un uso extensivo del ordenador. MacQueen (1967) introduce el algoritmo de de k-medias. El primer ajuste de una distribución mezclada fue realizado por el método de los momentos por K. Pearson y el primer algortimo de estimación multivariante es debido a Wolfe (1970). Por otro lado, en el campo de la inferencia, el ordenador permite la estimación de modelos soÞsticados de mezclas de distribuciones para clasiÞcación, tanto desde el punto de vista clásico, mediante nuevos algoritmos de estimación de variables ausentes, como el algoritmo EM, debido a Dempster, Laird y Rubin (1977), como desde el punto de vista Bayesiano, con los métodos modernos de simulación de cadenas de Markov, o métodos MC2 ( Markov Chain Monte Carlo). En los últimos años los métodos multivariantes están sufriendo una transformación en dos direcciones: en primer lugar, las grandes masas de datos disponibles en algunas aplicaciones están conduciendo al desarrollo de métodos de aproximación local, que no requieren hipóte- sis generales sobre el conjunto de observaciones. Este enfoque permite construir indicadores no lineales, que resumen la información por tramos en lugar de intentar una aproximación general. En el análisis de grupos, este enfoque local esta obteniendo támbién ventajas apre- ciables. La segunda dirección prescinde de las hipótesis sobre las distribuciones de los datos y cuantiÞca la incertidumbre mediente métodos de computación intensiva. Es esperable que las crecientes posibilidades de cálculo proporcionadas por los ordenadores actuales amplie el campo de aplicación de estos métodos a problemas más complejos y generales.
  • 21. 1.5. LECTURAS COMPLEMENTARIAS 21 1.5 LECTURAS COMPLEMENTARIAS Existe una excelente colección de textos de análisis multivariante en lengua inglesa. Entre ellos destacaremos Flury (1997), Johnson and Wichern (1998), Mardia, Kent y Bibby (1979), Gnandesikan (1997) y Seber (1984). Estos libros combinan la presentación de resultados teóricos y ejemplos y cubren un material similar al aquí expuesto. Textos más aplicados son Dillon y Goldstein (1984), Flury y Riedwyl (1988) y Hair et al (1995). En español, Cuadras (1991), es un excelente texto. Otras referencias de interés son Escudero (1977), Lebart et al (1985) y Batista y Martinez (1989). Hand et al (2000) es una buena referencia para la relación entre minería de datos y estadística. El libro de Krzanowski y Marriot (1994, 1995) contiene numerosas referencias históricas del desarrollo de estos métodos. Otros textos más especíÞcos que comentan sobre los orí- genes históricos de una técnica y presentan abundantes regerencias son Jackson (1991) para componentes principales, Gower and Hand (1996), para los escalogramas multidimension- ales, Greenacre (1984) para el análisis de correspondencias, Hand (1997) para los métodos de clasiÞcación, Harman (1980) y Bartholomew (1995) para el análisis factorial, Bollen (1989) para el modelo LISREL, McLachlan y Basford (1988) para los métodos de clasiÞcación me- diante mezclas y Schafer (1997) para el algoritmo EM y los nuevos métodos MC2 de cálculo intensivo. Efron y Tibshirani (1993) presentan interesantes ejemplos de las posibilidades del bootstrap para el análisis multivariante.
  • 22. 22 CAPÍTULO 1. INTRODUCCIÓN
  • 23. Capítulo 2 ÁLGEBRA MATRICIAL 2.1 INTRODUCCIÓN La información de partida en el análisis multivariante es una tabla de datos correspondiente a distintas variables medidas en los elementos de un conjunto. La manipulación de estos datos se simpliÞca mucho utilizando el concepto de matriz y su propiedades, que se presentan en este capítulo. La descripción de datos parte de las posiciones de las observaciones como puntos en el espacio y las ideas que aquí se presentan pueden ayudar al lector a desarrollar la intuición geométrica, de gran ayuda para visualizar y comprender la estructura de los procedimientos del análisis multivariante. Por esta razón, recomendamos al lector dedicar el tiempo necesario para comprender los conceptos básicos presentados en este capítulo. Su estudio puede abordarse con dos objetivos distintos. Para los lectores interesados en las aplicaciones y sin formación previa en álgebra lineal, recomendamos concentrarse en las secciones 2.1, 2.2 y 2.3 y la introducción a la sección 2.4. Para los lectores que hayan seguido ya un curso de álgebra, este capítulo puede servir de repaso de los conceptos básicos y de profundización en el uso de valores y vectores propios y proyecciones ortogonales, que forman la base de muchas de las técnicas estudiadas en este libro. El concepto principal de este capítulo es el concepto de vector. Un conjunto de n datos numéricos de una variable puede representarse geométricamente asociando cada valor de la variable a una dimensión del espacio n dimensional, obteniendo un punto en ese espacio, y también el vector que une el origen con dicho punto. Esta analogía entre variables y vectores es útil, porque los métodos de descripción estadística de una variable tienen una correspondencia clara con las operaciones básicas que realizamos con vectores. Cuando en lugar de medir una variable en n elementos observamos en cada elemento los valores de p variables, los datos pueden disponerse en una tabla rectangular con p columnas y n Þlas, de manera que cada columna tenga los valores de una variable y cada Þla los valores de las p variables en cada elemento. Si consideramos cada columna como un vector n dimensional, este conjunto de p vectores se denomina matriz. Así como la descripción univariante se asocia a operar con el vector de datos, la descripción de datos multivariantes se asocia geométricamente a operar con la matriz de datos. En particular, el estudio de la variabilidad y la dependencia lineal entre las p variables conduce al concepto de matrices cuadradas, que son aquellas que contienen el mismo número de Þlas que de columnas. Las 23
  • 24. 24 CAPÍTULO 2. ÁLGEBRA MATRICIAL matrices cuadradas son útiles para representar, por ejemplo, las varianzas y covarianzas o correlaciones entre las p variables, y sobre ellas se deÞnen ciertas funciones escalares, como el determinante y la traza, que veremos tienen una clara interpretación estadística: el determinante es una medida de la dependencia lineal y la traza de la variabilidad, del conjunto de las variables. Además, las matrices cuadradas tienen ciertas propiedades básicas, asociadas al tamaño y la dirección de los vectores que la forman. El tamaño de una matriz está relacionada con sus valores propios, y las direcciones con los vectores propios. La estimación de parámetros mediante una muestra en modelos lineales puede verse geométricamente como la proyección ortogonal del vector (o vectores) que representa la muestra sobre un subespacio. Por esta razón se presentan con detalle algunos resultados de proyecciones ortogonales que no suelen incluirse en textos introductorios de álgebra lin- eal. Finalmente, este capítulo incluye algunos resultados básicos de cálculo diferencial con vectores y matrices. Para favorecer el aprendizaje del material de este capítulo al estudiante que se enfrenta a él por primera vez hemos incluido ejercicios después de cada sección, y recomendamos al lector que intente resolverlos. Las secciones marcadas con un asterístico son algo más avanzadas y pueden saltarse en una primera lectura sin pérdida de continuidad. El lector puede encontrar una explicación más detallada de los conceptos aquí expuestos en cualquier texto de álgebra matricial. Un libro claro en español es Arvesú, Alvarez y Marcellán (1999), y en inglés Hadi (1996) presenta una introducción muy sencilla y fácil de seguir con pocos conocimientos básicos. Searle (1982) y Basilevsky (1983) están especialmente orientados a las aplicaciones estadísticas. Noble y Daniel (1977) es una buena introducción de carácter general. 2.2 VECTORES Geométricamente un dato numérico puede representarse como un punto en un espacio de dimensión uno. Si elegimos una recta con origen y dirección (positiva o negativa) deÞnidos, podemos asociar a cada punto de la recta la magnitud del segmento que une el origen con el punto. Un conjunto de n datos numéricos puede representarse como n puntos sobre una recta pero también, y esta representación es muy útil, como un punto en el espacio de n dimensiones. En dicho espacio podemos también asociar al conjunto de datos el vector que une el origen de coordenadas con dicho punto. La longitud de un vector se denomina norma. Existe una correspondencia entre las propiedades del conjunto de datos y las propiedades del vector asociado. La media de los datos es proporcional a la proyección del vector de datos sobre la dirección del vector constante (que se deÞne como el que tiene todas las coordenadas iguales). La desviación típica es la distancia promedio entre el vector de datos y el vector constante. La dependencia lineal entre dos variables se mide por la covarianza. El concepto análogo vectorial es el de producto escalar, que es la herramienta principal para estudiar la posición en el espacio de dos vectores. Con variables estandarizadas la covarianza se reduce al coeÞciente de correlación, que es equivalente al producto escalar de dos vectores de norma unitaria. Cuando consideramos varios vectores, por ejemplo p variables medidas sobre n elementos de una población, el concepto principal es la noción de dependencia lineal. La dependencia
  • 25. 2.2. VECTORES 25 lineal establece cuantas variables realmente distintas tenemos. Por ejemplo, si en un conjunto de variables una de ellas representa salarios en euros y otra los mismos salarios pero medidos en miles de euros, aunque ambas variables no sean idénticas (la primera es siempre mil veces mas grande que la segunda), es claro que ambas miden la misma característica y contienen la misma información: las dos variables son linealmente dependientes, ya que conocida una podemos determinar el valor de la otra. Generalizando esta idea, diremos que p variables son linealmente dependientes si podemos obtener los valores de una cualquiera de ellas mediante una combinación lineal del resto. Por ejemplo, las tres variables, número de hombres, número de mujeres y número de personas (que es la suma de las anteriores), son linealmente dependientes, ya que podemos calcular el valor de cualquiera conocidos los valores de las otras dos. 2.2.1 DeÞniciones básicas Un conjunto de n números reales x puede representarse como un punto en el espacio de n dimensiones, <n . DeÞniremos el vector x como el segmento orientado que une el origen de coordenadas con el punto x. La dirección es importante, porque no es lo mismo el vector x que el −x. Con esta correspondencia, a cada punto del espacio en <n le asociamos un vector. Por ejemplo, en la Þgura 2.1 se representa dos vectores en el plano (<2 ): el vector x = ¡3 2 ¢ , y el vector y = ¡−1 0 ¢ . En adelante, representaremos un vector mediante x, para diferenciarlo del escalar x, y llamaremos <n al espacio de todos los vectores de n coordenadas o componentes. En particular, un conjunto de números con todos los valores iguales se representará por un vector constante, que es aquel con todas sus coordenadas iguales. Un vector constante es de la forma c1, donde c es cualquier constante y 1 el vector con todas sus coordenadas iguales a la unidad. En Estadística podemos asociar a los valores de una variable en n elementos un vector en <n , cuyo componente iésimo es el valor de la variable en el elemento i. Por ejemplo, si medimos las edades de tres personas en una clase y obtenemos los valores 20, 19 y 21 años, esta muestra se representa por el vector tridimensional x =   20 19 21   La suma (o diferencia) de dos vectores x, y, ambos en <n , se deÞne como un nuevo vector con componentes iguales a la suma (diferencia ) de los componentes de los sumandos: x + y =    x1 ... xn    +    y1 ... yn    =    x1 + y1 ... xn + yn    . Es inmediato comprobar que la suma de vectores es asociativa (x + (y + z) = (x + y) + z) y conmutativa (x + y = y + x). La suma de dos vectores corresponde a la idea intuitiva de trasladar un vector al extremo del otro y construir la línea que va desde el origen del primero al extremo del segundo. Por ejemplo, la suma de los vectores x = ¡3 2 ¢ e y = ¡−1 0 ¢ ,en la Þgura 2.1, es el vector z = ¡2 2 ¢ .
  • 26. 26 CAPÍTULO 2. ÁLGEBRA MATRICIAL y 3 2 x z = x + y 2- 1 Figura 2.1. Suma de dos vectores La operación suma (resta) de dos vectores da lugar a otro vector y estadísticamente corresponde a generar una nueva variable como suma (resta) de otras dos anteriores. Por ejemplo, si x representa el número de trabajadores varones en un conjunto de empresas e y el número de trabajadoras, la variable x + y representa el número total de trabajadores y la variable x − y la diferencia entre hombres y mujeres en cada empresa. El producto de una constante por un vector, es un nuevo vector cuyos componentes son los del vector inicial multiplicados por la constante. z = kx =    kx1 ... kxn    . Multiplicar por una constante equivale a un cambio en las unidades de medición. Por ejemplo, si en lugar de medir el número de trabajadores en unidades (variable x) lo hacemos en centenas (variable z) entonces la variable z es igual a x/100. Llamaremos vector transpuesto x0 , de otro x, a un vector con los mismos componentes, pero escritos ahora en Þla: x0 = (x1, ..., xn). Al transponer un vector columna se obtiene un vector Þla. Generalmente los vectores Þla se utilizan para describir los valores de p variables distintas en un mismo elemento de una población. El producto escalar o interno de dos vectores x, y, ambos en <n , que escribiremos x0 y o y0 x, es el escalar obtenido al sumar los productos de sus componentes. x0 y = y0 x = nX i=1 xiyi. Se llamará norma o longitud de un vector x, a la raíz cuadrada del producto escalar x0 x. Se escribe kxk: kxk = √ x0x = q x2 1 + . . . + x2 n.
  • 27. 2.2. VECTORES 27 La norma es la longitud del segmento que une el origen con el punto x. Por ejemplo, la norma del vector x en la Þgura 2.1 es kxk = √ 32 + 22 = √ 13 que corresponde a la longitud de la hipotenusa en el triángulo rectángulo formado por el vector y sus proyecciones sobre los ejes. El producto escalar de dos vectores puede calcularse también como el producto de las normas de los vectores por el coseno del ángulo que forman. Para ilustrar este concepto consideremos la Þgura 2.1 donde se representan los vectores x = ¡a 0 ¢ y y = ¡a c ¢ . Observemos que el producto escalar es x0 y =a2 y que este mismo resultado se obtiene multiplicando la norma de ambos vectores, kxk = a y kyk = √ a2 + c2 por el coseno del ángulo θ que forma, dado por a/ √ a2 + c2. Observemos que el producto escalar puede también expresarse como el producto de la norma de un vector por la proyección del otro sobre él. Si uno de los vectores tiene norma uno, el producto escalar es directamente la proyección sobre él del otro vector. Generalizando esta idea, se deÞne el ángulo entre dos vectores x, y por la relación: cos θ = x0 y kxk kyk . Si dos variables tiene media cero, el coseno del ángulo que forman dos vectores es su coeÞ- ciente de correlación. Como cos θ ≤ 1, se demuestra en general que: |x0 y| ≤ kxk kyk . que se conoce como la desigualdad de Schwarz. Dos vectores son ortogonales, o perpendiculares, si y sólo si su producto escalar es cero. Por la deÞnición de ángulo x0 y = kxk kyk cos θ, siendo θ el ángulo que forman los vectores. Si θ = 90◦ el coseno es cero y también lo será el producto escalar.
  • 28. 28 CAPÍTULO 2. ÁLGEBRA MATRICIAL θ θ ax y c Figura 2.1: Coseno del ángulo entre dos vectores El producto escalar tiene una clara interpretación estadística. Para describir una variable tomamos su media. Para describir un vector podemos tomar su proyección sobre el vector constante. El vector constante de modulo unitario en dimensión n es 1√ n 1, y la proyección de x sobre este vector 1√ n 10 x = P xi/ √ n = x √ n. El vector constante resultante de esta proyección es 1√ n 1(x √ n) =x1. Por tanto, la media es el escalar que deÞne el vector obtenido al proyectar el vector de datos sobre la dirección constante. También puede interpretarse como la norma estandarizada del vector obtenido al proyectar los datos en la dirección del vector constante, donde para estandarizar la norma de un vector dividiremos siempre por√ n, siendo n la dimensión del espacio. La variabilidad de los datos se mide por la desviación típica, que es la distancia entre el vector de datos y el vector constante. La proyección del vector de datos sobre la dirección del vector constante produce el vector x1, y la norma del vector diferencia, x−x1, mide la distancia entre el vector de datos y el vector constante. Tomando la norma estandarizada, dividiendo por la raíz de la dimensión del espacio 1 √ n kx−x1k = rP (xi − x)2 n La medida de dependencia lineal entre dos variables, x, y, es la covarianza. La covarianza es el producto escalar estandarizado de los dos vectores medidos en desviaciones a la media, o tomando sus diferencias respecto al vector constante. Si promediamos el producto escalar de estos vectores 1 n (x−x1)0 (y−y1) = P (xi − x)(yi − y) n se obtiene directamente la covarianza. Para variables con media cero, el producto escalar promedio de los dos vectores que representan sus valores normalizado es directamente la
  • 29. 2.2. VECTORES 29 covarianza. Para variables estandarizadas, de media cero y desviación típica unidad, la covarianza es el coeÞciente de correlación. Para vectores de norma unitaria, el producto escalar es el coseno del ángulo que forman, que es la interpretación geométrica del coeÞciente de correlación. La implicación estadística de ortogonalidad es incorrelación. Si dos variables son ortogonales, es decir los vectores que las caracterizan forman un ángulo de 90 grados, llamando r al coeÞciente de correlación como r = cos θ = 0, las variables están incorreladas. 2.2.2 Dependencia Lineal Un conjunto de vectores x1, ..., xp es linealmente dependiente si existen escalares c1, ..., cp, no todos nulos, tales que: c1x1 + ... + cpxp = 0 donde 0 representa el vector nulo que tiene todos los componentes iguales a cero. En par- ticular el vector de ceros, 0, es siempre linealmente dependiente de cualquier otro vector x no nulo. En efecto, aplicando la deÞnición siempre podemos escribir para cualquier escalar c no nulo 0x+c0 = 0 Intuitivamente, si los vectores son linealmente dependientes podemos expresar alguno de ellos como combinación lineal de los demás. Por ejemplo, supuesto c1 6= 0 y llamando ai = ci/c1, tenemos x1 = a2x2 + . . . + apxp. Si un conjunto de vectores no es linealmente dependiente diremos que los vectores son lin- ealmente independientes. En el espacio <p el número máximo de vectores linealmente independientes es p. En efecto, si tenemos un conjunto de p + h vectores donde existen, al menos, p linealmente independientes (xi, i = 1, ..., p) podemos expresar cualquier otro vector del conjunto, xp+1, como xp+1 = p X i=1 aixi, y resolviendo este sistema de p ecuaciones y p incógnitas obtendremos los coeÞcientes ai. Por tanto, el máximo número de vectores linealmente independientes es p. En Estadística un conjunto de vectores linealmente independientes corresponde a un conjunto de variables que no están relacionadas linealmente de forma exacta. Por ejemplo, si dos variables miden la misma magnitud pero en unidades distintas serán linealmente dependientes. También serán linealmente dependientes si el conjunto de variables incluye una que se ha generado como una combinación lineal de las otras (por ejemplo, tenemos p variables que representan los precios en euros de p productos en n países de Europa (n > p) y se incluye también como variable p+1 el precio ponderado de estos productos en los mismos países).
  • 30. 30 CAPÍTULO 2. ÁLGEBRA MATRICIAL Dado un conjunto de p vectores linealmente independientes (x1, ..., xp), en <n (p ≤ n), llamaremos espacio generado por este conjunto de vectores al espacio que contiene todos los vectores z, en <n , que pueden expresarse como combinación lineal de éstos. El conjunto (x1, ..., xp) se llama base generadora del espacio, o simplemente base del espacio. Si z pertenece a este espacio: z = c1x1 + ... + cpxp. Es fácil comprobar que z estará en un espacio de dimensión p: en efecto, podemos tomar las primeras p coordenadas de z y obtener los coeÞcientes c1, ..., cp del sistema de p ecuaciones y p incógnitas resultante. Las n − p coordenadas siguientes de z quedan determinadas, al estarlo los ci, por lo que, obviamente, z sólo tiene p componentes independientes, estando, por lo tanto, en un espacio de dimensión p. El espacio generado por un conjunto de variables incluye a todas las variables que pueden generarse como índices o combinaciones lineales de las originales. La dimensión de un espacio Ep se deÞne como el número de vectores linealmente inde- pendientes que lo generan. Diremos que un vector x es ortogonal a un subespacio Ep si x es ortogonal a todo vector de Ep, es decir, si y pertenece al subespacio Ep, que escribiremos y ∈Ep, entonces: y0 x = 0. Llamaremos complemento ortogonal de un subespacio Ep, de dimensión p, y lo deno- taremos por C(Ep), al espacio que contiene todos los vectores ortogonales a Ep. Entonces, si x ∈Ep, y ∈C(Ep) se veriÞca x0 y = 0. La dimensión de C(Ep) será n − p. En particular el complemento ortogonal del espacio generado por un vector que contiene todos los vectores ortogonales a él se denomina espacio nulo del vector. Ejercicios 2.2 2.2.1 Dados los tres vectores a = ¡1 2 ¢ , b = ¡2 1 ¢ , c = ¡−2 1 ¢ a) Representarlos en el plano <2 . b) Calcular los vectores suma y diferencia de a y b, a±b. c) Calcular la norma de los tres vectores. d) Calcular los productos escalares,ab , bc, ac.¿ Qué podemos deducir de estos produc- tos? e) Calcular la proyección del vector a sobre el b. f) JustiÞcar si los tres vectores son linealmente independientes. Si no lo son, expresar uno cualquiera como combinación lineal de los otros dos. 2.2.2 En <3 se denomina base canónica a la formada por los vectores a = (1, 0, 0)0 , b = (0, 1, 0)0 , y c = (0, 0, 1). Se pide a) Expresar el vector d = (1, 1, 2)0 , como suma de los vectores de la base canónica. b) Calcular la proyección del vector d sobre cada uno de los vectores de la base canónica. c) Calcular el coseno del ángulo entre el vector d y los vectores de la base canónica. d) Indicar la dimensión del espacio generado por el vector d y obtener una base del complemento ortogonal a ese espacio.
  • 31. 2.3. MATRICES 31 2.2.3 Dados los vectores en <3 , a = (1, 0, 2)0 , b = (1, 1, 2)0 , c = (2, 1, 6)0 . a) Calcular los vectores −b, a + c, y b + c b) Calcular la norma de los vectores, 4a y -2c. c) Calcular el producto escalar, ab y bc. d) Calcular la proyección del vector a sobre el b. 2.2.4 Calcular la dimensión del espacio generado por los tres vectores del ejercicio anterior a) ¿Pertenece el vector d = (−2, 0, −8)0 al espacio generado por estos tres vectores? Si es así expresarlo como suma de una base del espacio. b) Indicar la dimensión del espacio complemento ortogonal al generado por estos tres vectores. c) Encontrar una base del complemento ortogonal. d) Calcular el coseno de ángulo entre los vectores d y a. 2.2.5 Dados los tres vectores a = (1, 0, 0, 0, 1)0 , b = (1, 1, 0, 0, 0)0 , y c = (0, 0, 0, 1, 1), en <5 . a) Indicar la dimensión del espacio generado por estos vectores y obtener un nuevo vector miembro de ese espacio. b) Calcular la dimensión del espacio complemento ortogonal al generado por esos vectores. c) Calcular una base del espacio complemento ortogonal. d) Demostrar que los vectores a + b, a + c, y b + c también son linealmente independi- entes. 2.2.6 Considerar las 9 variables que deÞnen los productos alimenticios en los datos EUROALI del apéndice de datos como 9 vectores en un espacio de dimensión 25. Se pide: a) Calcular el vector proyección de cada vector sobre el vector de constantes. b) Calcular la distancia entre cada vector y el vector de constantes. c) Calcular el producto escalar de los vectores correspondientes a las variables CR y CB. d)Calcular el coseno del ángulo que forman los vectores CR y CB. 2.2.7 Considerar cada país de los datos EUROALI del apéndice de datos como un vectores en un espacio de dimensión 9. Se pide: a) Indicar si estos vectores son linealmente independientes b) JustiÞcar que el número máximo de vectores linealmente independientes es ocho. c) Calcular e interpretar el producto escalar entre Austria y Bélgica. d) Determinar el ángulo que forman Austria y Bélgica. e) Calcular la distancia de cada país al vector de constantes. Interpretar el resultado. 2.3 MATRICES Para trabajar conjuntamente con p variables o vectores deÞnimos el concepto de matriz. Una matriz es un conjunto de números dispuestos en Þlas y columnas y puede verse como un conjunto de vectores columna o un conjunto de vectores Þla. Diremos que una matriz tiene dimensiones n×p si tiene n Þlas y p columnas. Si en una matriz intercambiamos las Þlas por las columnas, se obtiene una nueva matriz que se denomina la traspuesta de la primera. En particular, un vector columna de orden n es una matriz de dimensiones n × 1(su traspuesta es un vector Þla), y un escalar es una matriz de dimensiones 1 × 1 (e igual a su traspuesta).
  • 32. 32 CAPÍTULO 2. ÁLGEBRA MATRICIAL La generalización del concepto de producto escalar entre dos vectores es el producto matricial, que se deÞne como una nueva matriz que contiene todos los productos escalares entre los vectores Þla de la primera matriz y los vectores columna de la segunda. Para que este producto sea posible la primera matriz tiene que tener tantas columnas como Þlas la segunda. Por la propia deÞnición de deduce que este producto no es conmutativo. Dire- mos que premultiplicamos la matriz A por la B cuando realizamos el producto BA y que postmultiplicamos la A por la B si realizamos el producto AB. Un producto matricial que puede siempre aplicarse entre dos matrices cualesquiera es el producto de Kronecker. Una propiedad básica de una matriz es el rango, que indica el número máximo de vectores Þla o columna linealmente independientes que la forman. En una matriz de n Þlas y p columnas (n > p), sus p columnas pueden ser vectores linealmente independientes en <n , pero sus n Þlas no, ya los vectores Þla pertenecen a <p donde sólo pueden existir p < n vectores Þla linealmente independientes. El rango máximo de la matriz es p y cuando esto ocurre decimos que la matriz tienen rango completo. El rango de una matriz es igual al de su traspuesta. Las matrices cuadradas son aquellas que tienen el mismo número de Þlas que de columnas. Las matrices cuadradas tienen ciertas propiedades similares a los escalares. Podemos deÞnir la matriz inversa, y existen distintas formas de obtener una medida escalar de una matriz cuadrada. La primera es la traza, la segunda el determinante y la tercera construir una forma cuadrática a partir de la matriz. Veremos en el capítulo siguiente que todas estas propiedades tienen una interpretación estadística en el análisis de datos multivariantes. 2.3.1 DeÞniciones básicas Llamaremos matriz, A, de dimensiones (n × p) a un conjunto de n × p números reales, ordenados en n Þlas y p columnas. Por ejemplo, si medimos p variables en n individuos de una población podemos representar cada variable por un vector columna de dimensión n y el conjunto de datos muestrales será una matriz n × p. En particular, cada vector columna es pues una matriz (n × 1). Una matriz (n × p), puede verse como un conjunto de p vectores columna en <n , o como un conjunto de n vectores Þla en <p . Llamaremos matriz traspuesta A0 a la matriz obtenida a partir de A intercambiando Þlas por columnas. Si A es n × p, A0 será p × n. Se veriÞca: (A0 )0 = A. La suma de dos matrices se deÞne sólo cuando ambas tienen las mismas dimensiones. Cada elemento de la matriz suma se obtiene sumando los elementos correspondientes de los sumandos A + B = C ⇒   a11 . . . a1p ... ... an1 . . . anp   +   b11 . . . b1p ... ... bn1 . . . bnp   =   c11 . . . c1p ... ... cn1 . . . cnp   con cij = aij + bij. Se veriÞca: (a) A + B = B + A
  • 33. 2.3. MATRICES 33 (b) (A + B)0 = A0 +B0 . Sumar dos matrices equivale en términos estadísticos a sumar los valores de las variables correspondientes a las columnas de las matrices. Por ejemplo, si la matriz A representa el número de incidencias leves de p clases distintas en una empresa en n semanas y la B el número de incidencias graves en las mismas semanas, la suma representa el número total de incidencias. 2.3.2 Productos entre matrices Vamos a estudiar dos tipos de productos entre matrices. El primero y más importante es el producto matricial, lo representaremos por AB y sólo es posible cuando el número de columnas de A es igual al número de Þlas de B. Entonces, si A(n × p) y B(p × h), el producto es una matriz C(n × h) con términos: cij = p X m=1 aimbmj Es decir, el término cij representa el producto escalar del vector a0 i, deÞnido por la i-ésima Þla de A, por el vector bj, de la j-ésima columna de B. Si escribimos: A =    a0 1 ... a0 n    B = [b1...bh] donde todos los vectores tienen dimensiones p, el producto matricial de estas dos matrices es: AB = C =    a0 1b1 . . . a0 1bh ... ... a0 nb1 . . . a0 nbh    (n×h) . Observemos que el producto de dos matrices no es en general conmutativo, ya que si AB existe (el número de columnas de A es igual al número de Þlas de B), el producto BA puede no existir. Además, cuando existe, el producto AB es, en general, distinto de BA. En particular, el producto de una matriz (n × p) por un vector (p × 1), Ax, será un nuevo vector de dimensión (n × 1) cuyos componentes se obtienen por el producto escalar de las Þlas de A por el vector x. Si y = Ax, la matriz A transforma un vector x en <p en otro vector y en <n . Como veremos más adelante, los movimientos y deformaciones de vectores en el espacio son el resultado de multiplicar el vector por una matriz. DeÞnimos la matriz identidad de dimensión n, In , como la matriz de dimensiones n×n que tiene unos en las posiciones ii y ceros fuera de ella. En general la dimensión está clara
  • 34. 34 CAPÍTULO 2. ÁLGEBRA MATRICIAL por el contexto y utilizaremos la letra I para representar la matriz identidad de cualquier dimensión: I =    1 . . . 0 ... 1 ... 0 . . . 1    . El producto matricial tiene, entre otras, las propiedades siguientes, donde suponemos que las matrices tienen las dimensiones adecuadas para que los productos están deÞnidos: (a) A(B + C) = AB + AC (b) (AB)0 = B0 A (c) AI = IA = A (*)Producto de Kronecker El producto de Kronecker nos resuelve el problema de construir matrices grandes cuyos elementos son matrices dadas más pequeñas y se deÞne para matrices cualesquiera. Dadas dos matrices Ak×n y Bp×q, su producto de Kronecker, que representaremos con el símbolo ⊗, se efectúa multiplicando cada elemento de la primera por todos los elementos de la segunda, de manera que la matriz resultante tiene un número de Þlas igual al producto de las Þlas, kp, y un número de columnas igual al producto de las columnas, nq. Este producto existe siempre sean cual sean las dimensiones de las matrices, y se representa por : A ⊗ B =      a11B a12B . . . a1nB a21B a22B . . . a2nB ... ... ... ak1B ak2B . . . aknB      . donde la matriz producto es de orden kp × nq. Por ejemplo, · 1 2 ¸ ⊗ £ 1 0 3 ¤ = · 1 0 3 2 0 6 ¸ Las propiedades siguientes son resultado directo de la deÞnición: (a) si c es un escalar c ⊗ A = A⊗c = cA. (b) si x e y son vectores: x ⊗ y0 = y0 ⊗ x (c) (A ⊗ B)0 = A0 ⊗ B0 (d) (A ⊗ B)(C ⊗ D) = AC ⊗ BD, supuesto que los productos AC y BD existen.
  • 35. 2.3. MATRICES 35 En estadística el producto de Kronecker se utiliza para construir matrices cuyos elementos son a su vez matrices, con frecuencia repetidas. Por ejemplo, si queremos construir una matriz que tenga como elementos diagonales la matriz A, deÞnimos el producto I3⊗A =   A 0 0 0 A 0 0 0 A   donde si I3 es la matriz identidad y 0 es una matriz de ceros, ambas de dimensiónes 3×3. 2.3.3 Rango de una matriz Una propiedad básica de una matriz es el rango, que indica el número máximo de vectores Þla o columna linealmente independientes que contiene la matriz. En una matriz de n× p , suponiendo n > p, el máximo número de vectores linealmente independientes es p. En efecto, si consideramos los vectores formados por las p columnas, tenemos p vectores en <n , que pueden ser linealmente independientes. Sin embargo, si consideramos los n vectores Þla, estos son vectores de <p , y el máximo número de vectores independientes en este espacio es p. Por tanto, el rango máximo de la matriz es p, y cuando esto ocurre decimos que la matriz es de rango completo. Por la deÞnición es inmediato que el rango de una matriz y de su transpuesta es el mismo. En general, si llamamos rg(A) al rango de la matriz A se veriÞca: 1. rg(An×p) ≤ min(n, p). El rango es igual o menor que el menor de n y p. 2. Si rg(An×p) = n < p o rg(An×p) = p < n, se dice que A es de rango completo. 3. rg(A + B) ≤ rg(A) + rg(B). 4. rg(AB) ≤ mínimo(rg(A), rg(B)) 5. rg(A0 A) = rg(AA0 ) = rg(A). Las dos primeras propiedades resultan de la deÞnición. Es fácil comprobar que el rango de la suma no puede ser mayor que la suma de rangos. Por ejemplo en la suma · 1 2 0 0 1 0 ¸ + · −1 0 0 0 0 0 ¸ = · 0 2 0 0 1 0 ¸ , la primera matriz tiene rango dos, (los dos vectores columna no nulos son linealmente inde- pendientes), la segunda rango uno (solo un vector es linealmente independiente) y la suma tiene rango uno. Si multiplicamos dos matrices, el rango de la matriz resultante no puede exceder a la de menor rango. Por ejemplo, en el producto · 1 −1 1 2 1 0 ¸   1 1 1 0 0 −1   = · 0 0 3 2 ¸
  • 36. 36 CAPÍTULO 2. ÁLGEBRA MATRICIAL cada una de las matrices que se multiplican tiene rango dos, pero el producto tiene solo rango uno. Finalmente, si multiplicamos una matriz por su transpuesta el producto tiene el mismo rango que la matriz original. En Estadística el rango de una matriz de datos nos indica la dimensión real necesaria para representar el conjunto de datos, o el número real de variables distintas de que disponemos. Analizar el rango de una matriz de datos es la clave para reducir el número de variables sin pérdida de información. 2.3.4 Matrices Cuadradas Una matriz es cuadrada si n = p. Dentro de las matrices cuadradas se llaman simétricas a las que tienen cada Þla igual a la correspondiente columna, es decir aij = aji. Una matriz simétrica es, por tanto, idéntica a su traspuesta, y diremos que A es simétrica si A0 = A. Una clase de matrices cuadradas y simétricas muy importante son las matrices diago- nales, que tienen únicamente términos no nulos en la diagonal principal. Un caso particular importante de matriz diagonal es la matriz identidad o unidad, I, ya estudiada. En particular, los productos AA0 y A0 A conducen a matrices simétricas. Las matrices cuadradas aparecen de manera natural cuando consideramos estos productos en matrices de datos. Si A es (n × p) y representa los valores de p variables de media cero en n individuos de una población, la matriz cuadrada de orden p, A0 A/n, va a contener, como veremos en el capítulo siguiente, las varianzas y covarianzas entre las variables. Otra matriz cuadrada y simétrica de amplio uso en estadística es la matriz de correlación, que contiene unos en la diagonal y fuera de ella los coeÞcientes de correlación entre las variables. Sobre las matrices cuadradas podemos deÞnir dos medidas escalares que resumen su tamaño global : el determinante y la traza. Ambas son medidas relativas, ya que se modiÞcan si multiplicamos los elementos de la matriz por constantes, como veremos a continuación. Determinante de una matriz Dada una matriz A cuadrada y diagonal con términos aii se denomina determinante de la matriz, y lo representaremos por |A|, al escalar resultante de multiplicar todos los términos diagonales de la matriz. Supongamos inicialmente una matriz de orden dos como A = · 2 0 0 4 ¸ si consideramos las columnas de esta matriz como vectores, cada vector está situado en uno de los ejes coordenados. La Þgura 2.2 ilustra esta situación. El determinante de esta matriz es 2×4=8, igual al área del rectángulo determinado por ambos vectores.
  • 37. 2.3. MATRICES 37 4 2 Figura 2.2: El determinante como área encerrada por los vectores columna de la matriz Generalizando esta idea, dada una matriz A cuadrada de orden n con términos aij, se denomina determinante de la matriz, y lo representaremos por |A|, al escalar obtenido mediante la suma de todos los productos de n elementos de la matriz, a1i1 a2i2 , ..., anin , que podemos formar de manera que en cada producto aparezca una vez un elemento de cada Þla y uno de cada columna. Cada término tiene además un signo, que depende del número de cambios entre dos subíndices consecutivos, que es necesario para poner los subíndices i1, . . . , in de ese término en el orden natural 1, 2, . . . , n. Escribiremos : |A| = X (−1)r a1i1 a2i2 , ..., anin donde el sumatorio está extendido a las n! permutaciones de los segundos índices. Los índices i1, . . . in son una permutación de los números 1, 2, . . . , n y r es el número de cambios entre dos subíndices necesario para ponerlos en el orden 1, 2, . . . , n. Por ejemplo, en la matriz 2 × 2 el número de permutaciones de los números 1 y 2 es dos ((1,2) y (2,1)). La primera permutación está en el orden natural luego el número de cambios es r = 0 y el término a11a22 será positivo. La segunda requiere permutar el uno y el dos, con lo que r = 1 y el término a12a21 será negativo. El determinante será: |A| = a11a22 − a12a21. y, como demostraremos más adelante, puede interpretarse de nuevo como el área del paralel- ogramo determinado por los vectores columna. La situación se ilustra en la Þgura ??. Esta interpretación sugiere que si una columna es proporcional a la otra, los dos vectores estarán en la misma dirección y el área encerrada por ambos, que es el determinante de la matriz, será cero. La comprobación de esta propiedad es inmediata: si la primera columna es (a, b)0 y la segunda(λa, λb)0 el determinante será aλb − bλa = 0.
  • 38. 38 CAPÍTULO 2. ÁLGEBRA MATRICIAL En una matriz 3×3 el determinante tiene 3! = 6 términos que se obtiene de las 6 posibles permutaciones: 1 2 3 1 3 2 2 1 3 2 3 1 3 1 2 3 2 1 la primera permutación va en el orden natural, luego r = 0. Las dos siguientes podemos ponerlos en orden natural con un solo cambio entre índices consecutivos, luego r = 1. Las dos siguientes requieren dos cambios (por ejemplo, en la cuarta primero pasamos a 2,1,3 y luego a 1,2,3). Finalmente, en la última son necesarios 3 cambios, con lo que tendrá signo menos. En consecuencia: |A| = a11a22a33 − a11a23a32 − a12a21a33 + a12a23a31 + +a13a21a32 − a13a22a31, y puede demostrarse que ahora el determinante es el volumen del paralepípedo generado por las columnas de la matriz. Para matrices mayores de 3, la interpretación del determinante como hipervolumen es la misma, pero su cálculo es tedioso. Para obtenerlo utilizaremos el concepto de menor. Llamaremos menor del elemento aij de una matriz cuadrada de orden n, mij, al determinante de la matriz de orden n − 1 que resulta al eliminar de la matriz original A la Þla i y la columna j. Se denomina adjunto del elemento aij al escalar (−1)i+j mij. Se demuestra que el determinante de una matriz puede calcularse multiplicando cada elemento de una Þla por sus adjuntos. Entonces: |A| = nX j=1 aij (−1)i+j mij para cualquier Þla i. Por ejemplo, en una matriz 3 × 3, desarrollando por los elementos de la primera Þla |A| = a11 (a22a33 − a23a32) − a12 (a21a33 − a23a31) + a13 (a21a32 − a22a31) , que coincide con el resultado anterior. Aplicando sucesivamente esta idea es posible calcular el determinante de matrices grandes. El determinante se calcula muy fácilmente cuando una matriz es diagonal, ya que en- tonces, como hemos visto, el determinante es el producto de los términos diagonales de la matriz. El mismo resultado se obtiene si la matriz es triangular, que es aquella que tiene todos los elementos por encima o por debajo de la diagonal principal nulos. Por ejemplo, una matriz diagonal de orden tres es   1 0 0 2 3 0 1 4 2  
  • 39. 2.3. MATRICES 39 Para calcular el determinante desarrollamos por la primera Þla, con lo que obtenemos el producto del primer término diagonal, 1, por su adjunto, que es otra matriz triangular ahora de orden dos. Desarrollando de nuevo este matriz por su primera Þla tenemos el producto del segundo término diagonal, 3, por un escalar, 2. Aplicando esta misma idea a matrices de cualquier tamaño comprobamos que el determinante es el producto de los términos diagonales. Los determinantes tienen las propiedades siguientes: (a) |λA| = λn |A| (b) |A0 | = |A| (c) Si A y B son matrices cuadradas, |AB| = |A| |B| . (d) Si permutamos dos Þlas o dos columnas entre sí, el determinante cambia sólo su signo. (e) Si una Þla (o columna) de una matriz es una combinación lineal de las restantes Þlas (o columnas), lo que supone que su rango es menor que n, la matriz es singular y el determinante de la matriz es cero. θ θ v1 v2 v1sen θ El determinante como area del paralelogramo formado por los dos vectores La Þgura ?? ilustra la interpretación del determinante como area del paralelogramo deÞnido por los dos vectores. Este area es el producto de la base, kv2k , por la altura, kv1ksenθ. Consideremos el determinante de la matriz |A| = |C0 C| = ¯ ¯ ¯ ¯ · v0 1 v0 2 ¸ [v1v2] ¯ ¯ ¯ ¯ = ¯ ¯ ¯ ¯ · v0 1v1 v0 1v2 v0 2v1 v0 2v2 ¸¯ ¯ ¯ ¯ entonces: |A| = |C|2 = kv2k2 kv1k2 (senθ)2
  • 40. 40 CAPÍTULO 2. ÁLGEBRA MATRICIAL y el determinante de la matriz formada por los dos vectores es kv1k kv2ksenθ, el área del paralelogramo que forman. Observemos se obtiene el mismo resultado cuando los vectores v1 y v2 son vectores de Rn , ya que la matriz C0 C será cuadrada, y su determinante es el cuadrado del área encerrada por los vectores. Si interpretamos los vectores v1 y v2 como variables, veremos en el capítulo 3 que el producto C0 C es su matriz de varianzas y covarianzas, y su determinante, que es el área que forman, es una medida global de la independencia entre las variables, como veremos en la sección 3.5. Por ejemplo, en el caso general de p variables, si una variable es combinación lineal de las demás, las variables son linealmente dependientes, la columna correspondiente a esa variable en la matriz de varianzas y covarianzas será también combinación lineal de las demás columnas y el determinante de la matriz de covarianzas será nulo. Por otro lado, si las variables estan incorreladas su matriz de covarianzas es diagonal y el determinante será, en términos relativos, máximo. Por tanto podemos concluir que cuanto mayor sea el determinante mayor es la independencia entre los vectores. Traza de una matriz Se denomina diagonal principal de una matriz cuadrada C de orden n con elementos cij al conjunto de elementos cii, i = 1, ..., n. La traza de una matriz cuadrada es la suma de los elementos de la diagonal principal de la matriz, escribiremos: tr(C) = nX i=1 cii La traza es un operador lineal. En efecto, de la deÞnición se obtiene: (a) tr(A + B) = tr(A) + tr(B). (b) tr(λA) = λtr(A), donde λ es un escalar. (c) Se demuestra que: tr(ABC) = tr(BCA) = tr(CAB), en el supuesto de que todos los productos estén deÞnidos. (d) Si la matriz C es simétrica, tr(C2 ) = tr(CC) = Pn i=1 Pn j=1 c2 ij. La traza es una medida global de tamaño de la matriz que se obtiene sumando sus elementos diagonales. Por ejemplo, la traza de una matriz de varianzas y covarianzas es la suma de todas las varianzas de las variables. Al sumar los elementos diagonales es una medida global de variabilidad, pero, a diferencia del determinante, no tiene en cuenta las relaciones entre las variables. Rango de una matriz cuadrada El rango máximo de una matriz cuadrada de orden n es n. Cuando el rango es menor que n una Þla o columna es combinación lineal de las demás y decimos que la matriz es singular. Por otro lado, se comprueba que
  • 41. 2.3. MATRICES 41 1. Para matrices cuadradas del mismo orden, A, B y C, donde B y C son no singulares, rg(CAB) = rg(A). 2. Si A y B son cuadradas de orden n y AB = 0, entonces rg(A) + rg(B) ≤ n. Formas cuadráticas Si transformamos un vector x mediante una transformación lineal, y = Bx, la norma al cuadrado del nuevo vector será y0 y = x0 B0 Bx = x0 Ax donde A = B0 B es una matriz cuadrada y simétrica. En función del vector original la forma resultante se denomina forma cuadrática. Llamaremos forma cuadrática a una expresión escalar del tipo: x0 Ax donde x es un vector, x0 su transpuesto, y A una matriz cuadrada y simétrica. La forma cuadrática es siempre un escalar. Su expresión general es: nX i=1 aiix2 i + 2 nX i=1 nX j=i+1 aijxixj. Diremos que una matriz A es semideÞnida positiva si cualquier forma cuadrática formada a partir de ella es un número no negativo, para cualquier vector x 6= 0. Si la forma cuadrática es siempre un numero positivo diremos que la matriz A es deÞnida positiva. Se demuestra que las formas escalares, como el determinante y la traza, que pueden obtenerse a partir de matrices semideÞnidas positivas son números no negativos. Una matriz semideÞnida positiva tiene pues propiedades similares a los números no negativos y una matriz deÞnida positiva a los números positivos. Matriz Inversa Dada una matriz A cuadrada n×n, no singular, deÞnimos su inversa, A−1 , como una matriz n × n tal que: AA−1 = A−1 A = I donde I es la matriz identidad, que tiene unos en la diagonal y ceros fuera de ella. Es decir, escribiendo A con vector Þla a0 i, la matriz A−1 tendrá vectores columna bi tales que:    a0 1 ... a0 n    £ b1 . . . bn ¤ =    a0 1b1 . . . a0 1bn ... ... a0 nb1 . . . a0 nbn    =      1 0 . . . 0 0 1 . . . 0 ... ... ... 0 . . . . . . 1      .
  • 42. 42 CAPÍTULO 2. ÁLGEBRA MATRICIAL En consecuencia la matriz A−1 debe tener por columnas vectores b tales que: (1) bi es ortogonal a aj,es decir el producto escalar b0 iaj es cero ∀j 6= i; (2) el producto escalar de los vectores b0 iai = a0 ibi es uno. Observemos que el cálculo de la matriz inversa resuelve el problema de calcular vectores ortogonales a uno dado (o variables incorreladas con una dada). Por ejemplo, el espacio ortogonal al vector a1 puede calcularse construyendo una matriz que tenga a este vector como primera Þla y calculando la inversa de la matriz. Si llamamos b2, ...bn a los vectores columna de la matriz inversa, estos vectores forman el espacio nulo del vector a1. Como ilustración, dada la matriz A = · 2 1 0 4 ¸ , es fácil comprobar que la inversa es A−1 = · .5 −.125 0 .25 ¸ y el primer (segundo) vector columna de la inversa deÞne el espacio ortogonal al segundo (primer) vector Þla de la matriz original. La necesidad de calcular la inversa de una matriz aparece de manera natural al resolver sistemas de ecuaciones lineales Ax = b donde A es una matriz conocida cuadrada de orden n, b un vector de constantes y x un vector de n incógnitas. Para que este sistema tenga solución única las n ecuaciones deben de ser distintas, lo que supone que no existe una Þla de A que sea combinación lineal de las demás. Entonces A es no singular y la solución se obtiene mediante: x = A−1 b. El cálculo de la matriz inversa de una matriz dada es engorroso y debe realizarse mediante un ordenador si la dimensión de A es alta. Se demuestra que la inversa de una matriz puede calcularse por las tres operaciones siguientes: 1. Se sustituye cada elemento por su adjunto. 2. Se transpone la matriz resultante. Se obtiene una matriz que llamaremos adjunta de la matriz A. 3. Se divide cada término de la matriz adjunta por el determinante de la matriz original. Como ejemplo, calcularemos la inversa de la matriz A =   1 1 0 −1 2 1 0 0 3  
  • 43. 2.3. MATRICES 43 comenzaremos sustituyendo cada elemento por su adjunto. Por ejemplo, para el elemento (1, 1) su adjunto es (−1)2 [2 × 3 − 1 × 0] = 6. Para el (1, 2), (−13 ) [−1 × 3 − 1 × 0] = 3, etc. Así obtenemos la matriz   6 3 0 −3 3 0 −1 −1 3   , y al transponerla resulta la matriz adjunta : Adj (A) =   6 −3 −1 3 3 −1 0 0 3   . Si dividimos ahora por el determinante de la matriz A |A| = 6 + 3 = 9, se obtiene la expresión de la inversa A−1 =   2 3 −1 3 −1 9 1 3 1 3 −1 9 0 0 1 3   y podemos comprobar que A A−1 = I. La inversa de una matriz A tiene las propiedades siguientes: 1. (AB)−1 = B−1 A−1 para matrices cuadradas no singulares. 2. (A0 )−1 = (A−1 )0 3. |A−1 | = |A|−1 4. si A es simétrica también lo es A−1 . La matriz inversa de una matriz de varianzas y covarianzas tiene una interesante inter- pretación en Estadística, como veremos en el siguiente capítulo. La matriz inversa recoge la información de la dependencia conjunta de todas las variables de manera más completa que la matriz de varianzas y covarianzas. Inversas de sumas de matrices Es muy útil poder calcular la inversa de una suma de matrices en función de las inversas de los sumandos. La forma general es la siguiente: supongamos que las matrices A y C son matrices cuadradas no singulares de orden n y p respectivamente, y B y D son matrices rectangulares (n × p) y (p × n), se comprueba por multiplicación directa que (A + BCD)−1 = A−1 − A−1 B(DA−1 B + C −1 )−1 DA−1 . (2.1)
  • 44. 44 CAPÍTULO 2. ÁLGEBRA MATRICIAL Si tomamos en esta expresión C =1 y las matrices B y D son vectores, que llamaremos b y d0 , se obtiene que (A + bd0 )−1 = A−1 − A−1 b(d 0 A−1 b+1)−1 d0 A−1 Cuando A y C tienen el mismo orden, se comprueba que la expresión de la inversa puede escribirse como: (A + C)−1 = C−1 (A−1 + C −1 )−1 A−1 . (2.2) Veremos que estas fórmulas son muy útiles para estudiar el cambio de la matriz de varianzas y covarianzas, y otros estadísticos relevantes, al eliminar observaciones o variables. Matrices ortogonales Llamaremos matriz ortogonal, C, a una matriz cuadrada, que representa un giro en el espacio. Para caracterizar estas matrices, supongamos que dado un vector x le aplicamos una matriz no singular C y obtenemos un nuevo vector y = Cx. Si esta operación es un giro, la norma de y debe ser idéntica a la de x, lo que implica la condición : y0 y = x0 C0 Cx = x0 x, es decir, deberá veriÞcarse que : C0 C = I. De la deÞnición y = Cx deducimos que x = C−1 y. Por otro lado, multiplicando por C0 tenemos que C0 y = C0 Cx = x. De estas dos condiciones concluimos que la matriz inversa debe ser igual a su traspuesta. Esta es la condición de ortogonalidad: C0 = C−1 . Una matriz ortogonal debe tener Þlas (o columnas) que son vectores ortogonales entre sí y de longitud unidad, ya que:    c0 1 ... c0 n    [c1. . . cn] =    c0 1c1 . . . c0 1cn ... ... c0 nc1 . . . c0 ncn    =    1 . . . 0 ... ... 0 . . . 1    además: |C| = |C0 | =1, donde |C| es el determinante de C. Por ejemplo, en <2 , la matriz C = µ cos α −sen α sen α cos α ¶ es ortogonal, ya que CC0 = I. Los vectores de una matriz ortogonal de orden n forman una base ortonormal de <n ya que son ortogonales y de norma uno.
  • 45. 2.3. MATRICES 45 2.3.5 Matrices Particionadas Una matriz puede subdividirse en elementos que sean a su vez matrices y a los que se aplican las reglas anteriores. Esta operación es importante cuando queremos dividir las variables en bloques distintos. Por ejemplo, la matriz A =   2 3 4 5 6 1 0 2 3   , puede escribirse también como una matriz 2 × 2 particionada: A = · A11 A12 A21 A22 ¸ , (2.3) donde: A11 = · 2 5 ¸ , A12 = · 3 4 6 1 ¸ , A21 = 0, A22 = [2 3] . Podemos obtener la inversa y el determinante de una matriz particionada en otra 2 × 2 de manera que los términos diagonales A11 y A22 sean matrices cuadradas no singulares. La inversa de la matriz A dada por (2.3) se calcula mediante: A−1 = · B−1 −B−1 A12A−1 22 −A−1 22 A21B−1 A−1 22 + A−1 22 A21B−1 A12A−1 22 ¸ donde B = (A11 − A12A−1 22 A21) como puede comprobarse por multiplicación directa. El determinante se obtiene mediante: |A| = |A22||A11 − A12A−1 22 A21| = |A11||A22 − A21A−1 11 A12| = |A22| |B| Observemos que si la matriz es diagonal por bloques y A12 = 0, A21 = 0, entonces A−1 se obtiene simplemente como · A−1 n 0 0 A−1 22 ¸ y |A| = |A11| |A12| . Ejercicios 2.3 2.3.1 Calcular el determinante de la matriz formada por los tres vectores del ejercicio 2.2.2, a = (1, 0, 2)0 , b = (1, 1, 2)0 , c = (2, 1, 6)0 .¿Qué conclusiones podemos extraer de este resultado respecto a la independencia lineal de estos vectores? 2.3.2 Dada la matriz rectangular A =   1 1 0 1 2 2   , calcular la matriz A0 A y su determinante y traza. Hacer lo mismo para la matriz AA0 .
  • 46. 46 CAPÍTULO 2. ÁLGEBRA MATRICIAL 2.3.3 Calcular la inversa de la matriz A0 A del ejercicio anterior. Dibujar en el plano los vectores que forman esta matriz y su inversa y comentar sobre el resultado obtenido. 2.3.4 Demostrar que la matriz · √ 2/2 − √ 2/2√ 2/2 √ 2/2 ¸ es ortogonal. Aplicarla al vector ¡1 1 ¢ y dibujar el resultado. ¿Qué giro produce esta matriz? 2.3.5 Se miden tres dimensiones físicas en un grupo de 10 personas y estos datos se disponen en una matriz rectangular A, de dimensiones (10 × 3), justiÞcar las siguientes aÞrmaciones: a) El rango máximo de esta matriz es 3. b) La operación A0 110, donde 110 es un vector (10×1) con todas sus componentes iguales a uno proporciona un vector (3 × 1) cuyos componentes son la suma de los valores de cada variable. c) La operación 1 10 A0 110, proporciona un vector cuyos componentes son las medias de las variables. d) La operación 110( 1 10 A0 110)0 = 1 10 11010 10A, proporciona una matriz rectangular de di- mensiones (10 × 3), cuyas columnas contienen la media de cada variable. e) La matriz eA= A− 1 10 11010 10A proporciona una matriz rectangular de dimensiones (10× 3), cuyas columnas contienen las desviaciones de cada variable con respecto a su media. f) La matriz eA0 eA proporciona una matriz cuadrada de dimensiones (3 × 3), cuyos tér- minos diagonales son las sumas de las desviaciones a la media de cada variable al cuadrado. 2.3.6 Con la matriz de datos de EUROALI del apéndice de datos calcular las varianzas y covarianzas de las variables y colocarlas en una matriz cuadrada y simétrica de orden nueve, donde en la diagonal estén las varianzas y fuera de la diagonal las covarianzas. Calcular la traza y el determinante y pensar en su interpretación. Repetirlo para las variables estandarizadas. ¿Qué análisis le parece más informativo? 2.3.7 Calcule una base del espacio ortogonal al vector a0 1 =(1 0 0 0 -1) de la forma siguiente: (1) construya una matriz arbitraria cuadrada de dimension 5 que tenga como primera Þla el vector a0 1; (2) calcule la inversa de la matriz y tome el espacio generado por las columnas 2 a la 5. JustiÞque el resultado obtenido. 2.3.8 Demuestre por multiplicación directa la fórmula (2.2). (Nota, utilice que (A−1 + C −1 )−1 A−1 puede escribirse como (I + AC−1 )−1 ). 2.3.9 Demuestre por multiplicación directa que (I + C)−1 = I − (I + C−1 )−1 . 2.3.10 Demuestre por multiplicación directa la fórmula (2.1). (Nota, al sacar factor común utilice que (DA−1 B + C −1 )−1 puede escribirse como C(I + DA−1 BC) −1 . 2.4 VECTORES Y VALORES PROPIOS Dada una matriz cuadrada hay determinadas propiedades que esperamos sean invariantes ante ciertas transformaciones lineales que preservan la información existente en la matriz. Por ejemplo, si transponemos la matriz las propiedades básicas de los vectores que la forman no varían, y hemos visto que ni la traza ni el determinante se modiÞcan. Si giramos los vectores que la forman, es decir multiplicamos la matriz por una ortogonal, no se alteran ni sus magnitudes ni sus posiciones relativas, por lo que esperamos que las propiedades básicas
  • 47. 2.4. VECTORES Y VALORES PROPIOS 47 de la matriz se mantengan. Por ejemplo, si en lugar de trabajar con los ingresos y los costes decidimos trabajar con los beneÞcios, construidos como ingresos-costes, y el volumen de actividad, deÞnido como ingresos más costes, hemos aplicado una transformación ortogonal. Aunque la matriz cuadrada que representa las varianzas y covarianzas de las nuevas variables sea distinta de la original, la esencia del problema es la misma, y esperamos que la matriz de las nuevas variables tenga características idénticas a las de las variables originales. Para precisar esta idea aparece el concepto de valores y vectores propios de una matriz cuadrada. Los valores propios son las medidas básicas de tamaño de una matriz, que no se ven alteradas si hacemos un cambio de coordenadas que equivale a una rotación de los ejes. Se demuestra que las medidas globales de tamaño de la matriz, como la traza o el determinante, son sólo función de los valores propios y, en consecuencia, serán también invariantes ante las transformaciones que preservan los valores propios. Los vectores propios representan las direcciones características de la matriz y no son invariantes. Al aplicar una matriz cuadrada de orden n a un vector de dimensión n este se transforma en dirección y magnitud. Sin embargo, para cada matriz cuadrada existen ciertos vectores que al transformarlos por la matriz sólo se modiÞca su longitud (norma) y no su posición en el espacio. Estos vectores se denominan vectores propios de la matriz. 2.4.1 DeÞnición Llamaremos vectores propios de una matriz cuadrada de orden n a aquellos vectores cuya dirección no se modiÞca al transformarlos mediante la matriz. Por tanto u es un vector propio de la matriz A si veriÞca que : Au = λu. (2.4) donde λ es un escalar, que se denomina valor propio de la matriz. En esta relación suponemos u 6= 0, ya que si no es trivialmente cierta. Si u es un vector propio de A y multiplicamos (2.4) por cualquier a 6= 0, resulta que au será también un vector propio de A. Para evitar esta indeterminación suponemos que los vectores propios están normalizados de manera que kuk = 1. Sin embargo, el signo queda indeterminado: si u es un vector propio también lo es −u. Para calcular el vector propio podemos escribir la ecuación anterior como: (A−λI)u = 0, y este es un sistema homogéneo de ecuaciones que tendrá solución no nula si y solo si la matriz del sistema, (A−λI), es singular. En efecto, si esta matriz fuese invertible multiplicando por la inversa tendríamos que la única solución es u = 0. Por tanto, este sistema tiene solución no nula si se veriÞca que |A − λI| = 0. Esta ecuación se denomina la ecuación característica de la matriz. Es una ecuación polinómica en λ de orden n y sus n raíces se denominan valores propios de la matriz. Es
  • 48. 48 CAPÍTULO 2. ÁLGEBRA MATRICIAL inmediato de la deÞnición que si una matriz es diagonal los valores propios son los elementos de la diagonal principal. En efecto, tendremos: |A − λI| = ¯ ¯ ¯ ¯ ¯ ¯ ¯    a1 . . . 0 ... a2 ... 0 ... an    −    λ . . . 0 ... λ ... 0 . . . λ    ¯ ¯ ¯ ¯ ¯ ¯ ¯ = ¯ ¯ ¯ ¯ ¯ ¯ ¯    a1 − λ . . . 0 ... a2 − λ ... 0 . . . an − λ    ¯ ¯ ¯ ¯ ¯ ¯ ¯ |A−λI| = (a1 − λ)...(an − λ), y las soluciones de esta ecuación polinómica son a1, ..., an. Aunque una matriz de orden n tiene siempre n valores propios, estos pueden aparecer repetidos. En general, una matriz tiene h ≤ n valores propios distintos. Si un valor propio aparece repetido r veces se dice que tiene multiplicidad r. Por ejemplo, la matriz diagonal: A =     2 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0     tiene como valores propios 2, 3 y 0, este último valor con multiplicidad dos (aparece dos veces). A cada valor propio distinto de una matriz cuadrada podemos asociarle un único vector propio que satisface (2.4). En efecto, dado λ podemos resolver el sistema y obtener u. Como la matriz del sistema es singular, existen inÞnitas soluciones, ya que si u es una solución también lo es au, lo que resolvemos tomando el vector de norma uno. Si un valor propio es múltiple, es decir, la matriz no tiene n valores propios distintos, los vectores propios asociados a valores propios con multiplicidad mayor de uno no están deÞnidos en general de manera única. Para ilustrar esta idea, consideremos la matriz A =   1 0 0 0 1 0 0 0 2   que tiene el valor propio 1 con multiplicidad 2. Los vectores u1 = (1, 0, 0)0 y u2 = (0, 1, 0)0 son vectores propios asociados al valor 1, pero también lo es u3 = γu1 + (1 − γ) u2, para cualquier valor de γ. Los vectores propios están en un espacio igual a la multiplicidad del valor propio, 2, y cualquier vector normalizado de este espacio de dimensión 2 es un vector propio de A. Cuando la matriz tiene n valores propios distintos, a cada valor propio le podemos asociar un vector propio bien deÞnido y se demuestra que el conjunto de los n vectores propios es linealmente independiente. Los valores propios de una matriz tienen las propiedades siguientes: 1. Si λ es un valor propio de A, λr es un valor propio de Ar . En particular , si A−1 existe, λ−1 es un valor propio de A−1 .
  • 49. 2.4. VECTORES Y VALORES PROPIOS 49 2. Los valores propios de una matriz y su transpuesta son los mismos. 3. La suma de los valores propios de A es igual a la traza. tr(A) = X λi. 4. El producto de los valores propios de A es igual al determinante |A| = Y λi. 5. Las matrices A y P−1 AP tiene los mismos valores propios. 6. Las matrices A y A ± I tienen los mismos vectores propios y si λ es un valor propio de A, λ ± 1 es un valor propio de A ± I y la 7. Las matrices cuadradas ABC, BCA y CAB, donde las matrices A, B, y C son gen- erales con la condición de que los productos existan, tienen los mismos valores propios no nulos. 8. Si A es triangular los valores propios son los elementos diagonales. 9. Si A y B son cuadradas de órdenes n y p los np vectores propios de su producto de Kronecker, A⊕ B, son el producto de Kronecker de los vectores propios de A y B. La propiedad 1 se demuestra fácilmente ya que si Au = λu, multiplicando esta ecuación por A−1 , resulta u =λA−1 u, es decir A−1 u =λ−1 u. Para comprobar la segunda escribiendo Au = λu y A0 v = µv y multiplicando la primera por v0 y la segunda por u0 se tiene v0 Au = λv0 u y u0 A0 v = µu0 v y como el primer miembro de ambas es el mismo (un escalar es igual a su transpuesto) el segundo lo será y λ=µ. Las propiedades 3 y 4 son consecuencia de las propiedades de diagonalización de matrices que comentamos a continuación. La 5 se comprueba fácilmente ya que si Au =λu, multiplicando ambos miembros por P−1 por la derecha y P por la izquierda, se obtiene que P−1 A P u = λ u y las matrices tienen los mismos valores propios. Los vectores propios de la matriz P−1 AP son P−1 u, siendo u un vector propio de la matriz A. La propiedad 6 es consecuencia de que si Au = λu, entonces Au + Iu = λu + u, es decir, (A + I)u = (1 + λ)u. Por otro lado si |A − λI| = 0, entonces también |A + I − I − λI| = |A + I − (1 + λ)I| = 0. La 9 resulta de la deÞnición de producto de Kronecker. 2.4.2 Valores y vectores propios de matrices simétricas En este libro vamos a obtener vectores y valores propios principalmente de matrices simétri- cas. En estas matrices: (1) los valores propios son siempre reales; (2) los vectores propios son ortogonales. Para comprobar esta segunda propiedad observemos que si Aui = λiui y Auj = λjuj son dos valores y vectores propios distintos, multiplicando la primera ecuación por u0 j y la
  • 50. 50 CAPÍTULO 2. ÁLGEBRA MATRICIAL segunda por u0 j los primeros miembros son iguales y los segundos como λi 6= λj sólo serán iguales si u0 jui = 0. Para interpretar el signiÞcado de los valores y vectores propios de estas matrices consid- eremos matrices simétricas de orden 2 cuyos vectores pueden dibujarse en un plano. Por ejemplo la matriz simétrica A1 = · a b b a ¸ es fácil comprobar que sus valores propios se obtienen de (a − λ)2 = b2 y que sus vectores propios están en las direcciones (1,1) y (1,-1), y normalizados a norma uno son los vectores (0.7071, 0.7071)’ y ( 0.7071,- 0.7071)’ . Por ejemplo, si a = 3 y b = 1, de manera que la matriz está formada por los dos vectores columna (3, 1)0 y (1, 3)0 , los valores propios son (4 y 2). Supongamos que construimos una elipse con centro en el origen y que pase por los extremos de los dos vectores que forman la matriz, como indica la Þgura 2.3. Entonces los valores propios representan la distancia del extremo de cada eje de la elipse al origen. Por ejemplo el valor 4 indica que el eje principal de la elipse mide 4 unidades desde el origen, o 8 en total. Analogamente, el valor 2 indica la longitud del otro semieje de la elipse. Los vectores propios asociados a estos valores propios representan las direcciones de los ejes: el asociado al mayor valor propio es un vector unitario en la dirección de la diagonal principal y el segundo es perpendicular a el, como indica la Þgura 2.3. Si modiÞcamos los valores de a y b los vectores propios no se modiÞcan pero sí los valores propios. Si aumentamos a manteniendo Þjo b alejamos los extremos de los vectores y la elipse tiene cada vez los ejes más similares. Por ejemplo, la matriz formada por los vectores columna (100, 1)0 y (1, 100)0 tiene valores propios (101 y 99) y los mismos vectores propios. Por el contrario si aumentamos b manteniendo Þjo a acercamos los extremos de los vectores y apuntamos más la elipse, lo que aumentará la diferencia entre sus ejes. Por ejemplo, la matriz formada por los vectores columna (1.2, 1)0 y (1, 1.2)0 tiene valores propios (2.2, 0,2) y los mismos vectores propios.
  • 51. 2.4. VECTORES Y VALORES PROPIOS 51 31 3 1 Figura 2.3: Representación de los valores y vectores propios de una matriz simétrica A1 En la matriz anterior al ser los elementos diagonales idénticos la orientación de la elipse era según las bisectrices de los ejes. Esto no ocurrirá si los elementos diagonales son distintos. Por ejemplo, la matriz A2 = · 4 1 1 2 ¸ se encuentre representada en la Þgura 2.4. Ahora el eje mayor de la elipse esta mucho más cerca del vector de módulo mayor y puede comprobarse que los vectores propios son (0.9239 0.3827) y (-0.3827 0.9239), y los valores propios (4.41, 1.59). Generalizando este ejemplo, los valores propios de una matriz simétrica representan las magnitudes de los ejes del elipsoide con centro el origen y determinado por los extremos de los vectores. Los vectores propios indican las direcciones de estos ejes principales.
  • 52. 52 CAPÍTULO 2. ÁLGEBRA MATRICIAL 41 2 Figura 2.4: Representación de los valores y vectores propios de una matriz simétrica A2 2.4.3 Diagonalización de Matrices Simétricas Una propiedad muy importante de las matrices simétricas es que pueden convertirse en una matriz diagonal mediante una transformación ortogonal. Sea A una matriz cuadrada y simétrica de orden n. Hemos visto que esta matriz tiene valores propios reales y vectores pro- pios ortogonales. Entonces los vectores propios, u1, . . . , un, son linealmente independientes y forman una base en <n . Podemos escribir A [u1, . . . , un] = [λ1u1, . . . , λnun] . donde λ1, . . . λn son los valores propios que son números reales y que pueden no ser todos distintos. En particular, algunos de estos valores propios pueden ser nulos. Esta ecuación puede escribirse, llamando D a la matriz diagonal con términos λi, como AU = UD donde la matriz U es ortogonal. Multiplicando por U0 = U−1 , tenemos que U0 AU = D (2.5) y hemos transformado la matriz original en una matriz diagonal, D, mediante una matriz U ortogonal. La ecuación (2.5) tiene una interesante interpretacion geométrica. Observemos que U0 A es una rotación de los vectores que forman la matriz, y esta ecuación nos dice que estos vectores rotados son iguales a DU0 , que es el resultado de multiplicar por los términos de D a una base de vectores ortonormales. En otros términos, como A = UDU0 vemos como se genera siempre una matriz simétrica: se parte de una base ortonormal de vectores, U0 ,se modiÞca la norma de cada vector de esta base, multiplicandolo por una matriz diagonal, y luego se rotan de nuevo los vectores así obtenidos. Diagonalizar una matriz simétrica
  • 53. 2.4. VECTORES Y VALORES PROPIOS 53 consiste en recuperar esta operación y los valores propios representan las constantes por las que se han multiplicado los vectores ortonormales iniciales y los vectores propios indican el giro realizado. Si tomamos determinantes en (2.5): |U0 ||A||U| = |D|, y como |U| = |U0 | = 1, el determinante de A será el producto de sus raíces características. Por lo tanto, si una de las raíces características es nula, el determinante será 0 y la matriz singular. Por otro lado, como en (2.5) las matrices U0 y U son no singulares, el rango de A será igual al de D, que al ser diagonal será igual al número de términos diagonales no nulos, que son los valores propios de A. Por tanto: El rango de una matriz simétrica es igual al número de raíces características distintas de cero. Al diagonalizar una matriz simétrica obtenemos su rango, observando el número de ele- mentos no nulos en la diagonal principal de la matriz transformada D. Descomposición espectral Es interesante poder descomponer una matriz cuadrada simétrica en sus fuentes de variación intrínsecas, es decir en las direcciones de los vectores propios con coeÞcientes que dependen de los valores propios. Esto es lo que consigue la descomposión espectral. Premultiplicando (2.5) por U y postmultiplicando por U0 se obtiene A = UDU0 que, como hemos comentado en la sección anterior indica cómo se genera una matriz simétrica a partir de una base ortonormal. Esta descomposición puede escribirse: A = [u1,... ,un]    λ1u0 1 ... λnu0 n    de donde resulta: A = nX i=1 λiuiu0 i (2.6) que descompone la matriz A como suma de n matrices de rango uno uiu0 i con coeÞcientes λi. Si la matriz A tiene rango r la descomposición espectral (2.6) indica que puede expresarse como suma de r matrices de rango unidad. La importancia de esta descomposición es que si algunos valores propios son muy pequeños, podemos reconstruir aproximadamente A utilizando los restantes valores y valores propios. Observemos que la descomposición espectral de A−1 es A−1 = nX i=1 λ−1 i uiu0 i ya que A−1 tiene los mismos vectores propios que A y valores propios λ−1 i .
  • 54. 54 CAPÍTULO 2. ÁLGEBRA MATRICIAL 2.4.4 Raiz cuadrada de una matriz semideÞnida positiva Una matriz cuadrada, simétrica y semideÞnida positiva puede siempre descomponerse como producto de una matriz por su transpuesta: A = H H0 , en efecto, por la descomposición espectral de una matriz simétrica A = ³ U D1/2 ´ ¡ D1/2 U0 ¢ y tomando H = U D1/2 se obtiene la descomposición. A la matriz H se la denomina una raiz cuadrada de la matriz A. La raíz cuadrada de una matriz no es única, ya que si A = H H0 también A = H∗ H0∗ donde H∗ = HC para cualquier matriz ortogonal C. Una forma de deÞnir la raíz de manera única es exigir que la matriz H sea simétrica, con lo que A = H H. Esto puede hacerse tomando H = U D1/2 U0 Otra forma de hacer la descomposición de manera única es la descomposición de Cholesky que estudiamos a continuación. Descomposición de Cholesky (*) Puede demostrarse que la raíz cuadrada de una matriz cuadrada, simétrica y deÞnida posi- tiva puede obtenerse de manera que H = T sea triangular (T0 será también triangular) con términos diagonales positivos. Entonces la descomposición es única y se denomina descom- posición de Cholesky. Tenemos A = TT0 Demostraremos la existencia de esta matriz por inducción, que tiene la ventaja de propor- cionar además un método para su cálculo. Si la matriz es un escalar a trivialmente T = √ a. Supongamos que hemos encontrado esta descomposición para dimensión p y veamos como obtenerla para dimensión p + 1. Sea Ap= TpT0 p (2.7) y vamos a obtener la descomposición para Ap+1= · Ap a12 a0 12 a22 ¸ donde a12 es un vector p × 1 y a22 un escalar. Vamos a demostrar que esta matriz puede escribirse como Tp+1T0 p+1 donde, tomando Tp+1 como triangular inferior: Tp+1= · Tp 0 t tp+1 ¸ .
  • 55. 2.4. VECTORES Y VALORES PROPIOS 55 Entonces, la condición Ap+1= Tp+1T0 p+1 equivale a las condiciones: a12 = Tpt, y a22 = t0 t+t2 p+1, conjuntamente con (2.7). Como Tp es no singular, podemos obtener t = T−1 p a12 y utilizando (2.7) podemos escribir tp+1 = q a22 − a0 12A−1 p a12, que debe ser positivo si la matriz es deÞnida positiva. Esta descomposición se utiliza mucho en análisis numérico ya que puede calcularse iterativamente con el método propuesto. Por ejemplo, supongamos que A es una matriz de la forma A = · s2 1 s12 s12 s2 2 ¸ con las varianzas y covarianzas de dos variables. Entonces Ap = a1 = s2 1, Tp = s1; t =s12/s1 T = · s1 0 s12/s1 p s2 2 − s2 12/s2 1 ¸ y contiene en la diagonal las desviaciones típicas de la primera variable y de la regresión de la segunda dada la primera. Esta propiedad es general. La descomposición de Cholesky proporciona un método eÞciente de calcular el determi- nante de una matriz ya que si A = TT0 entonces |A| = |T| |T0 | = P t2 ii , siendo tii los elementos diagonales de T o T0 . Diagonalización de dos matrices simétricas (*) Supongamos que A y B son dos matrices simétricas de la misma dimensión y A es además deÞnida positiva. Entonces la matriz H = A−1/2 C, donde C contiene los vectores propios de la matriz simétrica A−1/2 BA−1/2 veriÞca H0 AH = I y H0 BH = D donde la matriz D es diagonal. Para comprobar esta propiedad observemos que como la matriz A−1/2 BA−1/2 es simétrica la matriz C es ortogonal. Por tanto H0 AH = C0 A−1/2 AA−1/2 C = I y H0 BH = C0 A−1/2 BA−1/2 C = D donde la matriz D diagonal contiene los valores propios de la matriz A−1/2 BA−1/2 .
  • 56. 56 CAPÍTULO 2. ÁLGEBRA MATRICIAL 2.4.5 Descomposición en valores singulares Para matrices rectangulares generales puede conseguirse una descomposición similar a la descomposición espectral de una matriz simétrica. Como en el caso de matrices cuadradas y simétricas, toda matriz rectangular A de dimensiones (n × p) y de rango r puede ex- presarse como producto de tres matrices, dos con vectores ortogonales y una diagonal. La descomposición es A = U1D1/2 V0 1 donde U1 es (n × r), D es (r × r) y V0 1 es (r × p). La matriz diagonal D1/2 contiene las raíces cuadradas de los valores propios no nulos de las matrices A A0 o A0 A, que son positivos. Estos términos diagonales de D se denominan los valores singulares de la matriz A. La matriz U1 contiene en columnas los vectores propios unidos a valores propios no nulos de A A0 y V1 contiene en columnas los vectores propios unidos a valores propios no nulos de A0 A. Las columnas de U1 son ortogonales entre sí y también lo serán las de V1. Los elementos diagonales de D1/2 se denominan los valores singulares de la matriz A. 2.4.6 (*)Diagonalización de Matrices generales Sea A una matriz cuadrada de orden n. Esta matriz es diagonalizable si, y sólo si, sus vectores propios son linealmente independientes. En efecto, supongamos que los vectores propios, u1, . . . , un, son linealmente independientes y forman una base en <n . Podemos escribir A [u1, . . . , un] = [λ1u1, . . . , λnun] . donde λ1, . . . λn son los valores propios que pueden no ser distintos. En particular, algunos de estos valores propios pueden ser nulos. Esta ecuación puede escribirse, llamando D a la matriz diagonal con términos λi, como AU = UD Como la matriz U es no singular si los vectores propios son linealmente independientes, multiplicando por la inversa se obtiene U−1 A U = D y hemos diagonalizado la matriz A. Podemos también escribir A = U D U−1 . (2.8) Hemos comprobado que una matriz es diagonalizable si tiene n vectores propios linealmente independientes. Entonces puede escribirse como (2.8), donde U contienen los vectores propios y la matriz diagonal, D, los valores propios. Se demuestra que una condición suÞciente para que una matriz sea diagonalizable es que tenga valores propios distintos.
  • 57. 2.4. VECTORES Y VALORES PROPIOS 57 Consideremos ahora el caso general de una matriz cuadrada de orden n con p valores propios λ1, . . . λp, con multiplicidad mi, Pp i=1 mi = n. Puede demostrarse que la condición para que A tenga n vectores propios linealmente independientes es que el rango de la matriz (A − λiI) = n−mi, y que esta condición se cumple si la matriz tiene valores propios distintos. En efecto, los valores propios se obtienen de |A − λI| = 0, lo que implica que, si todos son distintos, el rango de la matriz (A − λiI) es n − 1. 2.4.7 (*)Inversas Generalizadas Se denomina matriz inversa generalizada de una matriz rectangular An×p a una matriz A− de dimensiones p × n que veriÞca: AA− A = A. En general existen muchas matrices que veriÞcan esta condición. Si además imponemos las condiciones: A− AA− = simétrica A− A = simétrica AA− = simétrica entonces A− es única y se denomina la matriz inversa generalizada Moore-Penrose (MP) de A. Si n > p y A tiene rango completo, rg(A) = p, la matriz inversa MP es: A− = (A0 A) −1 A0 . (2.9) El lector puede comprobar que esta matriz veriÞca las propiedades anteriores. Si p > n y rg (A) = n, esta matriz es: A− = A0 (AA0 ) −1 . Si A no tiene rango completo esta expresión no es válida ya que ni (A0 A)−1 ni (AA0 ) −1 existen. La inversa MP se construye a partir de la descomposición espectral de la matriz A0 A (supuesto n > p). Si λ1, . . . λr, r < p, son los valores propios no nulos de A0 A y u1, . . . ur sus vectores propios asociados podemos escribir: A0 A = UrDrU0 r, donde Ur es rectangular p × r con los vectores ui en columnas y Dr es diagonal r × r e incluye los valores propios no nulos. Entonces es fácil comprobar que A− = UrD−1 r U0 rA0 que es la generalización de (2.9) para matrices de rango no completo. Ejercicios 2.4 2.4.1 Calcular los vectores y valores propios de la matriz A = · 2 1 1 2 ¸ y representarlos gráÞcamente.
  • 58. 58 CAPÍTULO 2. ÁLGEBRA MATRICIAL 2.4.2 Escribir la representación espectral de la matriz A de 2.4.1 2.4.3 Calcular los vectores y valores propios de la matriz A−1 y su representación espec- tral. 2.4.4 Demostrar que 0 es un valor propio de una matriz A si y solo si esta matriz es singular. 2.4.5 Demostrar que los valores propios de una matriz son iguales a los de su transpuesta. 2.4.6 Dada la matriz A =   1 1 2 1 0 2 1 1 2   calcular la matriz inversa generalizada. 2.4.7 Calcular la descomposición en valores singulares de la matriz A =   1 0 0 1 1 0   . 2.4.8 Demostrar que |A + vv0 | = |A| (1 + v0 A−1 v0 ), donde A es una matriz cuadrada no singular y v un vector. Para ello utilizar que si llamamos λ1 al valor propio no nulo de la matriz de rango uno A−1 vv0 , |(I + A−1 vv0 )| = Q (1 + λi) = 1 + λ1 = 1 + tr(v0 A−1 v). 2.4.5 Calcular la decomposición de Cholesky de la matriz deÞnida positiva A0 A, donde A es la matriz del ejercicio 2.4.6 2.5 (*)PROYECCIÓN ORTOGONAL 2.5.1 Matrices Idempotentes En un modelo lineal la estimación por mínimos cuadrados equivale a la proyección ortogonal del vector de datos sobre el espacio generado por las variables explicativas. La proyección ortogonal tiene una importancia capital en los métodos de estimación lineal y se realiza multiplicando el vector que se desea proyectar por una matriz idempotente. Vamos a deÞnir formalmente estas matrices. Llamaremos matriz idempotente1 a una matriz cuadrada, simétrica, y que veriÞca la propiedad: AA = A = A0 A. Es inmediato comprobar que una matriz idempotente o bien es singular (|A| = 0), con rango r menor que el orden n de la matriz, o bien es la matriz identidad. En efecto, como A es idempotente: AA = A si |A| 6= 0, existirá la matriz inversa A−1 , y multiplicando por A−1 A−1 AA = A = I. 1 Una matriz idempotente puede no ser simétrica, pero todas las matrices idempotentes que utilicemos lo serán; por lo tanto, en adelante idempotente será simétrica e idempotente, sin que detallemos que es simétrica.
  • 59. 2.5. (*)PROYECCIÓN ORTOGONAL 59 Por tanto, una matriz idempotente que no es la matriz I será singular. Comprobaremos que las raíces características de una matriz idempotente son cero o la unidad. Llamemos λ a sus raíces características y u a sus vectores característicos. Entonces: Au = λu, multiplicando por A, el primer miembro es: AAu = Au =λu y el segundo: λAu =λ2 u, es decir, λu = λ2 u de donde resulta: ¡ λ2 − λ ¢ u = 0. Para que λ sea una raíz característica el vector u debe ser distinto de cero, entonces: λ2 − λ = λ (λ − 1) = 0 que tiene como soluciones λ = 1 ó λ = 0. Por lo tanto, si se diagonaliza una matriz idempotente –lo que siempre puede hacerse al ser simétrica– obtendremos en la diagonal principal un número de unos igual al rango de la matriz y el resto de los elementos serán cero. Una conclusión inmediata de este resultado es que una matriz idempotente A es siempre semideÞnida positiva. En efecto: x0 Ax = x0 A0 Ax = (Ax)0 Ax ≥ 0. Finalmente, si A es idempotente también lo es I − A ya que: (I − A)(I − A) = I − A − A + AA = I − A De las propiedades anteriores se deduce que si A es una matriz idempotente simétrica, su rango es igual a su traza. 2.5.2 Proyección Ortogonal Dado un vector y de n componentes diremos que v es la proyección ortogonal de y sobre un subespacio Ep contenido en <n y de dimensión p, p < n si: 1. y = v + w con v ∈Ep
  • 60. 60 CAPÍTULO 2. ÁLGEBRA MATRICIAL 2. v0 w = 0 para todo v ∈Ep. Esta deÞnición indica que y puede descomponerse como suma de dos vectores perpen- diculares: el primero, v, es la proyección ortogonal de y sobre Ep y pertenece, por tanto, a Ep; el segundo, w, es ortogonal a todos los vectores de Ep (y por tanto a Ep), y pertenece, en consecuencia, al espacio En−p, complemento ortogonal al Ep. Es fácil demostrar que esta descomposición es única. La Þgura 2.5 ilustra esta situación. y v w E Figura 2.5: Proyección ortogonal del vector y sobre el plano E Como ilustración, sea Ep un espacio de dimensión uno engendrado por el vector x. En- tonces la proyección del vector y sobre la dirección del vector x será: v = cx donde c es un escalar. Para determinar c, impondremos la condición de que la diferencia w = y − v debe ser ortogonal a v, y por tanto a x: x0 (y − v) = 0, es decir, x0 y = x0 xc, que implica: c = (x0 x) −1 x0 y. Sustituyendo este valor de c en la expresión de v, la proyección será: v = x(x0 x)−1 x0 y = Ay
  • 61. 2.5. (*)PROYECCIÓN ORTOGONAL 61 es decir, la proyección de un vector y sobre otro x se obtiene multiplicando el vector por la matriz A = x(x0 x)−1 x0 . Esta matriz A, es cuadrada (n×n), idempotente y de rango igual a la dimensión del espacio sobre el que proyectamos, que es, en este caso, uno. Comprobemos que es idempotente: ³ x (x0 x) −1 x0 ´ ³ x (x0 x) −1 x0 ´ = x (x0 x) −1 x0 , y que es de rango uno: rg(A) = tr(A) = tr ³ (x0 x) −1 x0 x ´ = tr(1) = 1 Observemos que en el caso particular en que el vector x tiene norma unitaria, (x0 x) = 1, y la expresión del vector proyección es v = xx0 y que tiene una interpretación inmediata: el vector proyección estará en la dirección de x (lo que implica es de la forma cx) y su norma viene dada por la longitud de la proyección que es x0 y, (ya que x tiene norma unitaria). A continuación generalizamos estos resultados a proyecciones más generales. Teorema 2.1 Sea y ∈<n y sea X una matriz (n × p) cuyas columnas son una base de un cierto subespacio Ep. Entonces la proyección del vector y sobre el espacio Ep es Ay, donde la matriz cuadrada A es simétrica, idempotente, de rango p, y tal que A = X(X0 X)−1 X0 . Demostración La proyección de y sobre un subespacio debe ser siempre del tipo v = Ay, donde A es idempotente. En efecto la proyección de v sobre dicho espacio, dada por Av, tendrá que ser igual a v, ya que v pertenece al subespacio. Por tanto, si Av = v , resuta que: A(Ay) = Ay para todo vector y, lo que requiere A = A2 , es decir, la matriz proyección debe ser idem- potente. Demostraremos ahora que la matriz idempotente A que proyecta sobre el espacio generado por las columnas de una matriz X, Ep, viene dada por: A = X(X0 X)−1 X0 . Probemos primero que A depende del subespacio Ep, pero no de la base elegida. En efecto, si consideramos otra base B generadora del subespacio dada por: B = XC donde C es (p × p) y no singular, como (GP)−1 = P−1 G−1 para G y P matrices cuadradas no singulares, tendremos que: B(B0 B)−1 B0 = XC(C0 X0 XC)−1 C0 X0 = X(X0 X)−1 X0 = A
  • 62. 62 CAPÍTULO 2. ÁLGEBRA MATRICIAL por tanto, A no depende de la base escogida. A continuación veremos que el vector v deÞnido por: v = X(X0 X)−1 X0 y, veriÞca las condiciones de una proyección. Demostraremos, en primer lugar, que v está contenido en Ep. Llamemos β = (X0 X)−1 X0 y a los coeÞcientes de la proyección de y sobre el espacio de las columnas de X, que repre- sentaremos por x1, ..., xp. Entonces v = Xβ = β1x1 + β2x2 + ... + βpxp, y al ser v una combinación lineal de las columnas de X pertenece a Ep. Demostraremos ahora que y − v es ortogonal a Ep. Todo vector de Ep puede expresarse como: u = α1x1 + ... + αpxp = Xα y por tanto, u0 (y − v) = u0 (I − X(X0 X)−1 X0 )y = α0 (X0 − X0 X(X0 X)−1 X0 )y = 0 es decir, y − v es ortogonal a cualquier vector de Ep, lo que demuestra el teorema. Teorema 2.2 La condición necesaria y suÞciente para que v = Ay, donde A es una matriz cuadrada, sea la proyección ortogonal de y ∈ <n sobre un cierto espacio Ep, es que A sea idempotente (A = A0 , A2 = A) de rango p. Demostración La condición es necesaria: si A deÞne una proyección, según el teorema anterior puede expresarse como A = X(X0 X)−1 X0 , siendo X una matriz que contiene, en columnas, una base del espacio, por lo que A es simétrica e idempotente. La condición es suÞciente: supongamos que A es idempotente y hagamos y = Ay + (I − A)y Vamos a demostrar que el vector (I − A)y es ortogonal a todo vector que pertenezca a Ep. Sea Ac un vector cualquiera que pertenece a Ep. (Ac)0 (I − A)y = c0 (A0 − A)y = 0 por tanto, si A es idempotente, Ay es la proyección de y sobre el espacio generado por las columnas de A. Teorema 2.3 Si y ∈<n , v es su proyección sobre Ep y z es cualquier otro vector de Ep, se veriÞca, llamando kyk a la norma del vector y: kyk2 = kvk2 + ky − vk2 ky − zk2 = kv − zk2 + ky − vk2 .
  • 63. 2.5. (*)PROYECCIÓN ORTOGONAL 63 Demostración Estas expresiones representan el teorema de Pitágoras en un espacio general. Como, por deÞnición de proyección, v0 (y − v) = 0, entonces v0 y = v0 v. Por otro lado: (y − v)0 (y − v) = y0 y − v0 y − y0 v + v0 v = y0 y − v0 v, que escribiremos y0 y = v0 v + (y − v)0 (y − v) que es la primera igualdad. Para demostrar la segunda, partamos de la identidad y − z = y − v + v − z y multiplicando por el vector transpuesto y utilizando que y − v debe ser ortogonal a v − z, por serlo a todos los vectores de Ep, el teorema queda demostrado. Una consecuencia de este teorema es que podemos deÞnir la proyección ortogonal de un vector y sobre un espacio Ep como aquel vector v de Ep tal que ky − vk es mínimo. En este sentido el vector proyección es, el ”más próximo” al original. En efecto, como, para cualquier vector z del plano: ky − zk ≥ ky − vk el vector v, proyección ortogonal, minimiza las distancias entre el espacio Ep y el vector y. Teorema 2.4 Si y ∈ <n , el cuadrado de la norma de su proyección sobre un espacio Ep deÞnido por las columnas de la matriz X vendrá dado por y0 Ay, donde A es idempotente. Demostración El vector proyectado será Ay, donde A es idempotente, y su norma será: (Ay)0 (Ay) = y0 Ay. Teorema 2.5 Si y ∈ <n y proyectamos este vector sobre espacios ortogonales, E1, ..., Eh, deÞnidos por matrices de proyección , A1, ...Ah, donde: n = hX i=1 rg(Ai) se veriÞca: y0 y = y0 A1y + y0 A2y + ... + y0 Ahy. Ejercicios 2.5 2.5.1 Calcule la proyección ortogonal del vector (1,1 3) sobre el espacio generado por las dos variables (1 ,1,1) y (0, 1,2). 2.5.2 Exprese al vector anterior como combinación lineal de las dos variables. 2.5.3 Obtener el vector ortogonal al vector proyección. 2.5.4 Demuestre que el resultado anterior es equivalente a realizar la regresión simple entre la variable (1,1 3) y la variable (0, 1,2). 2.5.5 Demostrar, utilizando el Teorema 2.1, que para calcular los coeÞcientes de regresión múltiple entre una variable y un conjunto de variables incorreladas basta con calcular los coeÞcientes de las regresiones simples.
  • 64. 64 CAPÍTULO 2. ÁLGEBRA MATRICIAL 2.6 (*)DERIVADAS MATRICIALES DeÞnición 2.1 Dada un función f que depende de n variables, x1, ..., xn, que pueden con- siderarse componentes de un vector x, la derivada de f respecto a x es un vector cuyos componentes son la derivada de f respecto a cada componente de x. Ejemplo 2.1 Si f = 5x1 + 2x2 + 3x3 ∂f ∂x =   5 2 3   Los siguientes resultados son consecuencia de la deÞnición Corolario 2.1 Si f = a0 x tendremos que: ∂(a0 x) ∂x = a Corolario 2.2 Si f = x0 Ax, donde A es cuadrada y simétrica: ∂(x0 Ax) ∂x = 2Ax Demostración Resulta de aplicar la deÞnición anterior, como: x0 Ax = nX i=1 aiix2 i + 2 X j>i aijxixj tendremos que: ∂(xAx) ∂x1 = 2a11x1 + 2a12x2 + ... + 2a1nxn = 2a0 1x donde a0 1 es la primera Þla de la matriz. Por tanto: ∂(xAx) ∂x =      2a0 1x 2a0 2x ... 2a0 nx      = 2Ax DeÞnición 2.2 Dada un función f que depende de np variables, x11, ..., xnp, que son los componentes de una matriz rectangular n × p, X , la derivada de f respecto a X se deÞne como la matriz cuyos componentes son la derivada de f respecto a cada componente de X0 . La derivada es pues una matriz p × n con las dimensiones de X0 .
  • 65. 2.6. (*)DERIVADAS MATRICIALES 65 Los siguientes resultados se comprueban aplicando la deÞnición Corolario 2.3 Corolario 2.4 Si f = a0 Xb ∂(a0 Xb) ∂X = ba0 DeÞnición 2.3 Ejemplo 2.2 Corolario 2.5 Si f = a0 X0 Xb ∂(a0 X0 Xb) ∂X = (ab0 + ba0 )X0 DeÞnición 2.4 Dado un vector y cuyos componentes son funciones fi de un vector de variables x0 = (x1, ..., xn), deÞnimos la derivada de y respecto a x como la matriz cuyas columnas son las derivadas de los componentes fi respecto a x. Es decir, si: y0 = (f1(x), ..., fn(x)) entonces: ∂y ∂x = · ∂f1 ∂x , . . . , ∂fn ∂x ¸ =    ∂f1 ∂x1 . . . ∂fn ∂x1 ... ... ∂f1 ∂xn . . . ∂fn ∂xn    Corolario 2.6 Si y = Ax, donde A es una matriz cualquiera. ∂ (Ax) ∂x = A0 Demostración Para deducir este resultado de la deÞnición anterior, escribamos la matriz A como: A =    a0 1 ... a0 n    donde cada a0 1 es una Þla de la matriz. Entonces: y = Ax =    a0 1x ... a0 nx    con lo que: ∂fi ∂x = ∂(a0 ix) ∂x = ai por tanto, según lo anterior: ∂y ∂x = [a1, . . . , an] = A0
  • 66. 66 CAPÍTULO 2. ÁLGEBRA MATRICIAL Otras propiedades Puede deducirse, extendiendo las deÞniciones anteriores, que, si los elementos de la matriz cuadrada y no singular X son distintos: a) ∂ln |X| ∂X = (X0 )−1 d) ∂tr (XB) ∂X = B0 b) ∂ |X| ∂X = |X| (X0 )−1 e) ∂tr (X0 AXB) ∂X = BX0 A + B0 X0 A0 c) ∂tr(BXC) ∂X = B0 C0 f) ∂tr(BX−1 ) ∂X = − ¡ X−1 BX−1 ¢ además, si X es simétrica: ∂tr(XB) ∂X = B + B0 −diag(B) ∂ |X| ∂X = |X| ¡ 2X−1 − diag ¡ X−1 ¢¢ El lector interesado puede encontrar las demostraciones de estos resultados en Bibby y Toutenterg (1977), Graybill (1983) y Pollock (1979). Ejercicios 2.6 2.6.1 Calcular la derivada con respecto al vector x =(x1, x2)0 de las funciones siguientes a) f1(x) = 2x1 + 3x2, b) f2(x) = 4x2 1 − 3x1x2, c) f3(x) = 3x4 1x3 2 + 2x2 1x2 2 − 7x1x3 2 + 6 2.6.2 Calcular la derivada con respecto al vector x =(x1, x2)0 de las funciones vectoriales siguientes, construidas con la notación de 2.6.1 a)f1(x) = (f1(x), f2(x), f3(x))0 , b)f2(x) = (2f1(x) + 5f2(x), −6f3(x))0 , 2.6.3 Si x =(x1, x2, x3, x4)0 y X = · x1 x2 x3 x4 ¸ , comprobar que ∂ln |X| ∂x1 = x4 x1x4−x2x3 y utilizar este resultado para conÞrmar la expresión de ∂ln |X| ∂X . 2.6.4 En el ejercicio anterior comprobar que ∂ |X| ∂X = · x4 −x3 −x2 x1 ¸ . Utilizar esta expre- sión para veriÞcar la ecuación dada de la derivada del determinante de una matriz cuadrada. 2.6.5 Si x =(x1, x2, x3)0 y X = · x1 x2 x2 x3 ¸ , comprobar que ∂ |X| ∂X = · x3 −2x2 −2x2 x1 ¸ , Utilizar este resultado para conÞrmar la expresión general de la derivada del determinante de una matriz cuadrada.
  • 67. Capítulo 3 DESCRIPCIÓN DE DATOS MULTIVARIANTES 3.1 INTRODUCCIÓN En este capítulo y en el siguiente vamos a estudiar como describir un conjunto de datos multivariantes. Supondremos que hemos observado un conjunto de variables en un conjunto de elementos de una población y en este capítulo presentaremos métodos para resumir los valores de las variables y describir su estructura de dependencia. En el capítulo siguiente completaremos el análisis descriptivo analizando como representar los datos gráÞcamente y decidir respecto a posibles transformaciones de las variables originales que conduzcan a una descripción más simple. También comentaremos el problema de limpiar los datos de valores atípicos, que son observaciones debidas a errores de medida o otras causas de heterogeneidad. El análisis descriptivo que presentamos en este capítulo debe siempre aplicarse como primer paso para comprender la estructura de los datos y extraer la información que con- tienen, antes de pasar a los métodos más complejos de los capítulos siguientes. Las her- ramientas simples que describimos en estos dos capítulos pueden, en ocasiones, resolver el problema que ha motivado la recogida de los datos. En particular, cuando el interés se centra en la relación entre las variables o en la comparación de dos conjuntos de datos, los métodos descriptivos pueden ser de gran ayuda antes de emprender estudios más complejos. 3.2 DATOS MULTIVARIANTES 3.2.1 Tipos de variables La información de partida para los métodos estudiados en este libro puede ser de varios tipos. La más habitual es una tabla donde aparecen los valores de p variables observadas sobre n elementos. Las variables pueden ser cuantitativas, cuando su valor se exprese numéricamente, como la edad de una persona, su estatura o su renta, o cualitativas, cuando su valor sea un atributo o categoría, como el género, el color de los ojos o el municipio de nacimiento. Las variables cuantitativas pueden a su vez clasiÞcarse en continuas o de intervalo, cuando pueden tomar cualquier valor real en un intervalo, como la estatura, o discretas, cuando sólo toman 67
  • 68. 68 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES CO x1 x2 x3 A 1 0 0 V 0 1 0 C 0 0 1 N 0 0 0 Tabla 3.1: CodiÞcación de variables categóricas valores enteros, como el número de hermanos. Las variables cualitativas pueden clasiÞcarse en binarias, cuando toman únicamente dos valores posibles, como el género (mujer, hombre) o generales, cuando toman muchos valores posibles, como el municipio de residencia. Supondremos en adelante que las variables binarias se han codiÞcado como numéricas (Por ejemplo, la variable género se convierte en numérica asignando el cero al varón y el uno a mujer). Las variables cualitativas pueden también codiÞcarse numéricamente, pero requieren un tratamiento distinto. Si los valores de las categorías no tienen relación entre sí, la forma más útil de codiÞcarlas es convirtiéndolas en variables binarias. Por ejemplo, supongamos la variable color de los ojos, CO, y para simpliÞcar supongamos que las categorías posibles son azules (A), verdes (V), castaños (C) y negros (N). Tenemos p = 4 categorías que podemos representar con p − 1 = 3 variables binarias deÞnidas como: a) x1 = 1 si CO=A, x1 = 0 en otro caso. b) x2 = 1 si CO=V, x2 = 0 en otro caso. c) x3 = 1 si CO=C, x3 = 0 en otro caso. La tabla 3.1 presenta la codiÞcación de la variable atributo CO en las tres variables binarias cuantitativas, x1, x2, x3 Si el número de clases posibles de una variable cualitativa es muy grande este procedimien- to siempre puede aplicarse pero puede lógicamente dar lugar a muchas variables. Conviene entonces ver si podemos agrupar las clases o categorías para evitar tener variables que casi siempre toman el mismo valor (cero si la categoría es poco frecuente o uno si lo es mucho). Naturalmente la variable CO podría también haberse codiÞcado dando valores numéricos arbitrarios a las categorías, por ejemplo, A=1, V=2, C=3, N=4, pero esta codiÞcación tiene el inconveniente de sugerir una graduación de valores que puede no existir. Sin embargo, cuando los atributos pueden interpretarse en función de los valores de una variable continúa tiene más sentido codiÞcarla con números que indiquen el orden de las categorías. Por ejemplo, si tenemos empresas pequeñas, medianas y grandes, en función del número de trabajadores, tienen sentido codiÞcarlas con los números 1, 2, y 3, aunque conviene siempre recordar que estos números sólo tienen un sentido de orden. 3.2.2 La matriz de datos Supondremos en adelante que hemos observado p variables numéricas en un conjunto de n elementos. Cada una de estas p variables se denomina una variable escalar o univariante y el conjunto de las p variables forman una variable vectorial o multivariante. Los valores de las p variables escalares en cada uno de los n elementos pueden representarse en una matriz, X, de dimensiones (n × p), que llamaremos matriz de datos. Denotaremos por xij
  • 69. 3.2. DATOS MULTIVARIANTES 69 al elemento genérico de esta matriz, que representa el valor de la variable escalar j sobre el individuo i. Es decir: datos xij donde i = 1, ..., n representa el individuo; j = 1, ..., p representa la variable Algunos ejemplos de datos que se utilizan en el análisis multivariante son: 1. En 100 estudiantes de una universidad medimos la edad, el género (1 mujer, 0 hombre), la caliÞcación media, el municipio de residencia (que se codiÞca en 4 categorías en función del tamaño) y el curso más alto en que se encuentra matriculado. Los datos iniciales se representan en una tabla de 100 Þlas, cada una de ellas correspondiente a los datos de un estudiante. La tabla tendrá 5 columnas, cada una de ellas conteniendo los valores de una de las 5 variables deÞnidas. De estas 5 variables 3 son cuantitativas, una binaria (el género) y otra cualitativa general (municipio de residencia, que tomará los valores 1, 2, 3, y 4). Alternativamente podríamos codiÞcar el municipio de residencia con tres variables binarias, y entonces, la matriz de datos tendrá n =100 Þlas y p = 7 columnas correspondientes a las tres cuantitativas, el género, y las tres variables binarias adicionales para describir el tamaño del municipio de residencia. 2. En cada una de las 138 empresas de una zona medimos el número de trabajadores, la facturación, el sector industrial y la cantidad recibida en ayudas oÞciales. Si clasiÞ- camos el sector en ocho clases con siete variables binarias la matriz de datos será de dimensiones 138 × 10 con tres variables cuantitativas y siete binarias (que describen el sector industrial). 3. En 400 puntos de una ciudad instalamos controles que proporcionan cada hora las medidas de 30 variables ambientales y de contaminación atmosférica en dicho punto. Cada hora tendremos una matriz de datos con 400 Þlas, los puntos de observación, y 30 columnas, las 30 variables observadas. La matriz de datos, X, puede representarse de dos formas distintas. Por Þlas, como: X =      x11 x12 . . . x1p x21 . . . . . . x2p ... xn1 . . . . . . xnp      =      x0 1 ... ... x0 n      donde cada variable x0 i es un vector Þla, p × 1, que representa los valores de las p variables sobre el individuo i. Alternativamente, podemos representar la matriz X por columnas: X = £ x(1) . . . x(p) ¤ donde ahora cada variable x(j) es un vector columna, n × 1, que representa la variable escalar xj medida en los n elementos de la población. Llamaremos x = (x1, ..., xp)0 a la variable multivariante formada por las p variables escalares que toma los valores particulares x1, ..., xn, en los n elementos observados.
  • 70. 70 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES 3.2.3 Análisis univariante Describir datos multivariantes supone estudiar cada variable aisladamente y además las relaciones entre ellas. Supondremos que el lector está familiarizado con el análisis descriptivo de una variable, y aquí expondremos únicamente las fórmulas que utilizaremos en otras partes del libro. El estudio univariante de la variable escalar xj implica calcular su media: xj = 1 n nX i=1 xij que para una variable binaria es la frecuencia relativa de aparición del atributo y para una numérica es el centro de gravedad o geométrico de los datos. Se calcula una medida de variabilidad con relación a la media, promediando las desviaciones entre los datos y su media. Si deÞnimos las desviaciones mediante dij = (xij − xj)2 , donde el cuadrado se toma para prescindir del signo, se deÞne la desviación típica por: sj = rPn i=1 dij n = rPn i=1(xij − xj)2 n (3.1) y su cuadrado es la varianza, s2 j = Pn i=1 dij/n . Para comparar la variabilidad de distintas variables conviene construir medidas de variabilidad relativa que no dependan de las unidades de medida. Una de estas medidas es el coeÞciente de variación CVj = s s2 j x2 j donde de nuevo se toman los cuadrados para prescindir del signo y suponemos que xj es distinto de cero. En tercer lugar, conviene calcular los coeÞcientes de asimetría, que miden la simetría de los datos respecto a su centro, y que se calculan como: Aj = 1 n P (xij − xj)3 s3 j . Este coeÞciente es cero para una variable simétrica. Cuando el valor absoluto del coeÞciente es aproximadamente mayor que uno podemos concluir que los datos tienen una distribución claramente asimétrica. Una característica importante de un conjunto de datos es su homogeneidad. Si las desvia- ciones dij son muy distintas, esto sugiere que hay datos que se separan mucho de la media y que tenemos por tanto alta heterogeneidad. Una posible medida de homogeneidad es la varianza de las dij, dada por: 1 n nX i=1 (dij − s2 j )2 ya que, según (3.1), la media de las desviaciones dj = s2 . Se calcula una medida adimensional análoga al coeÞciente de variación dividiendo la varianza de las desviaciones por el cuadrado
  • 71. 3.2. DATOS MULTIVARIANTES 71 de la media, s4 , con lo que tenemos el coeÞciente de homogeneidad, que puede escribirse Hj = 1 n Pn i=1(dij − s2 j )2 s4 j . Este coeÞciente es siempre mayor o igual a cero. Desarrollando el cuadrado del numerador como Pn i=1(dij −s2 j )2 = Pn i=1 d2 ij +ns4 j −2s2 j Pn i=1 dij este coeÞciente puede escribirse también como: Hj = 1 n P (xij − xj)4 s4 j − 1 = Kj − 1. El primer miembro de esta expresión, Kj, es una forma alternativa de medir la homogeneidad y se conoce como coeÞciente de kurtosis. Como Hj ≥ 0, el coeÞciente de kurtosis será igual o mayor que uno. Ambos coeÞcientes miden la relación entre la variabilidad de las desviaciones y la desviación media. Es fácil comprobar que : 1. Si hay unos pocos datos atípicos muy alejados del resto, la variabilidad de las desvia- ciones será grande, debido a estos valores y los coeÞcientes de kurtosis o de homogeneidad serán altos. 2. Si los datos se separan en dos mitades correspondientes a dos distribuciones muy alejadas entre sí, es decir, tenemos dos conjuntos separados de datos distintos, la media de los datos estará equidistante de los dos grupos de datos y las desviaciones de todos los datos serán similares, con lo que el coeÞciente Hj será muy pequeño (cero en el caso extremo en que la mitad de los datos son iguales a cualquier número, −a , y la otra mitad igual a a). Un objetivo central de la descripción de datos es decidir si los datos son una muestra homogénea de una población o corresponden a una mezcla de poblaciones distintas que deben estudiarse separadamente. Como veremos en el capítulo siguiente, un caso especialmente importante de heterogeneidad es la presencia de una pequeña proporción de observaciones atípicas (outliers), que corresponden a datos heterogéneos con el resto. La detección de estas observaciones es fundamental para una correcta descripción de la mayoría de los datos, ya que. como veremos, estos valores extremos distorsionan los valores descriptivos del conjunto. El coeÞciente de kurtosis puede ayudar en este objetivo, ya que tomará un valor alto, mayor que 7 u 8. Por ejemplo, si contaminamos datos que provienen de una distribución normal con un 1% de atípicos generados por otra distribución normal con la misma media, pero una varianza 20 veces mayor, el coeÞciente de kurtosis será alrededor de 10. Siempre que observemos un valor alto de la kurtosis para una variable esto implica heterogeneidad por uno pocos atípicos muy alejados del resto. Aparece un tipo distinto de heterogeneidad cuando tenemos una mezcla de dos pobla- ciones, de manera que una proporción importante de los datos, entre el 25% y el 50%, son heterogeneos con el resto. En este caso, el coeÞciente de kurtosis es pequeño, menor de dos, y es fácil comprobar que si mezclamos a partes iguales dos distribuciones muy distintas, la kurtosis de la distribución resultante tiende a uno, el valor mínimo del coeÞciente, cuando aumenta la separación entre las poblaciones La presencia posible de datos atípicos recomienda calcular junto a los estadísticos tradi- cionales medidas robustas de centralización y dispersión de los datos. Para centralización
  • 72. 72 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES conviene calcular la mediana, que es el valor que se encuentra en la posición central al ordenar los datos. Para la dispersión, la MEDA, que es la mediana de las desviaciones absolutas re- specto a la mediana. Finalmente siempre conviene representar gráÞcamente las variables continuas mediante un histograma o un diagrama de caja (véase por ejemplo Peña, 2001). En el análisis inicial de los datos conviene siempre calcular la media y la mediana de cada variable. Si ambas son similares, la media es un buen indicador del centro de los datos. Sin embargo, si diÞeren mucho, la media puede no ser una buena medida del centro de los datos debido a: (1) una distribución asimétrica, (2) la presencia de valores atípicos (que afectaran mucho a la media y poco a la mediana) (3) heterogeneidad en los datos. A continuación pasaremos al análisis multivariante de las observaciones. En este capí- tulo presentaremos como obtener medidas conjuntas de centralización y dispersión para el conjunto de variables y medidas de dependencia lineal entre pares de variables y entre todas ellas. 3.3 MEDIDAS DE CENTRALIZACIÓN: EL VECTOR DE MEDIAS La medida de centralización más utilizada para describir datos multivariantes es el vector de medias, que es un vector de dimensión p cuyos componentes son las medias de cada una de las p variables. Puede calcularse, como el caso escalar, promediando las medidas de cada elemento, que ahora son vectores: x = 1 n nX i=1 xi =    x1 ... xp    (3.2) Su expresión a partir de la matriz de datos es : x = 1 n X0 1, (3.3) donde 1 representará siempre un vector de unos de la dimensión adecuada. En efecto, escribiendo la matriz X en términos de sus vectores Þla, que son vectores de dimensión 1 ×p que contienen los valores de las p variables en cada elemento de la muestra, estos vectores son las columnas de X0 , y tendremos que: x = 1 n [x1 . . . xn]    1 ... 1    , (3.4) que conduce a (3.2). El vector de medias se encuentra en el centro de los datos, en el sentido de hacer cero la suma de desviaciones: nX i=1 (xi − x) = 0.
  • 73. 3.3. MEDIDAS DE CENTRALIZACIÓN: EL VECTOR DE MEDIAS 73 ya que esta suma es Pn i=1 xi −nx, y aplicando la deÞnición (3.2) es inmediato que esta suma es cero. Las medidas de centralización escalares basadas en el orden de las observaciones no pueden generalizarse fácilmente al caso multivariante. Por ejemplo, podemos calcular el vector de medianas, pero este punto no tiene necesariamente una situación como centro de los datos. Esta diÞcultad proviene de la falta de un orden natural de los datos multivariantes. Ejemplo 3.1 La tabla A.5 del Apéndice de Datos, MEDIFIS, presenta ocho variables físicas tomadas en un grupo de 27 estudiantes. Las variables son sexo (sex con 0 para mujer, 1 para varón), estatura (est, en cm.), peso (pes, en kgr.), longitud de pie (lpie, en cm), longitud de brazo (lbra, en cm), anchura de la espalda (aes, en cm), diámetro de cráneo (dcr, en cm) y longitud entre la rodilla y el tobillo (lrt, en cm). La tabla 3.2 presenta las medias y desviaciones típicas de las variables, así como otras medidas de la distribución univariante de cada variable. sex est pes lpie lbr aes dcr lrt Medias .44 168.8 63.9 39.0 73.5 45.9 57.2 43.1 D. Típicas .53 10.0 12.6 2.8 4.9 3.9 1.8 3.1 Coef. asimetría .22 .15 .17 .27 .37 -.22 .16 .56 Coef. kurtosis 1.06 1.8 2.1 1.9 2.1 2.4 2.0 3.4 Coef. variación 1.2 .06 .20 .07 .07 .09 .03 .07 Tabla 3.2: Análisis descriptivo de las medidas físicas En la variable binaria sexo la media es la proporción de unos (hombres) en los datos, la desviación típica es p p(1 − p), donde p es la media. El lector puede comprobar que para variables binarias el coeÞciente de kurtosis es p3 + (1 − p)3 p(1 − p) y en este caso, como p = .44 el coeÞciente de kurtosis es 1.06. Para las variables continuas las medias describen los valores centrales. Si miramos los coeÞcientes de variación se observa que en las medidas de longitudes, como la estatura, la longitud del pie y las extremidades, que vienen determinadas más por la herencia genética que por nuestros hábitos, la variabili- dad relativa es del orden del 7% . El diámetro del cráneo es mucho más constante, con una variabilidad relativa de menos de la mitad, el 3%. La variabilidad relativa de las variables que dependen más de nuestros hábitos, como el peso, es mucho mayor, del 20%. Las dis- tribuciones son aproximadamente simétricas, a juzgar por los bajos valores de los coeÞcientes de asimetría. Los coeÞcientes de kurtosis son bajos, menores o iguales a dos para tres de las variables, lo que puede indicar la presencia de dos poblaciones mezcladas, como veremos en la sección 3.6. Ninguna variable tiene alta kurtosis, por lo que podemos descartar la presencia de unos pocos valores atípicos grandes. La tabla 3.3 presenta dos medidas robustas, las mediana (valor central de los datos) y la MEDA o mediana de las desviación absolutas para cada variable. Estas medidas conÞrman los comentarios anteriores.
  • 74. 74 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES est pes lpie lbr aes dcr lrt medianas 168 65 39 73 46 57 43 medas 8.51 10.50 2.38 3.96 3.26 1.52 2.39 meda/mediana .05 .16 .05 .05 .07 .03 .06 Tabla 3.3: Análisis descriptivo robusto de las medidas físicas Se observa que las medianas son muy similares a las medias y las medas a las desviaciones típicas, lo que sugiere falta de valores extremos. Los coeÞcientes de variación robustos, calculados como ratio entre la meda y la mediana son también básicamente similares a los anteriores. Hay que señalar que, en general, la meda es más pequeña que la desviación típica, y que, por tanto, estos coeÞcientes de variación serán más pequeños que los originales. Lo importante es que la estructura es similar entre las variables. La Þgura 3.1 muestra el histograma de la variable estatura donde se aprecia que los datos parecen ser la mezcla de dos distribuciones. Esto es esperable, ya que tenemos juntos hombres y mujeres. Figura 3.1: Histograma de las estaturas donde se observa una distribución mezclada 3.4 LA MATRIZ DE VARIANZAS Y COVARIAN- ZAS Como hemos comentado, para variables escalares la variabilidad respecto a la media se mide habitualmente por la varianza, o su raíz cuadrada, la desviación típica. La relación lineal entre dos variables se mide por la covarianza. La covarianza entre dos variables (xj, xk) se
  • 75. 3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS 75 calcula con: sjk = 1 n nX i=1 (xij − xj)(xik − xk) y mide su dependencia lineal. Esta información para una variable multivariante puede pre- sentarse de forma compacta en la matriz de varianzas y covarianzas. DeÞnimos esta matriz como: S = 1 n nX i=1 (xi − x)(xi − x)0 (3.5) que es una matriz cuadrada y simétrica que contiene en la diagonal las varianzas y fuera de la diagonal las covarianzas entre las variables. En efecto, al multiplicar los vectores :    xi1 − x1 ... xip − xp    [xi1 − x1, . . . , xip − xp] =    (xi1 − x1)2 . . . (xi1 − x1)(xip − xp) ... ... (xip − xp)(xi1 − x1) . . . (xip − xp)2    se obtiene la matriz de cuadrados y productos cruzados de las p variables en el elemento i. Al sumar para todos los elementos y dividir por n se obtienen las varianzas y covarianzas entre las variables. La matriz de varianzas y covarianzas, que llamaremos para simpliÞcar matriz de covarianzas, es la matriz simétrica de orden p con forma: S =    s2 1 ... s1p ... ... sp1 . . . s2 p    . 3.4.1 Cálculo a partir de la matriz de datos centrados La matriz S puede obtenerse directamente a partir de la matriz de datos centrados eX, que se deÞne como la matriz resultado de restar a cada dato su media: eX = X − 1x0 . Sustituyendo el vector de medias por su expresión (3.3): eX = X − 1 n 110 X = PX, (3.6) donde la matriz cuadrada P está deÞnida por P = I − 1 n 110
  • 76. 76 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES y es simétrica e idempotente (compruebe el lector que PP = P). La matriz P tiene rango n − 1 (es ortogonal al espacio deÞnido por el vector 1, ya que P1 = 0) y proyecta los datos ortogonalmente al espacio deÞnido por el vector constante (con todas las coordenadas iguales). Entonces la matriz S puede escribirse: S = 1 n eX0 eX = 1 n X0 PX. (3.7) Algunos autores deÞnen la matriz de covarianzas dividiendo por n−1 en lugar de n para tener un estimador insesgado de la matriz de la población. Este divisor aparece, como en el caso univariante, porque para calcular la variabilidad no tenemos n desviaciones independi- entes sino solamente n − 1. En efecto, los n vectores de desviaciones (xi − x) están ligados por la ecuación nX i=1 (xi − x) = 0 y sólo podemos calcular n − 1 desviaciones independientes. Si dividimos la suma por ese número se obtiene una estimación insesgada de la varianza. En este libro llamaremos matriz de varianzas corregida, bS al estimador insesgado dado por bS = 1 n − 1 eX0 eX Ejemplo 3.2 La tabla A.7 del apéndice de datos ACCIONES presenta tres medidas de rentabilidad de 34 acciones en bolsa durante un período de tiempo. La primera, x1 es la rentabilidad efectiva por dividendos (dividendos repartidos por acción divididos por precio de la acción), x2 es la proporción de beneÞcios que va a dividendos (beneÞcios repartidos en dividendos sobre beneÞcios totales) y x3 es el cociente entre precio por acción y beneÞcios. La tabla 3.4 presenta las medidas descriptivas de las tres variables. x1 (rentab.) x2 (benef.) x3 (precio) Medias 9.421 69.53 9.097 D. Típicas 5.394 24.00 4.750 Coef. asimetría 0.37 0.05 2.71 Coef. kurtosis 1.38 1.40 12.44 Tabla 3.4: Análisis descriptivo de la rentabilidad de las acciones Las medidas de asimetría y kurtosis indican un alejamiento de la distribución normal para las tres variables: las dos primeras tienen valores muy bajos de la kurtosis, lo que indica alta heterogeneidad, posiblemente por la presencia de dos grupos de datos distintos, y la tercera tiene alta kurtosis, lo que sugiere la presencia de valores atípicos. Estas características son muy claras en los histogramas de las variables. La primera variable, rentabilidad efectiva por dividendos, x1, muestra dos grupos de acciones con com- portamiento distinto. El histograma de la segunda variable, x2, muestra también dos grupos
  • 77. 3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS 77 de acciones. Finalmente, la distribución de la tercera variable es muy asimétrica, con un valor atípico muy destacado. La evidencia disponible indica que las acciones pueden proba- blemente dividirse en dos grupos más homogéneos. Sin embargo, vamos a ilustrar el análisis de todos los datos. Histograma de la rentabilidad por dividendos. Figura 3.2: Histograma de la proporción de beneÞcios que va a dividendos
  • 78. 78 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES Figura 3.3: Histograma del precio por acción con relación a los beneÞcios (per) La matriz de varianzas y covarianzas de estas tres variables se presenta en la tabla 3.5 X1 X2 X3 29.1 100.4 -15.7 100.4 576 -18.5 -15.7 -18.5 22.6 Tabla 3.5: Matriz de covarianzas de las acciones Los elementos diagonales de esta matriz son los cuadrados de las desviaciones típicas de la tabla 3.4. Como las dimensiones de las variables son distintas, no tiene sentido calcular medidas promedio. Los histogramas de las tres variables han mostrado una clara falta de normalidad. Una posibilidad, que estudiaremos con más detalle en el capítulo siguiente, es transformar las variables para facilitar su interpretación. Tomando logaritmos, la matriz de covarianzas de las variables transformadas, se indica en la tabla 3.6 logx1 logx2 logx3 .35 .15 -.19 .15 .13 -.03 -.19 -.03 .16 Tabla 3.6: Matriz de covarianzas de las acciones Se observa que los logaritmos modiÞcan mucho los resultados. Los datos ahora son más homogéneos y la variable de mayor varianza pasa a ser la primera, el logaritmo de la rentabil- idad efectiva, mientras que la menor es la segunda, el logaritmo de la proporción de ben- eÞcios que va a dividendos. La relación entre el logaritmo del ratio precio/beneÞcios (X3) y
  • 79. 3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS 79 la rentabilidad efectiva es negativa. Las otras relaciones son débiles. Una ventaja adicional de los logaritmos es que hace las variables independientes de la escala de medida: Si mul- tiplicamos las variables por una constante al tomar logaritmos esto es equivalente a sumar una cantidad y sumar una constante a los datos no altera su variabilidad. Por tanto, al tomar logaritmos en las variables las varianzas pueden compararse aunque los datos tengan distintas dimensiones. La varianza media de las tres variables es V ar = .35 + .13 + .16 3 = .213 y parece describir razonablemente la variabilidad de las variables. 3.4.2 Propiedades Así como la varianza es siempre un número no negativo, la matriz de varianzas y covarianzas tiene una propiedad similar: es semideÞnida positiva. Esta propiedad asegura que si y es cualquier vector, y0 Sy ≥ 0. También la traza, el determinante y los valores propios de esta matriz son no negativos. Demostración Sea w cualquier vector de dimensión p, deÞnamos la variable escalar: vi = w0 (xi − x). (3.8) La media de esta variable será: v = 1 n nX i=1 vi = 1 n w0 nX i=1 (xi − x) = 0, y la varianza debe ser forzosamente no negativa, con lo que: V ar(v) = 1 n nX i=1 v2 i = 1 n nX i=1 [w0 (xi − x)][(xi − x)0 w] ≥ 0 = w0 Sw ≥ 0. Como la ecuación anterior es válida para cualquier vector w, concluimos que S es semi- deÞnida positiva. Esta condición también implica que si Swi = λiwi,, entonces λi ≥ 0. Finalmente, todos los menores principales son no negativos (en particular |S| ≥ 0).
  • 80. 80 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES 3.4.3 Variables redundantes: El caso con Matriz S singular Vamos a analizar las consecuencias de que la matriz S sea singular. Observemos que si existe algún vector w tal que w0 Sw = 0, entonces la variable (3.8) tiene varianza nula y al tener media cero esta variable siempre toma el valor cero. Por tanto para cualquier i: p X j=1 wj(xij − xj) = 0 ∀ i. Esta ecuación implica que las p variables no son independientes, ya que podemos despejar una cualquiera en función de las demás: xi1 = x1 − w2 w1 (xi2 − x2) − ... − wp w1 (xip − xp). Por tanto, si existe algún vector w que haga w0 Sw = 0, existe una relación lineal exacta entre las variables. Lo contrario es también cierto. Si existe una relación lineal entre las variables podemos escribir w0 (xi − x) = 0, para todo elemento, es decir eXw = 0, multiplicando esta expresión por la derecha por la matriz eX0 y dividiendo por n: 1 n eX0 eXw = Sw = 0. (3.9) Esta condición implica la matriz S tiene una raíz característica o autovalor igual a cero y w es el vector característico asociado a la raíz característica cero. Multiplicado en (3.9) por w0 se obtiene (eXw)0 (eXw) = 0, que implica eXw = 0, y concluimos que una variable es una combinación lineal exacta de las otras. En consecuencia, es posible reducir la dimensionalidad del sistema eliminando esta variable. Observemos, además, que las coordenadas del vector w indican la combinación lineal redundante. Ejemplo 3.3 La matriz de covarianzas siguiente corresponde a cuatro variables simuladas de manera que tres de ellas son linealmente independientes, pero la cuarta es el promedio de las dos primeras. S =     .0947 .0242 .0054 .0594 .0242 .0740 .0285 .0491 .0054 .0285 .0838 .0170 .0594 .0491 .0170 .0543     Los autovalores de esta matriz calculados con Matlab son (0, 172 97; 0, 08 762, 0, 04 617 y 0, 00005). El menor valor propio es prácticamente cero comparado con los otros tres, por lo que la matriz tiene, muy aproximadamente, rango 3. El vector propio asociado a este valor propio nulo es ( .408 .408 .000 -.816 ). Dividiendo por el término mayor este vector propio puede escribirse como (.5 .5 0 -1), que revela que la falta de rango completo de la matriz de covarianzas es debido a que la cuarta variable es el promedio de las dos primeras.
  • 81. 3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS 81 Ejemplo 3.4 En la tabla A.2 del anexo de datos Þgura una base de datos denominada EUROSEC compuesta por 26 países en los que se ha medido el porcentaje de población que se dedica a cada uno de 9 sectores económicos. El cálculo de los autovalores de la matriz de varianzas covarianzas correspondiente a estos datos se presenta a continuación y se observa que hay un autovalor muy próximo a 0 (.0019). Si este autovalor no es exactamente cero es debido a que en la tabla de datos la suma de las Þlas no es exactamente 100% en todos los casos por errores de redondeo (varía entre 99,8% y 102%) 0.0019 0.0649 0.4208 1.0460 2.4434 5.6394 15.207 43.7017 303.458 Sin embargo, este autovalor tan pequeño deÞne una variable escalar que no tiene prác- ticamente variabilidad. Para determinarla, obtenemos el vector propio ligado a este valor propio, que es el vector (.335, .324, .337, .339, .325, .337, .334, .332, .334). Este vector es aproximadamente el vector constante, lo que indica que la suma de todas las variables da lugar a una variable escalar aproximadamente constante. El segundo valor propio es también bastante pequeño. El vector propio correspondiente es (-0.07, -0.29, -0.07, 0.91, 0.00, -0.10, -0.12, -0.05, -0.22). Este vector propio está deter- minado por la variable cuarta, que tiene mucho más peso que las demás. Esto sugiere que la variable cuarta, sector de la energía, debe tener un peso muy similar en todos los países. La matriz de varianzas y covarianzas de las variables es:              241.6 0.53 0.94 −73.11 3.02 49.10 −2.33 0.14 1.01 0.14 −13.77 −0.04 5.70 0.03 2.70 −52.42 1.76 6.53 0.34 2.68 20.93 9.59 −1.20 −3.06 0.11 0.07 4.69 7.87 −79.29 −1.86 7.37 0.34 1.77 17.87 2.06 46.64 −12.22 0.21 3.41 0.19 0.88 1.19 −0.96 5.39 1.93               Se observa como la cuarta variable tiene mucha menor variabilidad que las demás. Generalización Este procedimiento puede extenderse para cualquier número de valores propios nulos: si S tiene rango h < p, existen p − h variables redundantes que pueden eliminarse. Los vectores asociados a autovalores nulos indican la composición de estas variables redundantes. En efecto, si S tiene rango h ese será el número de valores propios no nulos, y existirán r = p−h vectores que veriÞcan : Sw1 = 0 ... ... Swr = 0 o lo que es equivalente, existen r relaciones del tipo (xi − x)0 wj = 0, j = 1, ..., r
  • 82. 82 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES que implica la existencia de r combinaciones lineales exactas entre las variables. Podemos pues representar las observaciones con h = p −r variables. Existen muchas posibles repre- sentaciones, ya que cualquier vector del subespacio deÞnido por (w1, ..., wr) puede expresarse como una combinación lineal de estos vectores y veriÞca: S(a1w1 + ... + arwr) = 0 Los r vectores propios de S asociados a valores propios nulos constituyen una base orto- normal (vectores perpendiculares y de módulo unitario) en dicho espacio. Observemos que cuando hay más de una raíz nula, las relaciones lineales entre las variables no están deÞnidas unívocamente, ya que dadas dos relaciones lineales nulas cualquier nueva relación que resulte combinando estas dos tendrá la misma propiedad. Una forma alternativa de analizar el problema es la siguiente. Como S = 1 n eX0 eX, el rango de S coincide con la matriz eX, ya que para cualquier matriz A, si llamamos rg(A) al rango de A, se veriÞca siempre que: rg(A) = rg(A0 ) = rg(A0 A) = rg(AA0 ). Por tanto si la matriz eX tiene rango p, éste será también el rango de S. Sin embargo, si existen h combinaciones lineales entre las variables X, el rango de la matriz eX será p− h, y éste será también el rango de la matriz S. Ejemplo 3.5 Calculemos los vectores propios de la matriz de varianzas y covarianzas para los datos de ACCIONES de la tabla A.7, que fueron analizados en el ejemplo 3.2. Los valores propios de la matriz de las variables originales son (594.86, 29.82, 3.22) y vemos que existe un valor propio muy grande y dos pequeños, en particular el valor más pequeño esta ligado al vector propio ( 0.82, -0.13, 0.55). Para las variables en logaritmos los valores propios son (0, 5208; 0, 1127 y 0.0065). Ahora existe un valor propio mucho más pequeño que los otros dos, y su vector propio es (57,-.55,.60). Para interpretar la variable deÞnida por este vector propio escribamos su expresión en función de las variables originales. Recordando la deÞnición de las variables y llamando d a los dividendos, p al precio, B al beneÞcio y N al número de acciones, suponiendo que la gran mayoría de los beneÞcios que se reparten van a dividendos (lo que es sólo una aproximación) podemos escribir, y =.57log(d/p) − .55 log(dN/B) + .60 log(p/B/N) y, redondeando, esta variable será, aproximadamente, y = .6 log(d/p)(B/dN)(pN/B) = .6 log 1 = 0 Es decir, llamando Xi a las variables en logaritmos, la variable deÞnida por la combi- nación X1 − X2 + X3 debe tomar valores pequeños. Si construimos esta variable a partir de los datos, su media es .01 y su varianza .03, que es mucho menor que la de las variables originales. Comprobamos que esta variable tiene poca variabilidad pero, al no ser constante,
  • 83. 3.5. MEDIDAS GLOBALES DE VARIABILIDAD 83 no hay una relación determinista entre las tres variables en logaritmos. Los beneÞcios repar- tidos aparte de los dividendos aunque pequeños en promedio, no son despreciables para al- gunas acciones. Observemos que esta información, que es revelada por el análisis de los vectores propios de la matriz de covarianzas, puede pasar fácilmente desapercibida al lector no experto que trabaja directamente con estas medidas de rentabilidad. 3.5 MEDIDAS GLOBALES DE VARIABILIDAD Cuando las variables se miden en las mismas unidades (euros, km) o son adimensionales (porcentajes, proporciones, etc) interesa encontrar medidas de la variabilidad promedio que permitan comparar distintos conjuntos de variables. Vamos a obtener primero estas me- didas globales como resumen de la matriz de varianzas y covarianzas y, en segundo lugar, interpretaremos estas medidas mediante el concepto de distancias entre puntos. 3.5.1 La variabilidad total y la varianza promedio Una forma de resumir la variabilidad de un conjunto de variables es mediante la traza de su matriz de varianzas y covarianzas y se deÞne la variabilidad total de los datos por: T = tr(S) = p X i=1 s2 i y la varianza promedio por s2 = 1 p p X i=1 s2 i . (3.10) El inconveniente de esta medida es que no tienen en cuenta la estructura de dependencia entre las variables. Para ilustrar el problema supongamos p = 2 y el caso extremo en que ambas variables son la misma, pero en unidades distintas. Entonces, la variabilidad conjunta de las dos variables en el espacio es nula, porque los puntos están siempre forzados a estar sobre la recta que deÞne la relación lineal entre las dos variables, y, sin embargo, s2 puede ser alta. En general, si la dependencia entre las variables es muy alta, intuitivamente la variabilidad conjunta es pequeña, ya que conocida una variable podemos determinar aprox- imadamente los valores de las demás. Este aspecto no queda recogido en esta medida, que prescinde de las relaciones de dependencia existentes. 3.5.2 La Varianza Generalizada Una medida mejor de la variabilidad global es la varianza generalizada, que es el determinante de la matriz de varianzas y covarianzas, es decir V G = |S| Su raíz cuadrada se denomina desviación típica generalizada, y tiene las propiedades sigu- ientes:
  • 84. 84 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES a) Está bien deÞnida, ya que el determinante de la matriz de varianzas y covarianzas es siempre no negativo. b) Es una medida del área (para p = 2), volumen (para p = 3) o hipervolumen (para p > 3) ocupado por el conjunto de datos. Para aclarar estas ideas, supongamos el caso p = 2. Entonces, S puede escribirse: S = · s2 x rsxsy rsxsy s2 y ¸ y la desviación típica generalizada es: |S|1/2 = sxsy √ 1 − r2 (3.11) Si las variables son independientes, la mayoría de sus valores estarán dentro de un rectán- gulo de lados 6sx, 6sy ya que, por el teorema de Tchebychev, entre la media y 3 desviaciones típicas deben estar, aproximadamente, al menos el 90% de los datos. En consecuencia, el área ocupada por ambas variables es directamente proporcional al producto de las desviaciones típicas. Si las variables están relacionadas linealmente y el coeÞciente de correlación es distinto de cero, la mayoría de los puntos tenderán a situarse en una franja alrededor de la recta de regresión y habrá una reducción del área tanto mayor cuanto mayor sea r2 . En el límite, si r2 = 1, todos los puntos están en una línea recta, hay una relación lineal exacta entre las variables y el área ocupada es cero. La fórmula (3.11) describe esta contracción del área ocupada por los puntos al aumentar el coeÞciente de correlación. Un inconveniente de la varianza generalizada es que no sirve para comparar conjuntos de datos con distinto número de variables, ya que tiene las dimensiones del producto de las variables incluidas. Si añadimos a un conjunto de p variables que tiene una varianza general- izada |Sp| una variable adicional, incorrelada con el resto y varianza s2 p+1, es fácil comprobar, con los resultados del cálculo del determinante de una matriz particionada presentados en 2.3.5, que |Sp+1| = |Sp| s2 p+1 y eligiendo las unidades de medida de la variable p + 1 podemos hacer que la varianza generalizada aumente o disminuya a voluntad. Supongamos el caso más simple donde la matriz S es diagonal y las variables van expresadas en las mismas unidades, por ejemplo euros. Entonces |Sp| = s2 1....s2 p Supongamos que todas las varianzas en euros son mayores que la unidad. Entonces, si añadimos una variable p + 1 , la nueva varianza generalizada será |Sp+1| = s2 1....s2 ps2 p+1 = |Sp| s2 p+1 > |Sp|
  • 85. 3.5. MEDIDAS GLOBALES DE VARIABILIDAD 85 ya que s2 p+1 > 1. En este caso la varianza generalizada aumenta monotonamente al consid- erar nuevas variables, es decir, llamando |Sj| a la varianza generalizada de las primeras j variables, tenemos que |Sp| > |Sp−1| .... > |S2| > s2 1 Supongamos ahora que expresamos las variables en miles de euros y con este cambio todas las varianzas son ahora menores que la unidad. Entonces la varianza generalizada disminuye monotonamente al incluir variables. 3.5.3 La variabilidad promedio Para evitar estos inconvenientes, Peña y Rodríguez (2000) han propuesto como medida global de variabilidad la variabilidad promedio, dada por V P = |S|1/p (3.12) que tiene la ventaja de que cuando todas las variables van en las mismas dimensiones esta medida tiene las unidades de la varianza. Para matrices diagonales esta medida es sim- plemente la media geométrica de las varianzas. Observemos que, como el determinante es el producto de los valores propios, la variabilidad promedio es la media geométrica de los valores propios de la matriz S, que por ser semideÞnida positiva serán siempre no negativos. Como la media geométrica de un conjunto de números es siempre menor que su media aritmética esta medida será siempre menor que la varianza media. La variabilidad promedio tiene en cuenta la dependencia conjunta, ya que si una variable fuese combinación lineal de las demás al existir un valor propio nulo, la medida (3.12) es nula, mientras que la varianza media, dada por (3.10) no lo será. Veremos en los capítulos siguientes que la variabilidad promedio y la varianza media tienen una gran importancia en los procedimientos multivariantes. Análogamente podemos deÞnir la desviación promedio mediante DP = |S|1/2p . Ejemplo 3.6 Partiendo de la matriz de covarianzas S para los logaritmos de las acciones, datos A.7, ACCIONES, del ejemplo 3.5, obtenemos que |S| = 0.000382 La variabilidad promedio es V P = |S|1/3 = .0726 que podemos comparar con la media aritmética de las tres varianzas que calculamos en el ejemplo 3.2: tr(S)/3 = .2133
  • 86. 86 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES Como vemos, la fuerte dependencia entre las variables hace que la variabilidad real promedio, cuando se tienen en cuenta las covarianzas, sea mucho menor que cuando se prescinde de ellas y se calcula el promedio de las varianzas. Para las desviaciones típicas DP = |S|1/6 = .269 que podemos tomar como medida global de variabilidad en los datos originales. Ejemplo 3.7 La matriz de varianzas y covarianzas para los datos de las medidas físicas es S = 100.24 104.49 26.12 44.22 33.20 10.64 26.19 104.49 158.02 30.04 50.19 41.67 14.08 27.99 26.12 30.04 7.91 11.66 8.86 2.79 7.42 44.22 50.19 11.66 23.69 15.4 4.18 11.55 33.20 41.67 8.86 15.4 15.59 4.48 7.72 10.64 14.08 2.79 4.18 4.48 3.27 3.11 26.19 27.99 7.42 11.55 7.72 3.11 9.61 y la medida promedio V P = |S|1/7 =5.7783 y V P1/2 =2.4038. Como existe bastante de- pendencia estas medidas son mucho menores de los promedios de las varianzas. Por ejemplo tr(S)/7=45.48. Observemos que esta medida no tiene, en este ejemplo, clara interpretación, al estar las variables en distintas unidades. 3.6 VARIABILIDAD Y DISTANCIAS Un procedimiento alternativo para estudiar la variabilidad de las observaciones es utilizar el concepto de distancias entre puntos. En el caso escalar, la distancia entre el valor de una variable x en un punto, xi, y la media de la variable, x, se mide de manera natural mediantep (xi − x)2, o, lo que es equivalente, por el valor absoluto de la diferencia, |xi − x| . La desviación típica es un promedio de estas distancias entre los puntos y su media. Cuando disponemos de una variable vectorial, cada dato es un punto en <p , y podemos pensar en construir medidas de variabilidad promediando las distancias entre cada punto y el vector de medias. Esto requiere generalizar el concepto de distancia a espacios de cualquier dimensión. El concepto de distancia entre puntos será importante en los capítulos siguientes. 3.6.1 El concepto de distancia Dados dos puntos xi, xj pertenecientes a <p , diremos que hemos establecido una distancia, o una métrica, entre ellos si hemos deÞnido una función d con las propiedades siguientes: 1. d : <p ×<p → <+ , es decir, dados dos puntos en el espacio de dimensión p su distancia con esta función es un número no negativo, d(xi, xj) ≥ 0; 2. d(xi, xi) = 0 ∀i, la distancia entre un elemento y sí mismo es cero. 3. d(xi, xj) = d(xj, xi), la distancia es una función simétrica en sus argumentos.
  • 87. 3.6. VARIABILIDAD Y DISTANCIAS 87 4. d(xi, xj) ≤ d(xi, xp) + d(xp, xj), la distancia debe veriÞcar que si tenemos tres puntos, la suma de las longitudes de dos lados cualesquiera del triángulo formado por los tres puntos debe siempre ser mayor que el tercer lado. Esta propiedad se conoce como la propiedad triangular. Estas propiedades generalizan la noción intuitiva de distancia entre dos puntos sobre una recta. Una familia de medidas de distancia muy habituales en <p es la familia de métricas o distancias de Minkowski, que se deÞne en función de un parámetro r por d (r) ij = Ã p X s=1 (xis − xjs)r !1/r (3.13) y las potencias más utilizadas son r = 2, que conduce a la distancia euclídea, o en L2, dij = Ã p X s=1 (xis − xjs)2 !1/2 = (xi − xj)0 (xi − xj)1/2 , y r = 1, que se denomina distancia en L1: dij = |xi − xj|0 1, donde 10 = (1, . . . , 1). La distancia más utilizada es la euclídea pero tiene el inconveniente de depender de las unidades de medida de las variables. Por ejemplo, sea x la estatura de una persona en metros e y su peso en kilogramos. Compararemos la distancia entre tres personas: A(1.80, 80), B(1.70, 72) y C(1.65, 81). El cuadrado de la distancia euclídea del individuo A al B será: d2 (A, B) = (1.80 − 1.70)2 + (80 − 72)2 = .12 + 82 = 64.01 y, análogamente d2 (A, C) = .152 +1 = 1.225. Por tanto, con la distancia euclídea el individuo A estará mucho más cerca del individuo C que del B. Supongamos que, para hacer los números más similares, decidimos medir la estatura en centímetros, en lugar de metros. Las nuevas coordenadas de los individuos son ahora A(180, 80), B(170, 72) y C(165, 81), y las distancias euclídeas entre los individuos se transforman en d2 (A, B) = 102 + 82 = 164 y d2 (A, C) = 152 + 1 = 226. Con el cambio de unidades, el individuo A está con la distancia euclídea más cerca del B que del C. La distancia euclídea depende mucho de las unidades de medida, y cuando no existe una unidad Þja natural, como en este ejemplo, no está justiÞcado utilizarla. Una manera de evitar el problema de las unidades es dividir cada variable por un término que elimine el efecto de la escala. Esto conduce a la familia de métricas euclídeas ponderadas, que se deÞnen por dij = £ (xi − xj)0 M−1 (xi − xj) ¤1/2 (3.14)
  • 88. 88 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES donde M es una matriz diagonal que se utiliza para estandarizar las variables y hacer la medida invariante ante cambios de escala. Por ejemplo, si colocamos en la diagonal de M las desviaciones típicas de las variables, la expresión (3.14) se convierte en dij = Ã p X s=1 ( xis − xjs ss )2 !1/2 = Ã p X s=1 s−2 s (xis − xjs)2 !1/2 que puede verse como una distancia euclídea donde cada coordenada se pondera inversamente proporcional a la varianza. Por ejemplo, si suponemos que las desviaciones típicas de las variables altura y peso son 10 cm y 10 kgr, las distancias estandarizadas al cuadrado entre los individuos anteriores son d2 (A, B) = (1 + 0, 82 ) = 1, 64 y d2 (A, C) = (1, 52 + 0, 12 ) = 2, 26. Con esta métrica, que es más razonable, A está más próximo a B que a C. En general la matriz M puede no ser diagonal, pero siempre debe ser una matriz no singular y deÞnida positiva para que dij ≥ 0. En el caso particular en que tomemos M = I se obtiene de nuevo la distancia euclídea. Si tomamos M = S se obtiene la distancia de Mahalanobis que estudiamos a continuación. 3.6.2 La Distancia de Mahalanobis Se deÞne la distancia de Mahalanobis entre un punto y su vector de medias por di = £ (xi − x)0 S−1 (xi − x) ¤1/2 Es frecuente referirse al valor d2 i también como distancia de Mahalanobis, en lugar de como cuadrado de la distancia, y en este libro, para simpliÞcar, utilizaremos a veces esta licencia, aunque estrictamente la distancia es di. Vamos a interpretar esta distancia y compro- bar que es una medida muy razonable de distancia entre variables correladas. Consideremos el caso p = 2. Entonces, escribiendo s12 = rs1s2, tenemos que S−1 = 1 (1 − r2) · s−2 1 −rs−1 1 s−1 2 −rs−1 1 s−1 2 s−2 2 ¸ y la distancia de Mahalanobis (al cuadrado) entre dos puntos (x1, y1), (x2, y2) puede escribirse : d2 M = 1 (1 − r2) · (x1 − x2)2 s2 1 + (y1 − y2)2 s2 2 − 2r (x1 − x2)(y1 − y2) s1s2 ¸ Si r = 0, esta distancia se reduce a la distancia euclídea estandarizando las variables por sus desviaciones típicas. Cuando r 6= 0 la distancia de Mahalanobis añade un término adicional
  • 89. 3.6. VARIABILIDAD Y DISTANCIAS 89 que es positivo (y por lo tanto “separa” los puntos) cuando las diferencias entre las variables tienen el mismo signo, cuando r > 0, o distinto cuando r < 0. Por ejemplo, entre el peso y la altura hay correlación positiva: al aumentar la estatura de una persona en promedio también lo hace su peso. Si consideramos las tres personas anteriores A(180, 80), B(170, 72) y C(165, 81) con desviaciones típicas 10 cm y 10 kgr y el coeÞciente de correlación 0,7, los cuadrados de las distancias de Mahalanobis serán d2 M (A, B) = 1 0, 51 £ 1 + 0, 82 − 1, 4 × 0, 8 ¤ = 1.02 y d2 M (A, C) = 1 0, 51 £ 1, 52 + 0, 12 + 1, 4 × 1, 5 × 0, 1 ¤ = 4.84, concluimos que el individuo A está más cerca del B que del C con esta distancia. La distancia de Mahalanobis tiene en cuenta que, aunque el individuo B es más bajo que el A, como hay correlación entre el peso y la altura si su peso también disminuye proporcionalmente, el aspecto físico de ambos es similar porque aunque cambia el tamaño global no cambia la forma del cuerpo. Sin embargo, el individuo C es todavía más bajo que el A y además pesa más, lo que implica que su aspecto físico es muy distinto del de A. Como consecuencia, la distancia de A a C es mayor que a B. La capacidad de esta distancia para tener en cuenta la forma de un elemento a partir de su estructura de correlación explica su introducción por P. C. Mahalanobis, un eminente estadístico indio, en los años 30 para comparar medidas físicas de razas en la India. 3.6.3 La distancia promedio Podríamos plantearnos construir una medida global de la variabilidad respecto a la media de una variable vectorial escogiendo promediando las distancias entre los puntos y la media. Por ejemplo, si todas las variables van en las mismas unidades, podemos tomar la distancia euclídea al cuadrado y promediar por el número de términos en la suma: Vm = 1 n nX i=1 (xi − x)0 (xi − x). (3.15) Como un escalar es igual a su traza, podemos escribir Vm = nX i=1 tr · 1 n (xi − x)0 (xi − x) ¸ = nX i=1 tr · 1 n (xi − x)(xi − x)0 ¸ = tr(S) y el promedio de distancias es la variabilidad total. Si promediamos las distancias también por la dimensión del vector, tenemos que: Vm,p = 1 np nX i=1 (xi − x)0 (xi − x) = s2 (3.16)
  • 90. 90 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES y el promedio estandarizado de las distancias euclídeas entre los puntos y la media es el promedio de las varianzas de las variables. No tiene sentido deÞnir una medida de distancia promediando las distancias de Maha- lanobis, ya que es fácil comprobar (véase ejercicio 3.12) que el promedio de las distancias de Mahalanobis es siempre p, y el promedio estandarizado por la dimensión del vector es uno . Ejemplo 3.8 La tabla adjunta presenta para los datos de las medidas físicas, MEDIFIS, las distancias euclídeas al cuadrado de cada dato a su media, d2 e, las distancias de Mahalanobis de cada dato a su media, D2 M , la máxima distancia euclídea entre cada punto y otro de la muestra, d2 em, el orden del dato más alejado con esta distancia, Ie , la máxima distancia de Mahalanobis entre cada punto y otro de la muestra, D2 Mm, y el orden del dato más alejado con esta distancia, IM . orden d2 e D2 M d2 em Ie D2 Mm IM 1.0000 3.8048 0.0226 29.0200 24.0000 29.0200 24.0000 2.0000 0.3588 0.0494 15.4800 24.0000 15.4800 24.0000 3.0000 0.2096 0.0447 10.0600 20.0000 10.0600 20.0000 4.0000 1.6899 0.0783 20.5925 24.0000 20.5925 24.0000 5.0000 2.2580 0.0759 23.8825 24.0000 23.8825 24.0000 6.0000 0.8336 0.0419 15.6000 24.0000 15.6000 24.0000 7.0000 2.8505 0.0830 23.5550 24.0000 23.5550 24.0000 8.0000 3.0814 0.0858 20.3300 20.0000 20.3300 20.0000 9.0000 3.6233 0.0739 21.7750 20.0000 21.7750 20.0000 10.0000 3.5045 0.0348 28.1125 24.0000 28.1125 24.0000 11.0000 2.0822 0.0956 20.2900 24.0000 20.2900 24.0000 12.0000 0.6997 0.1037 11.5425 20.0000 11.5425 20.0000 13.0000 6.2114 0.0504 34.7900 24.0000 34.7900 24.0000 14.0000 2.2270 0.0349 18.2700 20.0000 18.2700 20.0000 15.0000 4.2974 0.1304 23.2200 20.0000 23.2200 20.0000 16.0000 10.5907 0.1454 35.6400 20.0000 35.6400 20.0000 17.0000 1.7370 0.0264 16.9000 20.0000 16.9000 20.0000 18.0000 0.7270 0.0853 14.1100 24.0000 14.1100 24.0000 19.0000 4.5825 0.1183 30.5500 24.0000 30.5500 24.0000 20.0000 7.8399 0.0332 39.1100 24.0000 39.1100 24.0000 21.0000 4.4996 0.0764 23.9600 20.0000 23.9600 20.0000 22.0000 0.5529 0.0398 12.3100 20.0000 12.3100 20.0000 23.0000 3.9466 0.0387 29.3900 24.0000 29.3900 24.0000 24.0000 11.9674 0.0998 39.1100 20.0000 39.1100 20.0000 25.0000 0.4229 0.0745 10.6500 20.0000 10.6500 20.0000 26.0000 0.2770 0.0358 10.5850 20.0000 10.5850 20.0000 27.0000 0.9561 0.1114 17.6050 24.0000 17.6050 24.0000 Se observa que con la distancia euclídea los puntos más alejados de la media son el 24 y el 16, seguidos del 20. El punto más extremo para cada uno es el 24 o el 20, lo que deÞne a estos puntos como extremos en el espacio con esta medida. Con las distancias de Mahalanobis los más alejados de la media son los 15 y 16 pero, sin embargo, los puntos que
  • 91. 3.7. MEDIDAS DE DEPENDENCIA LINEAL 91 aparecen como extremos de la muestra son de nuevo los 20 y 24. Observando estos datos, el 24 correponde a un hombre muy alto, el mayor de la muestra, y el 20 a una mujer de baja estatura y delgada, que constituye el extremo opuesto de los datos. 3.7 MEDIDAS DE DEPENDENCIA LINEAL Un objetivo fundamental de la descripción de los datos multivariantes es comprender la estructura de dependencias entre las variables. Estas dependencias pueden estudiarse: (1) entre pares de variables; (2) entre una variable y todas las demás; (3) entre pares de variables pero eliminando el efecto de las demás variables; (4) entre el conjunto de todas las variables. Vamos a analizar estos cuatro aspectos. 3.7.1 Dependencia por pares: La matriz de correlación La dependencia lineal entre dos variables se estudia mediante el coeÞciente de correlación lineal o simple. Este coeÞciente para las variables xj, xk es: rjk = sjk sjsk y tiene las propiedades siguientes: (1) 0 ≤ |rjk| ≤ 1; (2) si existe una relación lineal exacta en- tre las variables, xij = a+bxik, entonces |rjk| = 1; (3) rjk es invariante ante transformaciones lineales de las variables. La dependencia por pares entre las variables se mide por la matriz de correlación. Lla- maremos matriz de correlación, R, a la matriz cuadrada y simétrica que tiene unos en la diagonal principal y fuera de ella los coeÞcientes de correlación lineal entre pares de variables, escribiremos: R =    1 r12 . . . r1p ... ... . . . ... rp1 rp2 . . . 1    Esta matriz es también semideÞnida positiva. Para demostrarlo, llamemos D = D(S) a la matriz diagonal de orden p formada por los elementos de la diagonal principal de S, que son las varianzas de las variables. La matriz D1/2 contendrá las desviaciones típicas y la matriz R esta relacionada con la matriz de covarianzas, S, mediante: R = D−1/2 SD−1/2 , (3.17) que implica S = D1/2 RD1/2 . (3.18) La condición w0 Sw ≥ 0 equivale a: w0 D1/2 RD1/2 w = z0 Rz ≥ 0 llamando z = D1/2 w al nuevo vector transformado por D1/2 . Por tanto, la matriz R es, como la matriz S, semideÞnida positiva.
  • 92. 92 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES 3.7.2 Dependencia de cada variable y el resto: Regresión Múltiple Además de estudiar la relación entre pares de variables podemos estudiar la relación entre una variable y todas las demás. Hemos visto que si una variable es combinación lineal de las demás, y por lo tanto puede predecirse sin error con el resto, debemos eliminarla de consideración. Es posible que, sin llegar a esta situación extrema, haya variables que sean muy dependientes de las demás y conviene medir su grado de dependencia. Supongamos que xj es la variable de interés y para simpliÞcar la notacion la llamaremos variable explicativa o respuesta y la denotaremos por y. A continuación, consideremos su mejor predictor lineal a partir de las restantes variables, que llamaremos variables explicativas o regresores. Este predictor lineal tendrá la forma: byi = y + bβ1(xi1 − x1) + ... + bβp(xip − xp), i = 1, ..., n (3.19) y se comprueba que cuando las variables explicativas toman un valor igual a su media la variable respuesta es también igual a su media. Los p − 1 coeÞcientes bβk, para k = 1, ..., p con k 6= j, se determinan de manera que la ecuación proporcione, en promedio, la mejor predicción posible de los valores de yi. Llamando residuos a los errores de predicción, ei = yi − byi, es inmediato, sumando para los n datos en (3.19), que la suma de los residuos para todos los puntos muestrales es cero. Esto indica que cualquiera que sean los coeÞcientes bβj la ecuación (3.19) va a compensar los errores de predicción positivos con los negativos. Como queremos minimizar los errores con independencia del signo, los elevamos al cuadrado y calculamos los bβj minimizando: M = nX i=1 e2 i , Derivando esta expresión respecto a los parámetros bβj, se obtiene el sistema de p − 1 ecua- ciones, para k = 1, ..., p con k 6= j,: 2 nX i=1 h yi − y + bβ1(xi1 − x1) + ... + bβp(xi,p − xp) i (xik − xk) que puede escribirse: X eixik = 0 k = 1, ..., p; k 6= j, que tiene una clara interpretación intuitiva. Indica que los residuos, o errores de predicción, deben de estar incorrelados con las variables explicativas, de manera que la covarianza entre ambas variables sea cero. En efecto, si existiese relación entre ambas variables podría uti- lizarse para prever los errores de predicción y reducirlos, con lo que la ecuación de predicción no podría ser óptima. Geometricamente este sistema establece que el vector de residuos debe ser ortogonal al espacio generado por las variables explicativas. DeÞniendo una matriz XR de datos para la regresión de dimensiones (n × p − 1) que se obtiene de la matriz de datos centrada, eX, eliminando la columna de esta matriz que corresponde a la variable que
  • 93. 3.7. MEDIDAS DE DEPENDENCIA LINEAL 93 queremos prever, que llamaremos y, el sistema de ecuaciones para obtener los parámetros es: X0 Ry = X0 RXR bβ que conduce a : bβ = (X0 RXR) −1 X0 Ry = S−1 p−1Sxy. donde Sp−1 es la matriz de covarianzas de las p−1 variables explicativas y Sxy la columna de la matriz de covarianzas correspondiente a las covarianzas de la variable seleccionada como y con el resto. La ecuación obtenida con estos coeÞcientes se conoce como la ecuación de regresión múltiple entre la variable y = xj y las variables, xk, con k = 1, ..., p;y k 6= j. El promedio de los residuos al cuadrado con la ecuación de regresión múltiple para explicar xj es: s2 r(j) = P e2 i n (3.20) y es una medida de la precisión de la regresión para prever la variable y = xj. Una medida adimensional de la dependencia se construye partiendo de la identidad yi − y = byi − y + ei y elevando al cuadrado y sumando para todos los puntos se obtiene la descomposición básica del análisis de la varianza, que podemos escribir como: V T = V E + V NE donde la variabilidad total o inicial de los datos, V T = P (yi − y)2 , se expresa como suma de la variabilidad explicada por la regresión, V E = P (byi − y)2 , y la residual o no explicada por la regresión, V NE = P e2 i . Una medida descriptiva de la capacidad predictiva del modelo es el cociente entre la variabilidad explicada por la regresión y la variabilidad total. Esta medida se llama coeÞciente de determinación, o coeÞciente de correlación múltiple al cuadrado, y se deÞne por: R2 j.1,...,p = V E V T = 1 − V NE V T (3.21) donde el subíndice indica la variable que estamos explicando y los regresores. Utilizando (3.20) podemos escribir R2 j.1,...,p = 1 − s2 r(j) s2 j (3.22) Es immediato comprobar que en el caso de una única variable explicativa R2 es el cuadrado del coeÞciente de correlación simple entre las dos variables. También se comprueba que es el cuadrado del coeÞciente de correlación simple entre las variables y y by. El coeÞciente de
  • 94. 94 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES correlación múltiple al cuadrado puede ser mayor, menor o igual que la suma de los cuadrados de las correlaciones simples entre la variable y y cada una de las variables explicativas (véase Cuadras, 1993). Según la ecuación (3.22) podemos calcular el coeÞciente de correlación múltiple entre cualquier variable xi y las restantes si conocemos su varianza y la varianza residual de una regresión de esta variable sobre las demás. Se demuestra en el apéndice 3.1 que los términos diagonales de la inversa de la matriz de covarianzas, S−1 , son precisamente las inversas de las varianzas residuales de la regresión de cada variable con el resto. Por tanto podemos calcular fácilmente el coeÞciente de correlación múltiple al cuadrado entre la variable xj y las restantes como sigue: (1) Tomar el elemento diagonal j de la matriz S, sjj que es la varianza s2 j de la variable. (2) Invertir la matriz S y tomar el elemento diagonal j de la matriz S−1 que llamaremos sjj . Este término es 1/s2 r(j), la varianza residual de una regresión entre la variable j y el resto. (3) Calcular R2 j , la correlación múltiple como R2 j = 1 − 1 sjjsjj Esta expresión permite obtener inmediatamente todos los coeÞcientes de correlación múltiple a partir de las matrices S y S−1 . Ejemplo 3.9 La matriz de correlación para las 7 variables físicas, tabla A.5, MEDIFIS, del ejemplo 1.1. se presenta en la tabla 1.5. Las variables aparecen en el orden del ejemplo 1.1 R =           1 0.83 0.93 0.91 0.84 0.59 0.84 0.83 1 0.85 0.82 0.84 0.62 0.72 0.93 0.85 1 0.85 0.80 0.55 0.85 0.91 0.82 0.85 1 0.80 0.48 0.76 0.84 0.84 0.80 0.80 1 0.63 0.63 0.59 0.62 0.55 0.48 0.63 1 0.56 0.84 0.72 0.85 0.76 0.63 0.56 1           Se observa que la máxima correlación aparece entre la primera y la tercera variable (estatura y longitud del pie) y es 0,93. La mínima es entre la longitud del brazo y el diámetro del cráneo (0,48). En general las correlaciones más bajas aparecen entre el diámetro del cráneo y el resto de las variables. La matriz S−1 es: 0.14 0.01 −0.21 −0.11 −0.07 −0.05 −0.07 0.01 0.04 −0.08 −0.03 −0.04 −0.04 −0.00 −0.21 −0.08 1.26 0.06 −0.05 0.18 −0.29 −0.11 −0.03 0.06 0.29 −0.04 0.13 −0.04 −0.07 −0.04 −0.05 −0.04 0.34 −0.13 0.15 −0.05 −0.04 0.18 0.13 −0.13 0.64 −0.15 −0.07 −0.00 −0.29 −0.04 0.15 −0.15 0.50 y utilizando los elementos diagonales de esta matriz y de la matriz S podemos calcular las correlaciones múltiples al cuadrado de cada variable con el resto como sigue: (1) multipli- camos los elementos diagonales de las matrices S y S−1 . El resultado de esta operacion es el
  • 95. 3.7. MEDIDAS DE DEPENDENCIA LINEAL 95 vector (14.3672, 5.5415, 9.9898, 6.8536, 5.3549, 2.0784, 4.7560). (2) A continuación, cal- culamos las inversas de estos elementos, para obtener (0.0696 0.1805 0.1001 0.1459 0.1867 0.4811 0.2103). Finalmente, restamos a uno estos coeÞcientes para obtener (0.9304, 0.8195, 0.8999, 0.8541, 0.8133, 0.5189, 0.7897) y estos son los coeÞcientes de correlación múltiple entre cada variable y el resto. Vemos que la variable más previsible por las restantes es la estatura,(R2 = 0.9304) , despues el pié (R2 = 0.8999) y luego la longitud del brazo (R2 = 0.8541). La menos predecible es dcr, que tiene un coeÞciente de correlación múltiple con el resto de 0.5189, o en otros términos, el resto de las variables explica el 52% de la variabilidad de esta variable. La ecuación para prever la estatura en función del resto de las variables se obtiene facil- mente con cualquier programa de regresión. El resultado es est = 0.9 - 0.094 peso+ 1.43pie + 0.733 lbr + 0.494 aes + 0.347 dcr + 0.506 lrt que es la ecuación que permite prever con menor error la estatura de una persona dadas el resto de las medidas. El R2 de esta regresión es = 0,93, resultado que habíamos obtenido anteriormente. La ecuación para prever la longitud del pié es: pie = 8.14 + 0.162 est + 0.0617 pes - 0.051 lbr + 0.037 aes - 0.144 dcr + 0.229lrt que indica que para prever el pie las variables más relevantes parecen ser la estatura y l alongitud rodilla tobillo. Podemos hacer regresiones tomando como variable explicativa el sexo, entonces: sexo = - 3.54 - 0.0191 est - 0.0013 pes + 0.141 pie + 0.0291 lbr + 0.0268 aes - 0.0439 dcr + 0.0219 lrt La variable más importante para prever el sexo de una persona parece ser el pie que es la que tiene un coeÞciente más alto. 3.7.3 Dependencia directa entre pares: Correlaciones parciales La dependencia directa entre dos variables controlando el efecto de las restantes se mide por el coeÞciente de correlación parcial. Se deÞne el coeÞciente de correlación parcial entre dos variables, (x1, x2), dadas las variables (x3, ..., xp), y se denota por r12.3..p, como el coeÞciente de correlación entre las partes de x1 y x2 que están libres de los efectos de las variables (x3, ..., xp). Este coeÞciente se obtiene en dos etapas. Primero, hay que obtener la parte de cada variable que no es explicada por (o está libre de los efectos de) el grupo de variables que se controlan. Esta parte es el residuo de la regresión sobre el conjunto de variables (x3, ..., xp), ya que, por construcción, el residuo es la parte de la respuesta que no puede preverse o es independiente de los regresores. Segundo, se calcula el coeÞciente de correlación simple entre estos dos residuos. Se demuestra en el apéndice 3.3 que los coeÞcientes de correlación parcial entre cada par de variables se obtienen estandarizando los elementos de la matriz S−1 . En concreto, si llamamos sij los elementos de S−1 , el coeÞciente de correlacion parcial entre las variables xjxk se obtiene como rjk.12,...,p = − sij √ siisjj (3.23)
  • 96. 96 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES Los coeÞcientes de correlación parcial pueden calcularse a partir de los coeÞcientes de cor- relación múltiple mediante la relación, que se demuestra en el apéndice 3.3: 1 − r2 12.3..p = 1 − R2 1.2,...,.p 1 − R2 1.3,...,p , donde r2 12.3..p es el cuadrado del coeÞciente de correlación parcial entre las variables (x1, x2) cuando se controlan las variables (x3, ..., xp) , R2 1.2,...,p es el coeÞciente de determinación o coe- Þciente de correlación múltiple al cuadrado en la regresión de x1 con respecto a (x2, x3, ..., xp) y R2 1.3,...,p es el coeÞciente de determinación o coeÞciente de correlación múltiple al cuadrado en la regresión de x1 con respecto a (x3, ..., xp). (El resultado es equivalente si intercambiamos x1 por x2). Esta expresión indica una relación simple entre términos del tipo 1 − r2 , que, según la expresión (3.21), representan la proporción relativa de variabilidad no explicada. Se deÞne la matriz de correlaciones parciales, P, como aquella que contiene los coeÞcientes de correlación parcial entre pares de variables eliminando el efecto de las restantes. Por ejemplo, para cuatro variables, la matriz de correlaciones parciales, : P4 =     1 r12.34 r13.24 r14.23 r21.34 1 r23.14 r24.13 r31.24 r32.14 1 r34.12 r41.23 r42.13 r43.12 1     donde, por ejemplo, r12.34 es la correlación entre las variables 1 y 2 cuando eliminamos el efecto de la 3 y la 4, o cuando las variables 3 y 4 permanecen constantes. De acuerdo con (3.23) está matriz se obtiene como P = (−1)diag D(S−1 )−1/2 S−1 D(S−1 )−1/2 donde D(S−1 ) es la matriz diagonal obtenida seleccionando los elementos diagonales de la matriz S−1 y el término (−1)diag indica que cambiamos el signo de todos los elementos de la matriz menos de los elementos diagonales que serán la unidad. La expresión (3.23) es similar a la (3.17), pero utilizando la matriz S−1 en lugar de S. Observemos que D(S−1 )−1/2 no es la inversa de D(S)−1/2 = D−1/2 , y que, en consecuencia, P no es la matriz inversa de R. 3.7.4 El coeÞciente de Dependencia Para obtener una medida conjunta de la dependencia entre las variables podemos utilizar el determinante de la matriz de correlación, que mide el alejamiento del conjunto de variables de la situación de perfecta dependencia lineal. Se demuestra en el apéndice 3.2 que 0 ≤ |R| ≤ 1 y: (1) Si las variables están todas incorreladas R es una matriz diagonal con unos en la diagonal y |R| = 1. (2) Si una variable es combinación lineal del resto hemos visto que S y R son singulares y |R| = 0 (3) En el caso general, se demuestra en el apéndice 3.3 que: |Rp| = ¡ 1 − R2 p.1...p−1 ¢ ¡ 1 − R2 p−1.1···p−2 ¢ ... ¡ 1 − R2 2.1 ¢ . (3.24)
  • 97. 3.7. MEDIDAS DE DEPENDENCIA LINEAL 97 es decir, el determinante de la matriz de correlación es el producto de p − 1 términos. El primero representa la proporción de variabilidad no explicada en una regresión múltiple entre la variable p y las restantes variables, p − 1, p − 2, ..., 1. El segundo la proporción de variabilidad no explicada en una regresión múltiple entre la variable p − 1 y las variables restantes siguientes, p − 2, p − 3, ..., 1. El último representa la proporción de variabilidad no explicada en una regresión simple entre las variables dos y uno. De acuerdo con la propiedad anterior |Rp|1/p−1 representa la media geométrica de la proporción de variabilidad explicada por todas las regresiones anteriores. Observemos que también es la media geométrica de los valores propios de la matriz Rp, teniendo en cuenta que sólo tenemos p − 1 valores propios independientes ya que están ligados por P λi = p . A partir de estas propiedades Peña y Rodríguez (2000) han propuesto como medida de dependencia lineal global la Dependencia, deÞnida por : D(Rp) = 1 − |Rp|1/(p−1) (3.25) Por ejemplo, para p = 2 como |R2| = 1 − r2 12, esta medida coincide con el cuadrado del coeÞciente de correlación lineal entre las dos variables. Para p > 2 podemos escribir de (3.24) y (3.25): 1 − D(Rp) = £¡ 1 − R2 p.1...p−1 ¢ ¡ 1 − R2 p−1.1···p−2 ¢ ... ¡ 1 − R2 2.1 ¢¤1/(p−1) y vemos que la dependencia es el coeÞciente de correlación necesario para que la variabilidad no explicada en el problema sea igual a la media geométrica de todas las posibles variabili- dades no explicadas. El coeÞciente de correlación promedio estará dado por ρ(Rp) = D(Rp)1/2 = q 1 − |Rp|1/(p−1) . En el caso particular en que p = 2, el coeÞciente de correlación promedio coincide con el valor absoluto del coeÞciente de correlación simple. Ejemplo 3.10 Vamos a construir la matriz de correlaciones parciales para las 7 variables físicas, tabla A.5, MEDIFIS. Podemos construir la matriz de correlaciones parciales a partir de S−1 estandarizandola por los elementos diagonales para obtener: P = 1.00 −0.19 0.48 0.52 0.32 0.17 0.27 −0.19 1.00 0.37 0.30 0.34 0.26 0.00 0.48 0.37 1.00 −0.11 0.07 0.20 0.37 0.52 0.30 −0.11 1.00 0.13 −0.31 0.10 0.32 0.34 0.07 0.13 1.00 0.29 −0.37 0.17 0.26 0.20 −0.31 0.29 1.00 0.27 0.27 0.00 0.37 0.10 −0.37 0.27 1.00 Esta matriz muestra que las relaciones parciales más fuertes se dan entre la estatura y las longitudes del pie (0,48) y del brazo (0,52). Por ejemplo este coeÞciente se interpreta que si consideramos personas con el mismo peso, pie, anchura de espalda, diámetro del cráneo y longitud rodilla tobillo, hay una correlación positiva entre la estatura y la longitud del brazo de 0,52. La tabla muestra que para personas de la misma estatura, peso y demás medidas físicas, la correlación entre la anchura de la espalda y la longitud rodilla tobillo es negativa.
  • 98. 98 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES Para obtener una medida de dependencia global, como el determinante de R es 1.42×10−4 y el coeÞciente global de dependencia es D = 1 − |R|1/6 = 1 − 6 √ 1.42 × 10−4 = 0.771 Podemos concluir que, globalmente, la dependencia lineal explica 77% de la variabilidad de este conjunto de datos. Ejemplo 3.11 Calcularemos el coeÞciente global de dependencia para los datos del Anexo de Datos en las unidades originales en que se presentan, EUROALI EUROSEC EPF INV EST MUNDODES ACCION D . 51 . 80 . 62 .998 .82 .61 Se observa que en INVEST la dependencia conjunta es muy fuerte. Esto sugiere que puede reducirse el número de variables necesarias para describir la información que contienen. 3.8 La matriz de precisión Se denomina matriz de precisión a la inversa de la matriz de varianzas y covarianzas. Esta matriz juega un papel importante en muchos procedimientos estadísticos, como veremos en capítulos sucesivos. Un resultado importante es que la matriz de precisión contiene la información sobre la relación multivariante entre cada una de las variable y el resto. Este resultado es a primera vista sorprendente, ya que la matriz de varianzas y covarianzas sólo contiene la información sobre las relaciones por pares de las variables, pero se explica por las propiedades de la matriz inversa (véase 2.3.4). Puede demostrarse, (véase el apéndice 3.1) que la inversa de la matriz de covarianzas contiene : (1) Por Þlas, y fuera de la diagonal términos proporcionales a los coeÞcientes de regresión múltiple de la variable correspondiente a esa Þla explicada por todas las demás. Los términos de la matriz son estos coeÞcientes cambiados de signo y multiplicados por la inversa de la varianza residual en esa regresión. Es decir, si llamamos sij a los elementos de la matriz de precisión: sij = −bβij/s2 r(i) donde bβij es el coeÞciente de regresión de la variable j para explicar la variable i, y s2 r(i) la varianza residual de la regresión. (2) En la diagonal las inversas de las varianzas residuales de cada variable en su regresión con el resto. Es decir: sii = 1/s2 r(i) (3) Si estandarizamos los elementos de esta matriz para que tenga unos en la diagonal, los elementos fuera de la diagonal son los coeÞcientes de correlación parcial entre estas variables. Es decir rij.R = − sij √ siisjj
  • 99. 3.9. COEFICIENTES DE ASIMETRÍA Y KURTOSIS 99 donde R se reÞere al resto de las variables, es decir el conjunto de p − 2 variables xk con k = 1, ..., p y k 6= i, j. Por ejemplo, con cuatro variables, la primera Þla de la matriz inversa de varianzas y covarianzas es s−2 R (1), −s−2 R (1)bβ12, −s−2 R (1)bβ13, −s−2 R (1)bβ14 donde s2 R(1) es la varianza residual de una regresión entre la primera variable y las otras tres y bβ12, bβ13, bβ14 son los coeÞcientes de regresión en la ecuación bx1 = bβ12x2 + bβ13x3 + bβ14x4 donde hemos supuesto, sin pérdida de generalidad, que las variables tienen media cero. Por tanto, la matriz S−1 contiene toda la información de las regresiones de cada variable en las demás. Ejemplo 3.12 Calculemos e interpretemos la matriz de precisión de los datos de los loga- ritmos de las acciones, tabla A: ACCIONES, del ejemplo 3.5. Esta matriz es S−1 =   52.0942 −47.9058 52.8796 −47.9058 52.0942 −47.1204 52.8796 −47.1204 60.2094   Por ejemplo, la primera Þla de esta matriz puede escribirse como 52.0942×(1.0000, −0.9196, 1.0151) que indica que la varianza residual de una regresión entre la primera variables y las otras dos es 1/52.0942 = .0192, y los coeÞcientes de regresión de las variables X2 y X3 en una regresión para explicar X1 son −0.9196 y 1.0151 respectivamente. Observemos que, de nuevo, aparece que la relación z = X1 −X2+ X3 tiene poca variabilidad. La varianza de la regresión , 0.019, es menor que la de la variable z, ya que representa una variabilidad condicionada cuando se conocen las variables X2 y X3. 3.9 COEFICIENTES DE ASIMETRÍA Y KURTOSIS La generalización de los coeÞcientes de asimetría y kurtosis al caso multivariante no es inmediata. Una de las propuestas más utilizadas es debida a Mardia (1970), que propone calcular las distancias de Mahalanobis para cada par de elementos muestrales (i, j) : dij = (xi − x)0 S−1 (xj − x) . y deÞne el coeÞciente de asimetría multivariante en la distribución conjunta de las p variables como Ap = 1 n2 nX i=1 nX j=1 d3 ij,
  • 100. 100 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES y el de kurtosis Kp = 1 n nX i=1 d2 ii. Estos coeÞcientes tienen las propiedades siguientes: 1. Para variables escalares Ap = A2 . En efecto, entonces Ap = 1 n2 nX i=1 nX j=1 (xi − x)3 (xj − x)3 /s6 = ( Pn i=1(xi − x)3 )2 n2s6 = A2 2. El coeÞciente de asimetría es no negativo y será cero si los datos están distribuidos homogéneamente en una esfera. 3. Para variables escalares K = Kp. El resultado es inmediato porque entonces d2 ii = (xi − x)4 /s4 . 4. Los coeÞcientes son invariantes ante transformaciones lineales de los datos. Si y = Ax + b, los coeÞcientes de asimetría y kurtosis de y y de x son idénticos. Ejemplo 3.13 Calcularemos los coeÞcientes de asimetría y kurtosis multivariantes para los datos sobre de rentabilidad de las acciones . Se comprueba que si tomamos los datos en su métrica original, el coeÞciente de asimetría multivariante es: Ap = 16.76.. Este valor será, en general, mayor que los coeÞcientes univariantes, que son, respectivamente, 0,37, 0,04, y 2,71. Si tomamos logaritmos a los datos Ap = 7.5629 , mientras que los univariantes son 0,08, -0,25 y 1,02. Podemos concluir que , efectivamente, la transformación logarítmica ha servido para simetrizar más estos datos. El coeÞciente de kurtosis multivariante es Kp = 31.26, que debe compararse con los valores univariantes de 1,38, 1,40, y 12,44. Al tomar logaritmos el coeÞciente multivariante es Kp = 21.35, mientras que los univariantes son 1,43, 1,75, y 4,11, con lo que vemos que también se reduce la kurtosis tomando logaritmos. EJERCICIOS Ejercicio 3.1 Calcular el vector de medias y el de medianas para las tres variables de las ACCIONES, tabla A.7. Comparar sus ventajas como medidas de centralización de estas variables. Ejercicio 3.2 Se dispone de 3 indicadores económicos X1, X2, X3, que se miden en cuatro países, con los resultados siguientes: X1 X2 X3 2 3 -1 1 5 -2 2 2 1 2 3 1 Calcular el vector de medias, la matriz de varianzas y covarianzas, la varianza generalizada, la matriz de correlación y la raíz y vector característico mayor de dichas matrices.
  • 101. 3.9. COEFICIENTES DE ASIMETRÍA Y KURTOSIS 101 Ejercicio 3.3 A partir de los tres indicadores económicos X1, X2, X3 del problema 1 se construyen dos nuevos indicadores y1 = (1/3)x1 + (1/3)x2 + (1/3)x3 y2 = x1 − 0, 5x2 − 0, 5x3 Calcular el vector de medias para y0 = (y1, y2), su matriz de varianzas y covarianzas, la matriz de correlación y la varianza generalizada. Ejercicio 3.4 Demostrar que la matriz · 1 r r 1 ¸ tiene autovalores 1+r y 1−r y autovectores (1, 1) y (1, −1). Ejercicio 3.5 Demostrar que si una matriz es de la forma C = · A 0 0 B ¸ los autovectores son de la forma (u1, 0) y (0, u2), donde u1 y u2 son autovectores de A y B, respectivamente. Ejercicio 3.6 Cuál es la relación entre los autovalores de C y los de A y B en el ejercicio 5?. Ejercicio 3.7 Demostrar que si Y = XA donde Y es n × m y X es n × p las matriz de covarianzas de Y está relacionada con la de X por Sy = A0 SxA. Ejercicio 3.8 Calcular los coeÞcientes de correlación múltiple entre cada variable y todas las demás para los datos de INVES. Ejercicio 3.9 Calcular la matriz de correlaciones parciales para los datos de INVES. Ejercicio 3.10 Demostrar que la varianza residual de una regresión múltiple entre una vari- able y y un conjunto de x puede escribirse como s2 y(1 − R2 ) donde s2 y es la varianza de la variable y y R2 el coeÞciente de correlación múltiple. Ejercicio 3.11 Calcular los coeÞcientes de correlación parcial entre las variables del conjun- to de acciones mediante regresiones y utilizando los elementos de la matriz S−1 y comprobar la equivalencia. Ejercicio 3.12 Calcular el coeÞciente de asimetría multivariante para un vector de dos vari- ables incorreladas entre si. ¿Cuál es la relación entre el coeÞciente de asimetría multivariante y los univariantes? Ejercicio 3.13 Repetir el ejercicio anterior para los coeÞcientes de kurtosis. Ejercicio 3.14 Demostrar que para un conjunto de datos 1 np Pn i=1(xi − x)0 S−1 (xi − x) = 1 (sugerencia, tome trazas y utilice que tr[ Pn i=1(xi − x)0 S−1 (xi − x)] = tr [S−1 Pn i=1(xi − x)(xi − x)0 ]).
  • 102. 102 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES Ejercicio 3.15 Demostrar que podemos calcular la matriz de distancias euclídeas entre los puntos con la operación diag(XX0)1 +1diag(XX0) − 2X0 X, donde X es la matriz de datos, diag(XX0) el vector que tiene por componentes los elementos diagonales y 1 es un vector de unos. Ejercicio 3.16 Demostrar que podemos calcular la matriz de distancias de Mahalanobis entre los puntos con la operación diag(XS−1 X0)1 + 1diag(XS−1 X0) − 2X0 S−1 X, donde X es la matriz de datos, diag(XS−1 X0) el vector que tiene por componentes los elementos diagonales de la matriz XS−1 X0, y 1 es un vector de unos. APÉNDICE 3.1: LA ESTRUCTURA DE LA MA- TRIZ DE PRECISIÓN Particionemos la matriz S separando las variables en dos bloques: la variable 1 que llamaremos y, y el resto, que llamaremos R. Entonces: S = · s2 1 c0 1R c1R SR ¸ donde s2 1 es la varianza de la primera variable, c1R el vector de covarianzas entre la primera y el resto y SR la matriz de varianzas y covarianzas del resto. Su inversa, utilizando los resultados del capítulo anterior sobre la inversa de una matriz particionada, será: S−1 = · ¡ s2 1 − c0 1RS−1 R c1R ¢−1 A12 A21 A22 ¸ . Supongamos para simpliÞcar que la media de todas las variables es cero. Entonces la regresión de la primera variable sobre el resto tiene de coeÞcientes: bβ1R = S−1 R c1R, Para encontrar la relación que buscamos, utilizaremos la identidad básica del análisis de la varianza (ADEVA): 1 n V T = 1 n V E + 1 n V NE Apliquemos esta descomposición a la primera variable. El primer término es s2 1, la varianza de la primera variable, y el segundo, como by = XR bβ1R, puede escribirse: 1 n V E = 1 n (by0 by) = bβ 0 1RSR bβ1R = c0 1RS−1 R SRS−1 R c1R = c0 1RS−1 R c1R, y el tercero, V NE/n = P e2 1R/n = s2 r(1), donde hemos llamado e1R a los residuos de la regresión de la primera variable respecto a las demás, y s2 r(1) a la varianza residual, sin
  • 103. 3.9. COEFICIENTES DE ASIMETRÍA Y KURTOSIS 103 corregir por grados de libertad, de esta regresión. Sustituyendo estos términos en la identidad básica de ADEVA, obtenemos que la varianza residual puede calcularse como: s2 r(1) = s2 1 − c0 1RS−1 R c1R. Si comparamos esta expresión con el primer término de la matriz S−1 concluimos que el término diagonal primero de S−1 es la inversa de la varianza de los residuos (dividida por n y sin corrección por grados de libertad) en una regresión entre la primera variable y el resto. Como este análisis puede hacerse para cualquiera de las variables, concluimos que los términos diagonales de S−1 son las inversas de las varianzas residuales en las regresiones entre cada variable y el resto. Para obtener la expresión de los términos de fuera de la diagonal en S−1 aplicaremos la fórmula para la inversa de una matriz particionada: A12 = − £ s2 r(1) ¤−1 c0 1RS−1 R = − £ s2 r(1) ¤−1 bβ 0 1R, y, por tanto, las Þlas de la matriz S−1 contienen los coeÞcientes de regresión (cambiados de signo) de cada variable con relación a las restantes divididos por la varianza residual de la regresión (sin corregir por grados de libertad). En resumen, S−1 puede escribirse: S−1 =      s−2 r (1) −s−2 r (1)bβ 0 1R . . . . . . . . . . . . −s−2 r (p)bβ 0 pR s−2 r (p)      , donde bβjR representa el vector de coeÞcientes de regresión al explicar la variable j por las restantes. Observemos que en esta matriz el subíndice R se reÞere al conjunto de p − 1 variables que queda al tomar como variable respuesta la que ocupa el lugar de la Þal correspondiente ne la matriz. Por ejemplo, bβ 0 pR es el vector de coeÞcientes de regresión entre la p y las (1, ...p − 1). APÉNDICE 3.2 LOS DETERMINANTES DE S Y R. Vamos a obtener expresiones para los determinantes de la matriz de varianzas y covari- anzas y de correlación, utilizando los resultados para matrices particionadas del capítulo 2. Escribamos la matriz de varianzas y covarianzas como: Sp = · s2 1 c0 1R c1R Sp−1 ¸ donde s2 1 es la varianza de la primera variable, c0 1R contiene las covarianzas entre la primera y utilizamos ahora la notación Sp para referirnos a la matriz de varianzas y covarianzas de las correspondientes p variables. Aplicando la fórmula para el determinante de una matriz particionada, podemos escribir |Sp| = |Sp−1| s2 1 ¡ 1 − R2 1.2...p ¢
  • 104. 104 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES donde R2 1.2...p es el coeÞciente de correlación múltiple entre la primera variable y el resto que viene dado, utilizando los resultados del apéndice 3.1, por R2 1.2...p = 1 s2 1 c0 1RSp−1c1R Análogamente si escribimos la matriz de correlación particionada como Rp = · 1 r0 1R r1R Rp−1 ¸ donde r1R y Rp−1 son, respectivamente, el vector de correlaciones de la primera variable con el resto y la matriz de correlación entre el resto de las variables. Entonces, |Rp| = |Rp−1| ¡ 1 − R2 1.2...p ¢ , (3.26) ya que, también R2 1.2...p = r0 1RRp−1r1R. Para demostrar esta igualdad, observemos que la relación entre los vectores de correla- ciones y covarianzas es r1R = D −1/2 p−1 c1R/s1, donde D −1/2 p−1 contiene las inversas de las desvia- ciones típicas de las p − 1 variables. Como Rp−1 = D −1/2 p−1 Sp−1D −1/2 p−1 , tenemos que r0 1RRp−1r1R = (c0 1R/s1)D −1/2 p−1 D 1/2 p−1S−1 p−1D 1/2 p−1D −1/2 p−1 (c1R/s1) = 1 s2 1 c0 1RS−1 p−1c1R = R2 1.2...p Aplicando sucesivamente la ecuación (3.26), se obtiene que |Rp| = ¡ 1 − R2 1.2...p ¢ ¡ 1 − R2 2.3···p ¢ ... ¡ 1 − r2 p−1.p ¢ . APÉNDICE 3.3 CORRELACIONES PARCIALES El coeÞciente de correlación parcial es el coeÞciente de correlación simple en una regresión entre residuos. Su cuadrado puede interpretarse de la forma habitual como la proporción de variación explicada respecto al total, siendo en este caso la variación total la no explicada por otra regresión previa. Vamos a utilizar esta interpretación para obtener la relación entre los coeÞcientes de correlación parcial y múltiple. Supongamos p variables y vamos a obtener el coeÞciente de correlación parcial entre las variables x1, y x2, cuando se controlan x3, ..., xp. Para ello haremos una regresión simple entre dos variables: la primera es e1.3..p, los residuos de una regresión entre x1 y x3, ..., xp, y la segunda e2.3..p, los residuos de una regresión entre x2 y x3, ..., xp. El coeÞciente de correlación simple de esta regresión entre residuos, r12.3...p , es el coeÞciente de correlación parcial. Por construcción este coeÞciente es simétrico entre el par de variables, pero suponiendo que tomamos la primera variable como dependiente en la regresión, la ecuación estimada entre los residuos es e1.3,...,p = b12.3,...,pe2.3,..,.p
  • 105. 3.9. COEFICIENTES DE ASIMETRÍA Y KURTOSIS 105 y el coeÞciente de correlación de esta regresión, que es el de correlación parcial, será r12.3...p = b12.3,...,p s(e1.3,...,p) s(e2.3,..,.p) Vamos a comprobar que estos términos los podemos obtener de la matriz S−1 . En esta matriz s12 = −s−2 r (1)bβ12.3,...,p = s21 = −s−2 r (2)bβ12.3,...,p ya que la matriz es simétrica. dividiendo por la raiz de los elementos s11 y s22 . Se obtiene − s12 s22s11 = s−2 r (1)bβ12.3,...,p s−1 r (1)s−1 r (2) = bβ12.3,...,p sr(2) sr(1) y puede comprobarse que esta expresión es r12.3...p , el coeÞciente de correlación parcial. En la regresión entre los residuos el cociente entre la variabilidad no explicada y la total es uno menos el cuadrado del coeÞciente de correlación. La variabilidad no explicada en esta regresión es la variabilidad no explicada de la primera variable respecto a todas, que llamaremos V NE1.23...p (e1.3..p contenía la parte no explicada por las variables 3, .., p y ahora hemos añadido la x2). La variabilidad total de la regresión es la de los residuos, e1.3..p, es decir la no explicada en la regresión de x1 respecto a x2, ..., xp. Por tanto, podemos escribir: 1 − r2 12.3...p = V NE1.2,3,...,p V NE1.3...p Vamos a expresar estas V NE en función de los coeÞcientes de correlación múltiple de las correspondientes regresiones. Llamando R2 1.3...p al coeÞciente de determinación en la regresión múltiple de x1 respecto a x3, ..., xp : 1 − R2 1.3...p = V NE1.3,..,.p V T1 donde V T1 es la variabilidad de la primera variable. Analogamente, en la regresión múltiple entre la primera variable y todas las demás, x2, x3, ..., xp tenemos que 1 − R2 1.23...p = V NE1.2,3,...,p V T1 . De estas tres ecuaciones deducimos que 1 − r2 12.3...p = 1 − R2 1.23...p 1 − R2 1.3...p (3.27) que permite calcular los coeÞcientes de correlación parcial en función de los coeÞcientes de correlación múltiple. Aplicando reiteradamente esta expresión podemos también escribir ¡ 1 − R2 1.23...p ¢ = ¡ 1 − r2 12.3...p ¢ ¡ 1 − r2 13.4...p ¢ ... ¡ 1 − r2 1p−1.p ¢ ¡ 1 − r2 1p ¢ También puede demostrarse (véase Peña, 2002) que el coeÞciente de correlación parcial entre las variables (x1, x2) cuando se controlan las variables (x3, ..., xp) puede expresarse en
  • 106. 106 CAPÍTULO 3. DESCRIPCIÓN DE DATOS MULTIVARIANTES función del coeÞciente de regresión de la variable x2 en la regresión de x1 con respecto a (x2, x3, ..., xp), y su varianza. La expresión es: r12.3...p = bβ12.3...p Ãr bβ 2 12.3...p + (n − p − 1)s2 h bβ12.3...p i ) ! donde bβ12.3...p y su varianza, s2 h bβ12.3...p i se obtienen en la regresión entre variables de media cero: bx1 = bβ12.3...px2 + bβ13.2...px3 + ... + bβ1p.2...p−1xp
  • 107. Capítulo 4 ANALISIS GRAFICO Y DATOS ATIPICOS 4.1 INTRODUCCIÓN En este capítulo vamos a continuar la descripción de datos multivariantes, estudiando su representación gráÞca y posibles transformaciones de las variables que conduzcan a una descripción más simple de los datos. También introduciremos un análisis inicial de la homo- geneidad de la muestra mediante el estudio de los posibles valores atípicos, debidos a errores de medida, o otras causas de heterogeneidad. Obtener buenas representaciones gráÞcas de datos multivariantes es un problema difí- cil, y en este capítulo introduciremos los métodos más simples que se complementarán con los análisis gráÞcos presentados en capítulos posteriores. Recordemos que las correlaciones miden las relaciones lineales entre las variables, y pueden ser má interpretadas cuando las relaciones son no lineales. Por esa razón se intenta transformar las variables para que las variables transformadas tengan relaciones aproximadamente lineales, y veremos como gener- alizar las transformaciones univariantes para conseguir este objetivo. Por último, los datos multivariantes contienen con freuencia observaciones que son heterogeneas con el resto y, que si no son detectadas, pueden alterar completamente el análisis descriptivo de las variables originales. En este capítulo presentaremos métodos para detectar los datos atípicos. 4.2 REPRESENTACIONES GRÁFICAS 4.2.1 Histogramas y diagramas de dispersión El primer paso de cualquier análisis multivariante es representar gráÞcamente las variables individualmente, mediante un histograma o un diagrama de caja. Estas representaciones son muy útiles para detectar asímetrías, heterogeneidad, datos atípicos etc. En segundo lugar conviene construir los diagramas de dispersión de las variables por pares, y esta posibilidad se incluye ya en muchos programas de ordenador. Con p variables existen p(p−1)/2 gráÞcos posibles que pueden disponerse en forma de matriz y son muy útiles para entender el tipo de relación existente entre pares de variables, e identiÞcar puntos atípicos en la relación 107
  • 108. 108 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS bivariante. En particular, estos gráÞcos son importantes para apreciar si existen relaciones no lineales, en cuyo caso la matriz de covarianzas puede no ser un buen resumen de la dependencia entre las variables. Podemos simular gráÞcos de tres variables presentando en la pantalla de un ordenador proyecciones adecuadas de esta relación girando el punto de vista del observador para dar idea del espacio tridimensional. Estas representaciones gráÞcas se conocen con el nombre de Gran Tour de los datos y pueden ser muy útiles, utilizados interactivamente con un ordenador, pero no pueden construirse para dimensiones superiores a tres. También para variables discretas podemos construir diagramas de barras tridimensionales y para variables continuas podemos construir los equivalentes multidimensionales de los histogramas. La Þgura 4.3 presenta un ejemplo de estas representaciones. Ejemplo 4.1 La Þgura muestra los gráÞcos de dispersión de los datos de medidas de desar- rollo del mundo, MUNDODES, del Anexo I. TasaNat. 5 10 15 20 25 40 50 60 70 0 10000 30000 1020304050 51020 TasaMort MortInf 050100 40506070 EspHom EspMuj 4050607080 10 20 30 40 50 01000030000 0 50 100 150 40 50 60 70 80 PNB Figura 4.1: Matriz de dispersión para los datos MUNDOES. La Þgura 4.1 ilustra claramente que existen relaciones de dependencia fuerte entre las variables, muchas de carácter no lineal. Por ejemplo, la relación entre las variables primera y segunda, tasa de natalidad y de mortalidad, es claramente no lineal y se observa un valor atípico muy destacado en la relación. En toda la primera Þla (o columna) que indica las relaciones de la primera variable (tasa de natalidad) con las restantes las relaciones parecen no lineales y , en algunos casos, heterocedástica. Comentarios similares se aplican a la segunda variable. En otros casos parece que la relación entre dos variables es diferente para distintos grupos de países. Por ejemplo, en prácticamente todas las relaciones en que aparece la sexta variable, riqueza del país medida por el PNB, parecen existir dos tipos de países. En unos parece no existir relación entre la variable demográÞca y el PNB, mientras que en los otros parece existir una clara relación positiva (como con la tasa de mortalidad) o negativa (como con la mortalidad infantil) entre las variables demográÞcas y el PNB.
  • 109. 4.2. REPRESENTACIONES GRÁFICAS 109 Esta Þgura muestra además que algunas de las relaciones son heterocedásticas, es decir, que la variabilidad de la relación aumenta al aumentar los niveles de las variables. Por ejemplo, en la relación entre tasa de natalidad y mortalidad infantil, donde además se aprecia claramente un valor atípico. Este punto aparece muy claramente en la relación entre las dos primeras variables (posiciones 1,2 y 2,1 de la matriz) y en los gráÞcos de la segunda Þla y columna, indicando que el punto es atípico en las dos primeras variables. Finalmente algunas relaciones son muy fuertes y lineales como entre las esperanzas de vida y la mortalidad infantil. Ejemplo 4.2 El gráÞco siguiente presenta los diagramas de dispersión para los datos de las ACCIONES. X1 30 40 50 60 70 80 90 100 2.0 4.5 7.0 9.5 12.0 14.5 17.0 30 40 50 60 70 80 90 100 X2 2.0 4.5 7.0 9.5 12.0 14.5 17.0 X3 5 10 15 20 25 30 5 10 15 20 25 30 1 11 1 1 1 34 34 Figura 4.2: Matriz de dispersión de los datos de ACCIONES En la Þgura 4.2 se observa como la primera observación aparece como un valor atípico en todos los diagramas de dispersión. En los gráÞcos con la tercera variable este punto es un valor muy extremo en la relación, mientras que en los gráÞco de las otras dos variables aparece como atípico, pero no parece muy inßuyente en la relación lineal entre ambas variables. La acción 34 aparece, al igual que la 1, como una observación aislada heterogénea con el resto. En este caso podemos hacer una representación en tres dimensiones de las tres variables. En la Þgura 4.3 se observa que la relación entre las variables x1 y x2 depende del nivel de la x3. El gráÞco ilustra también con claridad el carácter claramente atípico de las observaciones 1 y 34 que aparecen muy separadas del resto. Por otro lado, se observa en el gráÞco tridi- mendional que las observaciones se agrupan en dos conjuntos distintos. Esta característica, que se apunta en los gráÞcos bidimensionales, aparece claramente de maniÞesto en la repre- sentación tridimendional, ilustrando las ventajas de construir estas representaciones cuando sea posible.
  • 110. 110 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS 34 1 Figura 4.3: Representacion Tridimensional de los datos de ACCIONES En la Þgura 4.4 se presenta la matriz de datos de dispersión para los datos de las acciones ahora en los logaritmos de las variables. Se observa que la transformación en logaritmos aporta mayor linealidad a las relaciones entre variables dos a dos y reduce algo el efecto de la primera observación que es atípica. X1 3.4 3.6 3.8 4.0 4.2 4.4 4.6 1.52.02.5 3.43.84.24.6 X2 1.5 2.0 2.5 1.5 2.0 2.5 3.0 1.52.02.53.0 X3 Figura 4.4: Matriz de dispersión para los logartimos de los datos de ACCIONES. Ejemplo 4.3 La Þgura 4.5 representa los datos A.4, INVEST, para las publicaciones cien- tíÞcas. Se observa que existe una fuerte relación entre todas las variables. Las relaciones son aproximadamente lineales, si bien en algunos casos se observa cierta curvatura que podría
  • 111. 4.2. REPRESENTACIONES GRÁFICAS 111 resolverse tomando logaritmos. No hay valores atípicos muy destacados. INTER.A 6 8 10 12 6 7 8 9 10 4 6 8 10 6 7 8 9 10 12 791113 6810 INTER.F AGRIC. 6810 6810 BIOLO. MEDIC. 7911 4812 QUIMI. INGEN. 6810 7 8 9 11 13 681012 6 7 8 9 10 7 8 9 11 6 7 8 9 10 FISICA Figura 4.5: Representación como matriz de dispersión de los datos de INVES Ejemplo 4.4 La Þgura 4.6 presenta los gráÞcos de dispersión para los datos de medidas Þsicas del banco de datos MEDIFIS. Las relaciones son aproximadamente lineales y no se detecta la presencia de datos atípicos destacados. 4.2.2 Representación mediante Þguras Para más de tres variables se utilizan principalmente dos tipos de métodos gráÞcos. El primero, es mostrar los datos mediante Þguras planas, asociando cada variable a una carac- terística del gráÞco. El segundo, es buscar conjuntos de proyecciones en una y dos dimen- siones que revelen aspectos característicos de los datos. Vamos a presentar en esta sección el primer enfoque, en la sección siguiente hablaremos del segundo. Existen muchas alternativas posibles para representar los datos mediante Þguras. Cher- noff ha propuesto la utilización de caras, que tienen la ventaja de nuestra facilidad para reconocer patrones en este formato y el inconveniente de que la representación es muy de- pendiente de las variables escogidas para representar cada rasgo. Por ejemplo, la boca y la forma de la cabeza son rasgos más llamativos que las orejas o la longitud de la nariz, y el mismo conjunto de datos puede sugerir distintos patrones de similitud entre las observaciones según la asociación elegida entre rasgos y variables. La Þgura 4.7 presenta un ejemplo. Si asociamos cada variable a un rasgo de una Þgura plana, podemos representar cada elemento en la muestra por una Þgura geométrica. En estas representaciones las similitudes
  • 112. 112 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS entre Þguras indican las similitudes entre los elementos, y los valores atípicos aparecerán como Þguras discordantes con el resto. Una Þgura muy utilizada es la estrella. Por ejemplo, para representar cinco variables, podemos escoger una estrella de cinco radios y asociar cada variable a cada uno de estos radios o ejes. Cada observación dará lugar a una estrella. Normalmente las variables se estandarizan de manera que tengan media cero y desviación típica unitaria. Entonces, se marca el cero sobre cada eje y se representa el valor de la variable en unidades de desviaciones típicas. La Þgura 4.8 presenta un ejemplo de su uso. Ejemplo 4.5 La Þgura 4.7 presenta una representación gráÞca de los datos de investigación, INVEST, con las Caras de Chernoff. Cada observación es convertida en una cara, y cada variable es asignada a una característica de la misma. Para el siguiente ejemplo se ha uti- lizado el programa Splus, que asigna las variables a las siguientes características: (1) área de la cara; (2) forma de la cara; (3) longitud de la nariz; (4) localización de la boca; (5) curva de la sonrisa; (6) grosor de la boca; (7a 11) localización, separación, ángulo, forma y grosor de los ojos, etc. Se puede representar más de 15 características, y, originalmente, Chernoff logró representar 18 variables en una cara. En la Þgura 4.7 se han representado los países contenidos en la base de datos INVEST pero eliminado EEUU, ya que este país distorsion- aría la representación gráÞca por tomar un valor muy extremo en todas las variables. En este tipo de gráÞcos podemos o bien ver el comportamiento por separado de cada variable o bien la similitud global de cada dato multivariado. Por ejemplo, la variable MEDIC se ha asignado a la curva de la sonrisa y vemos que los primeros cuatro países son claramente diferentes en cuanto a esta característica. Sin embargo, juzgando globalmente, notamos que el comportamiento más parecido lo presentan los cinco primeros países. La representación de las caras de Chernoff nos permite observar las diferencias entre los países en cuanto al volumen de publicaciones. Para observar las diferencias entre los patrones de publicación de los distintos países deberíamos aplicar logaritmos a los datos para reducir la asimetría en las distribuciones univariantes, observada en la Þgura 4.10, y para linealizar más las relaciones. Ejemplo 4.6 Para representar los países con las variables en logaritmos se ha optado por un gráÞco de estrellas. Como se explicó anteriormente, cada radio de la estrella está asociado a una variable, en el ejemplo que trataremos fue utilizado Splus, este programa comienza a asignar variables desde la derecha en el sentido opuesto a las agujas del reloj. En la Þgura 4.8 se presenta cómo es esta asignación para las variables de la base INVEST.En la Þgura 4.9 se siguen observando diferencias de tamaño entre los primeros cinco países y el resto, pero se aprecian ciertos patrones en los que se distinguen países con tendencia a la investigación en algunas áreas frente a otras. 4.2.3 (*)Representación de Proyecciones En lugar de intentar representar las variables originales por pares podríamos intentar repre- sentar parejas de variables que resuman en algún sentido el conjunto de variables. Esperamos así obtener una mayor intuición visual de las propiedades de los datos. Una forma simple de resumir un vector de variables es construir una variable escalar como combinación lineal de
  • 113. 4.2. REPRESENTACIONES GRÁFICAS 113 sus valores. Por ejemplo, si x0 = (x1, ..., xp) representa el precio de un conjunto de productos en un mercado, una medida resumen de estos precios es: y = a0 x = p X j=1 ajxj. (4.1) Si aj = 1/p, la combinación lineal resultante es la media de los precios. Si aj 6= 1/p, pero aj ≥ 0 y P aj = 1 la nueva variable es una media ponderada de las variables originales con pesos aj. En general (4.1) deÞne una nueva variable que informa globalmente del conjunto de variables X. La variable escalar obtenida mediante una combinación lineal puede siempre interpretarse geométricamente como una proyección. El producto escalar del vector x, en <p , por otro vector a de <p viene dado por: a0 x = |a||x| cos α (4.2) y si el vector de ponderación, a, se toma de manera que su norma sea uno, |a| = 1, el producto escalar es directamente la proyección del vector x sobre la dirección del vector a. En consecuencia, si elegimos una dirección con |a| = 1, la nueva variable escalar yi = a0 xi (4.3) que tomará valores (y1, ..., yn), puede interpretarse como la proyección de los datos X sobre la dirección indicada por el vector a. El conjunto de los n valores de la nueva variable y pueden englobarse en un vector y (n × 1) que vendrá dado por y = Xa, (4.4) donde X es la matriz de datos n × p. Como construir un indicador a partir de variables multivariantes puede interpretarse como proyectar los datos sobre cierta dirección, es natural preguntarse por direcciones de proyección que sean informativas para revelarnos la disposición de los puntos en el espacio. Para ello tenemos que deÞnir un criterio de proyección y encontrar la dirección donde ese criterio se maximiza. Las técnicas diseñadas con este objetivo se conocen como búsqueda de proyecciones (projection pursuit), y se aplican como sigue: 1. Escoger la dimensión del espacio sobre el que vamos a proyectar (normalmente 2), y el criterio que se desea maximizar. 2. Encontrar la dirección que maximiza el criterio analiticamente. Si no es posible en- contrar la dirección de forma analítica hacerlo de manera aproximada, por ejemplo seleccionando un número grande de direcciones (a1, ..., aN ), evaluando el criterio en cada una y seleccionando la dirección de este conjunto donde el criterio toma el valor máximo. 3. Encontrar una dirección ortogonal a la primera que maximice el criterio. Esto puede hacerse por ejemplo proyectando los datos sobre el espacio ortogonal a la primera dirección, a, lo que supone transformales con Y = (I − aa0)X y aplicar el algortimo del punto 2 a los nuevos datos Y.
  • 114. 114 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS 4. Representar los datos sobre el plano deÞnido por las dos direcciones de proyección. Se suelen considerar interesantes las proyecciones que muestren relaciones no lineales entre las variables, o distribuciones multimodales que pueden indicar la presencia de clusters o grupos de observaciones. Inicialmente las funciones objetivo utilizadas se basaban en la teoría de la información. Por ejemplo, una medida de diversidad o heterogeneidad es la entropía de Shannon I(x) = Z log f(x)f(x)dx que, entre las distribuciones continuas, se minimiza con la distribución normal. Si maxi- mizamos esta función esperamos obtener proyecciones donde la distribución resultante se aparte más de la normal, en cierto sentido, lo que puede resultar en combinaciones intere- santes y estructuras inesperadas entre las variables. Naturalmente otros muchos criterios son posibles, y en la sección 4.5 utilizaremos otro criterio para buscar direcciones que muestren la presencia de atípicos. En el capítulo siguiente utilizaremos estas ideas para obtener proye- ciones que mantengan lo más posible las distancias entre los puntos en el espacio. Los capítulos 5, 6 y 7 presentan más ejemplos de estas técnicas gráÞcas. 4.3 TRANSFORMACIONES LINEALES 4.3.1 Consecuencias Muchas propiedades importantes de los datos son independientes de las unidades de medida de las variables y no cambiarán si pasamos de euros a dólares o de centímetros a metros. Va- mos a estudiar como afectan cambios en las unidades de medida a los estadísticos estudiados en el capítulo 3. Por ejemplo, supongamos que en lugar de medir una variable bidimen- sional x =(x1, x2)0 en euros y en unidades lo hacemos en dólares y en miles de unidades, y = (y1, y2)0 . La relación entre ambas variables será: y = Ax (4.5) donde A es una matriz diagonal que tiene como términos diagonales los factores de conversión de euros a dólares y de unidades a miles de unidades (1/1000). Para el conjunto de las n observaciones la relación será: Y = X A (4.6) donde X e Y son n×p, y A es una matriz diagonal p×p. Aplicando la deÞnición de vector de medias y = 1 n Y0 1 = A0 1 n X0 1 =A 0 x (4.7) y como A = A0 , el vector de medias se transforma de la misma forma que los hacen las variables.
  • 115. 4.3. TRANSFORMACIONES LINEALES 115 Las matrices de varianzas y covarianzas estarán relacionadas por: Sy = 1 n Y0 PY = A0 ( 1 n X0 PX)A =A 0 SxA. (4.8) El cambio de unidades es un caso particular de una transformación lineal de las vari- ables para simpliÞcar su interpretación. Una transformación lineal importante es la es- tandarización de las variables, que puede hacerse de dos formas distintas, como veremos a continuación. 4.3.2 Estandarización univariante Llamando x al vector p × 1 de la variable vectorial, la transformación lineal y = D−1/2 (x−x) donde la matriz D−1/2 es cuadrada y diagonal con términos: D−1/2 =   s−1 1 0 . . . 0 0 s−1 2 . . . 0 0 0 . . . s−1 p   , convierte las variables originales, x, en otras nuevas variables, y, de media cero y vari- anza unidad. Cada componente del vector x, xj para j = 1, ..., p, se transforma con yj = (xj − xj)/sj. La matriz de varianzas y covarianzas de las nuevas variables será la matriz de correlación de las variables primitivas. Esta transformación es la estandarización univariante de las variables. 4.3.3 (*)Estandarización multivariante Dada una matriz deÞnida positiva, Sx, puede deÞnirse su raíz cuadrada S 1/2 x , por la condición Sx = S1/2 x (S1/2 x )0 (4.9) La matriz S 1/2 x no es única (véase 2.4.2). En efecto si S 1/2 x veriÞca la condición (4.9) también la veriÞca S 1/2 x M, donde M es cualquier matriz ortogonal. La matriz S 1/2 x puede construirse a partir de la descomposición espectral Sx = ADA0 donde D es diagonal y contiene los valores propios de Sx y A es ortogonal y contiene los vectores propios. Sea D1/2 la matriz diagonal cuyos términos son las raíces cuadradas de los términos de D, que son positivos. DeÞniendo la raiz cuadrada por la matriz simétrica: S1/2 x = AD1/2 A0 (4.10)
  • 116. 116 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS la variable y = S−1/2 x (x−x) tiene media cero y matriz de varianzas y covarianzas identidad, ya que Sy = S−1/2 x SxS−1/2 x = I Con esta transformación pasamos de variables correladas, con matriz de covarianza Sx, a variable incorreladas, con matriz de varianzas identidad. El nuevo conjunto de variables viene dado por Y = eXS−1/2 x = eXAD−1/2 A0 Esta estandarización se denomina multivariante, ya que utiliza todas las covarianzas para estandarizar cada variable. Observemos que la estandarización univariante utiliza sólo los términos diagonales de Sx para construir D−1/2 , y no tiene en cuenta las covarianzas, mientras que la multivariante utiliza toda la matriz. Ejemplo 4.7 La tabla A.4 de los daos de INVEST presenta el número de publicaciones recogidas en un trienio en 8 bases de datos de producción cientíÞca para los países de la OCDE. (La descripción de las fuentes se encuentra en el apéndice de datos). En la Þgura 4.10 se presenta un diagrama de cajas múltiple (Boxplot) que permite, además de la explo- ración de cada una de las variables, comparar los rangos de todas ellas de forma conjunta. 0200000400000600000800000 INTER.A INTER.F AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FISICA Figura 4.10: Diagrama de cajas de las variables de INVEST. En el gráÞco se observa la existencia de un atípico en todas las variables (EEUU) y una asimetría en la distribución de todas las variables que puede estar producida por éste dato.
  • 117. 4.4. TRANSFORMACIONES NO LINEALES 117 INTER.A INTER.F AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FISICA EE.UU 4.2223 4.0650 3.9773 3.5825 4.1091 3.3889 4.1696 4.0846 UK 0.4845 0.5640 1.2398 1.4429 0.5513 0.2697 -0.1532 0.4831 JP 0.1627 0.4247 0.1562 0.4567 0.4788 2.2109 0.9060 0.6573 F 0.2375 0.3930 0.1480 0.0406 0.3755 0.5152 -0.0054 0.5237 G 0.0782 0.5000 0.0417 0.7273 0.2177 0.0305 0.0491 0.1381 C -0.0269 0.0698 0.1594 0.4540 -0.1104 0.3521 0.0793 -0.0716 I -0.1975 -0.1687 -0.1545 0.2062 0.0336 -0.2367 -0.1770 -0.1643 A -0.2363 -0.2594 0.0765 -0.0645 -0.3089 -0.3865 -0.2156 -0.3065 H -0.2719 -0.3102 -0.2232 -0.2395 -0.2811 -0.3561 -0.2611 -0.2931 S -0.2796 -0.3325 -0.3551 -0.0918 -0.2606 -0.3982 -0.3194 -0.3839 CH -0.2914 -0.3527 -0.3861 -0.5353 -0.3287 -0.3895 -0.3124 -0.3210 E -0.3490 -0.3854 -0.4009 -0.5092 -0.3994 -0.4237 -0.3660 -0.4081 B -0.3440 -0.3857 -0.3932 -0.5069 -0.3831 -0.4554 -0.3448 -0.3877 D -0.3590 -0.5216 -0.4241 -0.3817 -0.3782 -0.4348 -0.3686 -0.4276 AU -0.3803 -0.3692 -0.4856 -0.6308 -0.4224 -0.5026 -0.3636 -0.4197 FI -0.3800 -0.4502 -0.4552 -0.4506 -0.4260 -0.5032 -0.3767 -0.4369 N -0.3911 -0.4626 -0.4667 -0.5608 -0.4428 -0.5150 -0.3803 -0.4598 Y -0.4162 -0.4925 -0.4550 -0.7199 -0.4971 -0.4996 -0.3849 -0.4315 GR -0.4217 -0.4950 -0.5235 -0.7124 -0.5024 -0.5412 -0.3810 -0.4454 IR -0.4042 -0.5257 -0.5368 -0.7256 -0.5053 -0.5620 -0.3964 -0.4574 P -0.4360 -0.5050 -0.5391 -0.7810 -0.5197 -0.5627 -0.3976 -0.4722 Tabla 4.1: Estandarización univariante de INVEST Vamos a estudiar para estos datos las dos estandarizaciones propuestas: Se observa que la estandarización univariante resalta el valor atípico de EEUU, pero mantiene sin cambios importantes las variables, que sufren solamente un cambio de escala. La estandarización multivariante transforma totalmente las variables originales. En la primera variable EEUU sigue siendo atípico, pero en las siguientes esta característica desa- parece. En el capítulo siguiente, componentes principales, interpretaremos las propiedades de estas nuevas variables transformadas. 4.4 TRANSFORMACIONES NO LINEALES 4.4.1 Simplicidad en las distribuciones El análisis de un conjunto de datos multivariante es más simple cuando su distribución es simétrica y las relaciones entre las variables son lineales, y la mayoría de los métodos multi- variantes hacen estas hipótesis. En estas condiciones, la matriz de varianzas y covarianzas es un buen resumen de las relaciones de dependencia existentes. Al elegir las variables conviene tener en cuenta que la misma variable puede medirse de muchas formas, en principio igualmente válidas. Por ejemplo, el consumo de gasolina de un automóvil se expresa en Europa en litros cada 100 kilómetros (x) mientras que en EE.UU
  • 118. 118 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS y1 y2 y3. y4 y5 y6 y7 y8 EE.UU 4.15 -0.36 1.53 -0.22 -0.46 -0.12 0.12 0.05 UK 0.64 -2.14 -2.70 2.18 0.00 -0.25 0.18 0.44 JP 0.70 3.81 -1.77 0.18 -0.43 -0.34 -0.60 0.25 F 0.29 0.58 0.02 1.78 3.29 0.11 0.32 -0.81 G 0.23 -0.70 -1.11 -2.88 1.90 1.81 -0.65 -0.57 C 0.11 0.18 -1.40 -0.64 -1.47 1.72 1.96 -0.36 I -0.11 -0.48 -0.61 -1.33 0.34 -2.79 -1.84 0.19 A -0.22 -0.66 -0.28 0.52 -1.76 0.92 -2.36 -0.56 H -0.29 -0.23 0.05 -0.03 -0.42 -0.29 -0.66 -1.06 S -0.32 -0.35 -0.28 -1.14 -0.06 -1.25 1.71 0.94 CH -0.38 0.08 0.62 0.32 0.24 -0.06 0.22 0.92 E -0.42 0.01 0.40 0.18 -0.01 0.34 0.36 2.03 B -0.42 -0.05 0.48 0.12 -0.04 0.14 -0.18 0.91 D -0.43 -0.07 0.12 -0.19 -0.48 -1.67 1.41 -1.15 AU -0.47 0.05 0.73 -0.02 0.34 0.80 -0.50 2.10 FI -0.46 -0.12 0.31 -0.32 -0.17 -0.33 0.65 -0.96 N -0.48 -0.03 0.51 -0.04 -0.20 -0.07 0.26 0.90 Y -0.51 0.14 0.77 0.68 -0.27 0.47 -0.59 -0.62 GR -0.53 0.12 0.81 0.23 -0.11 0.33 -0.17 -1.38 IR -0.54 0.09 0.86 0.26 -0.14 -0.00 0.70 -1.31 P -0.55 0.15 0.93 0.36 -0.09 0.52 -0.35 0.06 Tabla 4.2: Estandarización multivariante de INVEST se expresa en km recorridos con 1 litro (o galón) de gasolina (y). La relación entre ambas medidas es no lineal, ya que y = 100/x. Como segundo ejemplo, para medir el crecimiento de una variable Ct en el tiempo podemos calcular las diferencias Ct − Ct−1, pero en general resulta más relevante considerar las diferencias relativas (Ct −Ct−1)/Ct−1 o (Ct −Ct−1)/Ct. Si expresamos la variable en logaritmos, sus diferencias en dicha escala son una buena medida del crecimiento relativo, ya que: ln Ct − ln Ct−1 = ln Ct Ct−1 = ln µ 1 + Ct − Ct−1 Ct−1 ¶ ' Ct − Ct−1 Ct−1 utilizando que ln(1 + x) es aproximadamente x, si x es pequeño. Además, es fácil demostrar que, supuesto Ct ≥ Ct−1: Ct − Ct−1 Ct ≤ ln Ct Ct−1 ≤ Ct − Ct−1 Ct−1 y las diferencias de las variables en logaritmos son una medida promedio de las dos formas posibles de medir el crecimiento relativo. El logaritmo es una de las transformaciones más utilizadas para datos positivos ya que: (1) Las distribuciones que describen el tamaño de las cosas (renta de países o familias habitantes en las principales ciudades del mundo, tamaño de empresas, consumo de energía
  • 119. 4.4. TRANSFORMACIONES NO LINEALES 119 en hogares, etc), son generalmente muy asimétricas, pero se convierten en aproximadamente simétricas al expresar la variable en logaritmos. (2) Cuando las diferencias relativas entre los valores de la variable sean importantes, conviene expresar las variables en logaritmos, ya que las diferencias entre logaritmos equivalen a diferencias relativas en la escala original. (3) La variabilidad de las variable transformada es independiente de las unidades de medida. Para comprobar esta última propiedad, supongamos una variable escalar x que transfor- mamos con y = log x y la variable transformada tiene media y y varianza s2 y. Si cambiamos las unidades de medida de x multiplicando por una constante, z = kx, entonces la variable logz tiene media y + log k y la misma varianza que la variable log x. 4.4.2 Simplicidad en las relaciones Es frecuente con datos económicos observar fuertes relaciones no lineales entre las variables. En estos casos, el análisis de los datos se simpliÞca mucho si transformamos las variables de manera que las nuevas variables tengan relaciones lineales. Por ejemplo, una relación frecuente es del tipo proporcional y = kxb (4.11) que implica que si la variable x aumenta en una unidad la variable y aumenta (supuesto b > 0) una cantidad que depende del valor de x, pero el incremento proporcional de y cuando x aumenta un 1% es constante e igual al b%. Esta relación suele ir unida a heterocedasticidad en la relación, manifestada en una mayor variabilidad en el gráÞco de dispersión cuando las variables toman valores altos que en la zona de valores bajos. La relación puede convertirse en lineal y homocedástica (varianza constante) transformando las variables en logaritmos. En efecto, tomando logaritmos en (4.11) y llamando y∗ = log y, x∗ = log x tenemos una relación lineal entre las nuevas variables (x∗ y∗ ). A la hora de decidir si transformar o no las variables es importante tener en cuenta la interpretación de las nuevas variables. Las transformaciones habituales de las variables individuales pueden escribirse mediante la familia potencial de Box-Cox: y(λ) = xλ − 1 λ , para λ 6= 0 y(λ) = log x, para λ = 0. Un estudio más detallado de esta transformación incluyendo la estimación del parámetro λ se realizará en el capítulo 10. La transformación puede extenderse para tratar de transformar conjuntamente el vector de variables para que todas las distribuciones conjuntas de grupos de variables sean simétricas. (vease Gnanadesikan, 1997). Ejemplo 4.8 La Þgura 4.11 presenta los diagramas de dispersión de las variables de INVES en logaritmos con los histogramas de las variables en la diagonal principal. Este gráÞco se ha hecho con Matlab. Se observa que la transformación logarítmica hace las relaciones más lineales y los histogramas de todas las variables más simétricos.
  • 120. 120 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS Ejemplo 4.9 La Þgura 4.12 muestra la representación de los datos de EPF en logaritmos. Se observa que las relaciones son aproximadamente lineales y los histogramas simétricos. 4.5 DATOS ATÍPICOS 4.5.1 DeÞnición Llamaremos datos atípicos a aquellas observaciones que parecen haberse generado de forma distinta al resto de los datos. Pueden ser causadas por errores de medición o transcripción, cambios en el instrumento de medición o a heterogeneidad intrínseca de los elementos obser- vados. Por ejemplo, supongamos que estamos estudiando las características de las viviendas en una zona urbana donde la gran mayoría son pisos, pero se ha incluido en la muestra una gran vivienda unifamiliar con jardín. Esta observación será atípica y corresponde a una heterogeneidad real de los datos. Es importante detectarla ya que obtendremos una mejor descripción de los datos separando ambos tipos de viviendas. Los análisis efectuados sobre datos recogidos en condiciones de estrecho control, revelan que es frecuente que aparezcan entre un 1% y un 3% de observaciones atípicas respecto al resto de la muestra. Cuando los datos se han recogido sin un cuidado especial, la proporción de datos atípicos puede llegar al 5% y ser incluso mayor. La caracterización de un sólo valor atípico es simple ya que, por deÞnición, debe estar alejado del resto, con lo que la distancia entre el atípico y el resto de las observaciones será grande. Alternativamente, podemos deÞnir una atípico como aquel punto que se encuentra lejos del centro de los datos. Llamando x al vector de medias y utilizando como medida de distancia la distancia euclídea, una observación xi será atípica en esta métrica si dE(xi,x) = £ (xi−x)0 (xi−x) ¤1/2 es grande. Para identiÞcar las observaciones atípicas podríamos hacer un histograma de estas distancias y ver si existen puntos mucho más alejados que los demás. Sin embargo, como hemos visto, esta medida de distancia no es razonable cuando exista dependencia entre las observaciones. La Þgura 4.13 ilustra una situación donde el punto + es claramente atípico y, sin embargo, ni está a una distancia euclídea grande del centro de los datos, ni aparecerá como atípico al analizar cada variable aisladamente. El problema es que, como vimos, la distancia euclídea no tiene en cuenta la estructura de correlación de los datos, y una posibilidad mejor es estandarizar previamente los datos de forma multivariante. De esta manera los datos transformados tienen media cero y matriz de covarianzas identidad, y podemos buscar atípicos con la distancia euclídea, eliminando el problema de la correlación entre las variables. DeÞniendo, como antes, las variables estandarizadas multivariantemente por: y = S−1/2 x (x−x) La distancia euclídea al cuadrado entre una observación, yi, y su media, cero, será d2 E(yi, 0) = y0 iyi = (xi−x)0 S−1 x (xi−x) = d2 M (xi,x)
  • 121. 4.5. DATOS ATÍPICOS 121 y la distancia euclídea entre las variables incorreladas equivale a la distancia de Mahalanobis entre las variables originales. Podríamos entonces identiÞcar datos atípicos calculando las distancias de Mahalanobis para todos ellos y viendo si existe algún punto con una distancia mucho mayor que el resto. 4.5.2 Los efectos de los atípicos Las consecuencias de una sola observación atípica pueden ser graves: distorsionar las medias y desviaciones típicas de las variables y destruir las relaciones existentes entre ellas. Para ilustrar este problema, supongamos que en una muestra multivariante de tamaño n se introduce un valor atípico, xa, donde xa es un vector de falsas observaciones. Llamando x y S al vector de medias y matriz de covarianzas sin la observación xa, y xc y Sc a los de la muestra contaminada con este dato atípico, es fácil comprobar (veáse ejercicio 4.4) que xc = x + (xa−x) n + 1 (4.12) y Sc = n n + 1 S + (xa−x)(xa−x)0 n + 1 ( n (n + 1) ). (4.13) Estas fórmulas indican que un solo dato atípico puede afectar mucho al vector de medias y a todas las varianzas y covarianzas entre las variables. El efecto del atípico depende de su tamaño, medido por su distancia euclídea al centro del resto de las observaciones, pero también de su posición, ya que los términos más afectados de la matriz S dependen de la posición del atípico en el espacio. En general, si el tamaño del atípico es grande, lo que supone |xa−x| grande, la media, varianzas y covarianzas de las variables pueden estar muy distorsionadas. Para analizar con más detalle la distorsión de los coeÞcientes de correlación, consideremos el caso más simple de p = 2 y supongamos que x = 0, S = I, y n no muy pequeño de manera que, para simpliÞcar la presentación, tomaremos n w n+1. Sea xa= (a1, a2)0 y supongamos para simpliÞcar que xc w x = 0. Llamando sc ij a los elementos de Sc y tomando n w n + 1, en (4.13) tendremos que sc ii w 1 + a2 i n , i = 1, 2 (4.14) y sc ij w aiaj n , i 6= j con lo que el coeÞciente de correlación entre las dos variables será: rc w a1a2 (n + a2 1)1/2(n + a2 2)1/2 . Esta expresión muestra que si a1 y a2 tienen el mismo signo y son grandes con relación a √ n el coeÞciente tiende a uno, mientras que si tienen signos opuestos, el coeÞciente tiende hacia
  • 122. 122 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS menos uno. Vemos que la distorsión que produce el atípico depende no sólo de su tamaño sino también de su posición en el espacio. La conclusión de este ejercicio es que una sola observación puede distorsionar arbitrari- amente los coeÞcientes de correlación entre las variables. En la Þgura 4.14 hemos añadido a dos variables incorreladas una observación atípica, marcada por a, con a = (9, 9)0 . Como indica la teoría que hemos visto, esta única observación introduce una alta correlación entre las variables, creando una relación inexistente. La Þgura 4.15 ilustra cómo una única observación puede ocultar una relación existente: la observación atípica a destruye la fuerte correlación existente entre las variables. Cuando existe más de un atípico en los datos, puede producirse el efecto conocido como enmascaramiento, que consiste en que observaciones atípicas similares se ocultan entre sí. Por ejemplo, supongamos que en la Þgura 4.13 en la posición del atípico hay tres puntos idénticos. Aunque eliminemos el primero, los otros dos continuarán distorsionando el cálculo de las medias y varianzas, haciendo muy difícil su identiÞcación, ya que cada punto enmascara a los otros. 4.5.3 (*)IdentiÞcación de grupos de atípicos Hay dos Þlosofías para tratar con la heterogeneidad. La primera es utilizar estimadores robustos, que son estimadores diseñados para verse poco afectados por cierta contaminación de atípicos. Comentaremos estos estimadores en el capítulo 11. La segunda es detectar los atípicos, y aplicar el cálculo de los estimadores a las muestras limpias de atípicos. Ambos enfoques son complementarios, y en esta sección introduciremos el segundo. El procedimiento para detectar grupos de atípicos es eliminar de la muestra todos los puntos sospechosos, de manera que evitemos el enmascaramiento y podamos calcular el vector de medias y la matriz de covarianzas sin distorsiones. A continuación identiÞcaremos con estos estimadores la distancia de cada punto sospechoso respecto al centro de los datos, y consideraremos atípicos a los muy alejados. El primer paso para identiÞcar las observaciones sospechosas es detectar aquellas que lo sean claramente respecto a una variable. Para ello podemos utilizar el histograma o los diagramas de caja, como hemos visto en los ejemplos anteriores. Una regla simple y automática es considerar sospechosas aquellas observaciones tales que |xi − med(x)| Meda(x) > 4, 5, donde med(x) es la mediana de las observaciones, que es un estimador robusto del centro de los datos, y Meda(x) es la mediana de las desviaciones absolutas |xi − med(x)| , que es una medida robusta de la dispersión. Este método puede verse como una estandarización robusta de los datos. Esta detección univariante no identiÞcará muchos atípicos multivariantes. Por ejemplo, el punto (-1,1) marcado con + en el gráÞco 4.13 es claramente atípico, pero no aparecerá como tal en los análisis univariantes. Con frecuencia los atípicos multivariantes corresponden a situaciones con efectos pequeños sobre todas las variables, como un error sistemático de observación en todas ellas, en lugar de un efecto importante sobre una variable. Si el número
  • 123. 4.5. DATOS ATÍPICOS 123 de variables no es muy grande, los diagramas de dispersión pueden ayudar visualmente a determinar datos atípicos en dos dimensiones. Para dimensiones mayores no es recomendable utilizar la distancia de Mahalanobis, ya que si existen grupos de atípicos, pueden distorsionar la estimación del centro y la dispersión de los datos enmascarando los atípicos y quizás señalando como atípicos a puntos que no lo son. Para evitar este problema podemos buscar proyecciones de los datos que muestren las observaciones atípicas. Observemos que cualquier observación atípica multivariante debe aparecer como atípica al menos en una dirección de proyección: la deÞnida por la recta que une el centro de los datos con el dato atípico. En base a esta idea, Stahel (1981) y Donoho (1982) propusieron generar muchas direcciones al azar, proyectar los puntos sobre estas direcciones y marcar como datos atípicos a aquellas observaciones que aparecen como extremas en estas proyecciones. Para generar direcciones al azar pueden tomarse muestras al azar de p puntos, calcular el plano que las contiene y tomar como dirección el vector ortogonal al plano. Este método funciona bien con pocas variables, pero al aumentar la dimensión del proble- ma el número de direcciones que necesitamos generar para cubrir razonablemente el espacio y tener garantías de éxito aumenta exponencialmente. Una solución propuesta por Peña y Prieto (2001), es proyectar los datos sobre ciertas direcciones especíÞcas, escogidas de manera que tengan alta probabilidad de mostrar los atipicos cuando existan. Hemos comentado que en muestras univariantes una pequeña proporción de atípicos hace aumentar el coeÞciente de kurtosis, lo que sugiere investigar las direcciones donde los puntos proyectados tengan máxima kurtosis univariante. Por otro lado, un grupo grande de atípicos puede producir bimodalidad y baja kurtosis, por lo que conviene también explorar las direcciones donde los puntos proyectados tengan mínima kurtosis. La idea del procedimiento es buscar p di- recciones ortogonales de máxima kurtosis y p direcciones ortogonales de mínima kurtosis, eliminar provisionalmente los datos extremos en estas direcciones, calcular la media y la ma- triz de covarianzas con los datos no sospechosos y después identiÞcar los datos atípicos como aquellos que son extremos con la distancia de Mahalanobis calculada con las estimaciones no contaminadas. Dada la muestra multivariante (x1, ..., xn), el proceso se realiza como sigue: 1. Sean x y S el vector de medias y la matriz de covarianzas de los datos. Estandarizar los datos de forma multivariante y sean zi = S −1/2 x (xi− x) los datos estandarizados con media cero y matriz de covarianzas identidad. Tomar j = 1 y z (1) i = zi. 2. Calcular la dirección dj con norma unidad que maximiza el coeÞciente de kurtosis univariante de los datos proyectados. Llamando y (j) i = d0 jz (j) i , a las datos proyectado sobre la dirección dj, esta dirección se obtiene como solución de: max X (y (j) i − y(j) )4 + λ(d´d − 1) que puede resolverse como se indica en el apéndice 4.1. 3. Proyectar los datos sobre un espacio de dimensión p − j deÞnido como el espacio ortogonal a la dirección dj. Para ello tomar z(j+1) = (I − djd0 j)z(j) . Hacer j = j + 1. 4. Repetir (2) y (3) hasta obtener las p direcciones, d1, ..., dp.
  • 124. 124 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS 5. Repetir (2) y (3) pero ahora minimizando la kurtosis en lugar de maximizarla para obtener otras p direcciones, dp+1, ..., d2p 6. Considerar como sospechosos aquellos puntos que en alguna de estas 2p direcciones están claramente alejados del resto, es decir, veriÞcan ¯ ¯ ¯y (j) i − med(y(j) ) ¯ ¯ ¯ Meda(y(j)) > 5 A continuación se eliminan todos los valores sospechosos detectados y se vuelve a 2 para analizar los datos restantes. La estandarización multivariante ahora se realizará con la nueva media y matriz de covarianzas de los datos restantes. Los pasos 2 a 6 se repiten hasta que no se detecten más datos atípicos o se haya eliminado una proporción de datos preÞjada, por ejemplo un máximo del 40% de los datos. Una vez que la muestra no contenga más valores sospechosos con el criterio anterior se calcula el vector de medias, xR, y la matriz de covarianzas, SR, de los datos no sospechosos, y las distancias de Mahalanobis para los sospechosos como: d2 R(xi,xR) = (xi−xR)S−1 R (xi−xR)0 Por razones que veremos más adelante al estudiar contrastes de valores atípicos en el capítulo 10, aquellos valores mayores que p + 3 √ 2p se consideran atípicos (recordemos que el valor promedio de la distancia de Mahalanobis es p). Algunos puntos del conjunto de sospechosos serán atípicos y otros no. Los atípicos son desechados, y los buenos incoporados al conjunto de puntos. Finalmente, se calculará un vector de medias, xf , y una matriz de covarianzas, Sf , con los puntos no atípicos, que serán las estimaciones Þnales obtenidas de los datos. En el capítulo 11 presentaremos métodos formales para contrastar si unos datos son atípicos respecto a un modelo. En el apéndice 4.1 se detalla el cálculo de las direcciones que maximizan la kurtosis. El procedimiento converge rápidamente en general. Un programa de ordenador en Matlab para ejecutar este algoritmo puede bajarse de la dirección http:/****** Los datos detectados como potencialmente atípicos deben ser estudiadas con detalle para determinar las causas de la heterogeneidad. Si estos datos no tienen un error detectable, conviene, cuando sea posible, investigar las causas de su tamaño anómalo ya que puede llevar a importantes descubrimientos. Si no hay un error en el dato y, sin embargo, es muy distinto de los demás, hay que sospechar que sobre esa observación ha actuado alguna causa que no ha estado activa en el resto de las observaciones. Por ejemplo, una variable no incluída en el estudio ha tomado un valor distinto en esa observación y es responsable del cambio observado. El descubrimiento de esta variable insospechada puede ser el resultado más importante del estudio estadístico. Muchos descubrimientos cientíÞcos importantes, (por ejemplo la penicilina) y muchas patentes industriales, han surgido de la investigación para determinar las razones de un dato anómalo. Ejemplo 4.10 Buscaremos datos atípicos en los datos de la EPF. En primer lugar calcu- lamos las distancias de Mahalanobis de cada dato al centro de todos ellos. Estas distancias se presentan en el histograma de la Þgura 4.16. Las provincias más alejadas del centro de
  • 125. 4.6. LECTURAS COMPLEMENTARIAS 125 los datos son, por este orden, Madrid (D=4.29), Gerona (D=3.98) y Navarra (3.97). Si aplicamos ahora el procedimiento de buscar direcciones extremas en la kurtosis, obtenemos los gráÞcos de las Þguras 4.17, 4.18, 4.19 y 4.20. Si eliminamos estos nueve posibles datos extremos y calculamos las distancias de Mahalanobis con las medias y covarianzas calcu- ladas sin estos datos obtenemos el histograma de la Þgura 4.21 . Las dos observaciones claramente extremas corresponden a Madrid y Barcelona. Observemos que en el análisis inicial Barcelona quedaba oculta (enmascarada) por la presencia de Madrid, pero aparece claramente como atípica cuando se elimina el efecto de Madrid. Ejemplo 4.11 Vamos analizar los datos de los sectores industriales en Europa. EUROSEC. Como las variables suman 100 aproximadamente eliminaremos la última y trabajaremos por tanto con ocho variables. La Þgura 4.22 presenta el histograma de estas distancias. Hay tres países muy alejados del resto que son Yugoeslavia (D = 4.17), Luxemburgo (D = 4.16) y Turquía (D = 4.02). Estos tres países están separados del resto y son atípicos en su estructura de empleo. Para entender la razón dividiremos los valores de cada uno de estos tres países por la media. La tabla siguiente presenta los valores medios, el país más próximo en la distancia de Mahalanobis a esta estructura media (Francia, D = 1.4) y los cocientes entre los valores del país más extremo y los valores medios. Media 19.1 1.25 27.00 0.91 8.16 12.95 4.00 20.02 Francia /Med 0.56 0.64 1.01 .99 1.09 1.30 1.50 1.13 Yugoes/Med 2.54 1.19 0.62 1.21 0.60 0.49 2.82 0.26 En esta tabla aparece claramente el carácter atípico de Yugoslavia: tiene más del doble de población empleada en Agricultura y Þnanzas que el país medio y la mitad de empleo en los servicios. Vamos a comparar este resultado con el que se obtendría buscando posibles grupos de atípicos. Las Þguras 4.23, 4.24, y ?? presentan las proyecciones sobre la dirección que maximiza la kurtosis de los datos y dos direcciones ortogonales a ella. En la primera dirección aparece como extremo el punto 7 (Luxemburgo), en la segunda el 26 (Yugoeslavia) y en la tercera el 15 (España) y el 18 (Turquía). Es interesante que si eliminamos estos cuatro puntos y calculamos las distancias de Mahalanobis del resto a estos cuatro países, España aparece más alejada que Luxemburgo. 4.6 Lecturas complementarias El libro de Gnanadesikan (1997) amplía el material de este capítulo incluyendo otros métodos gráÞcos para los datos, como las curvas de Andrews, donde cada observación se representa for una función f(t). Este libro también considera con detalle la transformación Box- Cox multivariante, que ha sido estudiada, entre otros por Velilla (1993,1995) y Atkinson (19 ). La detección de atípicos multivariantes ha sido objeto de numeros trabajos. Algunas referencias recientes son Rousseeuw y van Zomeren (1990), Atkinson (1994), Maronna y Yohai (1995), , Rocke y Woodruff (1996) y Juan y Prieto (2001). Volveremos sobre este tema al presentar los estimadores robustos en el capítulo 11. EJERCICIOS 4.1 Construir los diagramas de dispersión con un programa de ordenador como Matlab, Minitab o Spss para los datos de EUROSEC. 4.2 Demostrar que un cambio de medida de las variables que equivale a una transforma- ción lineal no modiÞca su matriz de correlación. 4.3 Demostrar que la estandarización univariante no modiÞca la matriz de correlación de las variables. 4.3 Demostrar que la estandarización multivariante hace cero los coeÞcientes de cor- relación parcial entre las nuevas variables. 4.4 Demostrar que si introducimos un dato atípico en una muestra con vector de medias
  • 126. 126 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS est 50 60 70 80 90 70 75 80 54 56 58 60 160180 507090 pes pie 343842 707580 lbr aes 404550 54565860 dcr 160 170 180 190 34 36 38 40 42 44 40 45 50 38 42 46 50 38424650 drt Figura 4.6: Matriz de dispersión para los datos de la medidas físicas (MEDIFIS)
  • 127. 4.6. LECTURAS COMPLEMENTARIAS 127 UK JP F G C I A H S CH E B D AU FI N Y GR IR P Figura 4.7: Representación de las contribuciones cientíÞcas de los países de INVEST en caras de Chernoff INTER.A IN TER .F AGRIC. BIO LO . MEDIC. Q U IM I. INGEN. FISIC A Figura 4.8: Esquema de asignación de los radios de la estrella a la variables para los datos de la investigación de los países de la OCEDE
  • 128. 128 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS UK JP F G C I A H S CH E B D AU FI N Y GR IR P Figura 4.9: Representación mediante estrellas de los países de INVEST en logaritmos una vez eliminado EEUU. Figura 4.11: Distribuciones conjuntas y marginales de las variables de INVES en logaritmos.
  • 129. 4.6. LECTURAS COMPLEMENTARIAS 129 Figura 4.12: Los datos de EPF en logaritmos. Representaciones bivariantes e histogramas. Figura 4.13: Una observación atípica multivariante que no aparece como tal en los análisis univariantes.
  • 130. 130 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS Figura 4.14: En esta Þgura las variables estaban originalmente casi incorreladas (r = −.11), pero la presencia del valor atípico ha creado una fuerte correlación positiva (r = .71). Figura 4.15: En esta Þgura el coeÞciente de correlación sin el dato atipico es de 0,91 y disminuye hasta 0,41 por la presencia del atípico marcado con a.
  • 131. 4.6. LECTURAS COMPLEMENTARIAS 131 1.5 2 2.5 3 3.5 4 4.5 0 1 2 3 4 5 6 7 8 Figura 4.16: Distribución de las distancias de Mahalanobis entre cada dato y el centro para los datos de la EPF 0 10 20 30 40 50 60 -2 0 2 4 6 8 10 12 14 x 10 4 Ceuta Navarra Figura 4.17: Primera proyección en la dirección de máxima kurtosis para los datos de la EPF
  • 132. 132 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS 0 10 20 30 40 50 60 -14 -12 -10 -8 -6 -4 -2 x 10 4 Madrid Cantabria Huelva Figura 4.18: Segunda proyección en la dirección de máxima curtosis para los datos de la EPF 0 10 20 30 40 50 60 -8 -6 -4 -2 0 2 4 6 x 10 4 Gerona Figura 4.19: Tercera proyección en la dirección de máxima curtosis para los datos de la EPF
  • 133. 4.6. LECTURAS COMPLEMENTARIAS 133 0 10 20 30 40 50 60 -8 -6 -4 -2 0 2 4 x 10 4 Barcelona TenerifeLas Palmas Figura 4.20: Cuarta proyección sobre la dirección de máxima curtosis para los datos de la EPF 1 2 3 4 5 6 7 8 0 2 4 6 8 10 12 14 16 18 Figura 4.21: Distancias de Mahalanobis para los datos de la EPF calculadas de manera robusta, eliminando los datos extremos.
  • 134. 134 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS 1 1.5 2 2.5 3 3.5 4 4.5 0 0.5 1 1.5 2 2.5 3 3.5 4 Figura 4.22: Distancias de Mahalanobis de cada dato al centro de la muestra para los datos de EUROSEC. 0 5 10 15 20 25 30 -0.5 0 0.5 1 1.5 2 Figura 4.23: Proyección sobre la dirección de máxima curtosis
  • 135. 4.6. LECTURAS COMPLEMENTARIAS 135 0 5 10 15 20 25 30 22 24 26 28 30 32 34 Figura 4.24: Proyección sobre la segunda dirección de máxima curtosis ortogonal a la primera
  • 136. 136 CAPÍTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS
  • 137. Capítulo 5 COMPONENTES PRINCIPALES 5.1 INTRODUCCIÓN Un problema central en el análisis de datos multivariantes es la reducción de la dimen- sionalidad: si es posible describir con precisión los valores de p variables por un pequeño subconjunto r < p de ellas, se habrá reducido la dimensión del problema a costa de una pequeña pérdida de información. El análisis de componentes principales tiene este objetivo: dadas n observaciones de p variables, se analiza si es posible representar adecuadamente esta información con un número menor de variables construidas como combinaciones lineales de las originales. Por ejemplo, con variables con alta dependencia es frecuente que un pequeño número de nuevas variables (menos del 20% de las originales ) expliquen la mayor parte (más del 80%) de la variabilidad original. La técnica de componentes principales es debida a Hotelling (1933), aunque sus orígenes se encuentran en los ajustes ortogonales por mínimos cuadrados introducidos por K. Pearson (1901). Su utilidad es doble: 1. Permite representar óptimamente en un espacio de dimensión pequeña, observaciones de un espacio general p-dimensional. En este sentido componentes principales es el primer paso para identiÞcar posibles variables ”latentes” o no observadas, que están generando la variabilidad de los datos. 2. Permite transformar las variables originales, en general correladas, en nuevas variables incorreladas, facilitando la interpretación de los datos. En este capítulo presentamos únicamente esta técnica como una herramienta exploratoria para facilitar la descripción e interpretación de los datos. El problema de inferir si las propiedades de reducción de la dimensión encontradas en los datos puede extenderse a una población se estudiara en el capítulo de análisis factorial. 137
  • 138. 138 CAPÍTULO 5. COMPONENTES PRINCIPALES 5.2 PLANTEAMIENTO DEL PROBLEMA Supongamos que se dispone de los valores de p-variables en n elementos de una población dispuestos en una matriz X de dimensiones n×p, donde las columnas contienen las variables y las Þlas los elementos. Supondremos en este capítulo que previamente hemos restado a cada variable su media, de manera que las variables de la matriz X tienen media cero y su matriz de covarianzas vendrá dada por 1/n X0 X. El problema que se desea resolver es cómo encontrar un espacio de dimensión más re- ducida que represente adecuadamente los datos. El problema puede abordarse desde tres perspectivas equivalentes. a) Enfoque descriptivo Se desea encontrar un subespacio de dimensión menor que p tal que al proyectar sobre él los puntos conserven su estructura con la menor distorsión posible. Veamos cómo convertir esta noción intuitiva en un criterio matemático operativo. Consideremos primero un subespacio de dimensión uno, una recta. Se desea que las proyecciones de los puntos sobre esta recta mantengan, lo más posible, sus posiciones relativas. Para concretar, consideremos el caso de dos dimensiones (p = 2). La Þgura 5.1 indica el diagrama de dispersión y una recta que, intuitivamente, proporciona un buen resumen de los datos, ya que las proyecciones de los puntos sobre ella indican aproximadamente la situación de los puntos en el plano. La representación es buena porque la recta pasa cerca de todos los puntos y estos se deforman poco al proyectarlos. Esta propiedad puede concretarse exigiendo que las distancias entre los puntos originales y sus proyecciones sobre la recta sean lo más pequeñas posibles. En consecuencia, si consideramos un punto xi y una dirección a1 = (a11, ..., a1p)0 , deÞnida por un vector a1 de norma unidad, la proyección del punto xi sobre esta dirección es el escalar: zi = a11xi1 + . . . + a1pxip = a0 1xi (5.1) y el vector que representa esta proyección será zia1. Llamando ri a la distancia entre el punto xi, y su proyección sobre la dirección a1, este criterio implica: minimizar nX i=1 r2 i = nX i=1 |xi − zia1|2 , (5.2) donde |u| es la norma euclídea o módulo del vector u.
  • 139. 5.2. PLANTEAMIENTO DEL PROBLEMA 139 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 r1 x1 z1 Figura 5.1: Ejemplo de la recta que minimiza las distancias ortogonales de los puntos a ella. La Þgura (5.1) muestra que al proyectar cada punto sobre la recta se forma un triángulo rectángulo donde la hipotenusa es la distancia al origen del punto al origen, (x0 ixi)1/2 , y los catetos la proyeccion del punto sobre la recta (zi) y la distancia entre el punto y su proyección (ri). Por el teorema de Pitágoras, podemos escribir: x0 ixi = zi 2 + r2 i , (5.3) y sumando esta expresión para todos los puntos, se obtiene: nX i=1 x0 ixi = nX i=1 z2 i + nX i=1 r2 i . (5.4) Como el primer miembro es constante, minimizar Pn i=1 r2 i , la suma de las distancias a la recta de todos los puntos, es equivalente a maximizar Pn i=1 z2 i , la suma al cuadrado de los valores de las proyecciones. Como las proyecciones zi son, por (9.21) variables de media cero, maximizar la suma de sus cuadrados equivale a mazimizar su varianza. Este resultado es intuitivo: la recta de la Þgura 5.1 parece adecuada porque conserva lo más posible la variabilidad original de los puntos. El lector puede convencerse considerando una dirección de proyección perpendicular a la de la recta en esta Þgura: los puntos tendrían muy poca variabilidad y perderiamos la información sobre sus distancias en el espacio. El objetivo de proyectar los puntos con mínima deformación puede abordarse desde otro punto de vista que conduce al mismo resultado Þnal. En el espacio de p-dimensiones, lo característico de la nube de puntos son sus distancias relativas. Tratemos de encontrar un subespacio de dimensión 1, es decir, un recta tal que los puntos proyectados conserven lo más posible sus distancias relativas. Si llamamos d2 ij = x0 ixj a los cuadrados de las distancias originales entre los puntos y bd2 ij = (zi − zj)2 a las distancias entre los puntos proyectados
  • 140. 140 CAPÍTULO 5. COMPONENTES PRINCIPALES sobre una recta, deseamos que D = X i X j (d2 ij − bd2 ij) sea mínima. Como la suma de las distancias originales es Þja, minimizar D require maximizarP i P j bd2 ij, las distancias entre los puntos proyectados. Se demuestra en el apéndice 5.1 que la dirección es la misma que proporciona una variable escalar de varianza máxima. b) Enfoque estadístico: Representar puntos p dimensionales con la mínima pérdida de información en un espacio de dimensión uno es equivalente a sustituir las p variables originales por una nueva variable, z1, que resuma óptimamente la información. Esto supone que la nueva variable debe tener globalmente máxima correlación con las originales o, en otros términos, debe permitir prever las variables originales con la máxima precisión. Esto no será posible si la nueva variable toma un valor semejante en todos los elementos, y, se demuestra en el apéndice 5.2, que la condición para que podamos prever con la mínima pérdida de información los datos observados, es utilizar la variable de máxima variabilidad. Volviendo a la Þgura 5.1 se observa que la variable escalar obtenida al proyectar los puntos sobre la recta sirve para prever bien el conjunto de los datos. La recta indicada en la Þgura no es la línea de regresión de ninguna de las variables con respecto a la otra, que se obtienen minimizando las distancias verticales u horizontales, sino que al minimizar las distancias ortogonales o de proyección se encuentra entre ambas rectas de regresión. Este enfoque puede extenderse para obtener el mejor subespacio resumen de los datos de dimensión 2. Para ello calcularemos el plano que mejor aproxima a los puntos. El problema se reduce a encontrar una nueva dirección deÞnida por un vector unitario, a2, que, sin pérdida de generalidad, puede tomarse ortogonal a a1, y que veriÞque la condición de que la proyección de un punto sobre este eje maximice las distancias entre los puntos proyectados. Estadísticamente esto equivale a encontrar una segunda variable z2, incorrelada con la anterior, y que tenga varianza máxima. En general, la componente zr(r < p) tendrá varianza máxima entre todas las combinaciones lineales de las p variables X originales, con la condición de estar incorrelada con las z1, ..., zr−1 previamente obtenidas. c) enfoque geométrico El problema puede abordarse desde un punto de vista geométrico con el mismo resultado Þnal. Si consideramos la nube de puntos de la Þgura 5.1 vemos que los puntos se sitúan siguiendo una elipse y podemos describir su orientación dando la dirección del eje mayor de la elipse y la posición de los punto por su proyección sobre esta dirección. Puede demostrarse que este eje es la recta que minimiza las distancias ortogonales y volvemos al problema que ya hemos resuelto. En varias dimensiones tendremos elipsoides y la mejor aproximación a los datos es la proporcionada por el eje mayor del elipsoide. Considerar los ejes del elipsoide como nuevas variables originales supone pasar de variables correladas a variables ortogonales, como veremos a continuación.
  • 141. 5.3. CALCULO DE LOS COMPONENTES 141 5.3 CALCULO DE LOS COMPONENTES 5.3.1 Cálculo del primer componente El primer componente principal será la combinación lineal de las variables originales que tenga varianza máxima. Los valores de este primer componente en los n individuos se representarán por un vector z1, dado por z1 = Xa1. Como las variables originales tienen media cero también z1 tendrá media nula. Su vari- anza será: V ar(z1) = 1 n z0 1z1 = 1 n a0 1X0 Xa1 = a0 1Sa1 (5.5) donde S es la matriz de varianzas y covarianzas de las observaciones. Es obvio que podemos maximizar la varianza sin limite aumentando el módulo del vector a1. Para que la maxi- mización de (5.5) tenga solución debemos imponer una restricción al módulo del vector a1, y, sin pérdida de generalidad, impondremos que a0 1a1 = 1 . Introduciremos esta restricción mediante el multiplicador de Lagrange: M = a0 1Sa1 − λ(a0 1a1 − 1) y maximizaremos esta expresión de la forma habitual derivando respecto a los componentes de a1 e igualando a cero. Entonces ∂M ∂a1 = 2Sa1 − 2λa1 = 0 cuya solución es: Sa1 = λa1, (5.6) que implica que a1 es un vector propio de la matriz S, y λ su correspondiente valor propio. Para determinar qué valor propio de S es la solución de la ecuación (5.6) tendremos en cuenta que, multiplicando por la izquierda por a0 1 esta ecuación, a0 1Sa1 = λa0 1a1 = λ y concluimos, por (5.5), que λ es la varianza de z1. Como esta es la cantidad que queremos maximizar, λ será el mayor valor propio de la matriz S. Su vector asociado, a1, deÞne los coeÞcientes de cada variable en el primer componente principal. Ejemplo 5.1 Ilustraremos con detalle el cálculo de la primera componente principal con los datos de los logaritmos de las ACCIONES, tabla A.7. Los paquetes estadísticos habituales (Minitab, SPSS, Statgraphics, etc) proporcionan directamente los componentes principales, pero vamos a indicar con detalle como se realizan los cálculos para el lector interesado.
  • 142. 142 CAPÍTULO 5. COMPONENTES PRINCIPALES La matriz de varianzas y covarianzas de estos datos en logaritmos, que ya utilizamos en el ejemplo 3.5, es, S =   0.35 0.15 −0.19 0.15 0.13 −0.03 −0.19 −0.03 0.16   Para el cálculo de los autovalores tenemos que calcular las raíces de la ecuación: 0 = |S − λI| = = ¯ ¯ ¯ ¯ ¯ ¯   0.35 0.15 −0.19 0.15 0.13 −0.03 −0.19 −0.03 0.16   −   λ 0 0 0 λ 0 0 0 λ   ¯ ¯ ¯ ¯ ¯ ¯ = = 0, 000382 − 0, 0628λ + 0, 64λ2 − λ3 Las raíces del polinomio, obtenidas con MATLAB son λ1 = 0.521, λ2 = 0.113, λ3 = 6.51×10−3 . El autovector asociado a λ1 nos da los pesos de la primera componente principal. Para calcular el primer autovector resolvemos el sistema Sa1 = λ1a1 que conduce a:   0.35 0.15 −0.19 0.15 0.13 −0.03 −0.19 −0.03 0.16     a11 a12 a13   = 0.521 ×   a11 a12 a13     −0.171a11 + 0.15a12 − 0.19a13 0.15a11 − 0.391a12 − 0.03a13 −0.19a11 − 0.03a12 − 0.361a13   =   0 0 0   el sistema es compatible indeterminado. Para encontrar una de las inÞnitas soluciones tomemos la primera variable como parámetro, x, y resolvamos el sistema en función de x. La solución es, {a11 = x, a12 = 0.427x, a13 = −0.562x} El valor de x se obtiene ahora imponiendo que el vector tenga norma unidad, con lo que resulta: a1 =   −0.817 −0.349 0.459   y el primer componente es Z1 = −0.817X1 − 0.349X2 + 0.459X3
  • 143. 5.3. CALCULO DE LOS COMPONENTES 143 donde X1, X2 y X3 son las variables en logaritmos. Por ejemplo, el valor de esta nueva variable, la primera componente principal, para la primera observación (la primera acción) es z1 = −0.817 × log(3.4) − 0.349 × log(89.7) + 0.459 × log(30.2) = −1.0049 El primer componente principal puede aproximadamente escribirse Z1 ∼= −0.82X1 + 0.35(X3 − X2) + 0.11X3 y utilizando la deÞnición de las variables originales este componente puede escribirse Z1 ∼= −0.82 log(d/p) + 0.35 log(p/d) + 0.11 log(pN/b) es decir, Z1 ∼= −1.17 log(d/p) + 0.11 log(pN/b) que indica que este primer componente depende basicamente de la variable X1, la rentabilidad por dividendos. Llamando z1 = log Z1 este primer componente puede escribirse también como z1 = p1.27 d1.16 ( N B ).09 que es, aproximadamente, de nuevo la variable x1, el cociente entre el precio de la acción y los dividendos recibidos. Esta variable es la que explica mejor la variabilidad conjunta de las acciones. Ejemplo 5.2 La encuesta de presupuestos familiares en España (Tabla A.3 ) presenta los gastos medios de las familias españolas en nueve epígrafes: X1 = alimentación, X2 = vestido y calzado, X3 = vivienda, X4 = mobiliario doméstico, X5 = gastos sanitarios, X6 = transportes, X7 = enseñanza y cultura, X8 = turismo y ocio, X9 = otros gastos, para las 51 provincias españolas (Ceuta y Melilla aparecen unidas como una provincia). La matriz de covarianzas resume la variabilidad de estas 9 variables en los 51 elementos observados. Como las distribuciones de los gastos son muy asimétricas, las variables se han expresado en logaritmos. El vector propio asociado al mayor valor propio, 0,348, deÞne la siguiente variable: z1 = 0, 12x1 + 0, 18x2 + 0, 30x3 + 0, 31x4 + 0, 46x5 + 0, 34x6 +0, 50x7 + 0, 31x8 + 0, 31x9 Se observa que z1 es una suma ponderada de todos los gastos con mayor peso en los gastos en enseñanza y cultura (x7) y gastos sanitarios (x5). El menor peso lo tiene el gasto en alimentación (x1). Si calculamos las coordenadas z1 para las provincias españolas y las ordenamos por esta nueva variable las provincias quedan prácticamente ordenadas por su renta. La primera componente principal tiene pues en este caso una explicación inmediata: redescubre la renta de cada provincia.
  • 144. 144 CAPÍTULO 5. COMPONENTES PRINCIPALES 5.3.2 Cálculo del segundo componente Vamos a obtener el mejor plano de proyección de las variables X. Lo calcularemos estable- ciendo como función objetivo que la suma de las varianzas de z1= Xa1 y z2= Xa2 sea máxima, donde a1 y a2 son los vectores que deÞnen el plano. La función objetivo será: φ = a0 1Sa1 + a0 2Sa2 − λ1(a0 1a1 − 1) − λ2(a0 2a2 − 1) (5.7) que incorpora las restricciones de que las direcciones deben de tener módulo unitario (a0 iai) = 1, i = 1, 2. Derivando e igualando a cero: ∂φ ∂a1 = 2Sa1 − 2λ1a1 = 0 ∂φ ∂a2 = 2Sa2 − 2λ2a2 = 0 La solución de este sistema es: Sa1 = λ1a1, (5.8) Sa2 = λ2a2 (5.9) que indica que a1 y a2 deben ser vectores propios de S. Tomando los vectores propios de norma uno y sustituyendo en (5.7), se obtiene que, en el máximo, la función objetivo es φ = λ1 + λ2 (5.10) es claro que λ1 y λ2 deben ser los dos autovalores mayores de la matriz S y a1 y a2 sus correspondientes autovectores. Observemos que la covarianza entre z1 y z2, dada por a0 1 S a2 es cero ya que a0 1a2 = 0, y las variables z1 y z2 estarán incorreladas. Puede demostrarse (véase el ejercicio 5.7) que si en lugar de maximizar la suma de varianzas, que es la traza de la matriz de covarianzas de la proyección, se maximiza la varianza generalizada (el determinante de la matriz de covarianzas) se obtiene el mismo resultado. Ejemplo 5.3 El segundo componente principal para las variables de gastos de la EPF deÞnidas en el ejemplo 5.1 es el asociado al segundo valor propio mayor que es 0,032. El vector propio asociado a este valor propio deÞne la nueva variable: z2 = 0, 05x1 + 0, 16x2 − 0, 17x3 + 0, 07x4 − 0, 21x5 + 0, 29x6 − 0, 40x7 − 0, 17x8 + 0, 78x9 = (0, 05x1 + 0, 16x2 + 0, 07x4 + 0, 29x6 + 0, 78x9) − (0, 17x3 + 0, 21x5 + 0, 40x7 + 0, 17x8) Esta variable puede verse como la diferencia entre dos medias ponderadas de los gastos. La primera da sobre todo peso a otros gastos (x9), y transporte (x6). En la variable otros gastos
  • 145. 5.3. CALCULO DE LOS COMPONENTES 145 están incluidas las transferencias fuera de la provincia a miembros de la familia mayores de 14 años que no residan en ella, podemos conjeturar esta variable separa las provincias que reciben transferencias de las que las envian. Es también signiÞcativo que estas provincias tienen altos gastos en transporte. La primera media ponderada puede considerarse un indi- cador de como esta provincia envía recursos a otras. La segunda media da mayor peso a las variables enseñanza y cultura (x7) y gastos sanitarios (x5). Este segundo componente va a separar a provincias que envian recursos a otras (alto valor de x9) y que tienen también altos gastos de transporte, respecto a las que transÞeren relativamente poco y tienen altos gastos de educación y sanidad. Las provincias con valores más altos de este componente son Zamora, León, Lugo, Toledo, Huesca, Lérida, Segovia, Soria y Palencia. Estas provincias no han tenido tradicionalmente universidad, por lo que tienen que enviar los estudiantes fuera y tienen bajos costes de educación. Por el contrario, las provincias con valores bajos de este componente z2 incluyen a Madrid y Barcelona, cen- tros receptores netos de estudiantes de otras provincias, así como a Salamanca, Zaragoza y Tenerife. La Tabla 5.1 presenta la ordenación de las provincias según el primer y segundo componente. La Þgura ?? representa cada provincia en el plano de las dos primeras compo- nentes principales. Cada punto aparece representado por sus coordenadas respecto a los ejes deÞnidos por las componentes principales y puede interpretarse como la proyección de los puntos, que están en un espacio de dimensión 9, tantos como variables, sobre el plano que mejor mantiene sus distancias relativas, que es el deÞnido por las dos primeras componentes. Proyección de los datos de la EPF sobre el plano deÞnido por las dos primeras componentes principales 5.3.3 Generalización Puede demostrarse análogamente que el espacio de dimensión r que mejor representa a los puntos viene deÞnido por los vectores propios asociados a los r mayores autovalores de S. Estas direcciones se denominan direcciones principales de los datos y a las nuevas variables por ellas deÞnidas componentes principales. En general, la matriz X ( y por tanto la S) tiene
  • 146. 146 CAPÍTULO 5. COMPONENTES PRINCIPALES Comp. 1 Comp. 2 Navarra Zamora Madrid León Barcelona Lugo Lérida Toledo Vizcaya Huesca Gerona Murcia Baleares Navarra Tarragona Lérida Guipuzcoa Segovia Las Palmas Soria ... ... Ciudad Real Málaga Cuenca Salamanca Ávila Cádiz Teruel Madrid Castellón Badajoz Orense Jaén Zamora Ceuta y Melilla Badajoz Zaragoza Ceuta y Melilla Huelva Salamanca Tenerife Jaén Barcelona Tabla 5.1: Ordenación de las provincias de la EPF, según los dos primeros componentes rango p, existiendo entonces tantas componentes principales como variables que se obtendrán calculando los valores propios o raíces características, λ1, . . . , λp, de la matriz de varianzas y covarianzas de las variables, S, mediante: |S − λI| = 0 (5.11) y sus vectores asociados son: (S − λiI)ai = 0. (5.12) Los términos λi son reales, al ser la matriz S simétrica, y positivos, ya que S es deÞnida positiva. Por ser S simétrica si λj y λh son dos raíces distintas sus vectores asociados son ortogonales. En efecto: a0 hSaj = (a0 hSaj)0 = a0 jSah a0 hSaj = a0 jλhah y si λj 6= λh, a0 haj = a0 jah = 0 y son ortogonales. Si S fuese semideÞnida positiva de rango p < p, lo que ocurriría si p − p variables fuesen combinación lineal de las demás, habría solamente p raíces características positivas y el resto serían ceros.
  • 147. 5.3. CALCULO DE LOS COMPONENTES 147 Llamando Z a la matriz cuyas columnas son los valores de los p componentes en los n individuos, estas nuevas variables están relacionadas con las originales mediante: Z = XA donde A0 A = I. Calcular los componentes principales equivale a aplicar una transformación ortogonal A a las variables X (ejes originales) para obtener unas nuevas variables Z incorre- ladas entre sí. Esta operación puede interpretarse como elegir unos nuevos ejes coordenados, que coincidan con los ”ejes naturales” de los datos. Ejemplo 5.4 Los restantes valores propios de la matriz de covarianzas de los datos de la EPF son 0.027, 0.0175, 0.0126, 0.0107, 0.010, 0.0059, y 0.00526. A partir del tercero son muy pequeños y de valor similar. El tercer componente principal es z3 = 0, 12x1 + 0, 05x2 + 0, 34x3 + 0, 11x4 − 0, 85x5 + 0, 04x6 − 0, 30x7 + 0, 20x8 + 0, 003x9 = (0, 12x1 + 0, 05x2 + 0, 34x3 + 0, 11x4 + 0, 04x6 + 0, 20x8) − (0, 85x5 + 0, 30x7) y puede de nuevo interpretarse como la diferencia entre dos medias ponderadas. La primera da sobre todo peso a las variables 3, vivienda, 8, turismo y ocio, 1, alimentación y 4 , mobiliario doméstico. La segunda a la 5, gastos sanitarios, y a la 7, enseñanza y cultura. Separá provincias con bajos costes en sanidad y altos en vivienda y ocio de las que tengan la estructura opuesta. La Þgura ?? representa las observaciones proyectadas sobre el plano de las componentes primera y tercera. Se observa que la tercera dimensión es independiente de la primera (riqueza o renta) y separa provincias con altos gastos en sanidad, como Salamanca y Palencia, de otras de aquellas con gastos relativamente bajos en esta magnitud y más en vivienda y ocio. Representación de los datos de la EPF em el plano deÞnido por loso componentes primero y tercero.
  • 148. 148 CAPÍTULO 5. COMPONENTES PRINCIPALES Ejemplo 5.5 La tabla 5.2 presenta la matriz de varianzas y covarianzas entre nueve indi- cadores económicos medidos en distintas empresas. x1 x2 x3 x4 x5 x6 x7 x8 x9 177 179 95 96 53 32 -7 -4 -3 419 245 131 181 127 -2 1 4 302 60 109 142 4 .4 11 158 102 42 4 3 2 137 96 4 5 6 128 2 2 8 34 31 33 39 39 48 Tabla 5.2: Matriz de varianzas covarianzas de los nueve indicadores Las raíces características de esta matriz se presentan en la tabla 5.3. Componente 1 2 3 4 5 6 7 8 9 λi 878,5 196,1 128,6 103,4 81,2 37,8 7,0 5,7 3,5 Tabla 5.3: Autovalores de la matriz tabla 5.2 La suma de los valores propios de la matriz es 1441, 8, prácticamente igual, salvo por errores de redondeo, a la suma de las varianzas de las variables, que es 1442. Ya veremos que esta concordancia ocurre siempre. Los vectores propios de los tres primeros componentes se indican en la tabla 5.4. Se observa que el primer componente principal es una media ponderada de las primeras seis variables. El segundo contrapone la primera, la segunda y la cuarta a la tercera y la sexta. El tercer componente contrapone las tres primeras al resto de las variables. Estos resultados son consistentes con la matriz de la tabla 5.2. El rasgo más característico de esta tabla es la distinta magnitud de las seis primeras variables respecto al resto. Esto lo recoge el primer componente principal. El segundo rasgo es la presencia de covarianzas negativas en las Þlas de las dos primeras variables y esto se recoge en el segundo componente. El tercero incorpora por un lado las tres últimas variables y, por otro, contrapone las tres primeras variables frente al resto. Componente x1 x2 x3 x4 x5 x6 x7 x8 x9 1 0.30 0.66 0.48 0.26 0.32 0.27 0.00 0.00 0.01 2 -0.48 -0.15 0.58 -0.49 -0.04 0.37 0.06 0.04 0.08 3 -0.41 -0.18 -0.23 0.45 0.49 0.27 0.26 0.28 0.29 Tabla 5.4: Vectores propios de la matriz tabla 5.2
  • 149. 5.4. PROPIEDADES DE LOS COMPONENTES 149 5.4 PROPIEDADES DE LOS COMPONENTES Los componentes principales como nuevas variables tienen las propiedades siguientes: 1. Conservan la variabilidad inicial: la suma de las varianzas de los componentes es igual a la suma de las varianzas de las variables originales, y la varianza generalizada de los componentes es igual a la original. Comprobemos el primer punto. Como V ar (zh) = λh y la suma de las raíces carac- terísticas es la traza de la matriz: tr(S) = V ar (x1) + . . . + V ar (xp) = λ1 + . . . + λp por tanto Pp i=1 V ar(xi) = P λi = Pp i=1 V ar(zi). Las nuevas variables zi tienen con- juntamente la misma variabilidad que las variables originales, la suma de varianzas es la misma, pero su distribución es muy distinta en los dos conjuntos. Para comprobar que los componentes principales también conservan la Varianza gen- eralizada, valor del determinante de varianzas y covarianzas de las variables, como el determinante es el producto de las raíces características, tenemos que, llamando Sz a la matriz de covarianzas de los componentes, que es diagonal con términos λi : |Sx| = λ1 . . . λp = Πp i=1V ar(zi) = |Sz| . 2. La proporción de variabilidad explicada por un componente es el cociente entre su varianza, el valor propio asociado al vector propio que lo deÞne, y la suma de los valores propios de la matriz. En efecto, como la varianza del componente h es λh, el valor propio que deÞne el componente, y la suma de todas las varianzas de las variables originales es Pp i=1 λi, igual como acabamos de ver a la suma de las varianzas de los componentes, la proporción de variabilidad total explicada por el componente h es λh/ P λi. 3. Las covarianzas entre cada componente principal y las variables X vienen dadas por el producto de las coordenadas del vector propio que deÞne el componente por el valor propio: Cov(zi; x1, . . . xp) = λiai = (λiai1, . . . , λiaip) donde ai es el vector de coeÞcientes de la componente zi. Para justiÞcar este resultado, vamos a calcular la matriz p × p de covarianzas entre los componentes y las variables originales. Esta matriz es: Cov(z, x) = 1/nZ0 X y su primera Þla proporciona las covarianzas entre la primera componente y las p variables originales. Como Z = XA, sustituyendo Cov(z, x) = 1/nA0 X0 X = A0 S = DA0 ,
  • 150. 150 CAPÍTULO 5. COMPONENTES PRINCIPALES donde A contiene en columnas los vectores propios de S y D es la matriz diagonal de los valores propios. En consecuencia, la covarianza entre, por ejemplo, el primer componente principal y las p variables vendrá dada por la primera Þla de A0 S, es decir a0 1S o también λ1a0 1, donde a0 1 es el vector de coeÞcientes de la primera componente principal. 4. Las correlación entre un componente principal y una variable X es proporcional al coeÞciente de esa variable en la deÞnición del componente, y el coeÞciente de propor- cionalidad es el cociente entre la desviación típica del componente y la desviación típica de la variable. Para comprobarlo: Corr(zi; xj) = Cov(zixj) p V ar(zi)V ar(xj) = λiaij q λis2 j = aij √ λi sj 5. Las r componentes principales (r < p) proporcionan la predicción lineal óptima con r variables del conjunto de variables X. Esta aÞrmación puede expresarse de dos formas. La primera demostrando que la mejor predicción lineal con r variables de las variables originales se obtiene utilizando las r primeras componentes principales. La segunda demostrando que la mejor aproximación de la matriz de datos que puede construirse con una matriz de rango r se obtiene construyendo esta matriz con los valores de los r primeros componentes principales. La demostración de estas propiedades puede verse en el apéndice 5.1. 6. Si estandarizamos los componentes principales, dividiendo cada uno por su desviación típica, se obtiene la estandarización multivariante de los datos originales. Estandarizando los componentes Z por sus desviaciónes típicas, se obtienen las nuevas variables Yc= ZD−1/2 = XAD−1/2 donde D−1/2 es la matriz que contienen las inversas de las desviaciónes típicas de las com- ponentes. Hemos visto en el capítulo anterior que la estandarización multivariante de una matriz de variables X de media cero viene dada por se deÞne como: Ys = XAD−1/2 A0 y ambas variables están incorreladas y tienen matriz de covarianzas identidad. Se diferencian en que unas pueden ser una rotación de las otras, lo que es indiferente al tener todas las mismas varianzas. Por tanto,la estandarización multivariante puede interpretarse como : (1) obtener los componentes principales; (2) estandarizarlos para que tengan todos la misma varianza. Esta relación se presenta gráÞcamente en la Þgura 5.2. La transformación mediante componentes principales conduce a variables incorreladas pero con distinta varianza, puede
  • 151. 5.5. ANÁLISIS NORMADO O CON CORRELACIONES 151 interpretarse como rotar los ejes de la elipse que deÞnen los puntos para que coincidan con sus ejes naturales. La estandarización multivariane produce variables incorreladas con varianza unidad, lo que supone buscar los ejes naturales y luego estandarizarlos. En conse- cuencia, si estandarizamos los componentes se obtiene las variables estandarizadas de forma multivariante. Z=XA X Z (0,0) Y=ZD -1/2 Y=XS-1/2 Y (0,0) (0,0) Figura 5.2: Representación gráÞca de la relación entre componentes principales y es- tandarización multivariante. 5.5 ANÁLISIS NORMADO O CON CORRELACIONES Los componentes principales se obtienen maximizando la varianza de la proyección. En términos de las variables originales esto supone maximizar: M = p X i=1 a2 i s2 i + 2 p X i=1 p X j=i+1 aiajsij (5.13) con la restricción a0 a = 1. Si alguna de las variables, por ejemplo la primera, tiene una vari- anza s2 1, mayor que las demás, la manera de aumentar M es hacer tan grande como podamos la coordenada a1 asociada a esta variable. En el límite si una variable tiene una varianza mu- cho mayor que las demás el primer componente principal coincidirá muy aproximadamente con esta variable. Cuando las variables tienen unidades distintas esta propiedad no es conveniente: si dis- minuimos la escala de medida de una variable cualquiera, de manera que aumenten en
  • 152. 152 CAPÍTULO 5. COMPONENTES PRINCIPALES magnitud sus valores numéricos (pasamos por ejemplo de medir en km. a medir en metros), el peso de esa variable en el análisis aumentará, ya que en (5.13): (1) su varianza será mayor y aumentará su coeÞciente en el componente, a2 i , ya que con- tribuye más a aumentar M; (2) sus covarianzas con todas las variables aumentarán, con el consiguiente efecto de in- crementar ai. En resumen, cuando las escalas de medida de las variables son muy distintas, la maxi- mización de (5.13) dependerá decisivamente de estas escalas de medida y las variables con valores más grandes tendrán más peso en el análisis. Si queremos evitar este problema, conviene estandarizar las variables antes de calcular los componentes, de manera que las magnitudes de los valores numéricos de las variables X sean similares. La estandarización resuelve otro posible problema. Si las variabilidades de las X son muy distintas, las variables con mayor varianza van a inßuir más en la determinación de la primera componente. Este problema se evita al estandarizar las variables, ya que entonces las varianzas son la unidad, y las covarianzas son los coeÞcientes de correlación. La ecuación a maximizar se transforma en: M0 = 1 + 2 pX i=1 pX j=i+1 aiajrij (5.14) siendo rij el coeÞciente de correlación lineal entre las variables ij. En consecuencia la solución depende de la correlaciones y no de las varianzas. Los componentes principales normados se obtiene calculando los vectores y valores propios de la matriz R, de coeÞcientes de correlación. Llamando λR p a las raíces características de esa matriz, que suponemos no singular, se veriÞca que: p X i=1 λR i = traza(R) = p (5.15) Las propiedades de los componentes extraídos de R son: 1. La proporción de variación explicada por λR p será: λR p p (5.16) 2. Las correlaciones entre cada componente zj y las variables X originales vienen dados directamente por a0 j p λj siendo zj = Xaj. Estas propiedades son consecuencia inmediata de los resultados de la sección 5.4. Cuando las variables X originales están en distintas unidades conviene aplicar el análisis de la matriz de correlaciones o análisis normado. Cuando las variables tienen las mismas
  • 153. 5.5. ANÁLISIS NORMADO O CON CORRELACIONES 153 unidades, ambas alternativas son posibles. Si las diferencias entre las varianzas de las vari- ables son informativas y queremos tenerlas en cuenta en el análisis no debemos estandarizar las variables: por ejemplo, supongamos dos índices con la misma base pero uno ßuctua mu- cho y el otro es casi constante. Este hecho es informativo, y para tenerlo en cuenta en el análisis, no se deben estandarizar las variables, de manera que el índice de mayor variabilidad tenga más peso. Por el contrario, si las diferencias de variabilidad no son relevantes podemos eliminarlas con el análisis normado. En caso de duda, conviene realizar ambos análisis, y seleccionar aquel que conduzca a conclusiones más informativas. Ejemplo 5.6 La matriz de correlación de los nueve indicadores económicos del ejemplo5.4 es R =               1 .66 .41 .57 .34 .21 −.09 −.05 −.03 1 .69 .51 .76 .55 −.01 .01 .03 1 .28 .54 .72 .04 .00 .09 1 .69 .30 .05 .03 .02 1 .73 .06 .07 .07 1 .03 .03 .10 1 .85 .82 1 .90 1               Los valores propios son: λi 3.70 2.72 1.06 .70 .30 .23 .16 .09 .03 y los vectores propios asociados a los tres primeros valores propios son: λ x1 x2 x3 x4 x5 x6 x7 x8 x9 3.7 .34 .46 .41 .36 .46 .40 .06 .06 .08 2.72 -.11 -.07 -.03 -.04 -.02 -.01 .56 .58 .57 1.06 -.54 -.05 .38 -.52 .07 .53 -.04 -.07 .00 Tabla 5.5: Vectores propios de la matriz de correlaciones Si comparamos estos resultados con los del ejemplo 5.4 vemos que el primer vector propio cambia apreciablemente. Con la matriz de varianzas las variables con más peso en el compo- nente eran las que tenían una mayor varianza: la 2, luego la 3 y Þnalmente las 1,4,5 y 6 con un peso parecido. Estos pesos siguen estrechamente la relación relativa entre las varianzas de las variables. Sin embargo, al utilizar la matriz de correlaciones este efecto desaparece, y el peso de las variables está más relacionado con las correlaciones. La proporción de vari- abilidad explicada por el primer componente cambia mucho: de 878, 5/1441, 8 = 60, 9% a 3.7/9 = 41% El segundo componente cambia completamente: ahora está prácticamente asociado a las tres últimas variables. La proporción de variabilidad que explica ha aumentado considerable- mente, del 196/1441, 8 = 13, 6% a 2.72/9 = 30% . El tercer vector propio es también distinto en ambas matrices.
  • 154. 154 CAPÍTULO 5. COMPONENTES PRINCIPALES Ejemplo 5.7 Consideremos los datos de INVEST publicaciones cientíÞcas en los países de la OCDE. Los datos tienen magnitudes muy distintas (unos bancos de datos tienen muchos más trabajos que otros). Si deseamos conservar esta propiedad, que esta asociada a que en algunos campos cientíÞcos se publica mucho más que en otros, haremos el análisis sobre la matriz de covarianzas. Si no queremos dar más peso a unos campos que a otros, es conveniente realizar el análisis normado o sobre la matriz de correlación. Los resultados en este último caso se indican en la tabla 5.6 Comp. λh Ph Ph i=1 Ph 1 7.630 0.954 0.954 2 0.207 0.026 0.980 3 0.121 0.015 0.995 4 0.019 0.002 0.997 5 0.017 0.002 0.999 6 0.004 0.001 1.000 7 0.001 0.000 1.000 8 0.000 0.000 1.000 Tabla 5.6: Variabilidad explicada por los componentes principales Se observa que el primer componente principal explica una proporción muy alta de la vari- abilidad, el 95,4%. Con los tres primeros componentes se explica el 99,5% de la variabilidad. Además, después del tercer vector propio la variabilidad explicada disminuye claramente, (véase la tabla 5.6 y la Þgura 5.3 )lo que indica que sólo debemos preocuparnos de los tres primeros componentes ya que los siguientes tienen poca capacidad explicativa. En la tabla 5.7 se indican los valores de los componentes para estos tres vectores propios. Comp. 1 Comp. 2 Comp. 3 INTER.A 0.358 -0.173 0.36 INTER.F 0.360 -0.098 0.08 AGRIC. 0.355 -0.366 -0.10 BIOLO. 0.346 -0.359 -0.69 MEDIC. 0.361 -0.070 0.15 QUIMI. 0.334 0.786 -0.41 INGEN. 0.354 0.268 0.40 FISICA 0.361 0.054 0.17 Tabla 5.7: Vectores propios de los tres primeros componentes Ejemplo 5.8 Para interpretar los componentes consideramos sus coordenadas en las vari- ables. Estas se indican en la tabla 5.7 y en la Þgura 5.4. Se observa que el primer componente es un factor de tamaño, ya que es una media ponderada de todas las variables con mayor peso de los bancos interdisciplinarios y del banco médico. El segundo componente es un fac- tor de forma y contrapone la investigación en Química e Ingeniería frente a la realizada en
  • 155. 5.6. INTERPRETACIÓN DE LOS COMPONENTES 155 Figura 5.3: GráÞco para la selección del número de componentes. Agricultura y Biología. El tercero contrapone ingeniería, física y el banco interA con respecto a Biología y Química. 5.6 INTERPRETACIÓN DE LOS COMPONENTES Componentes de tamaño y forma Cuando existe una alta correlación positiva entre todas las variables, el primer componente principal tiene todas sus coordenadas del mismo signo y puede interpretarse como un prome- dio ponderado de todas las variables (véase el ejercicio 5.2). Se interpreta entonces como un factor global de ”tamaño”. Los restantes componentes se interpretan como factores ”de forma” y típicamente tienen coordenadas positivas y negativas, que implica que contraponen unos grupos de variables frente a otros. Estos factores de forma pueden frecuentemente es- cribirse como medias ponderadas de dos grupos de variables con distinto signo y contraponen las variables de un signo a las del otro. Por ejemplo el segundo componente principal de los datos de la EPF del ejercicio 5.3 puede escribirse aproximadamente, despreciando los coeÞciente pequeños (menores que 0,1): z2 = (0, 05x1 + 0, 16x2 + 0, 07x4 + 0, 29x6 + 0, 78x9) − (0, 17x3 + 0, 21x5 + 0, 40x7 + 0, 17x8) ' I0 − IS
  • 156. 156 CAPÍTULO 5. COMPONENTES PRINCIPALES Figura 5.4: Representación de los pesos de las dos componentes. donde I0 = 0, 16x2 + 0, 29x6 + 0, 78x9 es un indicador de los gastos de transporte y transferencias a otras provincias y IS = 0, 17x3 + 0, 21x5 + 0, 40x7 + 0, 17x8 es un indicador de gastos en servicios (educación y sanidad). Además, cuando las vari- ables van en logaritmos, los componentes suelen poder escribirse como ratios de promedios geométricos de las variables. Por ejemplo, supongamos que un componente tiene la expresión z1 = −0.5 log x1 + 0.3 log x2 + 0.2 log x3 este componente puede escribirse también como z1 = 0.3 log x2 x1 + 0.2 log x3 x1 que indica que es un promedio de estos dos ratios (véase el ejemplo 5.1). La interpretación de los componentes se simpliÞca suponiendo que los coeÞcientes pequeños son cero y redondeando los coeÞcientes grandes para expresar el componente como cocientes, diferencias o sumas entre variables. Estas aproximaciones son razonables si modiÞcan poco la estructura del componente y mejoran su interpretación. Una medida del cambio introduci- do al modiÞcar un vector propio de ai a aiM es el cambio en la proporción de variabilidad explicada por el componente. Si el valor propio asociado a ai es λi, el componente explica el
  • 157. 5.6. INTERPRETACIÓN DE LOS COMPONENTES 157 λi/ P λj de la variabilidad. Si ahora modiÞcamos el vector a aiM , la varianza de la proyec- ción de los datos sobre este componente es λiM = a0 iM SaiM = (eXaiM )0 (eXaiM )/n, la varianza del componente, y la proporción de variabilidad explicada será λiM / P λj. El cambio relativo será (λi − λiM )/λi, ya que siempre λi ≥ λiM , y si este cambio es pequeño, esta justiÞcada la modiÞcación si favorece la interpretación. Ejemplo 5.9 Vamos a calcular el cambio relativo que experimenta el segundo componente principal de los datos de la EPF si despreciamos los coeÞcientes más pequeños, la varianza del segundo componente modiÞcado es 0,0319. La varianza del componente original es 0,0320, por lo que el cambio de explicación por tomar el coeÞciente simpliÞcado es sólo de (0,0320- 0,0319)/0,0320=1/320=0,0031. Ejemplo 5.10 Supongamos 6 observaciones x1, . . . , x6 en dos dimensiones, cada obser- vación corresponde a un rectángulo y las variables son longitud de la base y altura del rec- tángulo. GráÞcamente las observaciones son, 1 2 3 4 5 6 que corresponden a la matriz de datos, X =         2 2 1.5 0.5 0.7 0.5 0.5 1.5 0.5 0.7 0.7 0.7         aplicamos logaritmos a estos datos para facilitar la interpretación de las componentes, log(X) =         0.301 0.301 0.176 −0.301 −0.155 −0.301 −0.301 0.176 −0.301 −0.155 −0.155 −0.155         cuya matriz de varianzas covarianzas es, S = · 6.39 1.41 1.41 6.39 ¸ .10−2 Los autovalores y autovectores de la descomposición espectral de esta matriz son, λ1 = 0.78 λ2 = 0, 0498 a1 = · 0.707 0.707 ¸ a2 = · 0.707 −0.707 ¸
  • 158. 158 CAPÍTULO 5. COMPONENTES PRINCIPALES las dos primeras componentes son Z1 = Xa1 = 0.707 log(X1) + 0.707 log(X2) = 0.707 log(X1X2) =         0.426 −0.088 −0.322 −0.088 −0.322 −0.219         Z2 = Xa2 = 0.707 log(X1) − 0.707 log(X2) = 0.707 log( X1 X2 ) =         0 0.337 0.103 −0.337 −0.103 0         Si ordenamos los rectángulos según el valor de la primera y segunda componente obten- emos, 1 1 2 2 3 3 4 4 5 5 6 6 La primera ordenación coincide con la inducida por el volumen de los rectángulos, es una transformación creciente del producto de la base por la altura, y el primer componente describe el tamaño. El segundo componente relaciona la base con la altura y ordena las observaciones en función de su forma. 5.6.1 Selección del número de componentes Se han sugerido distintas reglas para seleccionar el número de componentes a mantener: (1) Realizar un gráÞco de λi frente a i. Comenzar seleccionando componentes hasta que los restantes tengan aproximadamente el mismo valor de λi. La idea es buscar un ”codo” en el gráÞco, es decir, un punto a partir del cual los valores propios son aproximada- mente iguales. El criterio es quedarse con un número de componentes que excluya los asociados a valores pequeños y aproximadamente del mismo tamaño. (2) Seleccionar componentes hasta cubrir una proporción determinada de varianza, como el 80% o el 90%. Esta regla es arbitraria y debe aplicarse con cierto cuidado. Por ejemplo,
  • 159. 5.6. INTERPRETACIÓN DE LOS COMPONENTES 159 es posible que un único componente de ”tamaño” recoja el 90% de la variabilidad y sin embargo pueden existir otros componentes que sean muy adecuados para explicar la ”forma” de las variables. (3) Desechar aquellos componentes asociados a valores propios inferiores a una cota, que suele Þjarse como la varianza media, P λi/p. En particular, cuando se trabaja con la matriz de correlación, el valor medio de los componentes es 1, y esta regla lleva a seleccionar los valores propios mayores que la unidad. De nuevo esta regla es arbitraria: una variable que sea independiente del resto suele llevarse un componente principal (véase ejercicio 5.8) y puede tener un valor propio mayor que la unidad. Sin embargo, si esta incorrelada con el resto puede ser una variable poco relevante para el análisis, y no aportar mucho a la comprensión del fenómeno global. 5.6.2 Representación gráÞca La interpretación de los componentes principales se favore representando las proyecciones de las observaciones sobre un espacio de dimensión dos, deÞnido por parejas de los componentes principales más importantes. Este punto se ha ilustrado en los ejemplos anteriores, donde se ha indicado que la proyección de cualquier observación sobre un componente es directamente el valor del componente para esa observación. La representación habitual es tomar dos ejes ortogonales que representen los dos componentes considerados, y situar cada punto sobre ese plano por sus coordendas con relación a estos ejes, que son los valores de los dos componentes para esa observación. Por ejemplo, en el plano de los dos primeros componentes, las coordenadas del punto xi son z1i = a0 1xi y z2i = a0 2xi. La interpretación se favorece representando en el mismo plano además de las observa- ciones las variables originales. Esto puede hacerse utilizando como coordenadas su coeÞciente de correlación con cada uno de los ejes. El vector de correlaciones entre el primer compo- nente y las variables originales viene dado por λ 1/2 1 a0 1D, donde D es una matriz diagonal cuyos términos son las inversas de las desviaciones típicas de cada variable. La matriz de correlaciones Rcv entre los p componentes y las p variables tendrá como Þlas los términos λ 1/2 j a0 jD y puede escribirse Rcv = Λ1/2 AD donde A es la matriz de vectores propios, Λ1/2 es la matriz diagonal con términos √ λi y En el análisis normado como las variables se estandarizan a varianza unidad las correlaciones será simplemente Λ1/2 A. Una representación equivalente es el biplot que presentamos en la sección siguiente. Tiene la ventaja de representar al mismo tiempo las variables y las observaciones en un mismo gráÞco. Conviene investigar si transformando las variables se obtiene una interpretación más sim- ple. Como regla general, cuando al tomar logaritmos las variables X tienen una distribución aproximadamente simétrica, conviene realizar el análisis de componentes principales sobre los logaritmos de las variables.
  • 160. 160 CAPÍTULO 5. COMPONENTES PRINCIPALES Es importante recordar que las covarianzas (o correlaciones) miden únicamente las rela- ciones lineales entre las variables. Cuando entre ellas existan relaciones fuertes no lineales el análisis de componentes principales puede dar una información muy parcial de las variables. Ejemplo 5.11 La Þgura 5.5 presenta la proyección de los datos de INVEST, los países de la OCDE, sobre el plano formado por los dos primeros componentes principales extraídos de la matriz de correlación, que se estudiaron en el ejemplo 5.6. Se observa que el primer eje ordena a los países por su cantidad de investigación, mientras que el segundo tiene en cuenta sus características: separa a Japón, con gran énfasis en investigación tecnológica, del Reino Unido, que tiene más énfasis en la investigación biomédica Figura 5.5: Proyección de las observaciones en las dos primeras componentes principales. Como indicamos en el Capítulo la observación de EEUU es atípica y existe una marcada asimetría en las distribuciones de las variables. Vamos a presentar los datos excluyendo a EEUU y con una transformación logarítmica de las variables para reducir la asimetría. La Þgura 5.6 muestra el nuevo diagrama de cajas múltiple.Como la varianza de las nuevas variables transformadas es similar, el análisis de componentes principales se realizará direc- tamente sobre la matriz de varianzas covarianzas. Los resultados obtenidos Þguran en las tablas 5.8 y5.9 Los tres primeros componentes explican el 97% de la variabilidad y tienen la siguiente interpretación. El primero es una media ponderada de todos los bancos con mayo peso del
  • 161. 5.6. INTERPRETACIÓN DE LOS COMPONENTES 161 4681012 INTER.A INTER.F AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FISICA Figura 5.6: Diagrama de cajas de los logaritmos de las variables de INVEST una vez elimi- nado EEUU. λh Ph Ph i=1 Ph Comp. 1 14.98 0.90 0.90 Comp. 2 0.83 0.05 0.94 Comp. 3 0.50 0.03 0.97 Comp. 4 0.21 0.01 0.99 Comp. 5 0.10 0.01 0.99 Comp. 6 0.08 0.00 1.00 Comp. 7 0.02 0.00 1.00 Comp. 8 0.02 0.00 1.00 Tabla 5.8: Variabilidad explicada por los componentes principales
  • 162. 162 CAPÍTULO 5. COMPONENTES PRINCIPALES banco químico. El segundo, contrapone la investigación en Química frente a la general del banco INTER.F y a la de ingeniería y física. El tercero contrapone el banco INTER.F y Química al resto. Comp. 1 Comp. 2 Comp. 3 INTER.A 0,31 0,05 -0,40 INTER.F 0,37 0,63 0,63 AGRIC. 0,30 0,07 -0,14 BIOLO. 0,27 -0,06 -0,30 MEDIC. 0,32 0,01 -0,25 QUIMI. 0,56 -0,70 0,41 INGEN. 0,28 0,25 -0,18 FÍSICA 0,32 0,21 -0,26 Tabla 5.9: Pesos de las tres primeras componentes principales Los países proyectados en estos tres componentes se presentan en la Þgura 5.7. Se ha añadido también la proyección sobre el cuarto componente, que separa completamente a UK de Japón. 5.6.3 Datos atípicos Antes de obtener los componentes principales conviene asegurarse de que no existen datos atípicos, ya que, como hemos visto en el capítulo anterior, los atípicos pueden distorsionar totalmente la matriz de covarianzas. Para ilustrar su efecto sobre los componentes, supongamos el caso más simple en que un error de medida en una variable introduce un valor atípico grande en la primera variable. Su efecto será aumentar mucho la varianza de esta variable y disminuir las covarianzas con las restantes, con lo que, si hacemos el atípico muy grande, la matriz S será, aproximadamente: · σ2 1 . . . 00 0 S22 ¸ donde 00 = (0, 0, ..., 0). Esta matriz tiene un vector propio (1, 0, . . . , 0) unido al valor propio σ2 1 y si σ2 1 es muy grande este será el primer componente principal. Por tanto, un valor atípico suÞcientemente grande distorsiona todos los componentes que podemos obtener de la matriz afectada (véase el ejemplo 5.9). El resultado anterior sugiere que las componentes principales podrían utilizarse para detectar datos atípicos multivariantes, ya que un valor muy extremo se llevara un componente principal y aparecerá como extremo sobre esta componente. Desgraciadamente, aunque los componentes pueden identiÞcar atípicos aislados, no hay garantía de que funcionen cuando existen grupos de atípicos, debido al problema de enmascaramiento. Por esta razón conviene utilizar para detectarlos el método presentado en el capítulo anterior, basado en proyecciones sobre las direcciones extremas de kurtosis, que al ser capaz de identiÞcar todos los posibles atípicos permite calcular una la matriz de covarianzas libre de distorsiones graves.
  • 163. 5.6. INTERPRETACIÓN DE LOS COMPONENTES 163 Comp. 1 Comp.2 -5 0 5 -2-1012 UK JP F G CIA H SCH E B D AU FIN Y GR IR P Comp. 1 Comp.3 -5 0 5 -2.0-1.00.01.0 UK JPFG C IA HS CH E B D AU FI N Y GR IR P Comp. 1 Comp.4 -5 0 5 -1.0-0.50.00.5 UK JP F G C I A H S CH E B DAU FI N Y GR IR P Comp. 2 Comp.3 -2 -1 0 1 2 -2.0-1.00.01.0 UK JP F G C IA HS CH E B D AU FI N Y GR IR P Comp. 2 Comp.4 -2 -1 0 1 2 -1.0-0.50.00.5 UK JP F G C I A H S CH E B D AU FI N Y GR IR P Comp. 3 Comp.4 -2.0 -1.0 0.0 0.5 1.0 -1.0-0.50.00.5 UK JP F G C I A H S CH E B D AU FI N Y GR IR P Figura 5.7: Representación de las observaciones de INVEST en losplanos deÞnidos por las cuatro primeras componentes. 5.6.4 Distribución de los componentes Los componentes principales pueden verse como un conjunto nuevo de variables y estudiar su distribución individual y conjunta. Por construcción estarán incorrelados, pero pueden exitir fuertes relaciones no lineales entre ellos. Ejemplo 5.12 Vamos a calcular los componentes principales de la matriz de correlación de las 27 medidas físicas, MEDIFIS. Aunque todas las variables van en centímetros, los tamaños de las variables son muy distintos, lo que aconseja utilizar la matriz de correlación. La proporción de varianza que explica cada vector propio se indica en la tabla 5.10 Para decidir cuántos componentes tomar utilizaremos la Þgura 5.8 que indica que a partir del tercer componente hay una caída en la capacidad predictiva. Los tres primeros compo- nentes explican conjuntamente el 93.5% de la variabilidad.
  • 164. 164 CAPÍTULO 5. COMPONENTES PRINCIPALES λh 5.56 0.62 0.39 0.17 0.14 0.10 0.05 Ph% 78.96 8.87 5.65 2.48 1.98 1.37 0.68 Tabla 5.10: Variabilidad explicada por las componentes Figura 5.8: GràÞco para seleccionar el número de componentes. Los tres primeros vectores propios son: est pes pie lbr aes dcr drt Comp. 1 .41 .39 .40 .39 .38 .29 .37 Comp. 2 -.16 .04 -.20 -.30 .11 .89 -.15 Comp. 3 .04 -.29 .13 -.15 -.57 .20 .71 El primer componente es una media de todas las medidas físicas, y por tanto una medida del tamaño del cuerpo, siendo la variable con menor peso el diámetro del cráneo. La segunda variable es de forma, y esta dominada por el diámetro del cráneo. Observemos que esta variable está poco correlada con el resto y, por lo tanto, arrastra ella sola un componente principal, ya que no puede explicarse como combinación de otras. El tercer componente principal diferencia longitud frente a anchura: da mayor peso a la longitud de la pierna (drt) y lo contrapone al peso y a la anchura de la espalda. La Þgura 5.9 presenta un gráÞco de las observaciones sobre el plano de los dos primeros componentes principales. Las coordenadas son las puntuaciones estandarizadas z∗ i = X∗ ai, i = 1, 2, donde X∗ es la matriz de variables estandarizadas (de media cero y varianza uno). En este gráÞco cada punto se indica con un 1, cuando la observación corresponde a un varón y un 0 cuando es mujer. Puede verse que la primera componente de ”tamaño” separa casi perfectamente los hombres de las mujeres. El segundo componente no parece reßejar ningún efecto del sexo. Observemos que la primera componente es capaz, por si misma, de explicar casi el 80% de variabilidad. Dado que el diámetro del cráneo está poco correlado con el resto
  • 165. 5.6. INTERPRETACIÓN DE LOS COMPONENTES 165 de las variables, siendo casi en exclusiva responsable de una dimensión, vamos a repetir el análisis eliminando esta variable. Figura 5.9: Proyección de las observaciones en las dos primeras componentes principales. Los resultados de eliminar la variable diámetro del cráneo del análisis se presentan en la tabla siguiente. Se incluyen los dos primeros valores y vectores propios que explican por sí mismos el 92% de la variabilidad. λh Ph% est pes pie lbr aes drt 5.1 85 .43 .41 .42 .41 .39 .38 .4 7 .08 -.32 .17 -.04 -.60 .71 Corr(z1xi) .97 .93 .95 .93 .88 .86 Corr(z2xi) .05 -.20 .11 -.030 -.38 .45 El primer componente es de nuevo una media ponderada que indica el tamaño de las personas, dando el mayor peso a la estatura de la persona. El segundo es de forma, ya que contrapone la longitud de la pierna a la anchura de la espalda y tiene peso positivo en las longitudes (del pie y estatura), y negativo en el peso. La proyección de los datos sobre el plano deÞnido por los dos componentes se presenta en la Þgura 5.10. Se observa que el primer componente de ”tamaño” separa como antes los hombres de las mujeres, y que el segundo componente al ser
  • 166. 166 CAPÍTULO 5. COMPONENTES PRINCIPALES ortogonal al tamaño no parece depender del sexo. Este componente separa para ambos sexos pesonas con constitución delgada de gruesa. La Þgura 5.11 presenta de forma gráÞca las correlaciones entre el primer y segundo com- ponente y cada variable, calculadas como p λhahj. Se observa que el primer componente está correlado con la altura y las restantes longitudes, mientras que el segundo está especialmente relacionado con la longitud de la pierna y la anchura de la espalda. Figura 5.10: Proyección de las observaciones en las dos primeras componentes principales. Ejemplo 5.13 Vamos a analizar la base de datos de MUNDODES (tabla A.6 del Anéxo). Esta matriz de datos está constituida por 91 países en los que se han observado 9 variables: X1: ratio de natalidad, X2: ratio de mortalidad, X3: mortalidad infantil, X4: esperanza de vida en hombres X5: esperanza de vida de mujeres y X6: PNB per capita. La representación gráÞca de las variables dos a dos, presentada en el capítulo anterior, muestra relaciones claramente no lineales. Aplicando transformaciones logarítmicas a las variables mejoramos la linealidad en estas relaciones dos a dos. Como las variables están medidas en distintas unidades se debe realizar un análisis de componentes principales normado (basado en la matriz de correlaciones), los resultados se presentan en la Þgura 5.12. La Þgura 5.13 presenta el gráÞco en forma de codo para seleccionar el número de compo- nentes. El primer valor propio es 4.7278, y explica el 78,8% de la variabilidad. El segundo es 0.7261, y explica el 12%. Hay un valor propio de 0,002 que corresponde a una variable que es practicamente constante. Los vectores propios se presentan a continuación.
  • 167. 5.6. INTERPRETACIÓN DE LOS COMPONENTES 167 Figura 5.11: Correlación de las variables con las componentes principales. variable PC1 PC2 PC3 PC4 PC5 PC6 X1 -0.454 0.034 -0.130 0.159 0.378 0.780 X2 0.416 0.196 0.513 0.683 0.233 0.067 X3 0.341 -0.680 -0.524 0.307 0.225 -0.031 X4 0.440 -0.052 0.222 -0.632 0.578 0.145 X5 -0.452 0.085 -0.029 0.114 0.639 -0.605 X6 -0.326 -0.699 0.628 -0.039 -0.100 0.002
  • 168. 168 CAPÍTULO 5. COMPONENTES PRINCIPALES Comp. 1 Comp. 2 Comp. 3 Comp. 4 Comp. 5 Comp. 6 01234 p p p Variances 0.796 0.923 0.967 0.988 0.997 1 Figura 5.12: Proporción de variabilidad explicada por cada componente para los datos de MUNDODES. Figura 5.13: El primer componente explica el 79% de la variabilidad, el segundo corresponde a un valor propio inferior a 1, pero lo incluiremos para interpretarlo. La primera componente se puede interpretar como una medida de desarrollo de un país, dado que las variables con peso
  • 169. 5.6. INTERPRETACIÓN DE LOS COMPONENTES 169 positivo son las esperanzas de vida de hombres y mujeres y la renta, mientras que las de peso negativo son la mortalidad infantil y las tasas de natalidad y mortalidad, que son bajas en los países más desarrollados. El segundo componente esta asociado a la mortalidad infantil y a la renta, con lo que resulta de diÞcil interpretación ya que mide una dimensión que está incorrelada con el primer término de desarrollo. Para interpretarla, la Þgura 5.14 muestra los paises en el plano de los dos componentes. Se observa que existe una fuerte relación no lineal entre ambos y aunque los componentes están incorrelados no son claramente independientes. El primer componente podemos suponer que ordena a los países por desarrollo y el segundo tiene en cuanta la mortalidad infantil y tiene una relación no lineal con la renta. Figura 5.14: Representacion de los dos primeros componentes para los datos de Mundodes En los diagramas de dispersión vimos que relaciones entre las variables eran no lineales, por lo que vamos a repetir el análisis para las variables en logaritmos. Los valores propios de la matriz de correlaciones de las variables en logaritmos no cambian mucho, pero los vectores propios sí lo hacen. Son ahora: PC1 PC2 PC3 PC4 PC5 PC6 0.403 0.435 -0.376 -0.436 -0.562 0.033 0.307 -0.831 0.011 -0.457 -0.077 -0.020 0.433 0.267 -0.023 -0.331 0.793 0.051 -0.441 0.147 0.224 -0.531 0.019 -0.672 -0.446 0.071 0.213 -0.454 -0.012 0.738 -0.403 -0.149 -0.873 -0.057 0.223 -0.008 El primero sigue siendo una medida de desarrollo pero ahora el segundo esta sobre todo ligado a la tasa de mortalidad. Separa paises con alta tasa de mortalidad de los de baja. Vemos que el último vector propio también tiene una interesante interpretación. Nos dice que la diferencia en logaritmos entre las esperanzas de vida de hombres y mujeres es prácti- camente constante en todos los países, ya que el valor propio que corresponde a este vector
  • 170. 170 CAPÍTULO 5. COMPONENTES PRINCIPALES propio es muy pequeño (0,015). Los pesos asociados a cada una de las variables se presentan en la Þgura 5.15 EspMuj EspHom MortInf PNB TasaNat. TasaMort -0.40.2 Comp. 1 TasaMort TasaNat. MortInf PNB EspHom EspMuj -0.40.4 Comp. 2 Figura 5.15: Pesos de las variables en los dos primeros componentes para los datos de MUNDODES La Þgura 5.16 presenta la representación de los paises en los dos primeros componentes. El primero es una medida del desarrollo y el segundo depende principalmente de la tasa de mortalidad, y separa paises que tienen alto (o bajo) valor aparente de desarrollo de otros que tienen una mortalidad mucho mayor de la que correspondería de acuerdo a su nivel de desarrollo. Ambas dimensiones estan incorreladas pero no son independientes, como se observa en la Þgura. Sin embargo, el grado de dependencia entre las variables es menor que con las variables sin transformar. Figura 5.16: GraÞco de los datos de Mundodes sobre los dos primeros componentes princi- pales de los datos en logaritmos.
  • 171. 5.7. GENERALIZACIONES 171 5.7 Generalizaciones La idea de componentes principales puede extenderse para buscar representaciones no lin- eales de los datos que expliquen su estructura. Este enfoque es especialmente interesante si sospechamos que los datos pueden disponerse siguiendo una determinada superÞcie en el espacio. Como hemos visto los vectores propios ligados a valores propios próximos a cero sonmuy importantes porque revelan relaciones de poca variabilidad de los datos. Por ejemplo, supongamos para simpliÞcar una variable bidimensional donde, aproximadamente, f(x1) + f(x2) = c. Entonces, si hacemos componentes principales de las cuatro variables (x1, x2, f(x1), f(x2), ) encontraremos un valor propio muy próximo a cero con un vector pro- pio de la forma (0,0, 1,1). Generalizando esta idea, si existe una relación cualquiera no lineal entre las variables, como esta relación podemos aproximarla por una relación polinómica f(x1, ..., xp) = X aixi + X bijxixj + X cijkxixjxk + ... si incluimos nuevas variables adicionales como x2 1, ..., x2 p o productos de variables x1x2 etc y extraemos los componentes principales de la matriz de correlaciones entre todas estas variables, si los puntos tienen una relación no lineal esta se detectará ligada a un valor propio próximo a cero. Este enfoque se conoce a veces como componentes principales generalizados, y el lector interesado puede encontrar ejemplos de su aplicación en Gnandesikan (1977). El inconveniente de introducir nuevas variables, transformaciones de las iniciales, es que inmediatamente aumenta mucho la dimensión del problema con lo que si la muestra no es muy grande podemos tener una matriz de correlaciones singular. Por otro lado la interpretación de los resultados de este análisis, salvo en casos muy especiales, no suele ser fácil, con lo que esta herramienta no suele ayuda mucho en para la exploración de datos multivariantes. 5.8 Lecturas complementarias Todos los textos generales de análisis multivariante que se indican en las referencias estudian componentes principales. Johnson y Wichern (1998) y Rechner (1998) son buenas presenta- ciones con similar Þlosofía a la utilizada en el libro mientras que Flury (1997) presenta un enfoque distinto al aquí expuesto. Componentes principales es un caso particular de los métodos de proyección introducidos en la sección 4.2.3 que se conocen como Projection Pur- suit (Búsqueda de la Proyección). Véase Krzanowski y Marriot (1994) para más detalles. Un excelente tratado sobre componentes principales y sus extensiones es el libro de Jackson (1991), que contiene numerosas referencias. La idea de componentes principales puede ex- tenderse al caso no lineal, y Gnanadesikan (1997) es una buena referencia. Los componentes principales puede aplicarse para investigar si varios grupos de datos tienen componentes comunes. Este aspecto ha sido investigado por Krzanowski (1979) y Flury (1984, 1986). Cuadras, C.M. (1991) y Aluja, T. y Morineau, A. (1999) son buenas referencias en español. EJERCICIOS
  • 172. 172 CAPÍTULO 5. COMPONENTES PRINCIPALES Ejercicio 5.1 Dada la matriz de covarianzas S =   1 + d 1 1 1 1 + d 1 1 1 1 + d   encontrar los componentes principales. Calcular la proporción de variabilidad explicada por cada uno y las correlaciones entre los componentes y las variables. Interpretar los compo- nentes en función del tamaño de d. Ejercicio 5.2 Dada la matriz de correlación: S =     1 d d d d 1 d d d d 1 d d d d 1     encontrar la primera componente principal. (Nota, utilizar que P = [d.1.10 + (1 − d)I] para encontrar los componentes y discutir su interpretación). Ejercicio 5.3 Supongamos que Z, X1, ..., Xp tienen una distribución normal (p + 1) dimen- sional. Sean Y1, ..., Yp los componentes principales de X1, ..., Xp. Demostrar que el coeÞciente de correlación múltiple de las regresiones: Z = X aiXi Z = X biYi es idéntico. Ejercicio 5.4 Demostrar que si S = · A 0 0 B ¸ , donde A y B son no singulares de rango rA y rB los vectores propios de S son de la forma (u1, 0) y (0, u2), donde u1 es un vector propio de A y u2 un vector propio de B. Ejercicio 5.5 Indicar las implicaciones del resultado del ejercicio 5.4 para calcular compo- nentes principales. Ejercicio 5.6 Demostrar que si S = · A 0 0 B ¸ los valores propios de S son los de A más los de B. Ejercicio 5.7 Demostrar que el espacio que maximiza la varianza generalizada de la proyec- ción es el deÞnido por z1 = Xa1 y z2 = Xa2 donde z1 y z2 son los dos primeros componentes principales.
  • 173. 5.8. LECTURAS COMPLEMENTARIAS 173 Ejercicio 5.8 Demostrar que si una variable x1 está incorrelada con el resto de manera que la matriz S tiene la forma S = · s2 1 00 0 S2 ¸ donde 0 y 00 son vectores de ceros, la matriz S tiene un componente principal asociado únicamente a la primera variable, es decir, el vector (1, 0...0) es un vector propio de S. Ejercicio 5.9 Demostrar que la dirección donde la variabilidad de la proyección es mínima es la dada por el vector propio ligado al menor valor propio de la matriz de covarianzas. Ejercicio 5.10 Demostrar la siguiente acotación para formas cuadráticas : λminw0 w ≤ w0 Bw ≤ λmaxw0 w, donde λmin y λmax son el menor y el mayor valor propio de la matriz B. (Sugerencia, maximizar la forma cuadrática como se hizo para obtener el primer compo- nente principal) APÉNDICE 5.1. DISTANCIAS ENTRE PUNTOS Y PROYECCIONES Vamos a demostrar que maximizar las distancias al cuadrado entre los puntos proyectados equivale a maximizar la varianza de la variable deÞnida por las proyecciones de los puntos. Sea zi = a0 1xi la proyección de una observación sobre la dirección a1, donde suponemos a0 1a1 = 1. La variable zi tendrá media cero ya que si las x tienen media cero Pn i=1 zi = Pn i=1 a0 1xi = a0 1 Pn i=1 xi = 0. La suma de las distancias al cuadrado entre los puntos proyectados es Dp = nX i=1 nX h=i+1 (zi − zh)2 . Para interpretar este sumatorio observemos que cada término zi aparece al cuadrado n − 1, veces ya que cada punto se compara con los otros n − 1, y que habrá tantos dobles productos como parejas de puntos, es decir ¡n 2 ¢ = n(n − 1)/2. Por tanto: Dp = (n − 1) nX i=1 z2 i − 2 nX i=1 nX h=i+1 zizh = n X z2 i − B siendo B : B = nX i=1 z2 i + 2 nX i=1 nX h=i+1 zizh que puede escribirse, B = z1(z1 + z2 + . . . zn) + z2(z1 + . . . + zn) + . . . zn(z1 + . . . + zn) = nX i=1 zi nX i=1 zi = 0.
  • 174. 174 CAPÍTULO 5. COMPONENTES PRINCIPALES Por tanto, maximizar las distancias entre los puntos equivale a maximizar: A = n X z2 i que es el criterio de maximizar la varianza de la nueva variable, obtenida anteriormente. Algunos autores han propuesta minimizar X X wij(dij − bdij)2 donde wij es una función de ponderación. El problema así planteado no tiene una solu- ción simple y debe resolverse mediante un algoritmo iterativo no lineal. Veáse por ejemplo Krzanowski (1990, cap2). APÉNDICE 5.2. LOS COMPONENTES COMO PRE- DICTORES ÓPTIMOS Demostraremos que los componentes principales son predictores óptimos de las X. Comence- mos demostrando que si queremos aproximar la matriz X, de rango p, por otra matriz bXr de rango r < p, la aproximación óptima es XArA0 r = ZrA0 r, donde la matriz Ar es p × r y sus columnas son los vectores propios asociados a los r mayores valores propios de la matriz S. El problema de aproximar la matriz X puede establecerse así: Consideremos un espacio de dimensión r deÞnido por una base Ur ortonormal, donde Ur es p×r y U0 rUr = I. Se desea encontrar una aproximación de la matriz X utilizando una base de ese espacio, es decir, queremos prever cada una de las Þlas (x1, ..., xn) de la matriz, donde xi es el vector p × 1 de observaciones en el elemento i de la muestra, mediante los vectores Ur. La predicción de la variable xi será la proyección ortogonal sobre el espacio generado por estos vectores que es bxi = UrU0 rxi y queremos determinar los vectores Ur tal que el error cuadrático de aproximación total para todas las Þlas de la matriz, dado por E = p X j=1 nX i=1 (xij − bxij)2 = nX i=1 (xi − bxi)0 (xi − bxi) (5.17) sea mínimo. El error puede escribirse E = nX i=1 xi 0 xi − nX i=1 xi 0 UrU0 rxi (5.18) y minimizar el error equivale a maximizar el segundo término. Utilizando que un es- calar es igual a su traza, Pn i=1 xi 0 UrU0 rxi = tr( Pn i=1 xi 0 UrU0 rxi) = Pn i=1 tr(UrU0 rxixi 0 ) = tr(UrU0 r Pn i=1 xixi 0 ). Introduciendo que S = Pn i=1 xixi 0 /n y sustituyendo en tr(UrU0 r Pn i=1 xixi 0 ), tenemos que esta expresión es ntr(UrU0 rS) = ntr(U0 rSUr). Por tanto: nX i=1 xi 0 UrU0 rxi = ntr(U0 rSUr) (5.19)
  • 175. 5.8. LECTURAS COMPLEMENTARIAS 175 Según esta expresión, minimizar el error (5.18) implica encontrar un conjunto de vectores Ur = [u1, ..., ur] que maximicen la suma de los elementos diagonales de U0 rSUr, es decir,Pr j=1 u0 jSuj. Si r = 1, este es el problema que se ha resuelto para encontrar el primer componente. Si r = 2, como el nuevo vector debe ser ortogonal al primero, obtenemos el segundo componente, y así sucesivamente. Por tanto, Ur = Ar, y la aproximación óptima a la matriz X vendrá dada por bXr = XArA0 r. Además, como en (5.18) el primer término es nX i=1 xi 0 x = tr( nX i=1 xi 0 x) = nX i=1 tr(xi 0 x) = tr nX i=1 (xxi 0 ) = ntr(S) =n p X i=1 λi y el segundo es, según (5.19), igual a n Pr i=1 λi , tenemos que el error de la aproximación será n Pp i=r+1 λi. Es interesante señalar que esta aproximación a una matriz es la que proporciona la descomposición en valores singulares, es decir la mejor aproximación a la matriz X por otra matriz bXr de rango r < p es bXr = UrD1/2 r V0 r = rX i=1 λ 1/2 1 uiv0 i donde Ur es la matriz de los r mayores vectores propios de XX0 , D 1/2 r contiene los r mayores valores propios y Vr contiene los vectores propios de X0 X. . En efecto, según hemos visto en la sección 5.7 bXr = ZrA0 r, que es el resultado anterior. El problema puede enfocarse desde otro punto de vista. Busquemos unas variables [z1, ..., zr] que sean combinaciones lineales de las originales y que tengan la propiedad de preverlas de manera óptima. Por ejemplo, si r = 1, buscamos un vector a1 de manera que la nueva variable: z1 = Xa1 permita prever con mínimo error los valores observados para el conjunto de variables que forman las columnas de la matriz X. Por ejemplo, el valor previsto para la variable xj en el individuo i, bxij, conocido el valor de la variable z1 para ese individuo, z1i será: bxij = bjz1i y el error de predicción será eij = xij − bxij. Vamos a demostrarlo para simpliÞcar en el caso r = 1. Calcularemos el vector a1 para que minimice estos errores de predicción. Es conocido que el coeÞciente de regresión bj viene dado por: bj = Pn i=1 xijz1i P z2 1i (5.20)
  • 176. 176 CAPÍTULO 5. COMPONENTES PRINCIPALES como 1/n P z2 1i = 1/na0 X0 Xa = a0 Sa, la varianza de z1 puede crecer indeÞnidamente si no imponemos ninguna restricción. Exigiremos que sea unitaria, es decir que: a0 Sa = 1 = (1/n) X z2 1i (5.21) Entonces: bj = 1/n X xijz1i = 1/nX0 jXa1 = V0 ja1 (5.22) donde Vj es el vector Þla j de la matriz S de varianzas y covarianzas. Impongamos la condición mínimo cuadrática para obtener a1: 1 n nX i=1 e2 ij = M´õnimo = 1 n nX i=1 ¡ xij − V0 ja1z1i ¢2 y el segundo miembro puede escribirse: 1 n nX i=1 x2 ij + 1 n a0 1VjV0 ja1 nX i=1 z2 1i − 2V0 ja 1 n nX i=1 xijz1i utilizando ahora (5.21) y (5.22), se obtiene 1 n nX i=1 e2 ij = 1 n nX i=1 x2 ij − a0 1VjV0 ja1. Aplicando este mismo razonamiento a las otras variables X y sumando para todas ellas: M = 1 n nX i=1 p X j=1 e2 ij = 1 n nX i=1 p X j=1 x2 ij − p X j=1 a0 1VjV0 ja1 como el primer miembro es la traza de S que es Þja, maximizar M equivale a minimizar: a0 1 p X j=1 VjV0 ja1 = a0 1SS0 a0 1 = a0 1S2 a1 (5.23) ya que S es simétrica. Por lo tanto, el problema es minimizar la expresión (9.14) con la restricción (5.21): L = a0 1S2 a1 − λ(a1Sa1 − 1)
  • 177. 5.8. LECTURAS COMPLEMENTARIAS 177 ∂L ∂a = 2S2 a−λ2Sa = 0 S2 a = λSa de donde incluimos que a debe de ser un vector propio de S y λ un valor propio, ya que si: Sa = λa multiplicando por S S2 a = λSa Con lo que Þnaliza la demostración. Es interesante resaltar que este resultado es simple- mente la implicación estadística de la propiedad que tienen los vectores y raíces característicos de ”generar” la matriz de base.
  • 178. 178 CAPÍTULO 5. COMPONENTES PRINCIPALES
  • 179. Capítulo 6 ESCALADO MULTIDIMENSIONAL 6.1 INTRODUCCIÓN Las técnicas de escalado multidimensional son una generalización de la idea de componentes principales cuando en lugar de disponer de una matriz de observaciones por variables, como en componentes principales, se dispone de una matriz, D, cuadrada n × n de distancias o disimilaridades entre los n elementos de un conjunto. Por ejemplo, esta matriz puede representar las similitudes o distancias entre n productos fabricados por una empresa, las distancias percibidas entre n candidatos políticos, las diferencias entre n preguntas de un cuestionario o las distancias o similitudes entre n sectores industriales. Estas distancias pueden haberse obtenido a partir de ciertas variables, o pueden ser el resultado de una estimación directa, por ejemplo preguntando a un grupo de jueces por sus opiniones sobre las similaridades entre los elementos considerados. El objetivo que se pretende es representar esta matriz mediante un conjunto de variables ortogonales y1, . . . , yp, donde p < n , de manera que las distancias euclídeas entre las coor- denadas de los elementos respecto a estas variables sean iguales (o lo más próximas posibles) a las distancias o disimilaridades de la matriz original. Es decir, a partir de la matriz D se pretende obtener una matriz X, de dimensiones n × p, que pueda interpretarse como la matriz de p variables en los n individuos, y donde la distancia euclídea entre los elementos reproduzca, aproximadamente, la matriz de distancias D inicial. Cuando p > 2, las vari- ables pueden ordenarse en importancia y suelen hacerse representaciones gráÞcas en dos y tres dimensiones para entender la estructura existente. Este planteamiento presenta dos interrogantes: ¿Es siempre posible encontrar estas vari- ables? ¿Cómo construirlas? En general no es posible encontrar p variables que reproduzcan exactamente las distancias iniciales, sin embargo es frecuente encontrar variables que repro- duzcan aproximadamente las distancia iniciales. Por otro lado, si la matriz de distancias se ha generado calculando las distancias euclídeas entre las observaciones deÞnidas por ciertas variables, recupereraremos las componentes principales de estas variables. El escalado multidimensional comparte con componentes principales el objetivo de de- scribir e interpretar los datos. Si existen muchos elementos, la matriz de similaridades será muy grande y la representación por unas pocas variables de los elementos nos permitirá entender su estructura: qué elementos tienen propiedades similares, si aparecen grupos entre 179
  • 180. 180 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL los elementos, si hay elementos atípicos, etc. Además, si podemos interpretar las variables aumentará nuestro conocimiento del problema, al entender cómo se han generado los datos. Por ejemplo, supongamos que se realiza una encuesta para determinar que similitudes en- cuentran los consumidores entre n productos o servicios, y que la información se resume en una matriz cuadrada de similitudes entre los productos. Supongamos que descubrimos que estas similitudes pueden generarse por dos variables. Entonces, es razonable suponer que los consumidores han estimado la similitud entre los productos utilizando estas dos variables. El escalado multidimensional representa un enfoque complementario a componentes prin- cipales en el sentido siguiente. Componentes principales considera la matriz p×p de correla- ciones (o covarianzas) entre variables, e investiga su estructura. El escalado multidimensional considera la matriz n × n de correlaciones (o covarianzas) entre individuos, e investiga su estructura. Ambos enfoques están claramente relacionados, y existen técnicas gráÞcas, como el biplot que estudiaremos en este capítulo, que aprovechan esta dualidad para representar conjuntamente las variables y los individuos en un mismo gráÞco. El escalado multidimensional (Multidimensional Scaling) tiene sus orígenes en los estu- dios de psicología experimental, en los años 50, para descubrir la similaridad entre estímulos aplicados a distintos individuos. Su desarrollo actual es debido a las investigaciones de Torg- erson, Shepard, Kruskal y Gower, entre otros, y se han aplicado, preferentemente, en las ciencias sociales. Los métodos existentes se dividen en métricos, cuando la matriz inicial es propiamente de distancias, y no métricos, cuando la matriz es de similaridades. Los métodos métricos, también llamados coordenadas principales, utilizan las diferencias entre similitudes mientras que los no métricos parten de que si A es más similar a B que a C, entonces A esta más cerca de B que de C, pero las diferencias entre las similitudes AB y AC no tienen interpretación. 6.2 ESCALADOS MÉTRICOS: COORDENADAS PRIN- CIPALES 6.2.1 Construcción de variables a partir de las distancias Vimos en el Capítulo 3 que dada una matriz X de individuos por variables obtenemos variables con media cero mediante la operación: eX = (I − 1 n 110 )X = PX A partir de esta matriz eX, de variables con media cero y dimensiones n×p, podemos construir dos tipos de matrices cuadradas y semideÞnidas positivas: la matriz de covarianzas, S, deÞnida por eX0 eX/n y la matriz de productos cruzados, Q = eXeX0 , que vamos a ver que puede interpretarse como una matriz de similitud (covarianzas) entre los n elementos. En efecto, los términos de esta matriz, qij, contienen el producto escalar por pares de elementos:
  • 181. 6.2. ESCALADOS MÉTRICOS: COORDENADAS PRINCIPALES 181 qij = p X s=1 xisxjs = x0 ixj, (6.1) donde hemos llamado x0 i a la Þla i de la matriz eX. Por la expresión del producto escalar, qij = |xi| |xj| cos θij, si los dos elementos tienen coordenadas similares, cos θij ' 1 y qij será grande. Por el contrario, si los dos elementos son muy distintos, cos θij ' 0 y qij será pequeño. En este sentido podemos interpretar la matriz eX eX0 como la matriz de similitud entre elementos. Las distancias entre las observaciones se deducen inmediatamente de esta matriz de simil- itud. La distancia euclídea al cuadrado entre dos elementos es: d2 ij = p X s=1 (xis − xjs)2 = p X s=1 x2 is + p X s=1 x2 js − 2 p X s=1 xisxjs (6.2) que puede calcularse en función de los términos de la matriz Q, por la expresión d2 ij = qii + qjj − 2qij. (6.3) Por tanto, dada la matriz eX podemos construir la matriz de similitud Q = eX eX0 y, a partir de ella, la matriz D de distancias al cuadrado entre elementos con ayuda de (6.3). Llamando diag(Q) al vector que contiene los términos diagonales de la matriz Q, y 1 al vector de unos, la matriz D viene dada por D =diag(Q)10 + 1diag(Q)0 − 2Q El problema que vamos a abordar es el inverso: reconstruir la matriz eX a partir de una matriz de distancias al cuadrado, D, con elementos d2 ij. Para ello, obtendremos primero la matriz Q, y a continuación la eX. Comencemos estudiando cómo obtener la matriz Q dada la matriz D. En primer lugar, observemos que no hay pérdida de generalidad en suponer que las variables tienen media cero. Esto es consecuencia de que las distancias entre dos puntos, d2 ij no varían si expresamos las variables en desviaciones a la media, ya que d2 ij = p X s=1 (xis − xjs)2 = p X s=1 [(xis − xs) − (xjs − xs)]2 . (6.4) Dado que estamos suponiendo que la única información existente son las distancias entre elementos, para resolver esta indeterminación vamos a buscar una matriz eX con variables de media cero. En consecuencia, como eX0 1 = 0 también Q1 = 0, es decir, la suma de todos los elementos de una Þla de la matriz de similitudes, Q, (y de una columna ya que la matriz es simétrica) debe de ser cero. Para imponer estas restricciones, sumemos en (6.3) por Þlas:
  • 182. 182 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL nX i=1 d2 ij = nX i=1 qii + nqjj = t + nqjj (6.5) donde t = Pn i=1 qii = traza (Q), y hemos utilizado que la condición Q1 = 0 implicaPn i=1 qij = 0. Sumando (6.3) por columnas nX j=1 d2 ij = t + nqii (6.6) y sumando ahora (6.5) por Þlas de nuevo nX i=1 nX j=1 d2 ij = 2nt. (6.7) Sustituyendo en (6.3) qjj obtenida en (6.5) y qii en (6.6), tenemos que d2 ij = 1 n nX i=1 d2 ij − t n + 1 n nX j=1 d2 ij − t n − 2qij, (6.8) y llamando d2 i. = 1 n Pn j=1 d2 ij y d2 .j = 1 n Pn i=1 d2 ij, a las medias por Þlas y por columnas y utilizando (6.7), tenemos que d2 ij = d2 i. + d2 .j − d2 .. − 2qij. (6.9) donde d2 .. es la media de todos los elementos de D, dada por d2 .. = 1 n2 X X d2 ij, Finalmente, de (6.9) resulta que qij = − 1 2 (d2 ij − d2 i. − d2 .j + d2 ..) (6.10) expresión que indica cómo construir la matriz de similitud Q a partir de la matriz D de distancias. Pasemos ahora al problema de obtener la matriz X dada la matriz Q. Suponiendo que la matriz de similitud es deÞnida positiva de rango p, puede representarse por Q = VΛV0
  • 183. 6.3. MATRICES COMPATIBLES CON MÉTRICAS EUCLÍDEAS 183 donde V es n×p y contiene los vectores propios correspondientes a valores propios no nulos de Q, Λ es diagonal p × p y contiene los valores propios y V0 es p × n. Escribiendo: Q = (VΛ1/2 )(Λ1/2 V0 ) (6.11) y tomando Y = VΛ1/2 hemos obtenido una matriz n × p con p variables incorreladas que reproducen la métrica inicial. Observemos que si partimos de unas variables X y calculamos a partir de estas vari- ables la matriz de distancias con (6.2) y luego aplicamos el método descrito a esta matriz de distancias no obtendremos las variables originales, X, sino sus componentes principales. Esto es inevitable, ya que existe una indeterminación en el problema cuando la única información disponible son las distancias. En efecto, las distancias entre elementos no varían si: (1) modiÞcamos las medias de las variables (2) rotamos los puntos, es decir multiplicamos por una matriz ortogonal. Las distancias son función, por (6.3) de los términos de la matriz de similitud, Q, y esta matriz es invariante ante rotaciones de las variables. En efecto: Q = eX eX0 = eXAA0 eX0 para cualquier matriz A ortogonal. La matriz Q sólo contiene información sobre el espacio generado por las variables X. Cualquier rotación preserva las distancias. En consecuencia, cualquier rotación de las variables originales podría ser solución. 6.3 Matrices compatibles con métricas euclídeas Para poder calcular la raíz cuadrada de la matriz de similitud mediante (6.11) es necesario que los valores propios de la matriz Q, que construimos a partir de la matriz D original, sean no negativos. Dada una matriz de distancias, D, diremos que ésta matriz es compatible con una métrica euclídea si la matriz de similitud que se obtiene a partir de ella Q = − 1 2 PDP es semideÞnida positiva, donde P = I − 1 n 110 . Vamos a demostrar que esta condición es necesaria y suÞciente, es decir, si D se ha construido a partir de una métrica euclídea Q es no negativa y si Q es no negativa es posible encontrar una métrica euclídea que reproduzca D. Demostración
  • 184. 184 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL Demostraremos primero que si D se ha construido a partir de una métrica euclídea Q es no negativa. Para ello comprobaremos en primer lugar que la matriz −1 2 PDP tiene los términos (6.10). En efecto, los términos de la matriz Q serán Q = − 1 2 (I − 1 n 110 )D(I − 1 n 110 ) = − 1 2 (D − 1 n 110 D − 1 n D110 + 1 n2 110 D110 ) (6.12) y llamando qij a los elementos de Q: qij = − 1 2 (d2 ij − d2 i. − d2 .j + d2 ..). (6.13) Vamos a comprobar ahora que Q puede expresarse como eXeX0 y por tanto es semideÞni- da positiva. Como ahora, por hipótesis, los términos d2 ij son los cuadrados de distancias euclídeas, por (6.2), podemos escribir d2 .j = 1 n X i X s x2 is + X s x2 js − 2 n X i X s xisxjs d2 i. = X s x2 is + 1 n X j X s x2 js − 2 n X j X s xisxjs d2 .. = − 1 n X i X s x2 is + 1 n X j X s x2 js − 1 n2 X i X j X s xisxjs. Como 1 n X s ( X i xis)xjs = X s xsxjs (6.14) 1 n2 X s ( X i xis)( X j xjs) = X s x2 s (6.15) se veriÞca que qij = X p xpixpj − X p xpxpj − X p xpxpi + X p x2 p = (xi − x)0 (xj − x) (6.16) y, por tanto, en general
  • 185. 6.3. MATRICES COMPATIBLES CON MÉTRICAS EUCLÍDEAS 185 Q =    (x1 − x)0 ... (xn − x)0    [(x1 − x) . . . (xn − x)] = ˜X˜X 0 , (6.17) que es siempre semideÞnida positiva, de rango p. Vamos a demostrar ahora que si Q es semideÞnida positiva podemos encontrar ciertas variables, y1, . . . , yp, que reproduzcan las distancias observadas. Si Q es semideÞnida positiva de rango p podemos expresarla como: Q = p X λiviv0 i donde λi son sus valores propios y vi los vectores propios. Llamando yi = √ λivi a la estandarización de los vectores propios para que tengan varianza unidad, podemos escribir Q = X yiy0 i (6.18) Las variables yi representan la solución buscada: son un conjunto de p variables n- dimensionales incorreladas entre sí y tales que el cuadrado de la distancia euclídea que inducen entre dos puntos es: δ2 ij = (zi − zj)0 (zi − zj) (6.19) donde z0 i = (yi1, . . . , yip) es igual a las distancias originales observadas d2 ij. Para demostrar- lo observemos que (6.18) implica que la matriz cuadrada de similitud Q puede también escribirse: Q = [y1, . . . , yp]    y0 1 ... y0 p    =    z0 1 ... z0 n    [z1, . . . , zn] donde estamos llamando y a las p variables n-dimensionales y z al vector de dimensión p formado por los valores de estas variables en un individuo de la población. Entonces: qij = z0 izj (6.20) La distancia al cuadrado entre dos puntos es, por (6.19) δ2 ij = z0 izi + z0 jzj − 2z0 izj
  • 186. 186 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL y, por (6.20) δ2 ij = qii + qjj − 2qij, y como esta expresión es idéntica a (6.3), concluimos que: δ2 ij = d2 ij y las nuevas variables reproducen exactamente las distancias euclídeas. 6.3.1 Construcción de las Coordenadas Principales En general la matriz de distancias no será compatible con una métrica euclídea, pero es frecuente que la matriz de similitud obtenida a partir de ella tenga p valores propios positivos y más grandes que el resto. Si los restantes n−p valores propios no nulos son mucho menores que los demás, podemos obtener una representación aproximada de los puntos utilizando los p vectores propios asociados a valores propios positivos de la matriz de similitud. En este caso, las representaciones gráÞcas conservarán sólo aproximadamente la distancia entre los puntos. Supongamos que tenemos una matriz de distancias al cuadrado D. El procedimiento para obtener las coordenadas principales es: 1. Construir la matriz Q = −1 2 PDP, de productos cruzados. 2. Obtener los valores propios de Q. Tomar los r mayores valores propios, donde r se escoge de manera que los restantes n − r valores propios sean próximos a cero. Observemos que como P1 = 0, donde 1 es un vector de unos, la matriz Q tiene rango máximo n − 1 y siempre tendrá el vector propio 1 unido al valor propio cero. 3. Obtener las coordenadas de los puntos en las variables mediante vi √ λi, donde λi es un valor propio de Q y vi su vector propio asociado. Esto implica aproximar Q por Q ≈(VrΛ1/2 r )(Λ1/2 r V0 r) y tomar como coordenadas de los puntos las variables Yr = VrΛ1/2 r . El método puede también aplicarse si la información de partida es directamente la matriz de similitud entre elementos. Diremos que se ha deÞnido una función de similitud entre elementos si existe una función, sij, con las propiedades siguientes: (1) sii = 1, (2) 0 ≤ sij ≤ 1, (3) sij = sji.
  • 187. 6.3. MATRICES COMPATIBLES CON MÉTRICAS EUCLÍDEAS 187 La similaridad es pues una función no negativa y simétrica. Si la matriz de partida, Q, es una matriz de similitud, entonces qii = 1, qij = qji y 0 ≤ qij ≤ 1. La matriz de distancias asociadas será, por (6.3), d2 ij = qii + qjj − 2qij = 2(1 − qij) y puede comprobarse que p 2(1 − qij) es una distancia y veriÞca la desigualdad triangular al corresponder a la distancia euclídea para cierta conÞguración de puntos. Pueden obtenerse medidas de la precisión conseguida mediante la aproximación a partir de los p valores propios positivos de la matriz de similitud. Mardia ha propuesto el coeÞciente: m1,p = 100 × Pp λi Pp 1 |λi| Ejemplo 6.1 Las distancias en kilométros por carretera entre las ciudades españolas sigu- ientes se encuentran en el cuadro adjunto, que llamaremos matriz M, donde las ciudades se han representado por las letras siguientes: M es Madrid, B Barcelona, V Valencia, S Sevilla, SS San Sebastián y LC La Coruña. M B V S SS LC M 0 627 351 550 488 603 B 627 0 361 1043 565 1113 V 351 361 0 567 564 954 S 550 1043 567 0 971 950 SS 488 565 564 971 0 713 LC 603 1113 954 950 713 0 Llamando D a esta matriz de distancias, la matriz de similitud es Q = −.5PDP y dividiendo cada término por 10,000 se obtiene la matriz: 0.1176 -0.3908 -0.1795 0.3856 -0.3180 0.3852 -0.3908 3.0321 1.2421 -2.0839 0.7338 -2.5333 -0.1795 1.2421 0.7553 0.6095 -0.3989 -2.0285 0.3856 -2.0839 0.6095 3.6786 -2.0610 -0.5288 -0.3180 0.7338 -0.3989 -2.0610 1.6277 0.4165 0.3852 -2.5333 -2.0285 -0.5288 0.4165 4.2889 que tiene los siguientes vectores propios, por columnas: -0.0960 -0.0443 -0.2569 0.1496 0.8566 0.4082 0.6270 0.1400 -0.4155 -0.4717 -0.1593 0.4082 0.2832 -0.2584 -0.0094 0.7670 -0.3130 0.4082 -0.2934 -0.7216 0.2205 -0.4017 -0.1285 0.4082 0.1241 0.4417 0.7812 -0.0687 0.0885 0.4082 -0.6449 0.4426 -0.3198 0.0255 -0.3443 0.4082 ligados a los siguientes valores propios: 7.3792 5.9106 0.5947 -0.3945 0.0104 0.0000 La matriz Q tiene dos valores propios grandes y los otros tres son muy pequeños. Además tenemos el autovalor cero ligado al vector propio unidad. Esto sugiere que las distancias
  • 188. 188 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL pueden explicarse aproximadamente mediante dos variables. Tomando los dos vectores pro- pios asociados a los mayores valores propios, y estandarizándoles por la raíz de su valor propio, resultan las siguientes coordenadas para cada ciudad Madrid -82.44 -34.05 Barcelona 538.61 107.67 Valencia 243.29 -198.62 Sevilla -252.04 -554.79 San Sebastián 106.60 339.55 La Coruña -554.02 340.25 Si representamos estas coordenadas se obtiene la Þgura 6.1. Se observa que las coorde- nadas de las ciudades reproducen, con cierta aproximación, el mapa de España. Figura 6.1: Representación de las coordenadas principales de seis ciudades españolas El grado de bondad de esta representación puede medirse por el coeÞciente m = 100 7.3792 + 5.9106 7.3792 + 5.9106 + 0.5947 + 0.3945 + 0.0104 = 93% y vemos que la representacion en dos dimensiones es muy adecuada para estos datos. Ejemplo 6.2 La matriz adjunta indica las similitudes encontradas por un grupo de consum- idores entre 7 productos de consumo. A B C D E F G A 0 7 5 9 5 7 9 B 7 0 4 6 4 6 7 C 5 4 0 3 4 5 6 D 9 6 3 0 3 2 2 E 5 4 4 3 0 5 4 F 7 6 5 2 5 0 4 G 9 7 6 2 4 4 0
  • 189. 6.4. RELACIÓN ENTRE COORDENADAS Y COMPONENTES PRINCIPALES 189 Aplicando la transformacion a la matriz Q, los valores propios son 6.24, 3.37, 2.44, 2.04, 1.25, -.06, 0. La representacion de los productos correspondiente a los dos vectores principales se presenta en el Þgura 6.2. El grado de ajuste de esta representación es m = 100 9.61 15.4 = 62.4% -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 A B C D E F G Figura 6.2: Representación de los productos en el plano de las dos primeras coordenadas principales. Podemos concluir que los consumidores parecen utilizar dos dimensiones de valoración que explican el 62.4% de la variabilidad, aunque existen otras dimensiones que se tienen en cuenta con menor peso. 6.4 RELACIÓN ENTRE COORDENADAS Y COM- PONENTES PRINCIPALES Cuando los datos originales forman una matriz eX de individuos por variables y construimos la matriz D de distancias utilizando las distancias euclídeas entre los puntos a partir de dichas variables originales, las coordenadas principales obtenidas de la matriz D son equivalentes a los componentes principales de las variables. En efecto, con variables de media cero los componentes principales son los autovectores de 1 n eX0 eX, mientras que, como hemos visto en la sección 6.3 (ecuación 6.18), las coordenadas principales son los vectores propios estandarizados por √ λi de los autovalores de Q = eX eX0 . Vamos a comprobar que eX0 eX y eXeX0 tienen el mismo rango y los mismos autovalores no nulos. Si ai es un autovector de X0 eX con autovalor λi, eX0 eXai = λiai (6.21)
  • 190. 190 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL y multiplicando por eX ambos miembros, eX eX0 eXai = λi eXai (6.22) es decir, eXai es un autovector de eXeX0 con el mismo valor propio λi. Si n > p y la matriz eX0 eX tiene rango completo tendrá p autovalores no nulos que será los autovalores no nulos de eXeX0 . Los vectores propios de eX eX0 son las proyecciones de la matriz eX sobre la dirección de los vectores propios de eX0 eX. Por otro lado, la matriz n×p que proporciona los valores de los p componentes principales en los n individuos es: Z = eXA (6.23) donde Z es n × p y tiene por columnas los componentes principales y A es p × p y contiene en columnas los vectores propios de eX0 eX. La matriz n × p de coordenadas principales viene dada por: Y = [v1, . . . , vp]    √ λ1 ... p λp    = VL (6.24) donde vi es un vector propio de eXeX0 , la matriz V es n × p y contiene los p autovectores no nulos de eX0 eX, y L es p × p y diagonal. Como V = eX, es claro que, aparte de un factor de escala, ambos procedimientos conducen al mismo resultado. El análisis en coordenadas principales o escalado multidimensional, está muy relacionado con componentes principales. En ambos casos tratamos de reducir la dimensionalidad de los datos. En componentes partimos de la matriz eX0 eX, obtenemos sus valores propios, y luego proyectamos las variables sobre estas direcciones para obtener los valores de los componentes, que son idénticas a las coordenadas principales, que se obtienen directamente como vectores propios de la matriz eXeX0 . Si la matriz de similaridades proviene de una métrica euclídea ambos métodos conducirán al mismo resultado. Sin embargo, el concepto de coordenadas principales o escalado multidimensional puede aplicarse a una gama más amplia de problemas que componentes, ya que las coordenadas principales pueden obtenerse siempre, aunque las distancias de partida no hayan sido exactamente generadas a partir de variables, como veremos en el caso de escalado no métrico. 6.5 BIPLOTS Se conocen como biplots a las representaciones gráÞcas conjuntas en un plano de las Þlas y de las columnas de una matriz. En el caso de una matriz de datos, el biplot es un gráÞco conjunto de las observaciones y las variables. La representación se obtiene a partir de la
  • 191. 6.5. BIPLOTS 191 descomposición en valores singulares de una matriz (veáse la sección 2.4.2). Una matriz X de dimensiones n × p puede siempre descomponerse como X = VD1/2 A0 o gráÞcamente         x11 . x1p . . . . . . . . . . . . xn1 . xnp         =         v11 . v1p . . . . . . . . . . . . vnp . vnp           λ1/2 . 0 0 . 0 0 . λ1/2     a11 . a1p . . . ap1 . app   donde V es n × p y contiene en columnas los vectores propios asociados a valores propios no nulos de la matriz XX0 , D es una matriz diagonal de orden p que contiene las raices cuadradas de los valores propios no nulos de XX0 o X0 X y A0 es una matriz ortogonal de orden p y contiene por Þlas los vectores propios de X0 X. Las matrices de vectores propios veriÞcan V0 V = I, A0 A = I. La descomposición en valores singulares tiene gran importancia práctica porque, como se demuestró en el apéndice 5.2, la mejor aproximación de rango r < p a la matriz X se obtiene tomando los r mayores valores propios de X0 X y los correspondientes vectores propios de XX0 y X0 X y construyendo bX= VrD1/2 r A0 r donde Vr es n×r y contiene las primeras r columnas de V correspondientes a los r mayores valores propios de XX0 , D 1/2 r es diagonal de orden r y contiene estos r valores propios y A0 r es r × p y contiene las r primeras Þlas de A0 que corresponden a los r vectores propios de X0 X ligados a los r mayores valores propios. La representación biplot de una matriz X consiste en aproximarla mediante la descom- posición en valores singulares de rango dos, tomando r = 2 : X ≈ V2D1/2 2 A0 2 = (V2D1/2−c/2 2 )(Dc/2 2 A0 2) = FC donde V2 es n×2, D 1/2 2 es diagonal de orden 2 y A0 2 es 2×p . Tomando 0 ≤ c ≤ 1 se obtienen distintas descomposiciones de la matriz X en dos matrices. La primera, F representa las n Þlas de la matriz X en un espacio de dos dimensiones y la segunda, C, representa en el mismo espacio las columnas de la matriz. Según el valor de c se obtienen distintos biplots. Los más utilizados son para c = 0, 0, 5, y 1. Vamos a interpretar el biplot cuando c = 1, que es el caso más interesante. Entonces representaremos las observaciones, Þlas de X, por las Þlas de la matriz V2, y las variables, columnas de X, por las columnas de la matriz D 1/2 2 A0 2. Para distinguir ambas representa- ciones las observaciones se dibujan como puntos y las variables como vectores en el plano. Se veriÞca que:
  • 192. 192 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL (1) La representación de las observaciones como puntos en un plano mediante las Þlas de V2, equivale a proyectar las observaciones sobre el plano de las dos componentes principales estandarizadas para que tengan varianza unidad. (2) Las distancias euclídeas entre los puntos en el plano equivale, aproximadamente, a las distancias de Mahalanobis entre las observaciones originales. (3) La representación de las variables mediante vectores de dos coordenadas es tal que el ángulo entre los vectores equivale, aproximadamente, a la correlación entre las variables. Para demostrar estas propiedades utilizaremos la relación entre los componentes y los vectores propios de XX0 . Las coordenadas de los componentes principales son Z = XA, y, como hemos visto en la sección anterior, los vectores que forman las columnas de Z son vectores propios sin normalizar de XX0 . En efecto, los vectores propios de X0 X veriÞcan X0 Xai = λiai y multiplicando por X tenemos que XX0 (Xai) = λi(Xai) por tanto, zi = Xai es un vector propio de la matriz XX0 , pero no esta normalizado a norma unidad. El vector propio normalizado será vi = 1 √ λi zi. Generalizando, la matriz de vectores propios de XX0 normalizados a norma unidad será V = [v1, ..., vp] = · 1 √ λi z1, ..., 1 √ λi zp ¸ = ZD−1/2 y es inmediato que con esta normalización V0 V = D−1/2 Z 0 ZD−1/2 = D−1/2 DD−1/2 =I. Por tanto si representamos los puntos por V2 tenemos las proyecciones estandarizadas a varianza uno de las observaciones sobre los dos primeros componentes. Vamos a comprobar la segunda propiedad. Una observación se representa por los compo- nentes principales por x0 iA, y si estandarizamos los componentes a varianza uno x0 iAD−1/2 . Las distancias euclídeas al cuadrado entre dos observaciones en términos de sus coordenadas en los componentes estandarizados serán: ° ° °x0 iAD−1/2 −x 0 jAD−1/2 ° ° ° 2 = (xi − xj)0 AD−1 A 0 (xi − xj)0 y como S = ADA0 entonces S−1 = AD−1 A 0 y obtenemos la distancia de Mahalanobis entre las observaciones originales. Si en lugar de tomar los p componentes tomamos sólo los dos más importantes esta relación será aproximada y no exacta. Comprobaremos por último que si representamos las variables como vectores con co- ordenadas D 1/2 2 A0 2 = C los ángulos entre los vectores representan, aproximadamente, la correlación entre las variables. Para ello escribiremos S ' A2D2A0 2 = CC´=   c0 1 ... c0 p   £ c1 ... cp ¤
  • 193. 6.6. ESCALADO NO MÉTRICO 193 donde c1 es un vector 2 × 1 correspondiente a la primera columna de la matriz C. De esta expresión es inmediato que c0 ici = s2 i y c0 icj = sij y Þnalmente rij = c0 icj kcik kcjk = cos(cicj) Por tanto, aproximadamente el ángulo entre estos vectores es el coeÞciente de correlación entre las variables. La precisión de la representación del biplot depende de la importancia de los dos primeros valores propios respecto al total. Si (λ1 + λ2)/tr(S) es próximo a uno la representación será muy buena. Si este valor es pequeño el biplot no proporciona una representación Þable de los datos. Ejemplo 6.3 Vamos a utilizar la base de datos de MUNDODES (tabla A.6 del Anéxo), cuyos componentes principales se obtuvieron en el capítulo anterior (véae el ejemplo ***). Esta matriz de datos está constituida por 91 países en los que se han observado 9 variables: X1: ratio de natalidad, X2: ratio de mortalidad, X3: mortalidad infantil, X4: esperanza de vida en hombres X5: esperanza de vida de mujeres y X6: PNB per capita. La Þgura 6.3 es un biplot donde se han representado conjuntamente las observaciones por su proyección estandarizada en el plano de los dos componentes principales. El lector debe observar que ahora la variabilidad en ambos componentes es la misma como consecuencia de la estandarización, lo que no ocurría en los gráÞcos anteriores donde las escalas eran muy diferentes. Se han representado también las variables como vectores de manera que el ángulo entre las variables sea aproximadamente igual a sus correlaciones. En el biplot se observa una separación de los países en dos grupos y, por otro lado, una división de las variables en tres grupos: en el primero están las tasas de mortalidad infantil y natalidad que están muy correladas entre sí, por otro la tasa de mortalidad, que tiene baja correlación con el resto de variables, y por otro la renta y las esperanzas de vida de hombres y mujeres que están muy correladas con la renta. En el gráÞco 6.4 se muestra la misma representación conjunta que en la Þguras 6.3 en el caso de realizar el análisis normado de componentes principales en las variables originales. Se aprecia una relación no lineal entre las dos primeras componentes. 6.6 ESCALADO NO MÉTRICO En los problemas de escalado no métrico se parte de una matriz de diferencias o disimili- tudes entre objetos que se ha obtenido generalmente por consultas a jueces, o a partir de
  • 194. 194 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL Comp. 1 Comp.2 -0.3 -0.2 -0.1 0.0 0.1 0.2 -0.3-0.2-0.10.00.10.2 Albania BulgariaCzechoslovaki Hungary PolandRomania USSR Byelorussian_SSR Ukrainian_SSR Argentina Bolivia Brazil Chile Columbia EcuadorGuyana Paraguay Peru Uruguay Venezuela Mexico BelgiumFinland Denmark France Germany Greece Ireland Italy Netherlands Norway Portugal Spain Sweden Switzerland U.K. Austria Japan CanadaU.S.A. Afghanistan Bahrain Iran Iraq Israel Jordan Kuwait Oman Saudi_Arabia Turkey United_Arab_Emirates Bangladesh China Hong_KongIndia Indonesia Malaysia Mongolia Nepal PakistanPhilippines Singapore Sri_Lanka Thailand Algeria Angola Botswana Congo Egypt Ethiopia Gabon Gambia Ghana Kenya Libya Malawi Morocco Mozambique Namibia Nigeria Sierra_Leone Somalia South_Africa Sudan Swaziland Tunisia Uganda Tanzania Zaire Zambia Zimbabwe -15 -10 -5 0 5 10 -15-10-50510 TasaNat. TasaMort MortInf EspHom EspMuj PNB Figura 6.3: Representación de observaciones y variables en el plano de las dos primeras componentes, variables en logaritmos. procedimientos de ordenación de los elementos. Por ejemplo, el escalado no métrico se ha aplicado para estudiar las semejanzas entre las actitudes, preferencias o percepciones de per- sonas sobre asuntos políticos o sociales o para evaluar preferencias respecto a productos y servicios en marketing y en calidad. Los valores de una tabla de similaridades o distancias se obtienen habitualmente por alguno de los procedimientos siguientes: 1. Estimación directa. Un juez, o un conjunto de jueces, estiman directamente las distancias entre los elementos. Una escala muy utilizada es la escala 0-100, de manera que la distancia o disimilaridad entre un elemento y sí mismo sea cero y la distancia entre dos elementos distintos reßeje la percepción de sus diferencias. Con n elementos esto requiere n(n − 1)/2 evaluaciones. 2. Estimación de rangos. Se selecciona un elemento y se pide al juez, o grupo de jueces, que ordene los n−1 restantes por mayor o menor proximidad al seleccionado. A continuación se selecciona el siguiente y se ordenan los n − 2 restantes, y así sucesivamente. Existen algoritmos de cálculo que transforman estas ordenaciones en una matriz de distancias (véase Green y Rao, 1972). 3. Rangos por pares. Se presentan al juez los n(n − 1)/2 pares posibles y se le pide que los ordene de mayor a menor distancia. Por ejemplo, con cuatro objetos supongamos que se obtienen los resultados en orden de distancia: (3,4), (2,3), (2,4), (1,4), (1,2) y (1,3). Entonces, los más próximos son los objetos 3 y 4, y a esta pareja se le asigna el rango 1.
  • 195. 6.6. ESCALADO NO MÉTRICO 195 Comp. 1 Comp.2 -0.2 -0.1 0.0 0.1 0.2 0.3 -0.2-0.10.00.10.20.3 Albania BulgariaCzechoslovaki Hungary Poland Romania USSR Byelorussian_SSR Ukrainian_SSR Argentina Bolivia Brazil ChileColumbia EcuadorGuyana Paraguay Peru Uruguay Venezuela Mexico Belgium FinlandDenmark France Germany Greece Ireland Italy Netherlands Norway PortugalSpain Sweden Switzerland U.K. Austria Japan Canada U.S.A. Afghanistan Bahrain Iran Iraq Israel Jordan Kuwait Oman Saudi_Arabia Turkey United_Arab_EmiratesBangladesh China Hong_Kong India Indonesia Malaysia Mongolia Nepal Pakistan Philippines Singapore Sri_Lanka ThailandAlgeria Angola Botswana Congo Egypt Ethiopia Gabon Gambia Ghana Kenya Libya Malawi Morocco Mozambique Namibia Nigeria Sierra_Leone Somalia South_Africa Sudan Swaziland Tunisia Uganda Tanzania Zaire Zambia Zimbabwe -5 0 5 10 -50510 TasaNat. TasaMort MortInf EspHomEspMuj PNB Figura 6.4: Representación de observaciones y variables en el plano de las dos primeras componentes, variables originales. A la pareja siguiente, (2,3), se le asigna rango dos y así sucesivamente hasta la pareja de los elementos más alejados, el 1 y el 3, que reciben rango n(n − 1)/2, que es 6 en este caso. A continuación se calcula un rango medio para cada objeto, promediando los rangos de los pares donde aparece. Por ejemplo, el objeto 1 aparece en pares que tienen rango 4, 5 y 6, con lo que el rango del objeto 1 es : rango(1) = 4 + 5 + 6 3 = 5. Igualmente obtenemos que rango(2)= (2 + 3 + 5)/2 = 3, 3; rango(3)= (1 + 2 + 6)/3 = 3 y rango(4) = (1 + 3 + 4)/3 = 2, 7. Las diferencias entre los rangos se toman ahora como medidas de distancia entre los objetos. Se supone que la matriz de similaridades está relacionada con un matriz de distancias, pero de una manera compleja. Es decir, se acepta que los jueces utilizan en las valoraciones ciertas variables o dimensiones, pero que, además, los datos incluyen elementos de error y variabilidad personal. Por tanto, las variables que explican las similitudes entre los elementos comparados determinarán una distancias euclídeas entre ellos, dij, que están relacionadas con las similitudes dadas, δij , mediante una función desconocida δij = f(dij)
  • 196. 196 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL donde la única condición que se impone es que f es una función monótona, es decir, si δij > δih ⇔ dij > dih . El objetivo que se pretende es encontrar unas coordenadas que sean capaces de reproducir estas distancias a partir únicamente de la condición de monotonía. Para ello hay que deÞnir: (1) Un criterio de bondad del ajuste que sea invariante ante transformaciones monótonas de los datos. (2) Un algoritmo para obtener las coordenadas, optimizando el criterio establecido. Estos problemas no tienen solución única y se han presentado muchos procedimientos alternativos. El más utilizado es minimizar las diferencias entre las distancias derivadas de las coordenadas principales, bdij , y las similitudes de partida δij , es decir minimizar P P (δij − bdij )2 para todos los términos de la matriz. Esta cantidad se estandariza para favorecer las comparaciones, con lo que se obtiene el criterio de ajuste denominado STRESS, dado por: S2 = P i<j(δij − bdij )2 P i<j δ2 ij (6.25) Un criterio alternativo es minimizar las distancias al cuadrado, con lo que se obtiene el criterio S-STRESS. Se han propuesto otros criterios que el lector puede consultar en Cox y Cox (1994). Las distancias bdij se determinarán encontrando p coordendas principales que se utilizan como variables implicitas yij, i = 1, ..., n, j = 1, ...p, que determinarán unas distancias euclídeas entre dos elementos: bd2 ij = p X s=1 (yis − yjs)2 (6.26) El método de cálculo es partir de la solución proporcionada por las coordenadas principales e iterar para mejorar esta solución minimizando el criterio (6.25). Normalmente se toma p = 2 para facilitar la representación gráÞca de los datos, pero el número de dimensiones necesario para una buena representación de los datos puede estimarse probando distintos valores de p y estudiando la evolución del criterio de forma similar a como se determina el número de componentes principales. Fijado p el problema es minimizar (6.25) donde las distancias se calculan por (6.26). Derivando respecto a los valores de las coordenadas en los individuos (véase apéndice 6.1) se obtiene un sistema de ecuaciones no lineales en las variables y cuya solución requiere un algoritmo de optimización no lineal. Suele tomarse como solución inicial la obtenida con las coordenadas principales. Remitimos al lector interesado en los detalles de los algoritmos a Cox y Cox (1994). Ejemplo 6.4 Utilizaremos la matriz de similitudes entre productos. Con el programa SPSS se obtiene la solución indicada en la Þgura 6.5. Los productos A, B, C, etc se han repre- sentado en el gráÞco como m1, m2, m3,... Como puede verse la solución es similar a la obtenida con coordenadas principales, pero no idéntica.
  • 197. 6.6. ESCALADO NO MÉTRICO 197 Configuración de estímulos derivada Modelo de distancia euclídea Dimensión 1 2.01.51.0.50.0-.5-1.0-1.5 Dimensión2 2.0 1.5 1.0 .5 0.0 -.5 -1.0 -1.5 m7 m6 m5 m4 m3 m2 m1 Figura 6.5: Representación de los productos con el escalado no métrico El valor del coeÞciente al Þnalizar la estimación no lineal es Stress = .14134 y la propor- ción de variabilidad explicada, RSQ = .87957. La Þgura 6.6 presenta la relación entre las distancias obtenidas y las observaciones. Se aprecia que la relación es monótona, aunque no lineal. Gráfico Transformación Modelo de distancia euclídea Observaciones 1086420 Distancias 3.5 3.0 2.5 2.0 1.5 1.0 .5 Figura 6.6: Relación entre las distancias originales y las calculadas por el escalado multidi- mensional
  • 198. 198 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL 6.7 Lecturas complementarias Los capítulos 11 y 12 de Jackson (1991) contienen ampliaciones sobre este tema y muchas referencias. El libro de Dillon y Goldstein (1984) presenta una introducción clara y simple del escalado multidimensional no métrico. Gnanadesikan (1997) presenta también una buena introducción al tema. Libros dedicados al escalado multidimensional son los de Schiffman et al (1981), Coxon (1982), Davidson (1983), Kruskal y Wish (1978), Green et al (1989) y Cox y Cox (1994). Young (1987) contiene muchos ejemplos de aplicación. Gower y Hand (1996) esta integramente dedicado a los biplots. EJERCICIOS Ejercicio 6.1 Si la distancia euclídea entre dos elementos se deÞne por d2 ij = (xi −xj)0 (xi − xj) demostrar que puede escribirse como d2 ij = qii + qjj − 2qij donde los qij son elementos de la matriz XX0 . Ejercicio 6.2 Demostrar que d2 ij = (xi −xj)0 (xi −xj) puede escribirse como d2 ij = qii +qjj − 2qij donde ahora los qij son elementos de la matriz XPX0 , siendo P la matriz proyección que elimina las medias deÞnida en 6.12 Ejercicio 6.3 Demostrar que si tenemos una solución Yr de coordenadas principales tam- bién es solución Zr = YrC + b, donde C es una matriz ortogonal y b cualquier vector. Ejercicio 6.4 Demostrar que si la matriz Q es semideÞnida positiva se veriÞca que qii + qjj − 2qij ≥ 0. (Ayuda: utilice que si Q es deÞnida positiva u0 Qu ≥ 0 para cualquier vector u y tome u = (0, ..., 1, −1, 0, ..., 0)0 ) Ejercicio 6.5 Demostrar que si Q es semideÞnida positiva las magnitudes d2 ij = qii+qjj−2qij veriÞcan las propiedades de una distancia. (Ayuda: para comprobar la propiedad triangular utilice que para tres puntos u0 Qu ≥ 0 con u = (1, −1, −1)0 implica q11 + q22 + q33 − 2q12 − 2q13 + 2q32 ≥ 0) Ejercicio 6.6 Demostrar que se veriÞca la relación Q = PQP. Ejercicio 6.7 Demostrar que la descomposición biplot puede escribirse como YrA0 r donde el primer término contiene las coordenadas principales y el segundo las componentes princi- pales. Apéndice 6.1Maximización del STRESS El procedimiento de optimización del criterio se obtiene derivando el STRESS respecto a cada término, yip, que nos indica como se modiÞca el criterio si modiÞcamos el valor de la variable p en el elemeto i, lo que conduce a las ecuaciones ∂S2 ∂yip = 2 nX j=1 (δij − bdij ) ∂ bdij ∂yip = 0 (6.27)
  • 199. 6.7. LECTURAS COMPLEMENTARIAS 199 El cambio en las distancias del punto i a todos los demás cuando cambiamos la coordenada p de este punto es, por (6.26): ∂ bdij ∂yip = (yip − yjp) bdij y sustituyendo en (6.27) tenemos que la ecuación a resolver es yip nX j=1 (δij − bdij ) bdij − nX j=1 (δij − bdij ) bdij yjp = 0. Si derivamos para los np valores de las coordenadas principales, el sistema de ecuaciones resultante puede escribirse conjuntamente como FX = 0 donde F es una matriz cuadrada y simétrica de orden n con coeÞcientes fij = − (δij − bdij ) bdij , i 6= j fii = nX j=1,j6=i fij, i = j
  • 200. 200 CAPÍTULO 6. ESCALADO MULTIDIMENSIONAL
  • 201. Capítulo 7 ANÁLISIS DE CORRESPONDENCIAS 7.1 INTRODUCCIÓN El análisis de correspondencias es una técnica descriptiva para representar tablas de contin- gencia, es decir, tablas donde recogemos las frecuencias de aparición de dos o más variables cualitativas en un conjunto de elementos. Constituye el equivalente de componentes princi- pales y coordenadas principales para variables cualitativas. La información de partida ahora es una matriz de dimensiones I × J, que representa las frecuencias absolutas observadas de dos variables cualitativas en n elementos. La primera variable se representa por Þlas, y suponemos que toma I valores posibles, y la segunda se representa por columnas, y toma J valores posibles. Por ejemplo, la tabla 7.1 presenta la clasiÞcación de n = 5387 escolares escoceses por el color de sus ojos, que tiene cuatro categorías posibles y I = 4, y el color de su cabello, que tiene cinco categorías posibles y J = 5. Esta tabla tiene interés histórico ya que fué utilizada por Fisher en 1940 para ilustrar un método de análisis de tablas de contingencia que está muy relacionado con el que aquí presentamos. En general, una tabla de contingencia es un conjunto de números positivos dispuestos en una matriz, donde el número en cada casilla representa la frecuencia absoluta observada para esa combinación de las dos variables. Una manera de llegar a una tabla de contingencia I×J es deÞnir I variables binarias para Color del pelo C. ojos rubio pelirrojo castaño oscuro negro total claros 688 116 584 188 4 1580 azules 326 38 241 110 3 718 castaños 343 84 909 412 26 1774 oscuros 98 48 403 618 85 1315 total 1455 286 2137 1391 118 5387 Tabla 7.1: Tabla de Contingencia del color de los ojos y el color del pelo de escolares escoceses. Recogida por Fisher en 1940 201
  • 202. 202 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS las categorías de las Þlas y J para las de las columnas y diponer estas variables en matrices Xa para las Þlas y Xb para las columnas. Por ejemplo, la matriz Xa para la variable color de los ojos contendrá 4 variables en columnas correspondientes a las 4 categorías consideradas para indicar el color de ojos, y en cada Þla sólo una columna tomará el valor uno, la que corresponda al color de ojos de la persona. La matriz tendrá 5387 Þlas correpondientes a las personas incluidas en la muestra. Por tanto, la matriz Xa de dimensiones 5387 × 4 será de la forma: Xa =       1 0 0 0 0 0 0 1 . . . . 0 0 0 1 0 1 0 0       donde hemos tamado las categorías para el color de ojos en el mismo orden que aparecen en las Þlas de la tabla 7.1. Por ejemplo, el primer dato corresponde a una persona de ojos claros, ya que tiene un uno en la primera columna. El segundo dato tiene un uno en la cuarta categoría, que corresponde a ojos oscuros. Finalmente, el último elemento de la matriz corresponde a una persona de ojos azules. De la misma forma, la matriz Xb tendrá dimensiones 5387 × 5 y las columnas indicarán el color del cabello de cada persona. Observemos que estas matrices X de variables binarias tienen tantas columnas como categorías y sus variables son linealmente dependientes, ya que siempre la suma de los valores de una Þla es uno, al ser las categorías excluyentes y exhaustivas. Al realizar el producto Xa´Xb sumaremos todas las personas que tienen cada par de características y se obtiene la tabla de contingencia. El análisis de correspondencias es un procedimiento para resumir la información contenida en una tabla de contingencia. Puede interpretarse de dos formas equivalentes. La primera, como una manera de representar las variables en un espacio de dimensión menor, de forma análoga a componentes principales, pero deÞniendo la distancia entre los puntos de manera coherente con la interpretación de los datos y en lugar de utilizar la distancia euclídea utilizamos la distancia ji-cuadrado. Desde este enfoque, el análisis de correspondencias es el equivalente de componentes principales para datos cualitativos. La segunda interpretación está más próxima al escalado multidimensional: es un procedimiento objetivo de asignar valores numéricos a variables cualitativas. Vamos a analizar estos dos aspectos. 7.2 BÚSQUEDA DE LA MEJOR PROYECCIÓN En adelante trabajaremos con la matriz F de frecuencias relativas obtenida dividiendo cada casilla por n, el total de elementos observados. Llamaremos fij a las frecuencias relativas que veriÞcan IX i=1 JX j=1 fij = 1 La matriz F puede considerarse por Þlas o por columnas. Cualquier análisis lógico de esta matriz debe de ser equivalente al aplicado a su transpuesta, ya que la elección de la variable
  • 203. 7.2. BÚSQUEDA DE LA MEJOR PROYECCIÓN 203 Sobre. Not. Aprob. Sus. Total Zona A 0,03 0,06 0,15 0,06 0,3 Zona B 0,07 0,14 0,35 0,14 0,7 Total 0,1 0,2 0,5 0,2 1 Tabla 7.2: ClasiÞcación de estudiantes por zona geográÞca y caliÞcación obtenida que se coloca en Þlas, en lugar de en columnas, es arbitraria, y no debe inßuir en el análisis. Vamos a presentar primero el análisis por Þlas de esta matriz, que será simétrico al análisis por columnas, que estudiaremos a continuación. 7.2.1 Proyección de las Filas Vamos a analizar la matriz de frecuencias relativas, F, por Þlas. Entonces las I Þlas pueden tomarse como I puntos en el espacio <J . Vamos a buscar una representación de estos I puntos en un espacio de dimensión menor que nos permita apreciar sus distancias relativas. El objetivo es el mismo que con componentes principales, pero ahora tendremos en cuenta las peculiaridades de este tipo de datos. Estas peculiaridades provienen de que la frecuencia relativa de cada Þla es distinta, lo que implica que: (1) Todos las Þlas (puntos en <J ) no tienen el mismo peso, ya que algunas continen más datos que otras. Al representar el conjunto de las Þlas (puntos) debemos dar más peso a aquellas Þlas que contienen más datos. (2) La distancia euclídea entre puntos no es una buena medida de su proximidad y debemos modiÞcar esta distancia, como veremos a continuación. Comenzando con el primer punto, cada Þla de la matriz F tiene una frecuencia relativa fi. = PJ j=1 fij, y el conjunto de estas frecuencias relativas se calcula con: f = F0 1 debemos dar a cada Þla un peso proporcional a su frecuencia relativa y los términos del vector f pueden directamente considerarse como pesos, ya que son números positivos que suman uno. Con relación a la medida de distancia a utilizar entre las Þlas, observemos que la dis- tancia euclídea no es una buena medida de las diferencias reales entre las estructuras de las Þlas. Por ejemplo, supongamos la tabla 7.2 donde se presentan las frecuencias relativas de estudiantes clasiÞcados por su procedencia geográÞca, (A ó B) y sus caliÞcaciones. Aunque las frecuencias relativas de las dos Þlas son muy distintas, las dos Þlas tienen exactamente la misma estructura relativa: simplemente, hay más del doble de estudiantes de la zona B que de la A, pero la distribución de caliÞcaciones es idéntica en ambas zonas. Si calculamos la distancia euclídea entre las zonas obtendremos un valor alto, que no reßeja una estructura distinta de las Þlas sino sólo que tienen distinta frecuencia relativa. Suponganos que dividi- mos cada casilla por la frecuencia relativa de la Þla, fi.. Con esto se obtiene la tabla 7.3 donde los números que aparecen en las Þlas representan la frecuencia relativa de la variable columna condicionada a la variable Þla. Ahora las dos Þlas son idénticas, y esto es coherente con una distancia euclídea cero entre ambas.
  • 204. 204 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS Sobre. Not. Aprob. Sus. Total Zona A 0,1 0,2 0,5 0,2 1 Zona B 0,1 0,2 0,5 0,2 1 Tabla 7.3: ClasiÞcación de estudiantes por zona geográÞca y caliÞcación obtenida Color del cabello C. ojos rubio pelirrojo castaño oscuro negro total claros 0.435 0.073 0.369 0.119 0.003 1 azules 0.454 0.053 0.336 0.153 0.004 1 castaños 0.193 0.047 0.512 0.232 0.015 1 oscuros 0.075 0.037 0.307 0.518 0.065 1 Tabla 7.4: Tabla de frecuencias relativas del color del cabello condicionada al color de los ojos para los escolares escoceses Para analizar que medida de distancia debemos utilizar, llamaremos R a la matriz de frecuencias relativas condicionadas al total de la Þla, que se obtiene con: R = Df −1 F (7.1) donde Df es una matriz diagonal I × I con los términos del vector f, fi., frecuencias rela- tivas de las Þlas, en la diagonal principal. Esta operación transforma la matriz original de frecuencias relativas, F, en otra matriz cuyas casillas por Þlas suman uno. Cada Þla de esta matriz representa la distribución de la variable en columnas condicionada al atributo que representa la Þla. Por ejemplo, la tabla 7.4 presenta las frecuencias relativas condicionadas para la tabla 7.1. En este caso I = 4 , J = 5. Esta tabla permite apreciar mejor la asociación entre las características estudiadas. Llamaremos r0 i a la Þla i de la matriz R de frecuencias relativas condicionadas por Þlas, que puede considerarse un punto (o un vector) en el espacio <J . Como la suma de los componentes de r0 i es uno, todos los puntos están en un espacio de dimensión J−1. Queremos proyectar estos puntos en un espacio de dimensión menor de manera que las Þlas que tengan la misma estructura estén próximas, y las que tengan una estructura muy diferente, alejadas. Para ello, debemos deÞnir una medida de distancia entre dos Þlas ra, rb. Una posibilidad es utilizar la distancia euclídea, pero esta distancia tiene el inconveniente de tratar igual a todos los componentes de estos vectores. Por ejemplo, en la tabla 7.1 las personas de cabello rubio tienen una diferencia en frecuencia relativa entre los ojos azules y claros de 0,454-0,435= 0,019, y las personas de cabello negro tienen un diferencia en frecuencia relativa entre los ojos castaños y azules de 0,015 - 0,004=0,011. Hay una diferencia mayor en el primer caso que en el segundo y, sin embargo, intuitivamente vemos que la segunda diferencia es mayor que la primera. La razón es que en el primer caso el cambio relativo es pequeño, del orden del 4% ( 0,019/0,454), mientras que en el segundo caso el cambio relativo es muy grande: las personas de cabello negro tienen ojos castaños casi cuatro veces más frecuentemente ( 0,015/0,004=3,75 veces) que ojos azules. Como los componentes representan frecuencias relativas, no parece adecuado que una diferencia de 0,01 se considere igual en un atributo
  • 205. 7.2. BÚSQUEDA DE LA MEJOR PROYECCIÓN 205 de alta frecuencia (por ejemplo, pasar de 0,60 a 0,61) que en un atributo de baja frecuencia (por ejemplo, pasar de 0,0001 a 0,0101). Para obtener comparaciones razonables entre estas frecuencias relativas tenemos que tener en cuenta la frecuencia relativa de aparición del atributo que estudiamos. En atributos raros, pequeñas diferencias absolutas pueden ser grandes diferencias relativas, mientras que en atributos con gran frecuencia, la misma diferencia será poco importante. Una manera intuitiva de construir las comparaciones es ponderar las diferencias en frecuencia relativa entre dos atributos inversamente proporcional a la frecuencia de este atributo. Es decir, en lugar de sumar los términos (raj − rbj)2 = (faj/fa. − fbj/fb.)2 que miden la diferencia que las Þlas a y b tienen en la columna j sumaremos los términos (raj −rbj)2 /f.j donde f.j. = PI i=1 fij es la frecuencia relativa de la columna j . La expresión de la distancia entre dos Þlas, ra y rb de R vendrá dada en esta métrica por D2 (ra, rb) = JX j=1 ( faj fa. − fbj fb. )2 1 f.j. = JX j=1 (raj − rbj)2 f.j. (7.2) que puede escribirse matricialmente como D2 (ra, rb) = (ra − rb)0 D−1 c (ra − rb) (7.3) donde Dc es una matriz diagonal con términos f.j.. A la distancia (7.2) ó (7.3) se la conoce como distancia χ2 , y se analizará con más detalle en la sección siguiente. Observemos que está distancia equivale a la distancia euclídea entre los vectores trans- formados yi = D −1/2 c ri. Podemos pues simpliÞcar el problema deÞniendo una matriz de datos transformada, sobre la que tiene sentido considerar la distancia euclídea entre Þlas. Llamando: Y = R Dc −1/2 = D−1 f F D−1/2 c (7.4) obtenemos una matriz Y que contiene términos del tipo yij = ( fij fi.f. 1/2 j ) (7.5) que ya no suman uno ni por Þlas ni por columnas. Las casillas de esta matriz representan las frecuencias relativas condicionadas por Þlas, fij/fi., pero estandarizadas por su variabilidad, que depende de la raíz cuadrada de la frecuencia relativa de la columna. De esta manera las casillas son directamente comparables entre sí. La tabla 7.5 indica esta matriz resultado de estandarizar las frecuencias relativas de la tabla 7.1 dividiendo cada casilla por la raíz cuadrada de la frecuencia relativa de la columna correspondiente, que se obtiene de la tabla 7.1. Por ejemplo, el primer elemento de la tabla 7.5 se obtiene como 0.435/ p (1455/5387) =
  • 206. 206 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS . 83 7 . 31 6 . 587 . 235 .015 . 873 . 228 . 536 . 301 .02 9 . 374 . 205 . 815 . 455 .09 5 . 14 7 . 161 . 484 1. 022 . 440 Tabla 7.5: Matriz estandarizada por Þla y por variabilidad del color de los ojos y el color del pelo de escolares 0.0114. En esta tabla la estructura de las columnas es similar a la de la tabla 7.1 de frecuencias relativas, ya que hemos dividido todas las casillas de cada columna por la misma cantidad. Podríamos tratar a esta matriz como una matriz de datos estándar, con observaciones en Þlas y variables en columnas, y preguntarnos como proyectarla de manera que se preserven las distancias relativas entre las Þlas, es decir, las Þlas con estructura similar aparezcan próximas en la proyección. Esto implica encontrar una dirección a de norma unidad, a0 a = 1 (7.6) tal que el vector de puntos proyectados sobre esta dirección, yp(a) = Y a (7.7) tenga variabilidad màxima. El vector a se encontrará maximizando yp(a)0 yp(a) = a0 Y0 Y a con la condición (7.6), y este problema se ha resuelto en el capítulo 5 al estudiar componentes principales: el vector a es un vector propio de la matriz Y0 Y. Sin embargo, este tratamiento de la matriz Y como una matriz de variables continuas no es del todo correcto porque las Þlas tienen una distinta frecuencia relativa, fi., y por tanto deben tener distinto peso. Aquellas Þlas con mayor frecuencia relativa deben de tener más peso en la representación que aquellas otras con frecuencia relativa muy baja, de manera que las Þlas con gran número de individuos estén bien representadas, aunque esto sea a costa de representar peor las Þlas con pocos elementos. En consecuencia, daremos a cada Þla un peso proporcional al número de datos que contiene. Esto puede hacerse maximizando la suma de cuadrados ponderada. m = a0 Y0 Df Y a (7.8) sujeto a (7.6), que equivale a m = a0 D−1/2 c F0 D−1 f FD−1/2 c a. (7.9) Alternativamente, podemos construir una matriz de datos Z deÞnida por Z = D −1/2 f FD−1/2 c (7.10) cuyos componentes son zij = ( fij p fi.f.j )
  • 207. 7.2. BÚSQUEDA DE LA MEJOR PROYECCIÓN 207 y que estandariza las frecuencias relativas en cada casilla por el producto de las raíces cuadradas de las frecuancias relativas totales de la Þla y la columna, y escribir el problema de encontrar el vector a como el problema de maximizar m = a0 Z0 Za sujeto a la restricción (7.6). Este es el problema resuelto en componentes principales, cuya solución es D−1/2 c F0 D−1 f FD−1/2 c a =λa (7.11) y a debe ser un vector propio de la matriz Z0 Z donde Z está dado por (7.9) y λ su valor propio. Vamos a comprobar que la matriz Z0 Z tiene como mayor valor propio siempre el 1 y como vector propio D 1/2 c . Multiplicando por la izquierda en (7.11) por D −1/2 c se obtiene: D−1 c F0 D−1 f F(D−1/2 c a) =λ(D−1/2 c a) Las matrices D−1 f F y FD−1 c representan matrices de frecuencias relativas por Þlas y por columnas y su suma por Þlas y columnas respectivamente es uno. Por tanto D−1 f F1 = 1 y D−1 c F0 1 = 1, que implica que la matriz D−1 c F0 D−1 f F tiene un valor propio 1 unido a un vector propio 1. En consecuencia, haciendo (D−1/2 c a) = 1 concluimos que la matriz Z0 Z tiene un valor propio igual a uno con vector propio D 1/2 c . Olvidando esta solución trivial, que no da información sobre la estructura de las Þlas, tomaremos el valor propio mayor menor que la unidad y su vector propio asociado a. En- tonces, proyectando la matriz Y sobre la dirección a encontrada: yf (a) = Ya = D−1 f FD−1/2 c a (7.12) y el vector yf (a) es la mejor representación de las Þlas de la tabla de contingencia en una dimensión. Análogamente, si extraemos el vector propio ligado al siguiente mayor valor propio obtenemos una segunda coordenada y podemos representar las Þlas en un espacio de dimensión dos. Las coordenadas de la representación de cada Þla vendrán dadas por las Þlas de la matriz Cf = YA2 = D−1 f FD−1/2 c A2 donde A2 = [a1a2] contiene en columnas los dos vectores propios Z0 Z. La matriz Cf es I × 2 y las dos coordenadas de cada Þla proporcionan la mejor representación de las Þlas de la matriz F en un espacio de dos dimensiones. El procedimiento se extiende sin diÞcultad para representaciones en más dimensiones, calculando vectores propios adicionales de la matriz Z0 Z. En resumen el procedimiento que hemos presentado para buscar una buena representación de las Þlas de la tabla de contingencia es: (1) Caracterizar las Þlas por sus frecuencias relativas condicionadas, y considerarlas como puntos en el espacio. (2) DeÞnir la distancia entre los puntos por la distancia χ2 , que tiene en cuenta que cada coordenada de las Þlas tiene distinta precisión.
  • 208. 208 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS (3) Proyectar los puntos sobre las direcciónes de máxima variabilidad, teniendo en cuenta que cada Þla tiene un peso distinto e igual a su frecuencia relativa. El procedimiento operativo para obtener la mejor representación bidimensional de las Þlas de la tabla de contingencia es: (1) Calcular la matriz Z0 Z y obtener sus vectores y valores propios. (2) Tomar los dos vectores propios, a1, a2, ligados a los mayores valores propios menores que la unidad de esta matriz. (3) Calcular las proyecciones D−1 f FD−1/2 c ai, i = 1, 2, y representarlas gráÞcamente en un espacio bidimensional. Ejemplo 7.1 Aplicaremos este análisis a la matriz de la tabla 7.1. La matriz de frecuencias relativas estandarizada por Þlas, R, se presenta en la tabla 7.4. La variable transformada, Y, se calcula como Y = R Dc −1/2 = R( 1 5387       1455 286 2137 1391 118       )−1/2 dando lugar a Y = . 83 7 . 31 6 . 587 . 235 .015 . 873 . 228 . 536 . 301 .02 9 . 374 . 205 . 815 . 455 .09 5 . 14 7 . 161 . 484 1. 022 . 440 Esta matriz puede interpretarse como una matriz de datos donde por Þlas tenemos ob- servaciones y por columnas variables. Para obtener la mejor representación de las Þlas en un espacio de dimensión dos, vamos a obtener los vectores propios de la matriz Y´Df Y. Los tres primeros valores y vectores propios de esta matriz se presentan en la tabla siguiente por Þlas: valor propio vector propio 1 -0.5197 -0.2304 -0.6298 -0.5081 -0.1480 0.1992 -0.6334 -0.1204 -0.0593 0.6702 0.3629 0.0301 -0.5209 -0.0641 0.7564 -0.3045 -0.2444 Los otros dos valores propios de esta matriz son 0,0009 0,0000. La proyección de los puntos sobre el espacio deÞnido por los valores propios .1992 y .0301 se presenta en la Þgura 7.1 El eje de abscisas contiene la primera dimensión que explica el .1992/( .1992+ .0301+.0009)=.8653. Vemos que se separan claramente los ojos claros y azules frente a castaños y oscuros. La primera dimensión es pues claro frente a oscuro. La segunda dimensión separa las carac- terísticas puras, ojos claros o azules y negros, frente a la mezclada, castaños. Ejemplo 7.2 En un estudio de mercado 4 evaluadores han indicado que características con- sideran importantes en un tipo de producto. El resultado es la matriz F donde en columnas se representan los evaluadores y en Þlas los productos.
  • 209. 7.2. BÚSQUEDA DE LA MEJOR PROYECCIÓN 209 Figura 7.1: Proyección de las Þlas de la matriz de los colores de ojos y pelo sobre el mejor espacio de dimensión 2. F= 1 2 3 4 c1 0 0 1 0 c2 1 1 0 0 c3 0 1 0 1 c4 0 0 0 1 c5 0 1 0 0 c6 1 1 1 0 Esta matriz es una tabla de contingencia muy simple donde las frecuencias posibles son cero o uno. La matriz Z es Z =         0 0 .707 0 .5 .35 0 0 0 .35 0 .50 0 0 0 .707 0 .5 0 0 .408 .289 .408 0         y los valores propios de Z0 Z son (1, 0.75, 0.50, 0.17). El vector propio asociado al mayor valor propio menor que uno es v = (0.27, 0, 0.53, −0.80). La proyección de las Þlas de Y sobre las dos direcciones principales conduce a la Þgura 7.2 Se observa que las características más próximas son la 2 y la 5. Las elecciones de los evalu- adores parecen ser debidas a dos dimensiones. La primera explica el 0,75/(0,75+0,50+0,17)=52,83% de la variabilidad y la segunda el 35%. La primera dimensión tiene en cuenta las similitudes
  • 210. 210 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS Figura 7.2: Proyección de las características de los productos aparentes por las elecciones de las personas: las características c3 y c4 son elegidas por la misma persona y por nadie más, por lo que estas características aparecen juntas en un ex- tremo. En el lado opuesto aparecen la c1 y c6, que son elegidas por la misma persona, y las c2 y c5 que son elegidas por personas que también eligen la c6. En la segunda dimensión las características extremas son las c1 y c2. 7.2.2 Proyección de las columnas Podemos aplicar a las columnas de la matriz F un análisis equivalente al de las Þlas. Las columnas serán ahora puntos en <I . Llamando c = F0 1 al vector de frecuencias relativas de las columnas y Dc a la matriz diagonal que contiene estas frecuencias relativas en la diagonal principal, de acuerdo con la sección anterior la mejor representación de los J puntos (columnas) en un espacio de dimensión menor, con la métrica χ2 conducirá, por simetría, a estudiar la matriz D−1 c F0 D −1/2 f . Observemos que, si ahora consideramos la matriz F0 y volvemos al problema de representarla por Þlas (que es equivalente a representar F por columnas), el problema es idéntico al que hemos resuelto en la sección anterior. Ahora la matriz que contiene las frecuencias relativas de las Þlas F0 es Dc y la que contiene la de las columnas es Df . Intercambiando el papel de estas matrices, las direcciones de proyección son los vectores propios de la matriz Z Z0 = D −1/2 f FD−1 c F0 D −1/2 f (7.13) donde Z es la matriz I × J deÞnida por (7.10). Como Z0 Z y ZZ0 tienen los mismos valores propios no nulos, esa matriz tendrá también un valor propio unidad ligado al vector propio 1. Esta solución trivial no se considera. Llamando b al vector propio ligado al mayor valor
  • 211. 7.2. BÚSQUEDA DE LA MEJOR PROYECCIÓN 211 propio distinto de la unidad de ZZ0 , la mejor representación de las columnas de la matriz en un espacio de dimensión uno vendrá dada por yc(b)= Y0 b = D−1 c F0 D −1/2 f b (7.14) y, análogamente, la mejor representación en dimensión dos de las columnas de la matriz vendrá dada por las coordenadas deÞnidas por las Þlas de la matriz Cc = Y0 B2 = D−1 c F0 D −1/2 f B2 donde B2 = [b1b2] contiene en columnas los dos vectores propios ligados a los valores propios mayores de ZZ0 y menores que la unidad. La matriz Cc es J × 2 y cada Þla es la mejor representación de las columnas de la matriz F en un espacio de dos dimensiones. 7.2.3 Análisis Conjunto Dada la simetría del problema conviene representar conjuntamente las Þlas y las columnas de la matriz. Observemos que las matrices Z0 Z y Z Z0 tienen los mismos valores propios no nulos y que los vectores propios de ambas matrices que corresponden al mismo valor propio están relacionados. En efecto, si ai es un vector propio de Z0 Z ligado al valor propio λi : Z0 Zai = λiai entonces, multiplicando por Z ZZ0 (Zai) = λi(Zai) y obtenemos que bi = Zai es un vector propio de ZZ0 ligado al valor propio λi. Una manera rápida de obtener estos vectores propios es calcular directamente los vectores propios de la matriz de dimensión más pequeña, Z0 Z o ZZ0 , y obtener los otros vectores propios como Zai o Z0 bi. Alternativamente podemos utilizar la descomposición en valores singulares de la matriz Z o Z0 , estudiada al introducir los biplots en el capítulo anterior. Esta descomposición aplicada a Z es Z = BrDrA0 r= rX i=1 λ 1/2 i bia0 i donde Br contiene en columnas los vectores propios de ZZ0 , Ar los de Z0 Z y Dr es digonal y contiene los valores singulares, λ 1/2 i , o raíces de los valores propios no nulos y r = min(I, J). Entonces la representación de las Þlas se obtiene con (7.12) y la de las columnas con (7.14). La representación de la matriz Z con h dimensiones (habitualmente h = 2) implica aproximar esta matriz mediante bZh = BhDhA0 h. Esto es equivalente, por (7.10), a una aproximación a la tabla de contingencia observada mediante: bFh= D 1/2 f bZhD1/2 c , (7.15)
  • 212. 212 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS y una forma de juzgar la aproximación que estamos utilizando es reconstruir la tabla de contingencia con esta expresión. Si deseamos eliminar el valor propio unidad desde el principio, dado que no aparta in- formación de interés, podemos reemplazar la matriz F por F−bFe , donde bFe es la matriz de frecuencias esperadas que viene dada por bFe = 1 n rc0 . Puede comprobarse que la matriz F−bFe tiene rango r −1, y ya no tiene el valor propio igual a la unidad. La proporción de variabilidad explicada por cada dimensión se calcula como en com- ponentes principales descartando el valor propio igual a uno y tomando la proporción que representa cada valor propio con relación al resto. En resumen, el análisis de correspondencias de una tabla de contingencia de dimensiones I × J se realiza en los pasos siguientes (1) Se calcula la tabla de frecuencias relativas, F. (1) Se calcula la tabla estandarizada Z, de frecuencias relativas las mismas dimensiones de la tabla original, I × J, dividiendo cada celda de F por la raíz de los totales de su Þla y columna, zij = © fij/ p fi.f.j ª . (2) Se calculan los h (normalmente h = 2) vectores propios ligados a valores propios mayores, pero distintos de la unidad, de las matriz de menor dimensión de las ZZ0 y Z0 Z. Si obtenemos lo vectores propios ai de Z0 Z, los bi de ZZ0 se obtienen por bi = Zai. Analoga- mente si se obtienen los bi de ZZ0 ai = Z0 bi. Las I Þlas de la matriz se presentarán como I puntos en <h y las coordenadas de cada Þla vienen dadas por Cf = D −1/2 f ZA2 donde A2 tiene en columnas los dos vectores propios de Z0 Z. Las J columnas se representarán como J puntos en <h y las coordenadas de cada columna son Cc= D−1/2 c Z0 B2 Ejemplo 7.3 Vamos a representar conjuntamente las Þlas y las columnas de la matriz de los colores. La Þgura 7.3 presenta esta representación. Se observa que el gráÞco describe de manera clara la relación entre ambas variables. La dimensión principal gradúa la tonalidad de claro a oscuro y la segunda separa los castaños de los casos más extremos. Es importante calcular conjuntamente los vectores propios para evitar problemas de sig- nos, ya sea calculando los vectores propios de una matriz y obteniendo los otros como producto por la matriz Z o bien a través de la descomposición en valores singulares. La razón es que si v es un vector propio también lo es -v y al calcular separadamente las coordenadas y su- perponerlas podemos obtener un resultado como el que se presenta en la Þgura 7.4 . En esta Þgura se han calculado separadamente las dos representaciones y luego se han superpuesto. El lector puede comprobar que si cambiamos de signo las coordenadas del eje de ordenadas se obtiene la representación de la Þgura (7.3). Estos problemas de signos se evitan calculado los vectores conjuntamente.
  • 213. 7.2. BÚSQUEDA DE LA MEJOR PROYECCIÓN 213 Figura 7.3: Representación de los colores de ojos y cabello para los escolares escoceses. Figura 7.4:
  • 214. 214 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS 7.3 LA DISTANCIA JI-CUADRADO El contraste de independencia entre las variables Þla y columna en una tabla de contingencia I × J se realiza con la estadístico X2 = X (fr. observadas - fr. esperadas)2 fr. esperadas que, en la hipótesis de independencia, sigue una distribución χ2 con (I − 1) × (J − 1) grados de libertad. De acuerdo con la notación anterior, la frecuencia esperada en cada celda de la Þla i, suponiendo independencia de Þlas y columnas, se obtendrá repartiendo el total de la Þla, nfi., porporcionalmente a la frecuencia relativa de cada columna, f.j. Por ejemplo, la frecuencia esperada de la primera casilla de la tabla 5.1 se obtendrá multiplicando el número total de elementos de la Þla, 1580, por la proporción de personas rubias sobre el total, 1455/5387. Por tanto, el estadístico X2 para contrastar la independencia puede escribirse: X2 = IX i=1 JX j=1 (nfij − nfi.f.j)2 nfi.f.j (7.16) donde fi. = PJ j=1 fij es la frecuencia relativa de la Þla i y fj. = PI i=1 fij la de columna j. Como (nfij − nfi.f.j)2 nfi.f.j = nfi. f.j (fij − fi.f.j)2 fi. 2 la expresión del estadístico X2 puede también escribirse como : X2 = n IX i=1 fi. JX j=1 ( fij fi. − f.j)2 1 f.j . (7.17) En esta representación la distribución condicionada de las frecuencias relativas de cada Þla, n fij fi. o , se compara con la distribución media de las Þlas {f.j} , y cada coordenada se pondera inversamente a la frecuencia relativa que existe en esa columna. Se suman luego todas las Þlas, pero dando a cada Þla un peso tanto mayor cuanto mayor es su frecuencia, nfi.. Vamos a ver que esta representación es equivalente a calcular las distancias entre los vectores de la matriz de frecuencias relativas por Þlas, R , deÞnida en (7.1) si medimos la distancia con la métrica χ2 . Consideremos los vectores r0 i , Þlas de la matriz R . La media de estos vectores es r = PI i=1 wiri PI i=1 wi donde los wi son coeÞcientes de ponderacion. La media aritmética se obtiene con wi = 1, dando a todas las Þlas el mismo peso. Sin embargo, en este caso esta poderación no es
  • 215. 7.3. LA DISTANCIA JI-CUADRADO 215 conveniente, porque debemos dar más peso a las Þlas que contengan más datos. Podemos ponderar por la frecuencia relativa de cada Þla, wi = fi., y entonces P wi = P fi. = 1. Como las frecuencias relativas de las Þlas vienen dadas por el vector columna Df 1, tenemos que r = R0 Df 1 y utilizando (7.1) r = F0 D−1 f Df 1 = F0 1 = c y el valor medio de las Þlas viene dado por el vector cuyos componentes son las frecuencias relativas de las columnas. La distancia de cualquier vector de Þla, ri, a su media, c, con la métrica χ2 será (ri − c)0 D−1 c (ri − c) donde la matriz D−1 c se obtuvo en (7.3) para construir la distancia χ2 . La suma de todas estas distancias, ponderadas por su importancia, que se conoce como inercia total de la tabla, es IT = IX i=1 fi.(ri − c)0 D−1 c (ri − c) y esta expresión puede escribirse como IT = IX i=1 fi. JX j=1 µ fij fi. − f.j ¶2 /f.j y si comparamos con (7.17) vemos que la inercia total es igual a X2 /n. Se demuestra que la inercia total es la suma de los valores propios de la matriz Z0 Z eliminado el uno. Por tanto, el análisis de las Þlas (o de las columnas ya que el problema es simétrico) puede verse como una descomposición de los componentes del estadístico X2 en sus fuentes de variación. La distancia χ2 tiene una propiedad importante que se conoce como el principio de equiv- alencia distribucional. Esta propiedad es que si dos Þlas tienen la misma estructura relativa, fij/fi. y las unimos en una nueva Þla única, las distancias entre las restantes Þlas permanecen invariables. Esta misma propiedad por simetría se aplica a las columnas. Esta propiedad es importante, porque asegura una cierta invarianza del procedimiento ante agregaciones o desagregaciones irrelevantes de las categorías. Para demostrarlo, consideremos la distancia χ2 entre las Þlas a y b JX j=1 ( faj fa. − fbj fb. )2 1 f.j. es claro que esta distancia no se modiÞca si unimos dos Þlas en una, ya que esta unión no va a afectar a las frecuencias fij/fi. ni tampoco a f.j.. Vamos a comprobar que si unimos dos Þlas con la misma estructura la distancia de la nueva Þla al resto es la misma que las
  • 216. 216 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS de las Þlas originales. En efecto, supongamos que para las Þlas 1 y 2, se veriÞca que para j = 1, ..., J f1j f1. = f2j f2. = gj entonces, si unimos estas dos Þlas en una nueva Þla, se obtiene que, para la nueva Þla f1j + f2j f1. + f2. = gj y su distancia a cualquier otra Þla permanecerá invariable. Esta propiedad garantiza que no perdemos nada al agregar categoría homogéneas ni podemos ganar nada por desagregar una categoría homogénea. Ejemplo 7.4 Se han contabilizado los pesos y las alturas de 100 estudiantes universitarios y se han formado 4 categorias tanto para el peso como para la altura. Para el peso, las categorias se denotan P1, de 51 a 60 k., P2, de 61 a 70 k., P3, de 71 a 80 k. y P4, de 81 a 90 k. Para la altura se denotan A1, de 151 a 160 cm., A2, de 161 a 170 cm., A3, de 171 a 180 cm. y A4, de 181 a 190 cm. La siguiente tabla de contingencia muestra las frecuencias de cada grupo: Peso/Altura A1 A2 A3 A4 P1 15 8 3 0 P2 10 15 7 2 P3 2 7 17 3 P4 0 2 3 6 Realizar proyecciones por Þlas, por columnas y conjunta de Þlas y columnas. Comprobar como las proyecciones por Þlas y por columnas separan claramente las categorias, pero que la proyección conjunta asocia claramente cada categoría de un peso con la de una altura. Para la proyección por Þlas, la variable Y queda: Y = RD −1 2 c =     0.1110 0.0544 0.0211 0 0.0566 0.0780 0.0376 0.0177 0.0133 0.0427 0.1070 0.0312 0 0.0321 0.0498 0.1645     Los tres valores propios y vectores propios diferentes de uno de esta matriz son: valor propio vector propio 0.3717 -0.6260 -0.1713 0.3673 0.6662 0.1401 -0.2974 -0.0064 0.6890 -0.6610 0.0261 0.4997 -0.8066 0.3007 0.0964
  • 217. 7.3. LA DISTANCIA JI-CUADRADO 217 La proyección por Þlas es: -0.1 -0.05 0 0.05 0.1 0.15 -0.08 -0.06 -0.04 -0.02 0 0.02 0.04 0.06 P1 P2 P3 P4 Para las columnas, los tres valores propios y vectores propios diferentes de uno de esta matriz son: valor propio vector propio 0.3717 -0.5945 -0.2216 0.3929 0.6656 0.1401 -0.2568 -0.0492 0.7034 -0.6609 0.0261 0.5662 -0.7801 0.2466 0.1005 La proyección por columnas es: -0.08 -0.06 -0.04 -0.02 0 0.02 0.04 0.06 0.08 0.1 0.12 -0.1 -0.08 -0.06 -0.04 -0.02 0 0.02 0.04 A1 A2 A3 A4
  • 218. 218 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS El resultado de la proyección conjunta es el siguiente donde alturas y pesos quedan asociados: -0.1 -0.05 0 0.05 0.1 0.15 -0.06 -0.04 -0.02 0 0.02 0.04 0.06 0.08 0.1 A1 P1 A2 P2 A3 P3 A4 P4 Ejemplo 7.5 Del conjunto de datos MUNDODES, se ha tomado la esperanza de vida de hombres y de mujeres. Se han formado 4 categorias tanto para la mujer como para el hombre. Se denotan por M1 y H1, a las esperanzas entre menos de 41 a 50 años, M2 y H2, de 51 a 60 años, M3 y H3, de 61 a 70, y M4 y H4, para entre 71 a más de 80. La siguiente tabla de contingencia muestra las frecuencias de cada grupo: Mujer/Hombre H1 H2 H3 H4 M1 10 0 0 0 M2 7 12 0 0 M3 0 5 15 0 M4 0 0 23 19 Realizar proyecciones por Þlas, por columnas y conjunta de Þlas y columnas. Comprobar que en la proyección por Þlas las categorias están claramente separadas y que en el caso del hombre, las dos últimas categorías están muy cercanas. Comprobar en la proyección conjunta la cercania de las categorías H3 con M3 y M4. Para la proyección por Þlas, la variable Y queda: Y = RD −1 2 c =     0.2425 0 0 0 0.0894 0.1532 0 0 0 0.0606 0.1217 0 0 0 0.0888 0.1038    
  • 219. 7.3. LA DISTANCIA JI-CUADRADO 219 Los tres valores propios y vectores propios diferentes de uno de esta matriz son: valor propio vector propio 0.8678 0.7221 0.3551 -0.4343 -0.4048 0.3585 -0.5249 0.7699 0.0856 -0.3528 0.1129 -0.1274 0.3072 -0.6217 0.7091 La proyección por Þlas es: -0.1 -0.05 0 0.05 0.1 0.15 0.2 0.25 -0.15 -0.1 -0.05 0 0.05 0.1 M1 M2 M3 M4 Para las columnas, los tres valores propios y vectores propios diferentes de uno de esta matriz son: valor propio vector propio 0.8678 -0.5945 -0.5564 0.1503 0.5606 0.3585 -0.6723 0.5172 0.4265 -0.3141 0.1129 -0.2908 0.4628 -0.7588 0.3543
  • 220. 220 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS La proyección por columnas es: -0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15 -0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15 H1 H2 H3 H4 El resultado de la proyección conjunta es: -0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15 -0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15 M1 H1 M2 H2 M3 H3 M4H4 7.4 ASIGNACIÓN DE PUNTUACIONES El análisis de correspondencias puede aplicarse también para resolver el siguiente problema. Supongamos que se desea asignar valores numéricos yc(1), ..., yc(J) a las columnas de una matriz F de observaciones, o, en otros términos, convertir la variable en columnas en una
  • 221. 7.4. ASIGNACIÓN DE PUNTUACIONES 221 variable numérica. Por ejemplo, en la tabla (7.3) el color del cabello puede considerarse una variable continúa y es interesante cuantiÞcar las clases de color deÞnidas. Una asignación de valores numéricos a las columnas de la tabla inducirá automáticamente unos valores numéricos para las categorías de la variable en Þlas. En efecto, podemos asociar a la Þla i el promedio de la variable yc en esa Þla, dado por: yi = PJ j=1 fijyc(j) PJ j=1 fij = JX j=1 rijyc(j) (7.18) donde rij = fij/fi. es la frecuencia relativa condicionada a la Þla. El vector de valores así obtenido para todas las Þlas será un vector I × 1 dado por: yf = Ryc = D−1 r Fyc (7.19) Análogamente, dadas unas puntuaciones yf para las Þlas, las puntuaciones de las colum- nas pueden estimarse igualmente por sus valores medios en cada columna, obteniendo el vector J × 1: yc = D−1 c F0 yf (7.20) Escribiendo conjuntamente (7.19) y (7.20) resultan las ecuaciones: yf = D−1 f F D−1 c F0 yf (7.21) yc = D−1 c F0 D−1 f Fyc (7.22) que indican que las puntuaciones yf , y yc se obtienen como vectores propios de estas matrices. Observemos que estas puntuaciones admiten una solución trivial tomando yc = (1, ..., 1)0 J , yf = (1, ..., 1)0 I. En efecto, las matrices D−1 c F0 y D−1 f F suman uno por Þlas, ya que son de frecuencias relativas. Esta solución equivale en (7.21) y (7.22) al valor propio 1 de la correspondiente matriz. Para encontrar una solución no trivial al problema, vamos a exigir que ambas ecuaciones se cumplan aproximadamente introduciendo un coeÞciente de propor- cionalidad, λ < 1, pero que queremos sea tan próximo a uno como sea posible. Multiplicando (7.19) por D 1/2 f y (7.20) por D 1/2 c e introduciendo este coeÞciente de proporcionalidad ten- emos que λ(D 1/2 f yf ) = D −1/2 f F D−1/2 c (D1/2 c yc) (7.23) λ(D1/2 c yc) = D−1/2 c F0 D −1/2 f (D 1/2 f yf ) (7.24)
  • 222. 222 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS Para resolver estas ecuaciones, llamemos b = D 1/2 f yf , a = D1/2 c yc y Z = D −1/2 f F D−1/2 c . Sustituyendo estas deÞniciones en (7.23) y (7.24), obtenemos λb = Za y λa = Z0 b y sustiuyen- do una de estas ecuacione en la otra se obtiene λ2 b = ZZ0 b (7.25) λ2 a = Z0 Za (7.26) Estas ecuaciones muestran que b y a son vectores propios ligados al valor propio λ2 de las matrices ZZ0 y Z0 Z. Los vectores de puntuaciones se obtendrán después a partir de la deÞnición de b = D 1/2 f yf , con lo que resulta: yf = D −1/2 f b (7.27) y como a = D1/2 c yc, yc = D−1/2 c a (7.28) Las matrices ZZ0 o Z0 Z siempre admite el valor propio 1 ligado a un vector propio (1, ..., 1)0 . Tomando como a y b los vectores propios ligados al segundo mayor valor propio, λ < 1, de estas matrices obtenemos las puntuaciones óptimas de Þlas y columnas. Podemos obtener una representación gráÞca de las Þlas y columnas de la matriz de la forma siguiente: si sustituimos las puntuaciones yc dadas por (7.28), que se denominan a veces ”factores” asociados a las columnas, en la ecuación (7.19) y escribimos yf (a) = D−1 f FD−1/2 c a obtenemos las proyecciones de las Þlas encontradas en (7.12). Análogamente, sustituyendo los ”factores” yf asociados a las Þlas en (7.20) y escribiendo yc(b)= D−1 c F0 D −1/2 f b encontramos las proyecciones de las columnas de (7.14). Concluimos que el problema de asignar puntaciones de una forma consistente a las Þlas y a las columnas de una tabla de contingencia, es equivalente al problema de encontrar una representación óptima en una dimensión de las Þlas y las columnas de la matriz. En otros términos, el análisis de correspondencia proporciona en la primera coordenada de las Þlas y columnas una forma consistente de asignar puntuaciones numèricas a las Þlas y a las columnas de la tabla de contingencia.
  • 223. 7.4. ASIGNACIÓN DE PUNTUACIONES 223 Ejemplo 7.6 La tabla adjunta indica las puntuaciones alta (A), media (M) y baja (B) obtenidas por 4 profesores P1, ..., P4, que han sido evaluados por un total de 49 estudiantes. ¿Qué puntuaciones habría que asignar a las categorías alta, media y baja? ¿y a los profe- sores? A M B P1 2 6 2 10 P2 4 4 4 12 P3 1 10 4 15 P4 7 5 0 12 14 25 10 49 Entonces la matriz Z = D −1/2 f F D−1/2 c es Z =     .169 .380 .200 .309 .230 .365 .069 .516 .327 .540 .288 0     Vamos a obtener la descomposición en valores singulares de esta matriz. Es : Z =     .452 .166 −.249 .495 . − 004 .869 .553 .581 −.317 .495 −.797 −.288       1 .45 .22     .534 −.816 .221 .714 .296 −.634 .452 .497 .741   que conduce a las variables y = D −1/2 f bi =     .143 .052 −.079 .143 −.001 .251 .143 .150 −.082 .143 −.230 −.083     z = D−1/2 c a =   .143 −.218 .059 .143 .059 −.127 .143 .157 .234   La mejor puntuación -en el sentido de la máxima discriminación- corresponde a (mul- tiplicando por -1 el segundo vector propio para que los números más altos correpondan a puntuaciones altas y favorecer la interpretación) 218, -059, -157 y a los profesores (multi- plicando por -1 el segundo vector propio, para ser consistentes con el cambio anterior) 230 -150 001 -052. Si queremos trasladar estas puntuaciones a una escala entre cero y diez, escribiremos y = x − xmin xmax − xmin × 10
  • 224. 224 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS -0.1 -0.05 0 0.05 0.1 0.15 -0.04 -0.02 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 P4 P1 P2 P3 Alto Medio Baja Figura 7.5: Proyección de los profesores y de las puntuaciones y las puntuaciones se convierten en 10, 7.4 y 0 y. Las evaluaciones de los profesores al pasarlas a la escala de cero a diez se convierten en 10, 0, 3.98, 2.57. La Þgura 7.5 presenta la proyección de los profesores y de las categorías sobre el plano de mejor representación. Ejemplo 7.7 La tabla de contingencia siguiente indica las puntuaciones, muy buena (MB), buena (B), regular (R) o mala (M) obtenidas por las 5 películas nominadas a los Oscars a la mejor película del año 2001 que han sido evaluadas por un total de 100 críticos de cine de todo el mundo. ¿Que puntuaciones habría que asignar a las categorías? ¿y a las películas? Películas/Puntuación M R B MB P1 1 7 2 10 20 P2 0 3 2 15 20 P3 2 7 2 9 20 P4 0 1 3 16 20 P5 1 3 3 13 20 4 21 12 63 100 La matriz P es:       0.1118 0.3416 0.1291 0.2817 0 0.1464 0.1291 0.4226 0.2236 0.3416 0.1291 0.2535 0 0.0488 0.1936 0.4507 0.1118 0.1464 0.1936 0.3662      
  • 225. 7.5. LECTURAS COMPLEMENTARIAS 225 Las variables que se obtienen son: y = Dr−1 2 b =       0.1000 -0.0934 -0.1124 0.1365 0.0000 0.1000 0.0721 -0.1208 -0.1234 0.0707 0.1000 -0.1356 0.0707 -0.1078 -0.0707 0.1000 0.1304 0.0334 0.0435 -0.1414 0.1000 0.0266 0.1291 0.0512 0.1414       z = Dc−1 2 a =     0.1000 -0.2382 0.3739 -0.2085 0.1000 -0.1580 -0.1053 0.0396 0.1000 0.0369 0.1282 0.2357 0.1000 0.0608 -0.0130 -0.0448     La mejor puntuación para las categorías corresponde a -0.2382, -0.1580, 0.0369 y 0.0608. Para las películas (multiplicando por -1 el segundo vector propio) a -0.0934, 0.0721, -0.1356, 0.1304 y 0.0266. Si trasladamos todas las puntuaciones entre cero y diez, obtenemos para las categorias los valores 0, 2.6823, 9.2007 y 10. Para las cinco películas tenemos 1.5864, 7.8082, 0, 10 y 6.0977. La proyección conjunta muestra como la pelicula más cercana a la puntuación muy buena (MB) es P4: 7.5 Lecturas complementarias El análisis de correspondencias puede extenderse para estudiar tablas de cualquier dimen- sión con el nombre de análisis de correspondencias múltiple. En este enfoque se utiliza la descomposición en valores singulares para aproximar simultaneamente todas las tablas bidi- mensionales que pueden obtenerse de una tabla multidimensional. Una buena introducción
  • 226. 226 CAPÍTULO 7. ANÁLISIS DE CORRESPONDENCIAS desde el punto de vista de componentes principales con la métrica ji-cuadrado se encuentra en Gower y Hand (1995). Presentaciones de esta técnica como extensión del análisis de correspondencias presentado en este capítulo se encuentran en Greenacre (1984) y Lebart et al (1984). La literatura sobre análisis de correspondencias está sobre todo en francés, véase Lebart et al (1997) y Saporta (1990). En español Cuadras (1990) y EscoÞer y Pages (1990). Jackon (1991) contiene una sucinta descripción del método con bastantes referencias históricas y actuales. Lebart, Salem y Bécue (2000) presenta interesantes aplicaciones del análisis de correspondencias para el estudio de textos. Ejercicios 7 7.1 Demostrar que la traza de las matrices Z0 Z y ZZ0 es la misma. 7.2 Demostrar que el centro de los vectores ri de las Þlas, donde cada Þla tiene un peso f es el vector c de las frecuencias relativas de las columnas (calcule r = P fi.ri = R0 Df 1) 7.3 Demostrar que dada una matriz de datos X donde cada Þla tiene un peso W la operación que convierte a esta matriz en otra de media cero es eX = (I − 110 W)X. 7.4 Demostrar que la suma de las distancias de Mahalanobis ponderadas de las Þlas es igual a la de las columnas, donde la suma de las Þlas es P fi.(ri − c)0 D−1 c (ri − c). 7.5 Supongamos que estudiamos dos características en los elementos de un conjunto que pueden darse en los niveles alto, medio y bajo en ambos casos. Si las frecuencias relativas con las que aparecen estos niveles son las mismas para las dos características, indicar la expresión de la representación de las Þlas y columnas en el plano bidimensional. 7.6 En el ejemplo 7.5 ¿qué podemos decir de la puntuación óptima para cuantiÞcar las Þlas y columnas? 7.7 Indicar cómo afecta a la representación de Þlas y columnas que la tabla de contin- gencias sea simétrica, es decir, fij = fji. 7.8 JustiÞcar que la variable (fij−ricj/n) √ ricj/n es aproximadamente una variable normal estándar. 7.9 Demostrar que si deÞnimos la matriz X con elemento genérico xij = (fij−fi.f.j)/ p fi.f.j la matriz X0 X tiene los mismos valores vectores propios que la Z0 Z, donde zij = fij/ p fi.f.j salvo el valor propio 1 que aparece en Z0 Z, y no en X0 X .
  • 227. Capítulo 8 ANÁLISIS DE CONGLOMERADOS 8.1 FUNDAMENTOS El análisis de conglomerados (clusters) tiene por objeto agrupar elementos en grupos ho- mogéneos en función de las similitudes o similaridades entre ellos. Normalmente se agrupan las observaciones, pero el análisis de conglomerados puede también aplicarse para agrupar variables. Estos métodos se conocen también con el nombre de métodos de clasiÞcación automática o no supervisada, o de reconocimiento de patrones sin supervisión. El nombre de no supervisados se aplica para distinguirlos del análisis discriminante, que estudiaremos en el capítulo 13. El análisis de conglomerados estudia tres tipos de problemas: Partición de los datos. Disponemos de datos que sospechamos son heterogéneos y se desea dividirlos en un número de grupos preÞjado, de manera que: (1) cada elemento pertenezca a uno y solo uno de los grupos; (2) todo elemento quede clasiÞcado; (3) cada grupo sea internamente homogéneo. Por ejemplo, se dispone de una base de datos de compras de clientes y se desea hacer una tipología de estos clientes en función de sus pautas de consumo. Construcción de jerarquías. Deseamos estructurar los elementos de un conjunto de forma jerárquica por su similitud. Por ejemplo, tenemos una encuesta de atributos de distintas profesiones y queremos ordenarlas por similitud. Una clasiÞcación jerárquica implica que los datos se ordenan en niveles, de manera que los niveles superiores contienen a los inferiores. Este tipo de clasiÞcación es muy frecuentes en biología, al clasiÞcar animales, plantas etc. Estrictamente, estos métodos no deÞnen grupos, sino la estructura de asociación en cadena que pueda existir entre los elementos. Sin embargo, como veremos, la jerarquía construida permite obtener también una partición de los datos en grupos. ClasiÞcación de variables. En problemas con muchas variables es interesante hacer un estudio exploratorio inicial para dividir las variables en grupos. Este estudio puede orientarnos para plantear los modelos formales para reducir la dimensión que estudiaremos más adelante. Las variables pueden clasiÞcarse en grupos o estructurarse en una jerarquía. Los métodos de partición utilizan la matriz de datos, pero los algoritmos jerárquicos utilizan la matriz de distancias o similitudes entre elementos. Para agrupar variables se parte de la matriz de relación entre variables: para variables continuas suele ser la matriz de 227
  • 228. 228 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS correlación, y para variables discretas, se construye, como veremos, a partir de la distancia ji-cuadrado. Vamos a estudiar en primer lugar los métodos de partición 8.2 MÉTODOS CLÁSICOS DE PARTICIÓN 8.2.1 Fundamentos del algoritmo de k-medias Supongamos una muestra de n elementos con p variables. El objetivo es dividir esta muestra en un número de grupos preÞjado, G. El algoritmo de k-medias (que con nuestra notación debería ser de G−medias) requiere las cuatro etapas siguientes : (1) Seleccionar G puntos como centros de los grupos iniciales. Esto puede hacerse: a) asignando aleatoriamente los objetos a los grupos y tomando los centros de los grupos así formados; b) tomando como centros los G puntos más alejados entre sí ; c) construyendo los grupos con información a priori, o bien seleccionando los centros a priori. (2) Calcular las distancias euclídeas de cada elementoa al centro de los G grupos, y asignar cada elemento al grupo más próximo. La asignación se realiza secuencialmente y al introducir un nuevo elemento en un grupo se recalculan las coordenadas de la nueva media de grupo. (3) DeÞnir un criterio de optimalidad y comprobar si reasignando uno a uno cada elemento de un grupo a otro mejora el criterio. (4) Si no es posible mejorar el criterio de optimalidad, terminar el proceso. 8.2.2 Implementación del algoritmo El criterio de homogeneidad que se utiliza en el algoritmo de k-medias es la suma de cuadrados dentro de los grupos (SCDG) para todas las variables, que es equivalente a la suma ponderada de las varianzas de las variables en los grupos: SCDG= GX g=1 p X j=1 ng X i=1 (xijg − xjg)2 (8.1) donde xijg es el valor de la variable j en el elemento i del grupo g y xjg la media de esta variable en el grupo. El criterio se escribe min SCDG = min GX g=1 p X j=1 ngs2 jg (8.2)
  • 229. 8.2. MÉTODOS CLÁSICOS DE PARTICIÓN 229 donde ng es el número de elementos del grupo g y s2 jg es la varianza de la variable j en dicho grupo. La varianza de cada variable en cada grupo es claramente una medida de la heterogeneidad del grupo y al minimizar las varianzas de todas las variables en los grupos obtendremos grupos más homogéneos. Un posible criterio alternativo de homogeneidad sería minimizar las distancias al cuadrado entre los centros de los grupos y los puntos que pertenecen a ese grupo. Si medimos las distancias con la norma euclídea, este criterio se escribe: min GX g=1 ng X i=1 (xig − xg)0 (xig − xg) = GX g=1 ng X i=1 d2 (i, g) donde d2 (i, g) es el cuadrado de la distancia euclídea entre el elemento i del grupo g y su media de grupo. Es fácil comprobar que ambos criterios son idénticos. Como un escalar es igual a su traza, podemos escribir este último criterio como min GX g=1 ng X i=1 tr £ d2 (i, g) ¤ = min tr " GX g=1 ng X i=1 (xig − xg)(xig − xg)0 # y llamando W a la matriz de suma de cuadrados dentro de los grupos, W = GX g=1 ng X i=1 (xig − xg)(xig − xg)0 teenmos que min tr(W) = min SCDG Como la traza es la suma de los elementos de la diagonal principal ambos criterios coinciden. Este criterio se denomina criterio de la traza, y fue propuesto por Ward (1963). La maximización de este criterio requeriría calcularlo para todas las posibles particiones, labor claramente imposible, salvo para valores de n muy pequeños. El algoritmo de k−medias busca la partición óptima con la restricción de que en cada iteración sólo se permite mover un elemento de un grupo a otro. El algoritmo funciona como sigue (1) Partir de una asignación inicial (2) Comprobar si moviendo algún elemento se reduce W. (3) Si es posible reducir W mover el elemento, recalcular las medias de los dos grupos afectados por el cambio y volver a (2). Si no es posible reducir W terminar. En consecuencia, el resultado del algortimo puede depender de la asignación inicial y del orden de los elementos. Conviene siempre repetir el algoritmo desde distintos valores iniciales y permutando los elemento de la muestra. El efecto del orden de las observaciones suele ser pequeño, pero conviene asegurarse en cada caso de que no esta afectando. El criterio de la traza tiene dos propiedades importantes. La primera es que no es invariante ante cambios de medida en las variables. Cuando las variables vayan en unidades distintas conviene estandarizarlas, para evitar que el resultado del algoritmo de k-medias dependa de cambios irrelevantes en la escala de medida. Cuando vayan en las mismas
  • 230. 230 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS unidades suele ser mejor no estandarizar, ya que es posible que una varianza mucho mayor que el resto sea precisamente debida a que existen dos grupos de observaciones en esa variable, y si estandarizamos podemos ocultar la presencia de los grupos. Por ejemplo, la Þgura 8.1 muestra un ejemplo donde la estandarización puede hacer más difícil la identiÞcación de los grupos. Figura 8.1: La estandarización puede diÞcultar la identiÞcación de los grupos. La segunda propiedad del criterio de la traza es que minimizar la distancia euclídea produce grupos aproximadamente esféricos. Las razones para este hecho se estudiarán en el capítulo 15. Por otro lado este criterio esta pensado para variables cuantitativas y, aunque puede aplicarse si existe un pequeño número de variables binarias, si una parte importante de las variables son atributos, es mejor utilizar los métodos jerárquicos que se describen a continuación. 8.2.3 Número de grupos En la aplicación habitual del algoritmo de k-medias hay que Þjar el número de grupos, G. Es claro que este número no puede estimarse con un criterio de homogeneidad ya que la forma de conseguir grupos muy homogéneos y minimizar la SCDG es hacer tantos grupos como observaciones, con lo que siempre SCDG=0. Se han propuesto distintos métodos para seleccionar el número de grupos. Un procedimiento aproximado que se utiliza bastante, aunque puede no estar justiÞcado en unos datos concretos, es realizar un test F aproximado de reducción de variabilidad, comparando la SCDG con G grupos con la de G+1, y calculando la reducción proporcional de variabilidad que se obtiene aumentando un grupo adicional. El test es: F = SCDG(G) − SCDG(G + 1) SCDG(G + 1)/(n − G − 1) (8.3)
  • 231. 8.2. MÉTODOS CLÁSICOS DE PARTICIÓN 231 y compara la disminución de variabilidad al aumentar un grupo con la varianza promedio. El valor de F suele compararse con una F con p, p(n − G − 1) grados de libertad, pero esta regla no esta muy justiÞcada porque los datos no tienen porque veriÞcar las hipótesis necesarias para aplicar la distribución F . Una regla empírica que da resultados razonables, sugerida por Hartigan (1975), e implantada en algunos programas informáticos, es introducir un grupo más si este cociente es mayor que 10. Ejemplo 8.1 La Þgura 8.2 presenta los datos de ruspini (Þchero ruspini.dat) que incluye 75 datos de dos variables y que se han utilizado para comparar distintos algoritmos de clasi- Þcación. El gráÞco muestra claramente cuatro grupos de datos en dos dimensiones. Figura 8.2: Datos de Ruspini La tabla 8.1 muestra el resultado de aplicar el programa de k-medias en Minitab para distinto número de grupos a los datos sin estandarizar. De acuerdo con el criterio F existen tres grupos en los datos. Las Þguras 8.3, 8.4, 8.5 y 8.6 muestran los grupos obtenidos con este programa. La tabla se ha construido a partir de la información proporcionada por el programa. Al pasar de 2 a 3 grupos hay una reducción de variabilidad muy signiÞcativa dada por F = 89247 − 51154 51154/(75 − 4) = 52. 87 Sin embargo al pasar de 3 a 4 grupos la reducción no es signiÞcativa F = 51154 − 50017 50017/(75 − 5) = 1. 59. El algortimo de k-medias implantado en minitab llevaría a dividir los datos en los tras grupos indicados en la Þgura 8.4. Si aplicamos el algoritmo a los datos estandarizados se
  • 232. 232 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS Número de grupos tamaño SCDG(i) SCDG F 2 34 43238 40 46009 89247 3 20 3689 40 46009 15 1456 51154 52.8 4 4 170 16 2381 15 1456 40 46009 50017 1.59 5 4 170 5 292 11 857 40 46009 15 1456 48784 Tabla 8.1: Tabla con la información para seleccionar el número de grupos con el algoritmo de k.medias. obtienen de nuevo tres grupos, pero distintos: el primero esta formado por los dos conjuntos de puntos situados en la parte superior del gráÞco y los otros dos grupos por los dos inferiores. Figura 8.3: División de los datos de Ruspini en dos grupos con Minitab. Para estudiar el funcionamiento de distintos programas hemos aplicado el mismo análisis a estos datos con el programa de k-medias de SPSS. La partición en dos grupos es la misma con ambos programas, pero la partición en tres y cuatro grupos es distinta como muestran las Þguras 8.7, 8.8 y 8.9. El programa SPSS produce mejores resultados que Minitab. Este ejemplo sugiere que antes de aceptar los resultados de un análisis de conglomerados mediante
  • 233. 8.2. MÉTODOS CLÁSICOS DE PARTICIÓN 233 Figura 8.4: División de los datos de Ruspini en tres grupos con Minitab Figura 8.5: División de los datos de Ruspini en cuatro grupos con Minitab
  • 234. 234 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS G = 2 G = 3 G = 4 G = 5 G = 6 eh 30 20 14 15 14 em 35 22 13 16 12 mi 509 230 129 76 83 tm 15 11 9 9 9 tn 64 58 37 35 26 Total=MS(G) 653 341 202 151 144 F 82.4 61.5 30.4 6.2 Tabla 8.2: Tabla con la información para seleccionar el número de grupos con el algoritmo de k.medias. el algoritmo de K-medias conviene probar distintos puntos de partida y distintos algoritmos. Ejemplo 8.2 Vamos a aplicar el algoritmo de k-medias a los datos de los países. Se van a utilizar únicamente las 5 variables demográÞcas de MUNDODES. Comenzaremos comen- tando los resultados obtenidos al utilizar el programa k-medias con el programa SPSS. Para decidir el número de grupos este programa nos proporciona la varianza promedio dentro de los grupos para cada variable. Por ejemplo, si G = 2, dos grupos, la segunda columna de la tabla 15.1 indica que la varianza promedio dentro de los dos grupos o no explicada para la variable eh es 30, para la variable em es 35, y así sucesivamente. Este término se calcula como sigue: para cada variable hacemos la descomposición del análisis de la varianza de su suma de cuadrados total P (xij − x)2 en la variabilidad explicada, P (xi − x)2 , donde xi es la media de la variable en cada grupo, y la no explicada, P (xij − xi)2 . Este último término dividido por sus grados de libertad, que son n − G proporciona la varianza promedio dentro de los grupos o no explicada. Según la deÞnición La suma de estas varianzas multiplicada por n − G proporciona el estadístico SCDG, como indica la fórmula (15.5). La tabla 15.1 resume esta información La tabla muestra que, como es de esperar, las varianzas promedio de las variables dismin- uyen al hacer más grupos. La tabla muestra que la variable mi tiene mucha más varianza que las demás, y por tanto va a tener un peso muy importante en la construcción de los grupos, que van a hacerse principalmente por los valores de esta variable. La tabla de las varianzas muestra que el número de grupos es cinco, ya que al aumentar a seis la disminución de las varianzas es muy pequeña. Podemos contrastar esta intuición calculando el estadístico F dado por (8.3). Llamando MS(G) a la Þla de totales que será igual a SCDG(G)/(n-G), tenemos que este estadistico se calcula como F = (n − G)MS(G) − (n − G − 1)MS(G + 1) MS(G + 1) donde n = 91 y G es el número de grupos indicado por columnas. Por ejemplo, el contraste para ver si conviene pasar de dos grupos a tres será F = 89.653 − 88.341 341 = 82.45
  • 235. 8.2. MÉTODOS CLÁSICOS DE PARTICIÓN 235 Figura 8.6: División de los datos de Ruspini en 5 grupos con Minitab Figura 8.7: División en tres grupos de los datos de Ruspini con SPSS
  • 236. 236 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS Figura 8.8: División en cuatro grupos de los datos de Ruspini con SPSS Figura 8.9: División en cinco grupos de los datos de Ruspini con SPSS
  • 237. 8.2. MÉTODOS CLÁSICOS DE PARTICIÓN 237 mortalidad infantil 180.0 170.0 160.0 150.0 140.0 130.0 120.0 110.0 100.0 90.0 80.0 70.0 60.0 50.0 40.0 30.0 20.0 10.0 0.0 30 20 10 0 Desv. típ. = 46.30 Media = 55.3 N = 91.00 Figura 8.10: Histograma de la variable mortalidad infantil indicando la presencia de entre cuatro y cinco grupos de paises Así se obtiene la Þla de F de la tabla, y, de acuerdo con el criterio de Hartigan, escogeríamos cinco grupos. Como hemos visto que la variable mi es muy importante en la construcción de los grupos, la Þgura 15.1 presenta un histograma de esta variable. Se observa que esta variable, que va a tener un peso dominante en la formación de los grupos, indica claramente la heterogeneidad de la muestra. En los grupos construidos el grupo con menor mortalidad infantil es el tres, que incluye los paises de Europa menos Albania, y el de mayor mortalidad, el dos, que incluye a los países más pobres de Africa. La Þgura 8.11 ilustra la posición de los 5 grupos en el gráÞco de las dos variables más inßuyentes y la Þgura 8.12 la composición de los grupos. Se observa que el grupo 3 esta ´formado por la mayoría de los países europeos, japón y norte américa, el grupo1 incluye los países europeos más pobres, los más ricos de latinoamérica y otros países como China y Egipto. El grupo 4 engloba países de desarrollo medio africanos (como suráfrica o Zaire) lationamericanos (Brasil) y de Asia como Arabia Saudita, India e Indonesia. Finalmente los grupos 5 y 2 incluye los países menos desarrollos.
  • 238. 238 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS Figura 8.11: Representación de los grupos en el gráÞco de dispersión de las variables mor- talidad infantil y tasa de natalidad Figura 8.12: Indicación de los países que pertenecen a cada uno de los grupos. Hemos repetido el análisis utilizando el programa Minitab para cinco grupos. Este pro- grama propociona la suma de cuadrados dentro de los grupos por clusters (grupos) en lugar de por variables, como se indica: Number of Within cluster Average distance Maximum distance observations sum of squares from centroid from centroid
  • 239. 8.2. MÉTODOS CLÁSICOS DE PARTICIÓN 239 Cluster1 21 10855.985 20.220 58.275 Cluster2 14 833.119 7.357 10.902 Cluster3 28 960.586 5.415 9.925 Cluster4 9 864.347 8.977 15.250 Cluster5 19 3126.014 12.110 21.066 Ejemplo 8.3 Los resultados para datos sin estandarizar son parecidos, pero no idénticos, como puede verse en la Þgura 8.13, donde se han representado los grupos en el plano de las dos variables con mayor varianza y que van a tener más peso en la determinación de los grupso. Al estandarizar las variables los resultados cambian sustancialmente, al tener un peso mayor el resto de las variables, los grupos son más homogéneos por continentes y en Europa se separan los países occidentales y los orientales. Los resultados se presentan en la Þgura 8.14 donde de nuevo se han utilizado las dos variables más importantes. Figura 8.13: Resultados de k-medias con minitab para los datos de MUNDODES sin es- tandarizar. Se forman cinco grupos. En ordenadas la mortalidad infantil(C4) y en abcisas la tasa de natalidad (C2)
  • 240. 240 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS Figura 8.14: Resultados de k-medias para datos estandarizados de MUNDODES con el programa Minitab. En ordenadas la mortalidad infantil(C4) y en abcisas la tasa de natalidad (C2) 8.3 MÉTODOS JERÁRQUICOS 8.3.1 Distancias y Similaridades Distancias Euclídeas Los métodos jerárquicos parten de una matriz de distancias o similaridades entre los ele- mentos de la muestra y construyen una jerarquía basada en una distancia. Si todas las variables son continuas, la distancia más utilizada es la distancia euclídea entre las variables estandarizadas. No es, en general, recomendable utilizar las distancias de Mahalanobis, ya que la única matriz de covarianzas disponible es la de toda la muestra, que puede mostrar unas correlaciones muy distintas de las que existen entre las variables dentro de los grupos. Por ejemplo, la Þgura 8.15 se ha generado con dos grupos de variables normales indepen- dientes de medias (0,0) y (5,5) y varianza unidad. La posición de los grupos genera en el conjunto de puntos una correlación positiva fuerte, que desaparece si consideramos cada uno de los grupos por separado.
  • 241. 8.3. MÉTODOS JERÁRQUICOS 241 Figura 8.15: Dos grupos con variables incorreladas pueden dar lugar a alta correlación entre las variables. Para decidir si estandarizar las variables o no antes del análisis conviene tener en cuen- ta los comentarios anteriores y el objetivo del estudio. Si no estandarizamos, la distancia euclídea dependerá sobre todo de las variables con valores más grandes, y el resultado del análisis puede cambiar completamente al modiÞcar su escala de medida. Si estandarizamos, estamos dando a priori un peso semejante a las variables, con independencia de su variabil- idad original, lo que puede no ser siempre adecuado. Cuando en la muestra existen variables continuas y atributos el problema se complica. Supongamos que la variable x1 es binaria. La distancia euclídea entre dos elementos de la muestra en función de esta variable es (xi1 − xh1)2 que tomará el valor cero si xi1 = xh1, es decir cuando el atributo está, o no está, en ambos elementos, y uno si el atributo está en un elemento y no en el otro. Sin embargo, la distancia entre dos elementos correspondiente a una variable continua estandarizada, (xi1 −xh1)2 /s2 1, puede ser mucho mayor que uno, con lo que las variables continuas van en general a pesar mucho más que las binarias. Esto puede ser aceptable en muchos casos, pero cuando, por la naturaleza del problema, esta situación no sea deseable, la solución es trabajar con similaridades. Similaridades El coeÞciente de similaridad según la variable j = 1, ..., p entre dos elemen- tos muestrales (i, h), se deÞne como una función, sjih, no negativa y simétrica: (1) sjii = 1 (2) 0 ≤ sjih ≤ 1 (3) sjih = sjhi Si obtenemos las similaridades para cada variable entre dos elementos podemos combina- rlas en un coeÞciente de similaridad global entre los dos elementos. El coeÞciente propuesto
  • 242. 242 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS por Gower es sih = Pp j=1 wjihsjih Pp j=1 wjih (8.4) donde wjih es una variable Þcticia que es igual a uno si la comparación de estos dos elementos mediante la variable j tiene sentido, y será cero si no queremos incluir esa variable en la comparación entre los elementos. Por ejemplo, si la variable x1 es si una persona ha pedido (x1 = 1) o no (x1 = 0) un crédito y la x2 si lo ha devuelto o no, si una persona no ha pedido crédito, tiene x1 = 0, no tienen sentido preocuparse de x2. En este caso al comparar individuos (i, j) si uno cualquiera de los dos tiene un valor cero en x1, asignaremos a la variable w2ij el valor cero Las similaridades entre elementos en función de las variables cualitativas pueden con- struirse individualmente o por bloques. La similaridad entre dos elementos por una variable binaria será uno, si ambos tienen el atributo, y cero en caso contrario. Alternativamente, podemos agrupar las variables binarias en grupos homogéneos y tratarlas conjuntamente. Si suponemos que todos los atributos tienen el mismo peso, podemos construir una medida de similaridad entre dos elementos A y B respecto a todos estos atributos contando el número de atributos que están presentes: (1) en ambos (a); (2) en A y no en B, (b); (3) en B y no en A, (c); (4) en ninguno de los dos elementos, (d). Estas cuatro cantidades forman una tabla de asociación entre elementos, y servirán para construir medidas de similitud o similaridad entre los dos elementos comparados. En esta tabla se veriÞca que na = a + b + c + d, donde na es el número de atributos. Elementos variables (atributos) x1 x2 x3 x4 x5 x6 x7 A 0 1 1 0 0 0 1 B 1 0 1 1 1 1 0 C 1 0 0 1 1 1 1 . . . . . . . Tabla 8.3: Matriz de datos cuando las variables son atributos binarios Por ejemplo, la tabla 8.3 presenta una posible matriz de datos con siete atributos binarios y con ella se ha construido la tabla 8.4 de asociación que presenta la distribución conjunta de los valores 0 y 1 para los elementos A y B. El elemento A tiene 3 valores 1 en el conjunto de variables binarias y de estos tres casos, en una ocasión también el elemento B tiene el valor 1, y en otras dos tiene el valor 0. El elemento A toma 4 veces el valor 0, ninguna coincidiendo con B y las cuatro con B tomando el valor uno. La suma de los totales de Þlas y columnas debe ser siempre el número de atributos binarios considerados. Para calcular un coeÞciente de similitud entre dos individuos a partir de su tabla de asociación se utilizan los dos criterios principales siguientes:
  • 243. 8.3. MÉTODOS JERÁRQUICOS 243 B 1 0 A 1 1 (a) 2 (b) 3 0 4 (c) 0 (d) 4 Suma 5 2 7 Tabla 8.4: Tabla de asociación correspondiente a los elementos A y B 1. Proporción de coincidencias. Se calcula como el número total de coincidencias sobre el número de atributos totales: sij = a + d na . (8.5) por ejemplo la similitud de Ay B es 1/7, y la de B y C es 5/7. 2. Proporción de apariciones. Cuando la ausencia de un atributo no es relevante, podemos excluir las ausencias y calcular sólo la proporción de veces donde el atributo aparece en ambos elementos. El coeÞciente se deÞne por: sij = a a + b + c (8.6) Por ejemplo con este criterio en la tabla 8.3 la similitud entre A y B es también 1/7 , y la de B y C es 4/6. Aunque las dos propuestas anteriores son las más utilizadas puede haber situaciones donde sean recomendables otras medidas. Por ejemplo, podemos querer dar peso doble a las coincidencias, con lo que resulta sij = 2(a + d)/(2(a + d) + b + c), o tener sólo en cuenta las coincidencias y tomar sij = a/(b + c). Finalmente los coeÞcientes de similitud o similaridad para una variable continua se construye mediante sjih = 1 − |xij − xhj| rango(xj) de esta manera el coeÞciente resultante estará siempre entre cero y uno. Cuando tenemos varias variables estos coeÞcientes pueden combinarse como indica la expresión (8.4). Una vez obtenida la similaridad global entre los elementos, podemos transformar los coeÞcientes en distancias. Lo más simple es deÞnir la distancia mediante dij = 1 − sij, pero está relación puede no veriÞcar la propiedad triangular. Puede demostrarse que si la matriz de similaridades es deÞnida positiva (lo que ocurrirá si calculamos las similitudes por (8.5) o (8.6), y deÞnimos la distancia por: dij = q 2(1 − sij) entonces sí se veriÞca la propiedad triangular (véase el ejercicio 6.5)
  • 244. 244 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS 8.3.2 Algoritmos Jerárquicos Dada una matriz de distancias o de similitudes se desea clasiÞcar los elementos en una jer- arquía. Los algoritmos existentes funcionan de manera que los elementos son sucesivamente asignados a los grupos, pero la asignación es irrevocable, es decir, una vez hecha, no se cuestiona nunca más. Los algoritmos son de dos tipos: 1. De aglomeración. Parten de los elementos individuales y los van agregando en grupos. 2. De división. Parten del conjunto de elementos y lo van dividiendo sucesivamente hasta llegar a los elementos individuales. Los algoritmos de aglomeración requieren menos tiempo de cálculo y son los más utiliza- dos. El lector puede consultar los algoritmos de división en Seber (1984). 8.3.3 Métodos Aglomerativos Los algoritmos aglomerativo que se utilizan tienen siempre la misma estructura y sólo se diferencian en la forma de calcular las distancias entre grupos. Su estructura es: 1. Comenzar con tantas clases como elementos, n. Las distancias entre clases son las distancias entre elementos originales. 2. Seleccionar los dos elementos más próximos en la matriz de distancias y formar con ellos una clase. 3. Sustituir los dos elementos utilizados en (2) para deÞnir la clase por un nuevo elemento que represente la clase construida. Las distancias entre este nuevo elemento y los anteriores se calculan con uno de los criterios que comentamos a continuación. 4. Volver a (2) y repetir (2) y (3) hasta que tengamos todos los elementos agrupados en una clase única. Criterios para deÞnir distancias entre grupos Supongamos que tenemos un grupo A con na elementos, y un grupo B con nb elementos, y que ambos se fusionan para crear un grupo (AB) con na + nb elementos. La distancia del nuevo grupo, (AB), a otro grupo C con nc elementos, se calcula habitualmente por alguna de las cinco reglas siguientes: 1. Encadenamiento simple o vecino más próximo. La distancia entre los dos nuevos grupos es la menor de las distancias entre grupos antes de la fusión. Es decir: d(C; AB) = min (dCA, dCB) Una forma simple de calcular con un ordenador el mínimo entre las dos distancias es utilizar que min (dCA, dCB) = 1/2 (dCA + dCB − |dCA − dCB|)
  • 245. 8.3. MÉTODOS JERÁRQUICOS 245 En efecto, si dCB > dCA el término en valor absoluto es dCB − dCA y el resultado de la operación es dCA, la menor de las distancias. Si dCA > dCB el segundo término es dCA − dCB y se obtiene dCB. Como este criterio sólo depende del orden de las distancias será invariante ante trans- formaciones monótonas: obtendremos la misma jerarquía aunque las distancias sean numéricamente distintas. Se ha comprobado que este criterio tiende a producir grupos alargados, que pueden incluir elementos muy distintos en los extremos. 2. Encadenamiento completo o vecino más alejado. La distancia entre los dos nuevos grupos es la mayor de las distancias entre grupos antes de la fusión. Es decir: d(C; AB) = m´ax (dCA, dCB) y puede comprobarse que m´ax (dCA, dCB) = 1/2 (dCA + dCB + |dCA − dCB|) . Este criterio será también invariante ante transformaciones monótonas de las distancias al depender, como el anterior, del orden de las distancias. Tiende a producir grupos esféricos. 3. Media de grupos. La distancia entre los dos nuevos grupos es la media ponderada entre las distancias entre grupos antes de la fusión. Es decir: d(C; AB) = na na + nb dCA + nb na + nb dCB Como se ponderan los valores de las distancias, este criterio no es invariante ante transformaciones monótonas de las distancias. 4. Método del centroide. Se aplica generalmente sólo con variables continuas. La distancia entre dos grupos se hace igual a la distancia euclídea entre sus centros, donde se toman como centros los vectores de medias de las observaciones que pertenecen al grupo. Cuando se unen dos grupos se pueden calcular las nuevas distancias entre ellos sin utilizar los elementos originales. Puede demostrarse (véase ejercicio 8.5) que el cuadrado de la distancia euclídea de un grupo C a la unión de los grupos A, con na elementos y B con nb es d2 (C; AB) = na na + nb d2 CA + nb na + nb d2 CB − nanb (na + nb)2 d2 AB El método de Ward Un proceso algo diferente de construir el agrupamiento jerárquico ha sido propuesto por Ward y Wishart. La diferencia con los métodos anteriores es que ahora se parte de los elementos directamente, en lugar de utilizar la matriz de distancias, y se deÞne una medida global de la heterogeneidad de una agrupación de observaciones en grupos. Esta medida es
  • 246. 246 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS W, ya utilizada en la sección 8.2, la suma de las distancias euclídeas al cuadrado entre cada elemento y la media de su grupo: W = X g X i∈g (xig − xg)0 (xig − xg) (8.7) donde xg es la media del grupo g. El criterio comienza suponiendo que cada dato forma un grupo, g = n y por tanto W (8.7) es cero. A continuación se unen los elementos que produzcan el incremento minimo de W. Obviamente esto implica tomar los más próximos con la distancia euclídea. En la siguiente etapa tenemos n − 1 grupos, n − 2 de un elemento y uno de dos elementos. Decidimos de nuevo que dos grupos unir para que W crezca lo menos posible, con lo que pasamos a n − 2 grupos y así sucesivamente hasta tener un único grupo. Los valores de W van indicando el crecimiento del criterio al formar grupos y pueden utilizarse para decidir cuantos grupos naturales contienen nuestros datos. Puede demostrarse que, en cada etapa, los grupos que debe unirse para minimizar W son aquellos tales que: min nanb na + nb (xa − xb)0 (xa − xb) Comparación Es difícil dar reglas generales que justiÞquen un criterio sobre otro, aunque los más utilizados son los tres últimos. Nuestra recomendación es analizar que criterio es más razonable para los datos que se quieren agrupar y , en caso de duda, probar con varios y comparar los resultados. El dendrograma El dendrograma, o árbol jerárquico, es una representación gráÞca del resultado del proceso de agrupamiento en forma de árbol. Los criterios para deÞnir distancias que hemos presentado tienen la propiedad de que, si consideramos tres grupos, A, B, C, se veriÞca que d(A, C) ≤ max {d(A, B), D(B, C)} y una medida de distancia que tiene esta propiedad se denomina ultramétrica. Esta propiedad es más fuerte que la propiedad triangular, ya que una ultramétrica es siempre una distancia. En efecto si d2 (A, C) es menor o igual que el máximo de d2 (A, B), d2 (B, C) forzosamente será menor o igual que la suma d2 (A, B) + d2 (B, C). El dendrograma es la repreentación de una ultramétrica, y se contruye como sigue: 1. En la parte inferior del gráÞco se disponen los n elementos iniciales. 2. Las uniones entre elementos se representan por tres lineas rectas. Dos dirigidas a los elementos que se unen y que son perpendiculares al eje de los elementos y una paralela a este eje que se sitúa al nivel en que se unen. 3. El proceso se repite hasta que todos los elementos están concetados por lineas rectas.
  • 247. 8.3. MÉTODOS JERÁRQUICOS 247 Si cortamos el dendrograma a un nivel de distancia dado, obtenemos una clasiÞcación del número de grupos existentes a ese nivel y los elementos que los forman. El dendrograma es útil cuando los puntos tienen claramente una estructura jerárquica, pero puede ser engañoso cuando se aplica ciegamente, ya que dos puntos pueden parecer próximos cuando no lo están, y pueden aparecer alejados cuando están próximos. Ejemplo 8.4 Aplicaremos los algoritmos estudiados a la siguiente matriz inicial de distan- cias entre elementos A B C D A 0 1 4 2, 5 0 1 4 2,5 B 1 0 2 3 = 0 2 3 C 2 2 0 4 0 4 D 2, 5 3 4 0 0 Método 1 encadenamiento simple o vecino más próximo. El valor mínimo fuera de la diagonal de la matriz de distancias es 1, y corresponde a la distancia entre los elementos Ay B. Los unimos para formar un grupo y calcularemos la nueva distancias de un elemento al grupo (AB) como la mínima de las distancias de ese elemento a A y a B. Es decir: d(AB, C) = min(4; 2) = 2; d(AB, D) = min(2, 5; 3) = 2, 5. La nueva tabla de distancias se obtiene de la anterior tachando las Þlas y columnas de A y B y añadiendo una nueva columna y una nueva Þla correspondiente al grupo AB que contiene las nuevas distancias. El resultado es : AB C D AB 0 2 2,5 C 2 0 4 D 2,5 4 0 El valor mínimo fuera de la diagonal de la tabla es ahora 2, que corresponde a la distancia entre AB y C. Uniendo estos dos grupos en uno y calculando las distancias al nuevo grupo : d(ABC, D) = min(2, 5; 4) = 2, 5. y Þnalmente se unen los dos grupos Þnales ABC y D. Este proceso se representa en el dendrograma de la Þgura 8.16 El dendrograma indica que primero se unen los dos elementos A y B a distancia uno, ese grupo se une al C con distancia 2 y el ABC al D a distancia 2,5.
  • 248. 248 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS 0 0.5 1 1.5 2 2.5 A B C D Figura 8.16: Dendrograma del método de encadenamiento simple Método 2. Encadenamiento completo o vecino más alejado. La primera unión se hace igual que en el caso anterior entre A y B a distancia uno. Sin embargo, ahora las nuevas distancias son: d(AB, C) = m´ax(4; 2) = 4; d(AB, D) = m´ax(2, 5; 3) = 3 y la siguiente unión será entre AB y D a distancia tres. La distancia de C al grupo ABD es 4 y esa será la siguiente unión. La Þgura 8.17 resume el proceso. Método 3 . El inicio es, como en los métodos anteriores, la unión de los elementos más próximos, AB. Las nuevas distancias son d(AB,C)=3; d(AB,D)=2,75. Por tanto, la siguiente unión será entre AB y D a distancia 2,75. Este grupo ABD se unirá a C a su distancia que es d(ABC,D) = 1/2(4+2,75) = 3,375. La Þgura 8.18 resume el proceso. Método 4 . El inicio es, como en los métodos anteriores. Las nuevas distancias se calculan como d2 (C; AB) = 1 2 d2 CA + 1 2 d2 CB − 1 4 d2 AB = 8 + 2 − 0, 25 = 9, 75. Análogamente d2 (D; AB) = 2, 52 /2 + 9/2 − 1/4 = 7, 375. La unión será con D a distancia √ 7, 375 = 2.72. La distancia de C al nuevo grupo será d2 (C; ABD) = 1 3 9, 75+ 1 2 16− 1 4 7, 375 = 3.162 , y C se unirá al grupo a la distancia 3.16. La Þgura 8.19 presenta el dendograma. Ejemplo 8.5 La Þgura 8.20 presenta el dendrograma hecho con MINITAB para los paises de MUNDODES con el método de la disminución de la suma de cuadrados (Ward). El gráÞco sugiere la presencia de cuatro o cinco grupos de paises.
  • 249. 8.3. MÉTODOS JERÁRQUICOS 249 0 0.5 1 1.5 2 2.5 3 3.5 4 A B D C Figura 8.17: Dendrograma del método de encadenamiento completo 0 0.5 1 1.5 2 2.5 3 3.5 A B D C Figura 8.18: Dendrograma del método de la media de los grupos
  • 250. 250 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS 0 0.5 1 1.5 2 2.5 3 A B D C Figura 8.19: Dendrograma del método del centroide. Figura 8.20: Resultados de un agrupamiento jerárquico de los paises de MUNDODES por las variables de natalidad La Þgura muestra el resultado del encadenamiento simple, que es mucho más confuso.
  • 251. 8.3. MÉTODOS JERÁRQUICOS 251 Figura 8.21: Resultados de una aglomeración jerárquica para los paises de MUNDODES con encadenamiento simple. Para comparar los resultados del agrupamiento jerárquico y el de partición la Þgura 8.22 presenta los grupos obtenidos para los datos estandarizados y con el criterio de Ward en el gráÞco de las variables tasa de natalidad y mortalidad infantil. Figura 8.22: Resultado del agrupamiento jerárquico cortado en cinco grupos para variables estandarizadas de MUNDODES
  • 252. 252 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS 8.4 CONGLOMERADOS POR VARIABLES El análisis de conglomerados de variables es un procedimiento exploratorio que puede sugerir procedimientos de reducción de la dimensión, como el análisis factorial o los métodos de correlación canónica que estudiaremos en la segunda parte del libro. La idea es construir una matriz de distancias o similitudes entre variables y aplicar a esta matriz un algoritmo jerárquico de clasiÞcación. 8.4.1 Medidas de distancia y similitud entre variables Las medidas habituales de asociación entre variables continuas son la covarianza y la cor- relación. Estas medidas tienen en cuenta únicamente las relaciones lineales. Alternativa- mente, podríamos construir una medida de distancia entre dos variables xj y xh represen- tando cada variable como un punto en <n y calculando la distancia euclídea entre los dos puntos. Esta medida es: d2 jh = nX i=1 (xij − xih)2 (8.8) = X x2 ij + X x2 ih − 2 X xijxih. (8.9) Para que la distancia no dependa de las unidades, las variables deben estar estandarizadas. En otro caso la distancia entre dos variables podría alterarse arbitrariamente mediante trans- formaciones lineales de éstas. (Por ejemplo, midiendo las estaturas en metros, en lugar de en cm. y en desviaciones respecto a la media poblacional en lugar de con carácter absolu- to). Suponiendo, por tanto, que trabajamos con variables estandarizadas de media cero y varianza uno, se obtiene que (8.8) se reduce a: d2 jh = 2n(1 − rjh). Observemos que: (a) si rjh = 1, la distancia es cero, indicando que las dos variables son idénticas. (b) si rjh = 0, las dos variables están incorreladas y la distancia es djh = √ 2n. (c) si rjh < 0, las dos variables tienen correlación negativa, y la distancia tomará su valor máximo, √ 4n, cuando las dos variables tengan correlación −1. Esta medida de distancia puede estandarizarse para que sus valores estén entre cero y uno prescindiendo de la constante n y tomando djh = p (1 − rjh) /2. Para variables cualitativas binarias se puede construir una medida de similitud de forma similar a como se hizo con los elementos construyendo una tabla de asociación entre variables. Para ello se cuenta el número de elementos donde están presentes ambas características (a), donde esta sólo una de ellas (b) y (c), y donde no lo están ninguna de las dos (d). En estas
  • 253. 8.5. LECTURAS COMPLEMENTARIAS 253 tablas se veriÞca que si n es el número de individuos n = a + b + c + d, y podemos construir coeÞcientes de similitud como se hizo con los elementos. Alternativamente, esta tabla de asociación entre variables es una tabla de contingencia (véase el capítulo 7) y una medida de distancia es el valor de la ji-cuadrado (veáse el Apéndice 8.1) χ2 = (ad − bc)2 n (a + b)(a + c)(c + d)(b + d) . Es más habitual deÞnir la distancia por el coeÞciente de contingencia dij = 1 − r χ2 n . 8.5 Lecturas complementarias Un libro pionero sobre métodos de agrupamiento en español es Escudero (1977), que presenta una visión muy amplia de distintas técnicas de agrupación. La literatura sobre cluster en inglés es extensa: Anderberg (1973), Everitt (1993), Gordon (1981), Hartigan (1975), Mirkin (1996) , Spath y Bull (1980) y Spath (1985), están dedicados a este tema. La mayoría de los libros generales dedican también un capítulo a estos métodos. Ejemplo 8.6 La Þgura8.23 muestra el dendrograma del agrupamiento de las variables de los datos de EUROSEC. El criterio utilizado es el de Ward. Se observa que la agrupación de las variables coincide con lo esperado: primero se unen minería y energía, sevicios y servicions industriales, e industria y construcción. En un segundo nivel tenemos servicios (que engloba las tres variables servicios, servicios industriales y Þnanzas), agricultura, que esta sóla e industria, que recoge el resto de las variables industriales. Figura 8.23: Agrupamiento por variables de los datos de EUROSEC
  • 254. 254 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS Ejemplo 8.7 El dendrograma de la Þgura8.24 muestra la agrupación de las variables para las medidas físicas, MEDIFIS. La correlación más estrecha se da entre longitud del pie y estatura, y la variable diámetro del cráneo esta poco relacionada con el resto como obtuvi- mos anteriormente. Si quisiésemos hacer grupos a un primer nivel tenemos tres grupos de variables, de longitud, con 4 variables, de anchura, con dos, y el diámetro de la cabeza. A un nivel superior quedan todas las variables en un lado y el diámetro de la cabeza en el otro. Figura 8.24: Dendrograma de las medidas físicas con el criterio de Ward. Ejemplo 8.8 La Þgura 8.25 presenta los resultados para las variables de INVES. A un nivel bajo tenemos cuatro grupos de variables: química, ingeniería, agricultura y biología y el resto, que incluye 4 variables. A un nivel superior los dos últimos grupos se unen y la distancia mayor se da entre el banco de datos químicos y el resto.
  • 255. 8.5. LECTURAS COMPLEMENTARIAS 255 Figura 8.25: Dendrograma de las variables de INVES EJERCICIOS Ejercicio 8.1 Aplicar el algoritmo de k-medias a los datos de los presupuestos familiares. ¿Cuántos grupos hay en lso datos? Ejercicio 8.2 Aplicar un agrupamiento jerárquico a los datos de los presupuestos familiares. Comparar el resultado con distintos métodos de agrupación. Compararlos con los resultados de k-medias Ejercicio 8.3 Demostrar que el criterio de Hartigan para el algoritmo de k-medias equivale a continuar añadiendo grupos hasta que tr(WG) < tr(WG+1)(n − G + 9)/(n − G − 1) (Sugerencia utilizar que tr(W) = SCDG, e imponer la condición de que el valor de F sea mayor que 10) Ejercicio 8.4 Demostrar que si deÞnimos T = PG g=1 Png i=1(xig − x)(xig − x)0 a la suma de cuadrados totales podemos escribir T = B + W, donde W se ha deÞnido en la sección 8.2 y B es la matriz de suma de cuadrados entre grupos. Ejercicio 8.5 Demostrar que las distancias entre grupos con encadenamiento simple, com- pleto y media de grupos pueden calcularse con αdCA + αdCB + β |dCA − dCB| y obtener los valores de α y β que dan lugar a estas distancias. Ejercicio 8.6 Demostrar que en aglomeramiento jerárquico podemos calcular las distancias euclídeas al cuadrado entre un grupo C a la unión de los grupos A, con na elementos y B con nb mediante d2 (C; AB) = na na+nb d2 CA + nb na+nb d2 CB − nanb (na+nb)2 d2 AB . (sugerencia: La media de la unión de los grupos A y B tendrá de coordenadas xAB = na na+nb xA + nb na+nb xB, sustituir esa expresión en la distancia de C a ese punto (xC −xAB)0 (xC − xAB) y desarrollar.
  • 256. 256 CAPÍTULO 8. ANÁLISIS DE CONGLOMERADOS APÉNDICE 8.1. CÁLCULO DEL ESTADISTICO JI-CUADRADO EN TABLAS 2×2 En la tabla de contingencia {a, b, c, d} las frecuencias esperadas son 1 n {(a+c)(a+b), (a+ b)(b + d), (b + d)(c + d)} y el valor de la χ2 deÞnida en la seccion 7.3 es: χ2 = µ ad − bc n ¶2 · n (a + c)(a + b) + n (a + b)(b + d) + n (a + c)(c + d) + n (b + d)(c + d) ¸ En efecto, como la tabla tiene un grado de libertad, las discrepancias entre las frecuencias observadas y esperadas deben de ser iguales, por ejemplo para la primera casilla µ a − (a + c) (a + b) n ¶2 = µ na − a(a + b + c) − bc n ¶2 = µ ad − bc n ¶2 y lo mismo se obtiene en las restantes. Como: (b + d)(d + c) + (a + c)(c + d) + (a + b)(b + d) + (a + c)(a + b) = (b + d)n + (a + c)n = (a + b + c + d)n = n2 resulta Þnalmente que: χ2 = (ab − bc)2 n (a + b)(a + c)(b + d)(c + d) .
  • 257. Capítulo 9 DISTRIBUCIONES MULTIVARIANTES 9.1 CONCEPTOS BÁSICOS. El problema central en la análisis de datos es decidir si las propiedades encontradas en una muestra pueden generalizarse a la población de la que proviene. Para poder realizar esta extrapolación necesitamos construir un modelo del sistema generador de los datos, es decir, suponer una distribución de probabilidad para la variable aleatoria en la población. Este capítulo repasa los conceptos básicos para construir modelos estadísticos multivariantes y presenta las distribuciones que se utilizarán para la inferencia en los capítulos siguientes. 9.1.1 Variables aleatorias vectoriales. Una variable aleatoria vectorial es el resultado de observar p características en un elemento de una población. Por ejemplo, si observamos la edad y el peso de los estudiantes de una universidad tendremos valores de una variable aleatoria bidimensional; si observamos el número de trabajadores, las ventas y los beneÞcios de las empresas de un sector, tendremos una variable aleatoria tridimensional. Diremos que se ha deÞnido la distribución conjunta de una variable aleatoria vectorial cuando se especiÞque: 1. El espacio muestral o conjunto de sus valores posibles. Representando cada valor por un punto en el espacio de dimensión p, <p , de los números reales, el espacio muestral es, en general, un subconjunto de este espacio. 2. Las probabilidades de cada posible resultado (subconjunto de puntos) del espacio mues- tral. Diremos que la variable vectorial p−dimensional es discreta, cuando lo es cada una de las p−variables escalares que la componen. Por ejemplo, el color de los ojos y del cabello forman una variable bidimensional discreta. Análogamente, diremos que la variable es continua si sus componentes lo son. Cuando algunos de sus componentes sean discretos y otros continuos 257
  • 258. 258 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES diremos que la variable vectorial es mixta. Por ejemplo, la variable: género (0=hombre, 1=mujer), estatura y peso de personas, es tridimensional mixta. En este capítulo, para simpliÞcar la exposición, y salvo indicación en otro sentido, supondremos que la variable vectorial es continua. 9.1.2 Distribución conjunta La función de distribución conjunta de una variable aleatoria vectorial F(x) se deÞne en un punto x0 = (x0 1, ..., x0 p) mediante: F(x0 ) = P(x ≤ x0 ) = P(x1 ≤ x0 1, ..., xp ≤ x0 p) donde P(x ≤ x0 ) representa la probabilidad de que la variable tome valores menores o iguales al valor particular considerado, x0 . Por tanto, la función de distribución acumula las probabilidades de todos los valores menores o iguales al punto considerado, y será no decreciente. Aunque la función de distribución tiene un gran interés teórico, es más cómodo en la práctica trabajar con la función de densidad para variables continuas, o con la función de probabilidades para las discretas. Llamaremos función de probabilidad de una variable discreta a la función p(x0 ) deÞnida por p(x0 ) = P(x = x0 ) = P(x1 = x0 1, ..., xp = x0 p). Diremos que el vector x es absolutamente continuo si existe una función de densidad, f(x), que satisface: F(x0 ) = Z x0 −∞ f(x)dx, (9.1) donde dx = dx1....dxp y la integral es una integral múltiple en dimensión p. La densidad de probabilidad tiene la interpretación habitual de una densidad: masa por unidad de volumen. Por tanto la función de densidad conjunta debe veriÞcar a) f(x) = f(x1....., xp) ≥ 0. La densidad es siempre no negativa. b) R ∞ −∞ f(x)dx = R ∞ −∞ ...... R ∞ −∞ f(x1, .....xp) dx1....dxp = 1. Si multiplicamos la densidad en cada punto por el elemento de volumen en p dimensiones (que, si p = 2, será el área de un rectángulo, si p = 3 el volumen de un paralepípedo, etc) y sumamos (integramos) para todos los puntos con densidad no nula, obtenemos la masa de probabilidad total, que se estandariza al valor unidad. Las probabilidades de sucesos deÞnidos como subconjuntos del espacio muestral serán iguales a la masa de probabilidad correspondiente al subconjunto. Estas probabilidades se calcularán integrando la función de densidad sobre el subconjunto. Por ejemplo, para una variable bidimensional y sucesos A del tipo A = (a < x1 ≤ b; c < x2 ≤ d): P(A) = Z b a Z d c f(x1, x2)dx1dx2
  • 259. 9.1. CONCEPTOS BÁSICOS. 259 mientras que, en general, P(A) = Z A f(x)dx. En este capítulo, y para simpliÞcar la notación, utilizaremos la letra f para referirnos a la función de densidad de cualquier variable e indicaremos la variable por el argumento de la función, de manera que f(x1) es la función de densidad de la variable x1 , y f(x1, x2) es la función de densidad de la variable bidimensional (x1, x2). 9.1.3 Distribuciones marginales y condicionadas Dada una variable aleatoria vectorial p−dimensional (x1, ...., xp) llamaremos distribución marginal de cada componente xi a la distribución univariante de dicho componente, consid- erado individualmente, e ignorando los valores del resto de los componentes. Por ejemplo, para variables bidimensionales continuas las distribuciones marginales se obtienen como: f(x1) = Z ∞ −∞ f(x1, x2)dx2, (9.2) f(x2) = Z ∞ −∞ f(x1, x2)dx1, (9.3) y representan la función de densidad de cada variable ignorando los valores que toma la otra. Como hemos indicado antes, la letra f se reÞere genericamente a una función de densidad. Por ejemplo, la ecuación (9.2) indica que si integramos una función de densidad en dos variables, f(x1, x2), respecto a la variable x2 se obtiene una función que es de nuevo una función de densidad, y de ahí el símbolo f, pero que es ahora la función de densidad de la variable x1. Las funciones f(x1) y f(x1, x2) serán en general totalmente distintas y sólo tienen en común ser ambas funciones de densidad, por tanto f (.) ≥ 0, y Z ∞ −∞ f(x1)dx1 = 1 Z ∞ −∞ Z ∞ −∞ f(x1, x2)dx1dx2 = 1. Para justiÞcar (9.2), calcularemos la probabilidad de que la variable x1 pertenezca a un intervalo (a, b] a partir de la distribución conjunta. Entonces: P(a < x1 ≤ b) = P(a < x1 ≤ b; −∞ < x2 ≤ ∞) = Z b a dx1 Z ∞ −∞ f(x1, x2)dx2 = = Z b a f(x1)dx1
  • 260. 260 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES que justiÞca (9.2). Observemos que en esta ecuación x1 es un valor concreto cualquiera. Supongamos que la precisión de la medida de x1 es ∆x1, es decir, diremos que ha ocurrido el valor x1 si se observa un valor en el intervalo x1 ± ∆x1/2. La probabilidad de este valor será el valor de la densidad en el centro del intervalo, f(x1) por la longitud de la base ∆x1. Si multiplicamos ambos miembros de la ecuación (9.2) por la constante ∆x1, tenemos en el primer miembro f(x1)∆x1, que es la probabilidad de ese valor concreto de x1 calculada con su distribución univariante. En el segundo miembro tendremos la suma (integral) de todas las probabilidades de los pares de valores posibles (x1, x2), cuando x1 es Þjo y x2 toma todos los valores posibles. En efecto, estas probabilidades vienen dadas por f(x1, x2)dx2∆x1, y sumando para todos los valores posibles de x2 de nuevo obtenemos la probabilidad del valor x1. Si x = (x1, x2), donde x1 y x2 son a su vez variables vectoriales, se deÞne la distribución condicionada de x1, para un valor concreto de la variable x2 = x0 2, por: f(x1|x0 2) = f(x1, x0 2) f(x0 2) (9.4) supuesto que f(x0 2) 6= 0. Esta deÞnición es consistente con el concepto de probabilidad condicionada y con el de función de densidad para una variable. En efecto, supongamos para simpliÞcar que ambas variables son escalares. Entonces multiplicando por ∆x1 ambos miembros tendremos f(x1|x0 2)∆x1 = f(x1, x0 2)∆x1∆x2 f(x0 2)∆x2 y el primer miembro representa la probabilidad condicionada que se expresa como cociente de la probabilidad conjunta y la marginal. De esta deÞnición se deduce: f(x1, x2) = f(x2|x1)f(x1). (9.5) La distribución marginal de x2, puede calcularse en función de (9.3) y (9.5) como: f(x2) = Z f(x2|x1)f(x1)dx1, (9.6) que tiene una clara interpretación intuitiva. Si multiplicamos ambos miembros por ∆x2, el elemento de volumen, tenemos en la izquierda f(x2)∆x2, la probabilidad del valor concreto de x2 considerado. La fórmula (9.6) nos dice que esta probabilidad puede calcularse obteniendo primero la probabilidad del valor x2 para cada posible valor de x1, dada por f(x2|x1)∆x2, y luego multiplicando cada uno de estos valores por las probabilidades de x1, f(x1)dx1, lo que equivale a promedir las probabilidades condicionadas por x1 respecto a la distribución de esta variable. Como resultado de (9.5) y (9.6) la distribución condicionada f(x1|x2) puede entonces escribirse como: f(x1|x2) = f(x2|x1)f(x1) R f(x2|x1)f(x1)dx1 (9.7)
  • 261. 9.1. CONCEPTOS BÁSICOS. 261 que es el teorema de Bayes para funciones de densidad, y constituye la herramienta funda- mental de la inferencia Bayesiana que estudiaremos en el capítulo 11. Para variables discretas los conceptos son similares, pero las integrales se sustituyen por sumas, como se indica en el siguiente ejemplo. Ejemplo 9.1 La tabla 9.1 presenta al distribución conjunta de las variables aleatorias disc- retas: x1 : votar a uno de cuatro posibles partidos políticos, que toma los cuatro valores posibles P1, P2, P3 y P4 y x2 : nivel de ingresos de los votantes, que toma los tres valores A (alto), M (medio), B (bajo). Calcular las distribuciones marginales, la distribución condi- cionada de los votos para las personas con ingresos bajos y la distribución condicionada de los ingresos para los votantes del partido P4. A M B P1 .1 .05 .01 P2 .05 .20 .04 P3 .04 .25 .07 P4 .01 .1 .08 Tabla 9.1. Distribución conjunta de votos e ingresos en una población Para calcular la distribución marginal añadimos a la tabla una Þla y una columna y colocamos allí el resultado de sumar las Þlas y las columnas de la tabla. Con esto se obtiene la tabla 9.2. Por ejemplo, la distribución marginal de los ingresos indica que la probabilidad de ingresos altos es .2, de medios .6 y de bajos .2. Observemos que las distribuciones marginales son el resultado que se obtiene en los márgenes de la tabla (lo que justiÞca su nombre) al sumar las probabilidades conjuntas por Þlas y por columnas. A M B Marginal de votos P1 .1 .05 .01 .16 P2 .05 .20 .04 .29 P3 .04 .25 .07 .36 P4 .01 .1 .08 .19 Marginal de ingresos .2 .6 .2 Tabla 9.2. Distribución conjunta y marginales de votos e ingresos en una población Para calcular la distribución condicionada de los votos para las personas de ingresos bajos, dividimos cada casilla de la columna de ingresos bajos por el total de la columna. La distribución resultante se indica en el tabla 9.3 P1 P2 P3 P4 .05 .20 .35 .40 Tabla 9.3 distribución condicionada de los votos para personas con ingresos medios. Por ejemplo, el valor .05 es el resultado de dividir .01, la probabilidad conjunta de ingresos bajos y votar a P1 por la probabilidad marginal de ingresos bajos, .1. Esta tabla indica que el partido preferido para las personas de ingresos bajos es el P4 con un 40% de los votos, seguido del P3 con el 35%. La tabla 9.4 indica la distribución condicionada de los ingresos para los votantes del partido P4. El grupo más numeroso de votantes de este partido es de ingresos medios (52,63%) seguido de ingresos bajos (42,11%) y altos (5,26%).
  • 262. 262 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES A M B Total P4 .0526 .5263 .4211 1 Tabla 9.4 distribución condicionada de los ingresos para personas que votan a P1. 9.1.4 Independencia El concepto fundamental en el estudio conjunto de varias variables aleatorias es el concep- to de independencia. Diremos que dos vectores aleatorios x1, x2 son independientes si el conocimiento de uno de ellos no aporta información respecto a los valores del otro. En otros términos, la distribución de valores concretos de x2 no depende de x1 y es la misma cualquiera que sea el valor de x1. Esto se expresa matemáticamente: f(x2|x1) = f(x2) (9.8) que indica que la distribución condicionada es idéntica a la marginal. Utilizando (9.5), una deÞnición equivalente de independencia entre dos vectores aleatorios x1, x2 es: f(x1, x2) = f(x1)f(x2) (9.9) es decir, dos vectores aleatorios son independientes si su distribución conjunta (su prob- abilidad conjunta) es el producto de las distribuciones marginales ( de las probabilidades individuales). En general, diremos que las variables aleatorias x1, ..., xp, con densidad con- junta f(x1, ..., xp) son independientes, si se veriÞca: f(x1, ......, xp) = f(x1)f(x2)....f(xp) (9.10) La independencia conjunta es una condición muy fuerte: al ser x1, ..., xp independientes también lo serán cualquier subconjunto de variables (x1, ...., xh) con h ≤ p, así como cualquier conjunto de funciones de las variables individuales, g1(x1)....g1(xp), o de conjuntos disjuntos de ellas. Cuando las variables son independientes no ganamos nada con su estudio conjunto y conviene estudiarlas individualmente. Es fácil comprobar que si las variables x1 y x2 son independientes y construimos nuevas variables y1 = g1(x1), y2 = g2(x2), donde la primera variable es sólo función de x1 y la segunda sólo de x2, las variables y1, y2 son también independientes. 9.1.5 La maldición de la dimensión La maldición de la dimensión es un término acuñado por el matemático R. Bellman para describir como aumenta la complejidad de un problema al aumentar la dimensión de las variables involucradas. En el análisis estadístico multivariante la maldición de la dimensión se maniÞesta de varias formas. En primer lugar, al aumentar la dimensión, el espacio está cada vez más vacío, haciendo más difícil cualquier proceso de inferencia a partir de los datos. Esto es consecuencia de que, al aumentar la dimensión del espacio aumenta su volumen (o su hipervolumen en general), y como la masa total de probabilidad es la unidad, la densidad de la variable aleatoria
  • 263. 9.2. PROPIEDADES DE VARIABLES VECTORIALES 263 debe disminuir. En consecuencia, la densidad de probabilidad de una variable aleatoria de dimensión alta es muy baja en todo el espacio, o, lo que es equivalente, el espacio esta progresivamente más vacío. Para ilustrar el problema, supongamos que la densidad de una variable p−dimensional es uniforme en el hipercubo [0,1]p y que todos los componentes son independientes. Por ejemplo, pueden generarse muestras de esta variable tomando conjuntos de p números aleatorios entre cero y uno. Consideremos la probabilidad de que un valor al azar de esta variable esté dentro del hipercubo [0; 0, 9]p . Para p = 1, el caso escalar, esta probabilidad es 0, 9, para p = 10, este valor baja a 0, 910 = 0, 35, y para p = 30 es 0, 930 = 0, 04. Vemos que, a medida que aumenta la dimensión del espacio, cualquier conjunto va, progresivamente, quedándose vacío. Un segundo problema es que el número de parámetros necesario para describir los datos aumenta rápidamente con la dimensión. Para representar en dimensión p la media y la matriz de covarianzas necesitamos p + p(p + 1)/2 = p(p + 3)/2 que es de orden p2 . Por tanto, la complejidad de los datos, medida por el número de parámet- ros necesarios para representarlos, crece, en este caso, con el cuadrado de la dimensión del espacio. Por ejemplo, 100 datos es una muestra grande para una variable unidimensional, pero es muy pequeña para una variable vectorial con p = 14 : para estimar las medias, varianzas y covarianzas se requieren más de 14(17)/2 = 119 observaciones. Como norma general, los procedimientos multivariantes necesita un ratio n/p > 10 y es deseable que este ratio sea mayor de 20. La consecuencia del aumento de la dimensión es un aumento de la incertidumbre del problema: la previsión conjunta de los valores de la variable va siendo cada vez más difícil. En la práctica, este problema disminuye si las variables son muy dependientes entre sí, ya que entonces, la densidad de probabilidad se concentra en determinadas zonas del espacio, deÞnidas por la relación de dependencia, en lugar de repartirse por todo el espacio muestral. Esta dependencia puede usarse, extendiendo los métodos que como hemos visto en capítulos anteriores, para reducir la dimensión del espacio de variables y evitar la maldición de la dimensionalidad. 9.2 PROPIEDADES DE VARIABLES VECTORIALES 9.2.1 Vector de medias Llamaremos esperanza, o vector de medias, µ, de una variable multidimensional, x, al vector cuyos componentes son las esperanzas, o medias, de los componentes de la variable aleatoria. Escribiremos el vector de medias como: µ = E [x] (9.11) donde debe entenderse que la esperanza operando sobre un vector o una matriz es el resultado de aplicar este operador (tomar medias) a cada uno de los componentes. Si la variable es
  • 264. 264 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES continua: µ = E [x] = Z xf(x)dx La esperanza es una función lineal, es decir, para cualquier matriz, A, y vector b, tenemos: E [Ax + b] = AE[x1] + b. Si x = (x1, x2)0 tenemos también que, para escalares a y b : E [ax1 + bx2] = aE [x1] + bE[x2] . y si x1 y x2 son independientes: E [x1x2] = E [x1]E[x2] . 9.2.2 Esperanza de una función Generalizando la idea de esperanza, si disponemos de una función escalar y = g(x) de un vector de variables aleatorias, el valor medio de esta función se calcula: E [y] = Z yf(y)dy = Z ... Z g(x)f(x1, ...., xn)dx1, ...., dxn (9.12) La primera integral tiene en cuenta que y es escalar y si conocemos su función de densidad, f(y), su esperanza se calcula de la forma habitual. La segunda, muestra que no es necesario calcular f(y) para determinar el valor promedio de g(x): basta ponderar sus valores posibles por las probabilidades que dan lugar a estos valores. Esta deÞnición es consistente, y es fácil comprobar que ambos métodos conducen al mismo resultado. Si x = (x1, x2)0 , y deÞnimos y1 = g1(x1), y2 = g2(x2), si x1 e x2 son independientes E [y1y2] = E(g1(x1))E(g2(x2)) 9.2.3 Matriz de varianzas y covarianzas Llamaremos matriz de varianzas y covarianzas (o simplemente matriz de covarianzas) de un vector aleatorio x = (x1, ..., xp)0 , de <p , con vector de medias µ0 = (µ1, ...., µp), a la matriz cuadrada de orden p obtenida por : Vx = E [(x − µ)(x − µ)0 ] (9.13) La matriz Vx contiene en la diagonal las varianzas de los componentes, que representare- mos por σ2 i , y fuera de ella las covarianzas entre los pares de variables, que representaremos por σij. La matriz de covarianzas es simétrica y semideÞnida positiva. Es decir, dado un vector cualquiera, ω, se veriÞcará: ω0 Vxω ≥ 0.
  • 265. 9.2. PROPIEDADES DE VARIABLES VECTORIALES 265 Para demostrar esta propiedad deÞnamos una variable unidimensional por: y = (x − µ)0 ω donde ω es un vector arbitrario de <p . La variable y tiene esperanza cero ya que E(y) = E [(x − µ)]0 ω =0 y su varianza debe ser no negativa: var(y) = E £ y2 ¤ = ω0 E [(x − µ)(x − µ)0 ] ω = ω0 Vxω ≥ 0 Llamaremos varianza media al promedio de las varianzas dado por tr(Vx)/p, varianza generalizada a |Vx| y variabilidad promedio a V P = |Vx|1/p que es una medida global de la variabilidad conjunta para todas las variables que tiene en cuenta su estructura de dependencia. La interpretación de estas medidas es similar a la estudiada en el capítulo 3 para distribuciones de datos. 9.2.4 Transformaciones de vectores aleatorios. Al trabajar con funciones de densidad de vectores aleatorios es importante recordar que, como en el caso univariante, la función de densidad tiene dimensiones: si p = 1, caso univariante, probabilidad por unidad de longitud, si p = 2, probabilidad por unidad de superÞcie, si p = 3 por unidad de volumen y si p > 3) de hipervolumen. Por lo tanto, si cambiamos las unidades de medida de las variables, la función de densidad debe modiÞcarse también. En general, sea x un vector de <p con función de densidad fx(x) y sea otro vector aleatorio y de <p , deÞnido mediante la transformación uno a uno: y1 = g1(x1, ....., xp) ... ... yp = gp(x1, ...., xp), donde suponemos que existen las funciones inversas x1 = h1(y1, ..., yp), ..., xp = hp(y1, ..., yp), y que todas las funciones implicadas son diferenciables. Entonces, puede demostrarse que la función de densidad del vector y viene dada por: fy(y) = fx(x) ¯ ¯ ¯ ¯ dx dy ¯ ¯ ¯ ¯ , (9.14) donde aquí hemos utilizado fy y fx para representar las funciones de densidad de las vari- ables y, y x, para evitar confusiones. El término |dx/dy| representa el jacobiano de la
  • 266. 266 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES transformación, (que ajusta la probabilidad por el cambio de escala de medida) dado por el determinante: ¯ ¯ ¯ ¯ dx dy ¯ ¯ ¯ ¯ = ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ∂x1 ∂y1 . . . ∂x1 ∂yp ... ... ∂xp ∂y1 ... ∂xp ∂yp ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ que suponemos es distinto de cero en el rango de la transformación. Un caso importante es el de transformaciones lineales de la variable. Si hacemos y = Ax donde A es una matriz cuadrada no singular, las derivadas de los componentes de x respecto a y se obtendrán de x = A−1 y, y serán, por tanto, los elementos de la matriz A−1 . El Jacobiano de la transformación será |A−1 | = |A|−1 y la función de densidad de la nueva variable y, será fy(y) = fx(A−1 y) |A|−1 (9.15) expresión que indica que para obtener la función de densidad de la variable y sustituimos en la función de densidad de la variable x el argumento por A−1 y y dividimos el resultado por el determinante de la matriz A. 9.2.5 Esperanzas de transformaciones lineales Sea x un vector aleatorio de dimensión p y deÞnamos un nuevo vector aleatorio y de dimen- sión m, (m ≤ p), con y = Ax, (9.16) donde A es una matriz rectangular de dimensiones m × p. Llamando µx, µy, a sus vectores de medias y Vx, Vy a las matrices de covarianzas, se veriÞca la relación: µy = Aµx (9.17) que es inmediata tomando esperanzas en (9.16). Además: Vy = AVxA0 (9.18) donde A0 es la matriz transpuesta de A. En efecto, aplicando la deÞnición de covarianzas y las relaciones (9.16) y (9.18) Vy = E £ (y − µy)(y − µy)0 ¤ = E [A(x − µx)(x − µx)0 A0 ] = AVxA0 Ejemplo 9.2 Las valoraciones de los clientes de la puntualidad (x1), rapidez (x2) y limpieza (x3) de un servicio de transporte tienen unas medias, en una escala de cero a diez, de 7, 8 y 8,5 respectivamente con una matriz de varianzas y covarianzas
  • 267. 9.3. DEPENDENCIA ENTRE VARIABLES ALEATORIAS 267 Vx =   1 .5 .7 .5 .64 .6 .7 .6 1.44   Se construyen dos indicadores de la calidad del servicio. El primero es el promedio de las tres puntuaciones y el segundo es la diferencia entre el promedio de la puntualidad y la rapidez, que indica la Þabilidad del servicio y la limpieza, que indica la comodidad del mismo. Calcular el vector de medias y la matriz de covarianzas para estos dos indicadores. La expresión del primer indicador es y1 = x1 + x2 + x3 3 y la del segundo y2 = x1 + x2 2 − x3 Estas dos ecuaciones pueden escribirse matricialmente · y1 y2 ¸ = · 1/3 1/3 1/3 1/2 1/2 −1 ¸   x1 x2 x3   El vector de medias será · µ1 µ2 ¸ = · 1/3 1/3 1/3 1/2 1/2 −1 ¸   7 8 8, 5   = · 7, 83 −1 ¸ y el valor 7,83 es una medida global de la calidad promedio del servicio y el menos uno de la relación Þabilidad comodidad. La matriz de varianzas covarianzas es: Vy = · 1/3 1/3 1/3 1/2 1/2 −1 ¸   1 .5 .7 .5 .64 .6 .7 .6 1.44     1/3 1/2 1/3 1/2 1/3 −1   = = · . 742 22 −. 256 67 −. 256 67 . 8 ¸ que indica que la variabilidad de ambos indicadores es similar y que están relacionados negativamente, ya que la covarianza es negativa. 9.3 Dependencia entre variables aleatorias 9.3.1 Esperanzas condicionadas La esperanza de un vector x1 condicionada a un valor concreto de otro vector x2 es la esperanza de la distribución de x1 condicionada a x2 y viene dada por: E [x1|x2] = Z x1f (x1|x2) dx1.
  • 268. 268 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES En general esta expresión será una función del valor x2. Cuando x2 es un valor Þjo, la esperanza condicionada será una constante. Si x2 es una variable aleatoria, la esperanza condicionada será también una variable aleatoria. La esperanza de un vector aleatorio x1 puede calcularse a partir de las esperanzas condi- cionales en dos etapas: en la primera calculamos la esperanza de x1 condicionada a x2. El resultado es una función aleatoria que depende de la variable aleatoria x2. En la segunda, calculamos la esperanza de esta función con relación a la distribución de x2. Entonces: E(x1) = E [E(x1|x2)] . (9.19) Esta expresión indica que la esperanza de una variable aleatoria puede obtenerse prome- diando las esperanzas condicionadas por sus probabilidades de aparición o, en otros términos, que la esperanza de la media condicionada es la esperanza marginal o incondicional. Demostración E(x1) = Z x1f(x1)dx1 = ZZ x1f(x1x2)dx1dx2 = ZZ x1f(x1|x2)f(x2)dx1dx2 = Z f(x2) ·Z x1f(x1|x2)dx1 ¸ dx2 = Z E [x1|x2] f(x2)dx2 = E [E(x1|x2)] . 9.3.2 Varianzas condicionadas La varianza de x1 condicionada a x2 se deÞne como la varianza de la distribución de x1 condicionada a x2. Utilizaremos la notación V ar(x1|x2) = V1/2 y esta matriz tendrá las propiedades ya estudiadas de una matriz de covarianzas. Si x1 es escalar, su varianza puede calcularse también a partir de las propiedades de la distribución condicionada. En concreto, puede expresarse como suma de dos términos: el primero asociado a las medias condicionadas y el segundo a las varianzas condicionadas. Para obtener esta expresión partimos de la descomposición: x1 − µ1 = x1 − E(x1/x2) + E(x1/x2) − µ1 donde x2 es un vector aleatorio cualquiera para el que la esperanza condicionada E(x1/x2) es Þnita. Elevando al cuadrado esta expresión y tomando esperanzas en ambos miembros: var(x1) = E(x1 − E(x1/x2))2 + E(E(x1/x2) − µ1)2 + 2E [(x1 − E(x1/x2)(E(x1/x2) − µ1)] el doble producto se anula, ya que E [(x1 − E(x1/x2))(E(x1/x2) − µ1)] =
  • 269. 9.3. DEPENDENCIA ENTRE VARIABLES ALEATORIAS 269 = Z (E(x1/x2) − µ1) ·Z (x1 − E(x1/x2))f(x1/x2)dx1 ¸ f(x2)dx2 = 0 al ser nula la integral entre corchetes. Por otro lado, como por (9.19): E [E(x1/x2)] = E(x1) = µ1, el segundo término es la esperanza de la diferencia al cuadrado entre la variable aleatoria E(x1/x2), que dependerá del vector aleatorio x2 y su media µ1. Por tanto: var(x1) = E [var(x1/x2)] + var [E(x1/x2)] (9.20) Esta expresión se conoce como descomposición de la varianza, ya que descompone la variabilidad de la variable en dos fuentes principales de variación. Por un lado, hay vari- abilidad porque las varianzas de las distribuciones condicionadas, var(x1/x2), pueden ser distintas, y el primer término promedia estas varianzas. Por otro, hay también variabilidad porque las medias de las distribuciones condicionadas pueden ser distintas, y el segundo término recoge las diferencias entre las medias condicionadas, E(x1/x2), y la media total, µ1, mediante el término var [E(x1/x2)] . Observemos que la varianza de la variable x1 es, en general, mayor que el promedio de las varianzas de las distribuciones condicionadas, debido a que en las condicionadas la variabilidad se calcula respecto a las medias condicionadas, E(x1/x2), mientras que var(x1) mide la variabilidad respecto a la media global, µ1. Si todas las medias condicionadas son iguales a µ1, los que ocurrirá por ejemplo si x1 e x2 son inde- pendientes, entonces el término var [E(x1/x2)] es cero y la varianza es la media ponderada de las varianzas condicionadas. Si E(x1/x2) no es constante, entonces la varianza de x1 será tanto mayor cuanto mayor sea la variabilidad de las medias condicionadas. Esta descomposición de la varianza aparece en el análisis de la varianza de los modelos lineales univariantes: X (xi − x)2 /n = X (xi − bxi)2 /n + X (bxi − x)2 /n donde, en esta expresión, bxi es la estimación de la media condicionada en el modelo lineal. La variabilidad total, que equivale a var(x1), se descompone en dos términos incorrelados. Por un lado, el promedio de las estimaciones de var(x1/x2), que se calculan promediando las diferencias entre la variable y la media condicionada. Por el otro, la variabilidad de las esperanzas condicionales respecto a la media global, que se estiman en los modelos lineales por las diferencias bxi − x. 9.3.3 Matriz de correlación Se deÞne la matriz de correlación de un vector aleatorio x con matriz de covarianzas Vx, por Rx= D−1/2 VxD−1/2 donde D = diag(σ2 1, ..., σ2 p)
  • 270. 270 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES es la matriz diagonal que contiene las varianzas de las variables. La matriz de correlación será pues una matriz cuadrada y simétrica con unos en la diagonal y los coeÞcientes de correlacion entre los pares de variables fuera de la diagonal. Los coeÞcientes de correlación simple o coeÞcientes de correlación lineal, vienen dados por ρij = σij σiσj La matriz de correlación es también semideÞnida positiva. Una medida global de las cor- relaciones lineales existentes en el conjunto de variables es la dependencia, deÞnida por Dx = 1 − |Rx|1/(p−1) cuya interpretación para variables aleatorias es análoga a la presentada en el capítulo 3 para variables estadísticas. Para p = 2 la matriz Rx tiene unos en la diagonal y el coeÞciente ρ12 fuera, |Rx| = 1−ρ2 12, y la dependencia Dx = 1−(1−ρ2 12) = ρ2 12 coincide con el coeÞciente de determinación. Se demuestra de la misma forma que se hizo en el capítulo 3 que en el caso general, p > 2, la dependencia es un promedio geométrico de coeÞcientes de determinación. 9.3.4 Correlaciones Múltiples Se denomina correlación múltiple de una variable escalar, y, y un vector de variables x a una medida de la capacidad de prever y mediante una función lineal de las variables x. Suponien- do, sin pérdida de generalidad, que las variables tienen media cero, deÞnimos la mejor predic- ción lineal de y como la función β0 x que minimiza E(y − β0 x)2 . Puede demostrarse que β = V−1 x Vxy siendo Vx la matriz de covarianzas de x y Vxy el vector de covarianzas entre y y x. El coeÞciente de correlación simple entre las variables escalares y y β0 x se denomina coeÞciente de correlación múltiple. Puede demostrarse que si llamamos σij a los términos de la matriz de covarianzas V de un vector de variables y σij a los términos de la matriz V−1 , el coeÞciente de correlación múltiple, Ri.R entre cada variable (i) y todas las demás (R) se calcula como: R2 i.R = 1 − 1 σijσij En particular, si E(y|x) es una función lineal de x entonces E(y|x) = β0 x y R2 i.R puede también calcularse como 1−σ2 y|x/σ2 y, donde σ2 y|x es la varianza de la distribución condicionada, y|x y σ2 y la varianza marginal de y. 9.3.5 Correlaciones Parciales Supongamos que obtenemos la mejor aproximación lineal a un vector de variables x1 de dimensiones p1 ×1 a partir de otro vector de variables x2 de dimensiones p2 ×1. Suponiendo que las variables tienen media cero, esto implica calcular un vector Bx2 donde B es una ma- triz de coeÞcientes de dimensiones p1 × p2 de manera que Pp1 j=1 E(x1j − β0 jx2)2 sea mínima, donde x1j es el componente j del vector x1 y β0 j la Þla j de la matriz B. Llamemos V1/2 a la
  • 271. 9.4. LA DISTRIBUCIÓN MULTINOMIAL 271 matriz de covarianzas de la variable x1− Bx2. Si estandarizamos esta matriz de covarianzas para pasarla a correlaciones, los coeÞcientes de correlación resultantes se denominan coeÞ- cientes de correlación parcial entre los componentes de x1 dadas las variables x2. La matriz cuadrada y simétrica de orden p1 R1/2 = D −1/2 1/2 V1/2D −1/2 1/2 se denomina matriz de correlaciones parciales entre los componentes del vector x1 cuando controlamos (o condicionado a) el vector x2, donde D1/2= diag(σ2 1/2, ..., σ2 k/2) y σ2 j/2 es la varianza de la variable x1j − β0 jx2. En particular si E(x1|x2) es lineal en x2, entonces E(x1|x2) = Bx2 y V1/2 es la matriz de covarianzas de la distribución condicionada de x1|x2. 9.4 LA DISTRIBUCIÓN MULTINOMIAL Supongamos que observamos elementos que clasiÞcamos en dos clases, A y A. Por ejemplo, clasiÞcamos los recién nacidos en un hospital como hombre (A) o mujer (A), los dias de un mes como lluviosos (A) o no (A), o los elementos fabricados por una máquina como buenos (A) o defectuosos (A). Suponemos que el proceso que genera elementos es estable, existiendo un probabilidad constante de aparición de los elementos de cada clase, P(A) = p = cte, y que el proceso no tiene memoria, es decir P(A|A) = P(A|A). Supongamos que observamos elementos al azar de este proceso y deÞnimos la variable x = ½ 1, si la observación pertenece a la clase A 0, en otro caso ¾ esta variable sigue una distribución binomial puntual, con P(x = 1) = p y P(x = 0) = 1−p. Si observamos n elementos en lugar de uno y deÞnimos la variable y = Pn i=1 xi, es decir, contamos el número de elementos en n que pertenece a la primera clase, la variable y sigue una distribución binomial con P(y = r) = n! r!(n − r)! pr (1 − p)n−r . Podemos generalizar esta distribución permitiendo G clases en lugar de dos, y llamamos p al vector de probabilidades de pertenencia a las clases, p =(p1, ..., pG)0 , donde P pj = 1. DeÞniremos ahora las G variables aleatorias: xj = ½ 1, si la observación pertenece al grupo j 0, en otro caso ¾ j = 1, ..., G y el resultado de una observación es un valor del vector de G-variables x = (x1, ..., xG)0 , que será siempre de la forma x = (0, ..., 1, ...0)0 , ya que sólamente una de las G componentes puede tomar el valor uno, el asociado a la clase observada para ese elemento. En consecuencia, los componentes de esta variable aleatoria no son independientes, ya que están ligadas por la ecuación GX j=1 xj = 1.
  • 272. 272 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES Para describir el resultado de la observación bastaría con deÞnir G − 1 variables, como se hace en la distribución binomial donde sólo se deÞne una variable cuando hay dos clases, ya que el valor de la última variable queda Þjada al conocer las restantes. Sin embargo, con más de dos clases es constumbre trabajar con las G variables y la distribución de la variable multivariante así deÞnida se denomina multinomial puntual. Tiene como función de probabilidades P(x1, .., xG) = px1 1 ...pxG G = Y p xj j En efecto, como sólo una de las xj es distinta de cero, la probabilidad de que la j-ésima sea uno es precisamente pj, la probabilidad de que el elemento observado pertenezca a la clase j. Generalizando esta distribución, sea (x1, ..., xn) una muestra de n valores de esta variable multinomial puntual que resulta al clasiÞcar n elementos de una muestra en las G clases. Se denomina distribución multinomial a la de la variable suma: y = nX i=1 xi que indica el número de elementos en la muestra que corresponden a cada una de las clases. Los componentes de esta variable, y =(y1, ..., yG)0 , representan las frecuencias observadas de cada clase y podrán tomar los valores yi = 0, 1, ...n, pero están sujetos a la restricción: X yi = n, (9.21) y su función de probabilidad será: P(y1 = n1, .., yG = nG) = n! n1!...nG! pn1 1 ...pnG G donde P ni = n. El término combinatorio tiene en cuenta las permutaciones de n elementos cuando hay n1, ..., nG repetidos. Se comprueba que E(y) =np = µy y V ar(y) =n £ diag(p) − pp0¤ = diag(µy)− 1 n µyµy 0 donde diag(p) es una matriz cuadrada con los elementos de p en la diagonal y ceros fuera de ella. Esta matriz es singular ya que los elementos de y están ligados por la ecuación de restricción (9.21). Es fácil comprobar que las distribuciones marginales son binomiales, con: E[yj] = npj, DT [yj] = q pj(1 − pj). Además, cualquier distribución condicionada es multinomial. Por ejemplo, la de G − 1 variables cuando yG toma el valor Þjo nG es una multinomial en las G−1 variables restantes con tamaño muestral n0 = n − nG. La distribución condicionada de y1, y2 cuando y3 = n3, ..., yG = nG es una binomial, con n0 = n − n3 − n4 − ... − nG, etc.
  • 273. 9.5. LA DISTRIBUCIÓN DE DIRICHLET 273 Ejemplo 9.3 En un proceso de control de calidad los elementos pueden tener tres tipos de defectos: leves (A1), medios (A2), graves (A3) y se conoce que entre los elementos con defectos la probabilidad de estos errores es p1 = P(A1) = 0, 7; p2 = P(A2) = 0, 2; y p3 = P(A3) = 0, 1. Calcular la probabilidad de que en los próximos tres elementos defectuosos haya exactamente uno con un defecto grave. Los defectos posibles en los tres siguientes elementos son, sin tener en cuenta el orden de aparición : A1A1A3 ; A1A2A3 ; A2A2A3 y sus probabilidades según la distribución multinomial serán: P (x1 = 2, x2 = 0, x3 = 1) = 3! 2!0!1! 0, 72 · 0, 20 · 0, 1 = 0, 147 P (x1 = 1, x2 = 1, x3 = 1) = 3! 1!1!1! 0, 7 · 0, 2 · 0, 1 = 0, 084 P (x1 = 0, x2 = 2, x3 = 1) = 3! 0!2!1! 0, 70 · 0, 22 · 0, 1 = 0, 012 Luego: P (x3 = 1) = 0, 147 + 0, 084 + 0, 012 = 0, 243 Este resultado puede también obtenerse considerando la Binomial (A3A3) con probabili- dades (0, 9; 0, 1) y: P (x3 = 1) = µ 3 1 ¶ 0, 1 + 0, 92 = 0, 243 9.5 LA DISTRIBUCIÓN DE DIRICHLET La distribución de Dirichlet se introduce para representar variables que toman valores en- tre cero y uno y cuya suma es igual a la unidad. Estos datos se conocen como datos de proporciones (compositional data en inglés). Por ejemplo, supongamos que investigamos el peso relativo que los consumidores asignan a un conjunto de atributos de calidad, y que las evaluaciones de la importancia de los atributos se realizan en una escala de cero a uno. Por ejemplo, con tres atributos un cliente puede dar las valoraciones (0.6, 0,3, 01) indicando que el primer atributo tiene el 60% del peso, el segundo el 30% y el tercero el 10%. Otros ejemplos de este tipo de datos son la proporción de tiempo invertido en ciertas actividades o la composición en % de las distintas sustancias que contienen un grupo de productos. En todos estos casos los datos son vectores de variables continuas x =(x1, ..., xG)0 tales que, por construcción, 0 ≤ xj ≤ 1 y existe la ecuación de restricción: GX j=1 xj = 1.
  • 274. 274 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES Una distribución apropiada para representar este tipo de situaciones es la distribución de Dirichlet, cuya función de densidad es: f(x1, ..., xG) = Γ(α0) Γ(α1)Γ(α2)...Γ(αG) xα1−1 1 ...xαG−1 G donde Γ(.) es la función gamma y α = (α1, ..., αG)0 es el vector de parámetros que caracteriza la distribución, y α0 = α0 1 = GX j=1 αj. Se demuestra que E(x) = α/α0 = µx, por tanto, los parámetros αj indican la esperanza relativa de cada componente y V ar(x) = 1 (α0 + 1) ( 1 α0 diag(α)− 1 α2 0 αα0 ). Esta expresión indica que la varianza de cada componente es: var(xj) = αj(α0 − αj) α2 0(α0 + 1) . y vemos que el parámetro α0 determina la varianza de los componentes y que estas varianzas decrecen rápidamente con α0. Las variables de Dirichlet, al igual que las multinomiales, están ligadas por una ecuación de restricción, con lo que no son linealmente independientes y su matriz de covarianzas será singular. Las covarianzas entre dos componentes son: cov(xixj) = − αjαi α2 0(α0 + 1) , y las covarianzas también disminuyen con α0, pero son mayores cuanto mayores sean las esperanzas de las variables. El lector puede apreciar la similitud entre las fórmulas de las probabilidades, medias y varianzas para la multinomial y la Dirichlet. Esta similitud proviene de que en ambos casos clasiÞcamos el resultado en G grupos. La diferencia es que en el caso multinomial contamos cuantas observaciones de n aparecen de cada grupo, mientras que en el de Dirichlet medimos la proporción que un elemento contiene de la cada clase. En la distribución de Dirichlet el parámetro α0 tiene un papel similar al tamaño muestral y los cocientes αj/ α0 a las probabilidades. 9.6 LA NORMAL k-DIMENSIONAL La distribución normal escalar tiene como función de densidad: f(x) = (σ2 )−1/2 (2π)−1/2 exp © −(1/2)(x − µ)2 σ−2 ª .
  • 275. 9.6. LA NORMAL K-DIMENSIONAL 275 Figura 9.1: Representación de la distribución Normal bivariante y sus marginales. y escribimos x ∼ N(µ, σ2 ) para expresar que x tiene distribución normal con media µ y varianza σ2 . Generalizando esta función, diremos que un vector x sigue una distribución normal p−dimensional si su función de densidad es: f(x) = |V|−1/2 (2π)−p/2 exp © −(1/2)(x − µ)0 V−1 (x − µ) ª (9.22) En la Þgura 9.1 se muestra el aspecto de una Normal bivariante con µ = (0, 0) y V =· 1 1/ √ 3 1/ √ 3 1 ¸ , y sus distribuciones marginales. Escribiremos que x ∼Np(µ, V). Las propiedades principales de la normal multivariante son: 1. La distribución es simétrica alrededor de µ. La simetria se comprueba sustituyendo en la densidad x por µ ± a y observando que f(µ + a) =f(µ − a). 2. La distribución tiene un único máximo en µ. Al ser V deÞnida positiva el término del exponente (x − µ)0 V−1 (x − µ) es siempre positivo, y la densidad f(x) será máxima cuando dicho término sea cero, lo que ocurre para x = µ. 3. La media del vector aleatorio normal es µ y su matriz de varianzas y covarianzas es V. Estas propiedades, que pueden demostrarse rigurosamente, se deducen de la compo- ración de las densidades univariante y multivariante. 4. Si p variables aleatorias tienen distribución conjunta normal y están incorreladas son independientes. La comprobación de esta propiedad consiste en tomar en (9.22) la matriz V diagonal y comprobar que entonces f(x) = f(x1), ..., f(xp).
  • 276. 276 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES 5. Cualquier vector x normal p−dimensional con matriz V no singular puede convertirse mediante una transformación lineal en un vector z normal p−dimensional con vector de medias 0 y matriz de varianzas y covarianzas igual a la identidad (I). Llamaremos normal p−dimensional estándar a la densidad de z, que vendrá dada por: f(z) = 1 (2π)p/2 exp ½ − 1 2 z0 z ¾ = Πp i=1 1 (2π)1/2 exp ½ − 1 2 z2 i ¾ (9.23) La demostración de esta propiedad es la siguiente: al ser V deÞnida positiva existe una matriz cuadrada A simétrica que consideramos su raíz cuadrada y veriÞca: V = AA (9.24) DeÞniendo una nueva variable: z = A−1 (x − µ) (9.25) entonces x = µ + Az y según (9.14) la función de densidad de z es fz(z) = fx(µ + Az) |A| y utilizando AV−1 A = I, se obtiene (??) Por tanto, cualquier vector de variables normales x en <p puede transformarse en otro vector de <p de variables normales independientes y de varianza unidad. 6. Las distribuciones marginales son normales. Si las variables son independientes la comprobación de esta propiedad es inmediata. La demostración general puede verse, por ejemplo, en Mardia et al (1979). 7. Cualquier subconjunto de h < p variables es normal h−dimensional. Es una extensión del la propiedad anterior y se demuestra analogamente. 8. Si y es (k × 1), k ≤ p, el vector y = Ax, donde A es una matriz (k × p), es normal k−dimensional. En particular, cualquier variable escalar y = a0 x, (siendo a0 un vector 1 × p no nulo) tiene distribución normal. La demostración puede verse, por ejemplo, en Mardia et al (1979). 9. Al cortar con hiperplanos paralelos al deÞnido por las p variables que forman la variable vectorial, x, se obtienen las curvas de nivel, cuya ecuación es: (x − µ)0 V−1 (x − µ) = cte. Las curvas de nivel son, por tanto, elipsoides, y deÞnen una medida de la distancia de un punto al centro de la distribución. Esta medida ha aparecido ya en la descripción de datos del capítulo 3 donde estudiamos su interpretación. Se denomina distancia de Mahalanobis y la representaremos por : D2 = (x − µ)0 V−1 (x − µ) (9.26)
  • 277. 9.6. LA NORMAL K-DIMENSIONAL 277 Como ilustración, consideremos el caso más simple de dos distribuciones univariantes indicado en la Þgura 13.3. La observación x=3, indicada con una X, en el gráÞco, esta con la distancia euclidea más cerca del centro de la distribución A, que es cero, que del centro de la B que es diez. Sin embargo, con la distancia de Mahalanobis la distancia del punto X a la distribución A que tiene desviación típica uno es (3−0)2 /1, mientras que la distancia al centro de la B, que tiene desviación típica diez, es (3 − 10)2 /102 = 0, 72 y el punto X está mucho más cerca, con esta distancia, de la distribución B. Esto es consecuencia de que es mucho más probable que este punto provenga de la distribución B que de la A. 10. La distancia de Mahalanobis se distribuye como una χ2 con p grados de libertad. Para comprobarlo, hagamos la transformación (9.25) y como V−1 = A−1 A−1 se obtiene que D2 = z0 z = X z2 i donde cada zi es N(0, 1). Por tanto D2 ∼ χ2 p. -20 -15 -10 -5 0 5 10 15 20 25 30 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 A B X Figura 9.2: El punto X esta más cerca, con la distancia euclidea del centro de la distribución A pero con la distancia de Mahalanobis lo está de la B 9.6.1 Distribuciones condicionadas Particionemos el vector aleatorio en dos partes, x = (x1, x2)0 , donde x1 es un vector de dimensión p1 y x2 de dimensión p2, siendo p1 + p2 = p. Particionemos también la matriz de covarianzas del vector x en bloques asociados a estos dos vectores, como: V = · V11 V12 V21 V22 ¸ (9.27)
  • 278. 278 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES donde, por ejemplo, V11, la matriz de covarianzas del vector x1, es cuadrada de orden p1, V12, la matriz de covarianzas entre los vectores x1 y x2 tiene dimensiones p1 ×p2, y V22, la matriz de covarianzas del vector x2, es cuadrada de orden p2. Queremos calcular la distribución condicionada del vector x1 dados los valores del vector x2. Vamos a demostrar que esta distribución es normal, con media: E [x1|x2] = µ1 + V12V−1 22 (x2 − µ2) (9.28) y matriz de varianzas y covarianzas: V ar [x1|x2] = V11−V12V−1 22 V21 (9.29) Para interpretar estas expresiones supongamos primero el caso bivariante donde ambas variables son escalares de media cero. Entonces la media se reduce a E [x1|x2] = σ12σ−1 22 x2 que es la expresión habitual de la recta de regresión con pendiente β = σ12/σ22. La expresión de la varianza condicionada alrededor de la recta de regresión es var [x1|x2] = σ11−σ2 12/σ22 = σ2 1(1 − ρ2 ) donde ρ = σ12/σ1/2 22 σ1/2 11 es el coeÞciente de correlación entre las variables. Esta expresión indica que la variabilidad de la distribución condicionada es siempre menor que la de la marginal y la reducción de variabilidad es tanto mayor cuanto mayor sea ρ2 . Supongamos ahora que x1 es escalar pero x2 es un vector. La expresión de la media condicionada proporciona la ecuación de regresión múltiple E [x1|x2] = µ1 + β0 (x2 − µ2) donde β = V−1 22 V21 siendo V21 el vector de covarianzas entre x1 y los componentes de x2. La varianza de esta distribución condicionada es var [x1|x2] = σ2 1(1 − R2 ) donde R2 = V12V−1 22 V21/σ2 1 es el coeÞciente de correlación múltiple. En el caso general, estas expresiones corresponden al conjunto de regresiones múltiples de los componentes de x1 sobre las variables x2, que se conoce como regresión multivariante. Demostración La expresión de la distribución condicionada es f (x1|x2) = f (x1, x2) f (x2) Como las distribuciones f (x1, x2) y f (x2) son normales multivariantes al hacer el cociente quedará un cociente entre determinantes y la diferencia entre los exponentes de las normales. Comencemos calculando el exponente resultante. Será (x − µ)0 V−1 (x − µ) − (x2 − µ2)0 V−1 22 (x2 − µ2) (9.30)
  • 279. 9.6. LA NORMAL K-DIMENSIONAL 279 Vamos a descomponer la primera forma cuadrática en los términos correspondientes a x1y x2. Para ello particionaremos (x − µ) como (x1 − µ1, x2 − µ2)0 , particionaremos V como en (9.27), y utilizaremos la expresión de la inversa de una matriz particionada (véase la sección 2.2.3). Realizando el producto se obtiene. (x − µ)0 V−1 (x − µ) = (x1 − µ1)0 B−1 (x1 − µ1) − (x1 − µ1)0 B−1 V12V−1 12 (x2 − µ2) − − (x2 − µ2) V−1 22 V21B−1 (x1 − µ1) + (x2 − µ2) V−1 22 (x2 − µ2) − + (x2 − µ2)0 A−1 22 A21B−1 A12A−1 22 (x2 − µ2) donde B = ¡ V11−V12V−1 22 V21 ¢ , que es la expresión utilizada en (9.29). El cuarto término de esta expresión se cancela en la diferencia (9.30), y los otros cuatro pueden agruparse como ¡ x1 − µ1 − V12V−1 22 (x2 − µ2) ¢0 B−1 ¡ x1 − µ1 − V12V−1 22 (x2 − µ2) ¢ . Esta expresión muestra que el exponente de la distribución corresponde a una variable normal con vector de medias y matriz de covarianzas igules a los indicados en (9.28) y (9.29). Vamos a comprobar que el cociente de determinantes conduce también a la misma matriz de covarianzas. Utilizando que, según la sección 2.3.5, |V| = |V22| ¯ ¯V11−V12V−1 22 V21 ¯ ¯ = |V22| |B|. Como en el denominador tenemos |V22| , el cociente proporciona el término único |B| . Finalmente, quedará en término (2π)p/2−p2/2 =(2π)p1/2 . En conclusión, la expresión resultante será la de la función de densidad normal multi- variante de orden p1, con vector de medias dado por (9.28) y matriz de covarianzas dada por (9.29). Ejemplo 9.4 La distribución de los gastos en dos productos (x, y) de un grupo de consumi- dores sigue una distribución normal bivariante con medias respectivas 2 y 3 euros y matriz de varianzas y covarianzas · 1 0, 8 0, 8 2 ¸ Calcular la distribución condicionada de los gastos en el producto y para los consumidores que gastan 4 euros en el producto x. La distribución condicionada f (y/x = 4) = f (4, y) /fx(4). La distribución marginal de x es normal, N(2, 1). Los términos de la distribución conjunta f(x, y) serán: |V|1/2 = ¡ σ2 1σ2 2 ¡ 1 − %2 ¢¢1/2 = σ1σ2 p 1 − %2 V−1 = 1 σ2 1σ2 2 (1 − %2) ¯ ¯ ¯ ¯ σ2 2 −%σ2σ1 −%σ2σ1 σ2 1 ¯ ¯ ¯ ¯ donde en este ejemplo σ2 1 = 1, σ2 2 = 2, y % = 0, 8/ √ 2 = 0, 566. El exponente de la normal bivariante f(x, y) será: − 1 2 (1 − %2) (µ x − µ1 σ1 ¶2 + µ y − µ2 σ2 ¶2 − 2% (x − µ1) (y − µ2) σ1σ2 ) = − A 2
  • 280. 280 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES En consecuencia, tendremos: f (y | x) = ³ σ1σ2 p 1 − %2 ´−1 (2π)−1 exp © −A 2 ª σ−1 1 (2π)−1 exp ½ −1 2 ³ x−µ1 σ1 ´2 ¾ = = 1 σ2 p 1 − %2 1 √ 2π exp ½ − 1 2 B ¾ donde el término resultante en el exponente, que llamaremos B, será: B = 1 1 − %2 "µ x − µ1 σ1 ¶2 + µ y − µ2 σ2 ¶2 − 2% (x − µ1) (y − µ2) σ1σ2 − µ x − µ1 σ1 ¶2 ¡ 1 − %2 ¢ # = 1 1 − %2 "µ y − µ2 σ2 ¶2 − % µ x − µ1 σ1 ¶2 #2 B = 1 σ2 2 (1 − %2) · y − µ µ2 + % σ2 σ1 (x − µ1) ¶¸2 Este exponente corresponde a una distribución normal con media: E [y | x] = µ2 + % σ2 σ1 (x − µ1) que es la recta de regresión, y desviación típica: DT [y | x] = σ2 p 1 − %2 Para x = 4. E [y | 4] = 3 + µ 0, 8 √ 2 ¶ · √ 2 1 (4 − 2) = 4, 6. Como hay una correlación positiva de 0,566 entre los gastos en ambos productos los con- sumidores que gastan más en uno también en promedio tienen gastos medios más altos en el otro. La variabilidad de la disribución condicionada será: V ar [y | 4] = σ2 2 ¡ 1 − %2 ¢ = 2 (1 − 0, 32) = 1, 36 y será menor que la varianza de la marginal porque cuando condicionamos tenemos más información.
  • 281. 9.7. DISTRIBUCIONES ELÍPTICAS 281 9.7 DISTRIBUCIONES ELÍPTICAS La distribución normal multivariante es un caso particular de una familia de distribuciones muy utilizadas en el análisis multivariante: las distribuciones elípticas. Para introducirlas, consideremos primero el caso más simple de las distribuciones esféricas 9.7.1 Distribuciones esféricas Diremos que una variable vectorial x = (x1, ..., xp)0 sigue una distribución esférica si su fun- ción de densidad depende de la variable sólo por la distancia euclídea x0 x = Pp i=1 x2 i . Esta propiedad implica que: 1. Los contornos de equiprobabilidad de la distribución son esferas con centro en el origen. 2. La distribución es invariante ante rotaciones. En efecto, si deÞnimos una nueva vari- ables y = Cx, donde C es una matriz ortogonal, la densidad de la variable y es la misma que la de la variable x. Un ejemplo de distribución esférica, estudiado en la sección anterior, es la función de densidad Normal estándar multivariante, cuya densidad es f(x) = 1 (2π)p/2 exp(− 1 2 x0 x) = Πp i=1 1 (2π)1/2 exp(− 1 2 x2 i ) Figura 9.3: Densidad de la normal estandar bivariante Esta densidad está representada en la Þgura 9.3, y las dos variables escalares que forman el vector son independientes. Este propiedad es característica de la normal, ya que, habit- ualmente, los componentes de las distribuciones esféricas son dependientes. Por ejemplo, la
  • 282. 282 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES distribución multivariante de Cauchy, dada por f(x) = Γ ¡p+1 2 ¢ π(p+1)/2 (1 + x0 x)−(p+1)/2 (9.31) tiene colas más pesadas que la normal, como en el caso univariante, y es fácil comprobar que esta función no puede escribirse como producto de distribuciones univariantes de Cauchy, por lo que sus componentes aunque están incorrelados no son independientes. Otra distribución esférica importante es la doble exponencial. En el caso bivariante esta distribución tiene función de densidad f(x) = 1 2π exp(− √ x0x) y aunque la función de densidad puede parecer similar a la normal tiene colas mucho más pesadas. La Þgura 9.4 muestra esta distribución. Figura 9.4: Dendidad de la doble exponencial bivariante 9.7.2 Distribuciones elípticas Si la variable x sigue una distribución esférica y A es una matriz cuadrada de dimensión p y m un vector de dimensión p, la variable y = m + Ax (9.32) se dice que sigue una distribución elíptica. Como una variable esférica tiene media cero y matriz de covarianzas cI, es inmediato que una variable elíptica tiene media m y matriz de covarianzas V =cAA0 . Las distribuciones elípticas tienen las propiedades siguientes:
  • 283. 9.8. (*)LA DISTRIBUCIÓN DE WISHART 283 1. Su función de densidad depende de la variable a través de la distancia de Mahalanobis: (y − m)0 V−1 (y − m) 2. Los contornos de equiprobabilidad de la distribución son elipsoides con centro en el punto m. La distribución normal multivariante general es el miembro más conocido de las distribu- ciones elípticas. Otro miembro de esta familia es la distribución t multivariante. Aunque existen distintas versiones de esta distribución, la más habitual se construye dividiendo cada componente de un vector de variables normales multivariantes Np(m, V) por la misma vari- able escalar: la raiz cuadrada de una χ2 dividida por sus grados de libertad. Es obvio, por construcción, que las marginales serán t de Student, y se obtiene que la función de densidad de la variable multivariante resultante es f(y) = Γ((v+p) 2 ) (πv)p/2Γ(v 2 ) |V|−1/2 £ 1 + (y − m)0 V−1 (y − m) ¤−(v+p)/2 (9.33) donde el escalar v se denomina grados de libertad. Observemos que si hacemos v = 1, m = 0, V = I, obtenemos la distribución de Cauchy multivariante (9.31) que tiene simetría esférica. Para v > 2 la media de la distribución es m y la varianza v/(v − 2)V. Las distribuciones elípticas comparten muchas propiedades de la normal: las distribu- ciones marginales y condicionadas son también elípticas, y las medias condicionadas son función lineal de las variables condicionantes. Sin embargo, la normal tiene la propiedad de que es el único miembro de la familia donde si la matriz de covarianzas es diagonal todas las variables componentes son independientes. El lector interesado en la demostración de este resultado puede encontrarlo en Muirhead (1982). 9.8 (*)LA DISTRIBUCIÓN DE WISHART 9.8.1 Concepto La distribución de Wishart se utiliza para representar la incertidumbre respecto a una ma- triz de varianzas y covarianzas de variables normales multivariantes. En el caso escalar, la distribución que representa esta incertidumbre es la ji-cuadrado de Pearson, χ2 , y la dis- tribución de Wishart estándar puede considerarse como una generalización multivariante de esta distribución. Recordemos los resultados univariantes: Si (x1, ...xm) es un conjunto de variables aleato- rias normales independientes N(0, σ2 ), la suma estandarizada de sus cuadrados, σ−2 Pm i=1 x2 i , sigue una distribución χ2 m. También decimos que w = Pm i=1 x2 i sigue una distribución σ2 χ2 m. La densidad de una distribución χ2 m es un caso particular de la Gamma con parámetros¡1 2 , m 2 ¢ y tiene función de densidad dada por f(χ2 ) = k(χ2 ) m 2 −1 exp ½ − 1 2 χ2 ¾ , (9.34)
  • 284. 284 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES donde k es una constante. Por otro lado, la distribución de la variable w = Pm i=1 x2 i será la Gamma con parámetros ¡ 1 2σ2 ; m 2 ¢ , y su densidad tendrá la forma: f(w) = k ¡ σ2 ¢−m 2 w m 2 −1 exp ½ − 1 2 σ−2 w ¾ . (9.35) Consideremos ahora un conjunto de m vectores aleatorios, (x1, ..., xm), de dimensión p con la misma distribución Np(0, I). La estimación de su matriz de varianzas y covarianzas se obtendrá de Σm i=1xix0 i/m, y el numerador de esta expresión W = Σm i=1xix0 i (9.36) que es una matriz cuadrada p × p, simétrica y deÞnida positiva, decimos que sigue una distribución Wishart con m grados de libertad. Esta aÞrmación debe interpretarse en el sentido de que la distribución conjunta de los 1 2 p(p + 1) elementos distintos de W es f(w11, ....., wpp) = c|W|(m−p−1)/2 exp ½ − 1 2 trW ¾ (9.37) donde c es una constante para que la función integre a uno (véase Seber, 1984). Observemos que para p = 1 se obtiene (9.34). Escribiremos W ∼ Wp(m), donde p indica que se trata de la distribución de los elementos de una matriz cuadrada y simétrica de orden p, y m son los grados de libertad. Observemos que esta distribución depende únicamente de las dos medidas escalares del tamaño de la matriz: la traza y el determinante. Por tanto, todas las combinaciones de elementos de la matriz que conduzcan a los mismos valores de estas medidas de tamaño tienen la misma probabilidad. Consideremos ahora m vectores aleatorios (x1, ..., xm) de una distribución Np(0, Σ), donde hemos utilizado el símbolo Σ en lugar de V para representar la matriz de covarianzas para evitar confusiones cuando esta distribución se utilice en el análisis bayesiano del capítulo siguiente. La distribución de los elementos de la matriz W = Σm i=1xix0 i (9.38) es la distribución Wishart con m grados de libertad y matriz de parámetros Σ, dada por f(w11, ....., wpp) = c|Σ|−m/2 |W|(m−p−1)/2 exp ½ − 1 2 trΣ−1 W ¾ . (9.39) En general, si una matriz cuadrada y simétrica sigue la distribución (9.39), donde Σ es una matriz simétrica (p × p) no singular deÞnida positiva de componentes constantes, diremos que sigue la distribución Wishart con m grados de libertad y matriz de parámetros Σ, y escribiremos W ∼ Wp(m, Σ). Observemos que para p = 1 esta expresión se reduce (9.35), y si hacemos Σ = 1, la densidad (9.39) se reduce a (9.34). La Þgura 9.5 presenta un ejemplo de esta distribución
  • 285. 9.8. (*)LA DISTRIBUCIÓN DE WISHART 285 9.8.2 Propiedades de la distribución La distribución de Wishart tiene las propiedades siguientes: 1. La esperanza de la distribución es: E [W] = mΣ lo que implica que W/m tiene esperanza Σ. 2. La suma de dos distribuciones χ2 independientes es otra distribución χ2 con grados de libertad la suma de ambas. Análogamente, si W1 ∼ Wp(m1, Σ) y W2 ∼ Wp(m2, Σ) son independientes, entonces W1+W2 ∼ Wp(m1 + m2, Σ). Este resultado es consecuencia inmediata de la deÞnición de la distribución por (9.34). 3. Si A es una matriz h×p de constantes, y W ∼ Wp(m, Σ), la distribución de AWA0 ∼ Wh(m, A−1 ΣA0−1 ). En efecto, por (9.38) la variable AW0 A será A mX i=1 xix0 iA0 = mX i=1 yiy0 i donde ahora yi es N(0, AΣA0 ), y aplicando la deÞnición de la distribución Wishart se obtiene el resultado. 4. Si S es la matriz de varianzas y covarianzas muestral S = 1 n X0 PX donde P = I − 1 n 110 es idempotente, entonces nS ∼Wp(n − 1, Σ). Esta expresión indica que si deÞnimos el estimador bS = 1 (n − 1) X 0 PX = n (n − 1) S su esperanza será Σ, y bS será un estimador centrado para la matriz de varianzas. Podemos escribir que (n − 1)bS ∼ Wp(n − 1, Σ). Este resultado es análogo al del caso escalar: (n − 1)bs2 , donde bs2 es el estimador centrado de la varianza, sigue una distribución σ2 χ2 n−1.
  • 286. 286 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES 9.9 LA T2 DE HOTELLING Si x es un vector aleatorio Np(µ, V), la variable (x − µ)0 V−1 (x − µ) es una χ2 con p grados de libertad. Si sustituimos V por su estimación bS, la matriz de varianzas muestral dividiendo por n−1, la distribución que se obtiene se denomina T2 de Hotelling. En general, si x ∼ Np(µ, V) y (n − 1)bS ∼ Wp(n − 1, V), la distribución de la variable escalar: T2 = (x − µ)0bS−1 (x − µ) (9.40) que representa la distancia de Mahalanobis entre una variable y su media poblacional, pero calculada con la matriz de covarianzas estimada, se denomina distribución T2 de Hotelling con p y n − 1 grados de libertad. Diremos que T2 ∼ T2 (p, n − 1). Asintóticamente, como bS → V, T2 converge a la distancia de Mahalanobis y la distribución de Hotelling a la dis- tribución χ2 p. Por tanto, para n grande, la distribución de Hotelling es muy similar a una χ2 p. Para tamaños muestrales más pequeños tiene una mayor variabilidad que la χ2 p, como consecuencia de la mayor incertidumbre al utilizar la matriz estimada, bS, en lugar de la matriz de covarianzas verdadera, V. Si ¯x es la media muestral, como ¯x ∼ Np(µ, 1 n V), la distribución de (¯x − µ)0 Ã bS n !−1 (¯x − µ) = n(¯x − µ)0bS−1 (¯x − µ) es también una T2 de Hotelling. Observemos que si p = 1, la T2 se reduce a: T2 = n(x − µ)2 bs2 = t2 (9.41) y coincide con el estadístico t de Student. Por tanto T2 (1, m) = t2 m. La distribución de Hotelling no se tabula, ya que con una simple transformación se reduce a la distribución F del análisis de la varianza de Fisher. Se demuestra (véase Seber, 1984 o Muirhead, 1982) que: Fp,n−p = n − p p(n − 1) T2 (p, n − 1) (9.42) lo que permite calcular la distribución de T2 en función de las tablas de la distribución F. Este resultado es consistente con (9.42), ya que, asintóticamente, pFp,n−p tiende a una distribución χ2 p. La Þgura (??) muestra un ejemplo de la distribución de Hotelling comparada con la χ2 p. Vemos que para tamaño muestral muy pequeño, n = 15, las colas de la distribución son más planas que las de la ji-cuadrado indicando la mayor incertidumbre existente, pero para n=50, ambas son ya muy similares. La aproximación depende del cociente n/p, y si este es grande, mayor de 25, podemos aproximar bien la distribución de Hotelling mediante la ji-cuadrado.
  • 287. 9.9. LA T2 DE HOTELLING 287 Figura 9.5: Distribución Wishart dibujada en función de la traza y el determinante 0 2 4 6 8 10 12 14 0 0.05 0.1 0.15 0.2 0.25 T(3,14 X2(3) T(3,49) T(3,14) Figura 9.6: La distribución de Hotelling para dos valores del tamaño muestral y la distribu- ción ji-cuadrado.
  • 288. 288 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES 9.10 DISTRIBUCIONES MEZCLADAS Los datos multivariantes son frecuentemente heterogéneos. Por ejemplo, si observamos el gasto en distintos productos en una muestra de consumidores, es esperable que haya grupos de consumidores con patrones de gasto distintos: los consumidores sin hijos respecto a que las que los tienen, o los jóvenes respecto a los ancianos. En general, si una población donde hemos deÞnido una variable aleatoria vectorial, x, puede subdividirse en G estratos más homogéneos y llamamos πi a la proporción de elementos en el estrato i ( PG i=1 πi = 1) y fi(x) a la función de densidad de la variable en el estrato i, la función de densidad en toda la población vendrá dada por la mezcla de densidades f(x) = GX i=1 πifi(x). (9.43) Para justiÞcar esta distribución, nótese que observar un elemento al azar de esa población puede plantearse en dos etapas. En la primera, seleccionamos el estrato al azar mediante una variable escalar, g, que toma los valores 1, ..., G con probabilidades π1, ..., πG. En la segunda, seleccionamos aleatoriamente el elemento de la población seleccionada, fi(x). La probabilidad de que el elemento seleccionado tome un valor x ∈ A será P(x ∈ A) = GX i=1 P(x ∈ A/g = i)P(g = i) y llamando πi = P(g = i), la distribución marginal de la variable x cuando no se conoce la variable g viene dada por (9.43). Las Þguras 9.7 y ?? presentan ejemplos de distribuciones obtenidas como mezclas de dos distribuciones univariantes con proporcion de mezcla 50% (π1 = π2 = .5). En la Þgura 9.7 las dos distribuciones de partida son normales con la misma media y diferente varianza. La distribución resultante tiene la misma media y una varianza que es el promedio de las varianzas de las distribuciones. Observemos que la distribución mezclada no es normal. En la Þgura ?? las distribuciones tienen distinta media y varianza. Como comprobaremos ahora la media es en este caso el promedio de las medias pero la varianza tiene una expresión más complicada porque además de la variabilidad de las distribuciones con respecto a sus medias se añade la variabilidad debida a las diferencias entre las medias.
  • 289. 9.10. DISTRIBUCIONES MEZCLADAS 289 -10 -8 -6 -4 -2 0 2 4 6 8 10 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 N(0,1) n(2,2) Mezcla Mezcla al 50% de dos distribuciones normales con distinta media y varianza Los parámetros de la distribución de la variable mezclada (µ, V), o marginal, se obtienen fácilmente conocidos las medias µi y matrices de varianzas Vi de las distribuciones que generan la mezcla, o condicionadas. 1. La media de la distribución mezclada o media de la distribución marginal es µ = GX i=1 πiµi (9.44) La demostración de este resultado es inmediato aplicando las propiedades de la es- peranza condicional (9.19). Introduciendo la variable de clasiÞcación g, tenemos que, como E(x/g=i) = µi E(x) =EgEx/g(x) =Eg(µi) = GX i=1 πiµi 2. La matriz de varianzas y covarianzas de la distribución marginal viene dada por V = GX i=1 πiVi + GX i=1 πi(µi − µ)(µi − µ)0 (9.45) Para demostrar este resultado, introduciendo que V =E £ (x − µ)(x − µ)0¤ = E £ (x − µi + µi − µ)(x − µi + µi − µ)0¤ y aplicando de nuevo las propiedades de la esperanza condicional (9.19), obtenemos que Ex/y £ (x − µi + µi − µ)(x − µi + µi − µ)0¤ = Vi + (µi − µ)(µi − µ)0 y tomando ahora la esperanza de esta cantidad respecto a la distribución de g se obtiene el resultado deseado.
  • 290. 290 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES La expresión (9.45) puede interpretarse como una descomposición de la variabilidad simi- lar a la del análisis de la varianza. La variabilidad total, que es la matriz de varianzas y covar- ianzas de la marginal, V, se descompone en una variabilidad explicada, PG i=1 πi(µi −µ)(µi − µ)0 , que tiene en cuenta las diferencias entre las medias de las distribuciones condicionadas µi y la marginal, µ, y una variabilidad no explicada PG i=1 πiVi, que es la variabilidad con respecto a las distribuciones condicionadas. Por ejemplo, en el caso escalar representado en la Þgura ??, esta expresión se reduce a : σ2 = GX i=1 πiσ2 i + GX i=1 πi(µi − µ)2 y descompone la varianza de los datos en sus fuentes de variabilidad. En la Þgura ?? las medias son cero y dos y las varianzas uno y cuatro, y tenemos que σ2 = .5(1) + .5(4)+.5(0 − 1)2 + .5(2 − 1)2 = 3.5 que corresponde a una desviación típica de 1.87, que está de acuerdo con la distribución de la Þgura ??. En el caso multivariante las mezclas de distribuciones normales pueden representar una gama muy amplia de distribuciones. La Þgura 9.8 presenta un ejemplo. 9.11 Lecturas complementarias El lector puede encontrar exposiciones más detalladas y más ejemplos de la teoría aquí expuesta en la mayoría de los textos básicos de estadística y en los primeros capítulos de la mayoría de los textos multivariantes. En inglés, Flury (1997), Johnson y Wichern (1998) y Mardia et al (1979) son buenas exposiciones en orden creciente de complejidad matemática. Existen otras distribuciones más ßexibles que la Dirichlet para modelar datos multivari- antes de proporciones. Aitchinson (1986) es una buena referencia de distintas distribuciones que pueden usarse para este objetivo. El lector interesado en ampliar las propiedades de las propiedades elípticas puede acudir a Flury (1997), que es una excelente introducción, y a Muirhead (1982). Otras buenas referencias sobre las distribuciones aquí expuestas son Anderson (1984), Seber (1984) y Johnson y Kotz (1970). Patel y Read (1982) se concentran en la distribución normal. Las distribuciones mezcladas han ido teniendo un papel cada vez mayor en Estadística, tanto desde el punto de vista clásico como Bayesiano. Un referencia básica es Titterington at al (1987). Muchos de los textos de cluster, que comentaremos en el capítulo 14, incluyen el estudio de estas distribuciones.
  • 291. 9.11. LECTURAS COMPLEMENTARIAS 291 -10 -8 -6 -4 -2 0 2 4 6 8 10 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 N(0,1) N(0,3) Mezcla Figura 9.7: Mezcla al 50% de dos distribuciones normales con la misma media y distinta varianza Figura 9.8: Mezcla de dos normales bivariantes en la proporción 50% con medias (0,0) y (3,3) y distintas matrices de covarianzas.
  • 292. 292 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES Ejercicios Ejercicio 9.1 Dada la función de densidad conjunta f(x, y) = 6x deÞnida en 0 < x < 1, 0 < y < 1 − x, comprobar que las densidades marginales de ambas variables son f(x) = 6x(1 − x), 0 < x < 1 y f(y) = 3(1 − y)2 , 0 < y < 1. Ejercicio 9.2 Comprobar que las densidades condicionadas en el ejemplo anterior son f(y|x) = 1 (1−x) , 0 < y < 1 − x y f(x|y) = 2x (1−y)2 , 0 < x < 1 − y. Ejercicio 9.3 Utilizar la fórmula de transformaciones lineales de variables vectoriales para demostrar que si deÞnimos la variable normal estándar como la que tiene función de densi- dad f(z) = (2π)−p/2 exp(−z0 z/2) y hacemos la transformación x = m + Az se obtiene la expresión de la normal general. Ejercicio 9.4 Obtener las distribuciones condicionadas en la normal bivariante de media cero y matriz de covarianzas · 1 ρ ρ 1 ¸ . Ejercicio 9.5 Demostrar en el ejercicio anterior que si ρ > 1 tanto la matriz de covarianzas como la de correlación no son deÞnidas positivas Ejercicio 9.6 Comprobar las fórmulas (9.19) y (9.20) para las esperanzas y varianzas glob- ales de las variables del ejercicio 4.3 Ejercicio 9.7 Sea ¡x y ¢ un vector bidimensional de variables aleatorias normales incorreladas. Escribir la función de densidad conjunta del vector de variables a = Pm i=1 x2 i , b Pm i=1 y2 i , c = Pm i=1 xiyi. Ejercicio 9.8 Calcular en el ejercicio anterior la densidad condicionada f(c|ab). Ejercicio 9.9 Demostrar que la distancia de Mahalanobis entre la variable multinomial y su media, (y−np)0 Var(y)−1 (y−np) es la distancia ji-cuadrado P (yi − npi)2 /npi. Ejercicio 9.10 En la normal bivariante , demostrar que existe una matriz triangular (de- scomposición de Cholesky) L = · l11 0 l21 l22 ¸ tal que LL0 = V. Encontrar los parámetros l11, l21, l22 como función de las varianzas y covarianzas de las variables. Interpretar el resul- tado como parámetros de las distribuciones marginales y condicionadas de las variables. Ejercicio 9.11 Aplicar la descomposición de Cholesky del ejercicio anterior a la matriz de covarianzas · 9 3 3 4 ¸ Ejercicio 9.12 Generar muestras de una distribución normal bivariante por el método sigu- iente: (1) generar un valor al azar de la distribución marginal de la primera variable; (2) generar un valor al azar de la distribución univariante de la segunda variable dada la primera. Aplicarlo para generar valores al azar de una variable aleatoria con vector de medias µ = (0, 5)0 desviaciones típicas (2,3) y correlación 0,5.
  • 293. 9.11. LECTURAS COMPLEMENTARIAS 293 Ejercicio 9.13 Demostrar que el método anterior es equivalente a generar dos variables aleatorias independientes de media cero y desviación típica unidad , z = (z1, z2)0 , y obtener los valores al azar de las variables mediante la transformación x = µ + Lz , donde L es al matriz triangular de la descomposición de Cholesky. Ejercicio 9.14 Demostrar que si particionamos el vector de variables y la matriz de covari- anzas como V = · V11 V12 V21 V22 ¸ , y llamamos L11, L12, L22 a las matrices correspondientes a la descomposición de Cholesky de esta matriz se veriÞca que L2 11 = V11, L12 = V −1/2 11 V12, L2 22 = V22 − V21V −1 11 V12 e interpretar estos resultados de acuerdo con la sección 5.3.1 Ejercicio 9.15 Demostrar que si x1, ..., xh son vectores con medias µi y matrices de covar- ianzas Vi la variable y = Ph I=1 cxi tiene media Ph I=1 cµi y covarianza Ph I=1 c2 Vi. Ejercicio 9.16 Cuando aumenta la dimensión del vector de datos la maldición de la di- mensión se maniÞesta en que cada vez hay menos densidad en una región del espacio. Para ilustrar este problema, considere la normal estándar y calcule con tablas de la χ2 la proba- bilidad de encontrar un valor en la esfera unidad deÞnida por la relación x0x ≤ 1, cuando la dimensión de x, es p = 2, 4, 8, 16. ¿Qué pasará al aumentar p? Ejercicio 9.17 Considere una variable normal Np(0, I), donde p = 10. Tomemos un valor al azar, x0 y construyamos la dirección que une ese punto con el centro de la distribución. ¿Cuál es el valor esperado de la distancia entre ese punto y el centro de la distribución?. Supongamos que ahora tomamos una muestra de 100 valores de la variable aleatoria y los proyectamos sobre la dirección anterior. ¿Cuál será la distribución que observamos? ¿Cuál será la distancia esperada entre el centro de esos datos y el punto x0 ? Ejercicio 9.18 La función generatriz de momentos de una variable aleatoria multivariante viene dada por ϕ(t) = E(et0x ), donde t es un vector de parámetros. Comprobar que para una variable normal multivariante esta función es ϕ(t) = exp(t0 µ + t0 Vt). APÉNDICE 9.1 La distribución Wishart invertida Si W es Wp(m, Σ), la distribución de U = W−1 se denomina distribución Wishart invertida, escribiremos U ∼ IWp(m, Σ). Su función de densidad es f(U) = C|Σ|−m/2 |U|−(m+p+1)/2 exp(−1/2 trΣ−1 U−1 ) y se veriÞca que E [U] = Σ−1 m − p − 1 . La distribución Wishart invertida es utilizada por muchos autores para la estimación bayesiana de matrices de covarianzas. Como es equivalente decir que si U es Wishart inver- tida, U ∼ IWp(m, Σ) y que U−1 = W sigue una distribución Wishart, U−1 ∼ Wp(m, Σ), en este libro para simpliÞcar, hemos optado por no utilizarla y se incluye aquí únicamente como referencia para el lector que consulte otra bibliografía.
  • 294. 294 CAPÍTULO 9. DISTRIBUCIONES MULTIVARIANTES
  • 295. Capítulo 10 INFERENCIA CON DATOS MULTIVARIANTES 10.1 INTRODUCCIÓN En este capítulo vamos a presentar una introducción a la inferencia en modelos multivari- antes. Suponemos al lector familiarizado con los conceptos básicos de inferencia al nivel de Peña (2001). El objetivo de este capítulo es repasar los resultados de estimación y contrastes principales que serán necesarios en los temas posteriores. El lector puede encontrar en An- derson (1984), Mardia et al. (1979) o Seber (1983) presentaciones más completas de lo aquí expuesto. Se estudia primero la estimación de los parámetros en modelos normales multivariantes por máxima verosimilitud. En segundo lugar se presenta el método de la razón de verosimili- tudes, como procedimiento general para obtener contrastes con buenas propiedades en mues- tras grandes. Existen otros procedimientos para construir contrastes multivariantes que no revisaremos aquí, y que el lector puede encontrar en Anderson (1984). A continuación, se presenta un contraste sobre el valor del vector de medias en una población normal multi- variante. Este contraste se generaliza para comprobar la igualdad de los vectores de medias de varias poblaciones normales multivariantes con la misma matriz de covarianzas, que es la herramienta principal del análisis de la varianza multivariante. Un caso particular de este contraste es el test de valores atípicos, que puede formularse como una prueba de que una observación proviene de una distribución con media distinta a la del resto de los datos. Final- mente, se presentan los contrastes de normalidad conjunta de los datos y transformaciones posibles para llevarlos a la normalidad. 10.2 Fundamentos de la Estimación Máximo Verosim- il El método de máxima verosimilitud, debido a Fisher, escoge como estimadores de los parámet- ros aquellos valores que hacen máxima la probabilidad de que el modelo a estimar genere la muestra observada. Para precisar esta idea, supongamos que se dispone de una muestra 295
  • 296. 296 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES aleatoria simple de n elementos de una variable aleatoria p−dimensional, x, con función de densidad f(x | θ), donde θ = (θ1, ..., θr)0 es un vector de parámetros que supondremos tiene dimensión r ≤ pn. Llamando X = (x1, ..., xn), a los datos muestrales, la función de densidad conjunta de la muestra será, por la independencia de las observaciones: f(X | θ) = nY i=1 f(xi | θ). Cuando el parámetro θ es conocido, esta función determina la probabilidad de aparición de cada muestra. En el problema de estimación se dispone de la muestra, pero θ es desconocido. Considerando en la expresión de la densidad conjunta a θ como una variable y particular- izando esta función para los datos observados, se obtiene una función que llamaremos función de verosimilitud, `(θ|X), o `(θ): `(θ|X) = `(θ) = nY i=1 f(xi | θ) X fijo; θ variable (10.1) El estimador de máxima verosimilitud, o estimador MV, es el valor de θ que hace máxima la probabilidad de aparición de los valores muestrales efectivamente observados y se obtiene calculando el valor máximo de la función `(θ). Suponiendo que esta función es diferenciable y que su máximo no ocurre en un extremo de su dominio de deÞnición, el máximo se obtendrá resolviendo el sistema de ecuaciones: ∂`(θ) ∂θ1 = 0 : ∂`(θ) ∂θr = 0 El vector bθ que satisface este sistema de ecuaciones corresponderá a un máximo si la matriz hessiana de segundas derivadas H, evaluada en bθ, es deÞnida negativa: H(bθ) = µ ∂2 ` (θ) ∂θi∂θj ¶ θ=bθ deÞnida negativa. En ese caso bθ es el estimador de máxima verosimilitud o estimador MV de θ. En la prác- tica suele ser más cómodo obtener el máximo del logaritmo de la función de verosimilitud: L (θ) = ln ` (θ) (10.2) que llamaremos función soporte. Como el logaritmo es una transformación monótona, ambas funciones tienen el mismo máximo, pero trabajar con el soporte tiene dos ventajas principales. En primer lugar pasamos del producto de densidades (10.1) a la suma de sus logaritmos y la expresión resultante suele ser más simple que la verosimilitud, con lo que resulta más cómodo
  • 297. 10.3. ESTIMACIÓN DE LOS PARÁMETROS DE VARIABLES NORMALES P-DIMENSIONALES.2 obtener el máximo. En segundo lugar, al tomar logaritmos las constantes multiplicativas de la función de densidad, que son irrelevante para el máximo, se hacen aditivas y desaparecen al derivar, con lo que la derivada del soporte tiene siempre la misma expresión y no depende de constantes arbitrarias. En tercer lugar, el doble de la función soporte cambiada de sig- no proporciona un método general para juzgar el ajuste de un modelo a los datos que se denomina desviación: D(θ) = −2L (θ) y la desviación D(θ) mide la discrepancia entre el modelo y los datos. Cuanto mayor sea el soporte, L (θ) , mayor es la concordancia entre el valor del parámetro y los datos y menor la desviación. La desviación aparecerá de manera natural en el contraste de hipótesis y es una medida global de ajuste de un modelo a los datos. Para distribuciones cuyo rango de valores posibles es conocido a priori y no depende de ningún parámetro, puede demostrarse (veáse por ejemplo Casella y Berger, 1990) que, en condiciones muy generales respecto al modelo de distribución de probabilidad, el método de máxima verosimilitud (MV) proporciona estimadores que son: 1. Asintóticamente centrados. 2. Con distribución asintóticamente normal. 3. Asintóticamente de varianza mínima (eÞcientes). 4. Si existe un estadístico suÞciente para el parámetro, el estimador MV es suÞciente. 5. Invariantes en el sentido siguiente: si bθ es el estimador MV de θ, y g(θ) es una función cualquiera del vector de parámetros, entonces g(bθ) es el estimador MV de g(θ). 10.3 Estimación de los parámetros de variables nor- males p-dimensionales. Sea x1, ..., xn una muestra aleatoria simple donde xi ∼ Np(µ, V). Vamos a obtener los estimadores MV de los parámetros desconocidos µ y V. El primer paso es construir la función de densidad conjunta de las observaciones, que es, utilizando la expresión de la normal multivariante estudiada en el capítulo 8: f(X | µ, V) = nY i=1 |V|−1/2 (2π)−p/2 exp © −(1/2)(x − µ)0 V−1 (x − µ) ª y la función soporte será, despreciando las constantes: L(µ, V|X) = − n 2 log |V| − 1 2 nX i=1 (x − µ)0 V−1 (x − µ).
  • 298. 298 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES Observemos que la función soporte así escrita es siempre negativa, ya que tanto el deter- minante como la forma cuadrática son positivos por ser deÞnida positiva la matriz V. Ésta función nos indica el apoyo o soporte que reciben los posibles valores de los parámetros dados los valores muestrales observados. Cuanto mayor sea esta función (menos negativa) para un- os valores de los parámetros, mayor será la concordancia entre estos parámetros y los datos. Vamos a expresar esta función de una forma más conveniente. Llamando x = Pn i=1 xi/n al vector de medias muestral y escribiendo (xi −µ) = (xi − ¯x+¯x−µ) y desarrollando la forma cuadrática nX i=1 (x − µ)0 V−1 (x − µ) = nX i=1 (x − ¯x)0 V−1 (x − ¯x) + n(¯x − µ)0 V−1 (¯x − µ) ya que Pn i=1(x − ¯x) = 0. Concentrandonos en el primer término de esta descomposición, como un escalar es igual a su traza: tr à nX i=1 (x − ¯x)0 V−1 (x − ¯x) ! = nX i=1 tr £ (x − ¯x)0 V−1 (x − ¯x) ¤ = = nX i=1 tr £ V−1 (x − ¯x)(x − ¯x)0 ¤ = tr à V−1 nX i=1 (x − ¯x)(x − ¯x)0 ! , y llamando: S = 1 n nX i=1 (xi − x)(xi − x)0 , (10.3) a la matriz de covarianzas muestral, y sustituyendo en la función soporte: L(µ, V|x) = − n 2 log |V| − n 2 trV−1 S − n 2 (¯x − µ)0 V−1 (¯x − µ) (10.4) Esta es la expresión que utilizaremos para el soporte de los parámetros en muestras de una normal multivariante. Observemos que esta función sólo depende de la muestra a través de los valores ¯x y S, que serán, por tanto, estimadores suÞcientes de µ y V. Todas la muestras que proporcionen los mismos valores de ¯x y S darán lugar a las mismas inferencias respecto a los parámetros. Para obtener el estimador del vector de medias en la población, utilizamos que, por ser V−1 deÞnida positiva, (¯x − µ)0 V−1 (¯x − µ) ≥ 0 . Como este término aparece con signo menos, el valor de µ que maximiza la función soporte es aquel que hace este término lo menor posible, y se hará cero tomando: bµ = ¯x (10.5) por lo que concluimos que ¯x es el estimador máximo verosímil de µ. Sustituyendo este estimador en la función soporte este término desaparece. Para obtener el máximo de la función respecto a V, sumaremos la constante n 2 log |S| , y escribiremos el soporte como: L(V|X) = n 2 log |V−1 S| − n 2 trV−1 S (10.6)
  • 299. 10.4. EL MÉTODO DE LA RAZÓN DE VEROSIMILITUDES 299 Esta expresión es útil porque el valor de la verosimilitud escrita de esta forma no depende de las unidades de medida de las variables. También es fácil comprobar (veáse ejercicio 10.1) que el valor de la verosimilitud es invariante ante transformaciones lineales no singulares de las variables. Llamemos λi a los valores propios de la matriz V−1 S, entonces: L(V|X) = n 2 X log λi − n 2 X λi = n 2 X (log λi − λi). Esta expresión indica que la verosimilitud es una suma de funciones del tipo log x − x. Derivando respecto a x es inmediato que una función de este tipo tiene un máximo para x = 1. Por tanto, L(V|X) será máxima si todos los valores propios de V−1 S son iguales a la unidad, lo que implica que V−1 S = I. Esto se consigue tomando como estimador de máxima verosimilitud de V: bV = S (10.7) Los estimadores MV de µ y V son pues ¯x y S. Se demuestra, como en el caso uni- variante, que ¯x ∼Np(µ, 1/nV). Además nS se distribuye como la distribución de Wishart, Wp(n − 1, V). El estimador S es sesgado, pero n n−1 S es un estimador centrado de V. Es- tos estimadores tienen las buenas propiedades asintóticas de los estimadores de máxima verosimilitud: consistencia, eÞciencia y normalidad asintótica. En el ejercicio 10.2 se presen- ta una deducción alternativa, más clásica, de estos estimadores derivando la función soporte. 10.4 El método de la razón de verosimilitudes En esta sección repasamos la metodología general para construir contrastes utilizando la razón de verosimilitides y la aplicaremos al caso de poblaciones normales. Con frecuencia se desea comprobar si una muestra dada puede provenir de una distribución con ciertos parámetros conocidos. Por ejemplo, en el control de calidad de ciertos procesos se toman muestras de elementos, se mide una variable multivariante y se desea contrastar si el proceso está en estado de control, lo que supone que las muestras provienen de una población normal con ciertos valores de los parámetros. En otros casos, interesa comprobar si varias muestras multivariantes provienen o no de la misma población. Por ejemplo, queremos comprobar si ciertos mercados son igualmente rentables o si varios medicamentos producen efectos simi- lares. Finalmente, si hemos basado nuestra inferencia en la hipótesis de normalidad conviene realizar un contraste para ver si esta hipótesis no es rechazada por los datos observados. Para realizar contrastes de parámetros vectoriales podemos aplicar la teoría del contraste de verosimilitudes. Esta teoría proporciona pruebas estadísticas que, como veremos, tienen ciertas propiedades óptimas para tamaños muestrales grandes. Dado un parámetro vectorial, θ, p−dimensional, que toma valores en Ω (donde Ω es un subconjunto de <p ), suponemos que se desea contrastar la hipótesis: H0 : θ ∈ Ω0, que establece que θ está contenido en una región Ω0 del espacio paramétrico, frente a una hipótesis alternativa: H1 : θ ∈ Ω − Ω0,
  • 300. 300 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES que supone que θ no está restringida a la región Ω0. Para comparar estas hipótesis, analizare- mos su capacidad de prever los datos observados, y, para ello, compararemos las probabili- dades de obtenerlos bajo ambas hipótesis. Calcular estas probabilidades requiere el valor del vector de parámetros, que es desconocido. El método de razón de verosimilitudes resuelve este problema tomando el valor que hace más probable obtener la muestra observada y que es compatible con la hipótesis. En concreto: 1. La máxima probabilidad de obtener la muestra observada bajo H0 se obtiene como sigue. Si Ω0 determina un valor único para los parámetros, θ = θ0, entonces se calcula la probabilidad de los datos supuesto θ0. Si Ω0 permite muchos valores, elegiremos en- tre ellos el valor del parámetro que haga máxima la probabilidad de obtener la muestra. Como la probabilidad de la muestra observada es proporcional a la distribución con- junta de las observaciones, sustituyendo en esta función los datos disponibles resulta la función de verosimilitud. Calculando el máximo de esta función en Ω0, se obtiene el máximo valor de la verosimilitud compatible con H0, que representaremos por f (H0) . 2. La máxima probabilidad de obtener la muestra observada bajo H1 se calcula obtenien- do el máximo absoluto de la función sobre todo el espacio paramétrico. Estrictamente debería calcularse en el conjunto Ω − Ω0, pero es más simple hacerlo sobre todo el espacio, ya que en general se obtiene el mismo resultado. La razón es que, habitual- mente, H0 impone restricciones en el espacio paramétrico mientras que H1 supone que estas restricciones no existen. Particularizando la función de verosimilitud en su máx- imo, que corresponde al estimador MV de los parámetros, se obtiene una cantidad que representaremos como f (H1) . A continuación compararemos f (H0) y f (H1). Para eliminar las constantes y hacer la comparación invariante ante cambios de escala de las variables, construimos su cociente, que llamaremos razón de verosimilitudes (RV ) : RV = f(H0) f(H1) (10.8) Por construcción RV ≤ 1 y rechazaremos H0 cuando RV sea suÞcientemente pequeño. La región de rechazo de H0 vendrá, en consecuencia, deÞnida por: RV ≤ a, donde a se determinará imponiendo que el nivel de signiÞcación del test sea α. Para calcular el valor a es necesario conocer la distribución de RV cuando H0 es cierta, lo que suele ser difícil en la práctica. Sin embargo, cuando el tamaño muestral es grande, el doble de la diferencia de soportes entre la alternativa y la nula, cuando H0 es cierta, deÞnida por: λ = −2 ln RV = 2 (L(H1) − L(H0)) , donde L(Hi) = log f(Hi), i = 0, 1. se distribuye asintóticamente como una χ2 con un número de grados de libertad igual a la diferencia de dimensión entre los espacios Ω, y Ω0. Intuiti- vamente rechazamos H0 cuando el soporte de los datos para H1 es signiÞcativamente mayor
  • 301. 10.5. CONTRASTE SOBRE LA MEDIA DE UNA POBLACIÓN NORMAL 301 que para H0. La diferencia se juzga, para muestras grandes, con la distribución χ2 . Utilizan- do la deÞnición de la desviación, este contraste puede interpretarse como la diferencia entre las desviaciónes para H0 y para H1 : λ = D(H0) − D(H1) Es frecuente que la dimensión de Ω sea p y la dimensión de Ω0 sea p−r, siendo r el número de restricciones lineales sobre el vector de parámetros. Entonces, el número de grados de libertad de la diferencia de soportes, λ, es: g = gl(λ) = dim(Ω) − dim(Ω0) = p − (p − r) = r igual al número de restricciones lineales impuestas por H0. 10.5 Contraste sobre la media de una población normal Consideremos una muestra (x1, ..., xn) de una población Np(µ, V). Se desea realizar el contraste de la hipótesis: H0 : µ = µ0, V =cualquiera frente a la alternativa: H1 : µ 6= µ0, V =cualquiera. Para construir un contraste de razón de verosimilitudes, calcularemos el máximo de la función de verosimilitud bajo H0 y bajo H1. La función soporte es: L(µ, V|X) = − n 2 log |V| − 1 2 nX i=1 (x − µ)0 V−1 (x − µ). Se requiere obtener los estimadores MV de µ y V bajo H0 y bajo H1. Por la sección 10.2 sabemos que, bajo H1, estos estimadores son ¯x y S, y sustituyendo en (10.4) tenemos que el soporte para H1 es: L(H1) = − n 2 log |S| − np 2 Bajo H0 el estimador de µ es directamente µ0, y operando en la forma cuadratica como vimos en la sección 10.2.2 (tomando trazas y utilizando las propiedades lineales de la traza) podemos escribir esta función como: L(V|X) = − n 2 log |V| − n 2 trV−1 S0 (10.9) donde S0 = 1 n nX i=1 (xi − µ0)(xi − µ0)0 . (10.10)
  • 302. 302 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES Si sumamos en la expresión (10.9) la constante n 2 log |S0| obtenemos una expresión análoga a (10.6), con lo que concluimos que S0 es el estimador MV de V bajo H0. Sustituyendo V por S0 en (10.9) el soporte para H0 será L(H0) = − n 2 log |S0| − np 2 y la diferencia de soportes será λ = 2(L(H1) − L(H0)) = n log |S0| |S| (10.11) y rechazaremos H0 cuando el soporte para H1 sea signiÞcativamente mayor que para H0. Esta condición equivale a que la varianza generalizada bajo H0, (|S0|) sea signiÞcativamente mayor que bajo H1. La distribución de λ es una χ2 , con grados de libertad igual a la diferencia de las dimensiones del espacio en que se mueven los parámetros bajo ambas hipótesis. La dimensión del espacio paramétrico bajo H0 es p + p(p − 1)/2 = p(p + 1)/2, el número de términos distintos en V, y la dimensión del espacio parámetro bajo H1 es p +p(p + 1)/2. La diferencia es p que serán los grados de libertad del estadístico χ2 . En este caso, podemos obtener la distribución exacta del ratio de verosimilitudes, no siendo necesaria la distribución asintótica. Se demuestra en el apéndice 10.2 que: |S0| |S| = 1 + T2 n − 1 (10.12) donde el estadístico T2 = (n − 1)(¯x − µ0)0 S−1 (¯x − µ0), sigue la distribución T2 de Hotelling con p y n − 1 grados de libertad. Utilizando la relación entre el estadístico T2 y la distribución F, podemos calcular los percentiles de T2 . Como la diferencia de soportes es una función monótona de T2 , podemos utilizar directamente este estadístico en lugar de la razón de verosimilitudes, y rechazaremos H0 cuando T2 sea suÞcientemente grande. Observemos que de (10.11) y (10.12) podemos escribir λ = n log(1 + T2 n − 1 ) que es consistente con la distribución asintótica, ya que, para n grande, log(1 + a/n) ≈ a/n, y entonces λ ≈ T2 , que sabemos tiene una distribución asintótica χ2 p. Ejemplo 10.1 Un proceso industrial fabrica elementos cuyas características de calidad se miden por un vector de tres variables, x. Cuando el proceso está en estado de control, los valores medios de las variables deben ser (12, 4, 2). Para comprobar si el proceso funciona adecuadamente, se toma una muestra de 20 elementos y se miden las tres características. La media muestral es ¯x = (11.5, 4.3, 1.2)
  • 303. 10.6. CONTRASTES SOBRE LA MATRIZ DE VARIANZAS DE UNA POBLACIÓN NORMAL303 y la matriz de covarianzas entre estas tres variables es S =   10 4 −5 4 12 −3 −5 −3 4   (Los valores numéricos se han simpliÞcado para facilitar los cálculos) Observemos que si miramos cada variable aisladamente como t = (x − µ) √ n/bs es una t de Student con n − 1 grados de libertad, obtendríamos unos valores de las t para cada variable de t1 = (11.5−12) √ 20/ p 20 × 10/19 = −.68; t2 = (4.3−4) √ 20/ p 20 × 12/19 = .88; y t3 = (1.2 − 2) √ 20/ p 20 × 4/19 = .85. Aparentemente, mirando cada variable separadamente no hay diferencias signiÞcativas entre las medias muestrales y las del proceso bajo control y concluiríamos que no hay evidencia de que el proceso esté fuera de control. Si calculamos ahora el estadístico de Hotelling T2 = 19(¯x − µ0)0 S−1 (¯x − µ0) = 14.52 Para juzgar el tamaño de esta discrepancia lo llevamos a la distribución F F3,17 = ((20 − 3)/3)(T2 /19) = 4.33 y como el valor F3,17(.001) = 3.4, rechazamos sin ninguna duda que el proceso esta en estado de control. Para entender la razones de esta discrepancia entre el contraste multivariante y los uni- variantes, observemos que el contraste multivariante tiene en cuenta las correlaciones entre las discrepancias individuales. La matriz de correlaciones de los datos muestrales obtenida a partir de la matriz de covarianzas es R =   1 .37 −0.79 .37 1 −0.43 −0.79 −0.43 1   la correlación entre la primera variable y la tercera es negativa. Esto quiere decir que si observamos un valor por debajo de la media en la primera variable, esperamos que aparezca un valor por encima de la media en la tercera. En la muestra ocurre lo contrario, y esto contribuye a sugerir un desplazamiento de la media del proceso. 10.6 Contrastes sobre la matriz de varianzas de una población normal El contraste de la razón de verosimilitudes se aplica para hacer contrastes de matrices de varianzas de forma similar a la estudiada para vectores de medias en la sección anterior. Vamos a ver cuatro contrastes sobre la matriz de covarianzas de variables normales. En el
  • 304. 304 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES primer caso la hipótesis nula es que esta matriz toma un valor Þjo dado. En el segundo, que la matriz es diagonal y las variables están incorreladas. En el tercero las variables además tienen la misma varianza, es el contraste de esfericidad donde suponemos que la matriz de covarianzas es σ2 I. En el cuarto caso suponemos una esfericidad parcial: la matriz de covarianzas puede descomponerse como una matriz de rango m < p más σ2 I . Si m = 0 este contraste se reduce al de esfericidad. 10.6.1 Contraste de un valor particular Supongamos que se desea realizar el contraste de la hipótesis: H0 : V = V0, µ cualquiera frente a la alternativa: H1 : µ, y V =cualquiera. Para construir un contraste de razón de verosimilitudes, calcularemos el máximo de la función de soporte bajo H0 y bajo H1. Utilizando la expresión del soporte: L(µ, V|x) = − n 2 log |V| − n 2 trV−1 S − n 2 (¯x − µ)0 V−1 (¯x − µ) Bajo H0, el valor de V queda especiÞcado, V0, y µ se estimará mediante ¯x, con lo que : L(H0) = − n 2 log |V0| − n 2 trV−1 0 S mientras que bajo H1, los estimadores son ¯x y S, con lo que, como vimos en la sección anterior: L(H1) = − n 2 log |S| − np 2 y la diferencia de soportes será λ = 2(L(H1) − L(H0)) = n log |V0| |S| + ntrV−1 0 S−np (10.13) Vemos que el contraste consiste en comparar V0, el valor teórico y S, el estimado con la métrica del determinante y con la de la traza. La distribución del estadístico λ es una χ2 , con grados de libertad igual a la diferencia de las dimensiones del espacio en que se mueven los parámetros bajo ambas hipótesis que es p(p + 1)/2, el número de términos distintos en V. En particular este test sirve para contrastar si V0 = I. Entonces el estadístico (10.13) se reduce a λ = −n log |S| + ntrS−np.
  • 305. 10.6. CONTRASTES SOBRE LA MATRIZ DE VARIANZAS DE UNA POBLACIÓN NORMAL305 10.6.2 Contraste de independencia Otro contraste de interés es el de independencia, donde suponemos que la matriz V0 es diagonal. Es decir: H0 : V =diagonal µ cualquiera frente a la alternativa: H1 : µ, y V =cualquiera. Entonces la estimación máximo verosímil de V0 es cV0 =diag(S), donde diag(S) es una matriz diagonal con términos sii iguales a los de S, y el estadístico (10.13) se reduce a λ = n log Q sii |S| + ntr bV−1 0 S−np y como tr bV−1 0 S =tr bV −1/2 0 S bV −1/2 0 = trR =p, el contraste se reduce a: λ = −n log |R| (10.14) que suele escribirse en términos de los valores propios de R, llamando λi a estos valores propios una forma equivalente del contraste es λ = −n p X i=1 log λi y su distribución asintótica será una χ2 , con grados de libertad igual p(p + 1)/2 − p = p(p − 1)/2. 10.6.3 Contraste de esfericidad Un caso particular importante del contraste anterior es suponer que todas las variables tienen la misma varianza y están incorreladas. En este caso no ganamos nada por analizarlas conjuntamente, ya que no hay información común. Este contraste equivale a suponer que la matriz V0 es escalar, es decir V =σ2 I, y se denomina de esfericidad, ya que entonces la distribución de las variables tiene curvas de nivel que son esferas: hay una total simetría en todas las direcciones en el espacio. El contraste es H0 : V =σ2 I, µ cualquiera frente a: H1 : µ, y V =cualquiera Sustituyendo V0=σ2 I en (10.13), la función soporte bajo H0 es L(H0) = − np 2 log σ2 − n 2σ2 trS
  • 306. 306 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES y derivando respecto a σ2 es inmediato comprobar que el estimador MV es bσ2 = trS/p, .el promedio de las varianzas. La función soporte L(H1) es la misma que en el contraste anterior y la diferencia de soportes es λ = n log bσ2p |S| + ntrS/bσ2 −np (10.15) y sustituyendo bσ2 = trS/p el contraste se reduce a: λ = np log bσ2 − n log |S| y se distribuirá asintoticamente como una χ2 con p(p + 1)/2 − 1 = (p + 2)(p − 1)/2 grados de libertad. 10.6.4 (*)Contraste de esfericidad parcial El cuarto contraste que estudiaremos se denomina de esfericidad parcial porque supone que la matriz de covarianzas tiene dependencias en un espacio de dimensión m, pero en el espacio complementario de dimensión p−m se da la situación de esfericidad. Esto supone que toda la estructura de dependencias entre las variables puede explicarse en función de m variables, como veremos al estudiar el modelo factorial. Observemos que no tiene sentido contrastar que una matriz cuadrada de orden p tiene rango m < p, porque, en este caso, la matriz debe tener exactamente p − m valores propios nulos. Si es así, lo comprobaremos al calcular sus valores propios, ya que si se da esta condición en la población tiene que darse también en todas las muestras. Sin embargo, sí tiene sentido contrastar que la matriz tiene m valores propios relativamente grandes, que coresponden a m direcciones informativas, y p−m valores propios pequeños e iguales, que corresponden a las no informativas. Esta es la esfericidad parcial. El contraste será: H0 : V = B+σ2 I, µ cualquiera y rango(B) = m frente a: H1 : µ, y V =cualquiera Puede demostrarse utilizando los mismos principios (véase Anderson, 1963) que, llamando λi a los valores propios de S, el contraste es: λ = −n p X i=m+1 log λi + n(p − m) log Pp j=m+1 λj p − m (10.16) y sigue asintóticamente una distribución χ2 con (p−m+2)(p−m−1)/2 grados de libertad. Observemos que si las variables están estandarizadas y m = 0, este contraste se reduce a (10.15). También si las variables estan estandarizadas Pp j=1 λj = p, el segundo término se anula y este contraste se reduce (10.14). Concluimos que cuando m = 0 este contraste coincide con el general de esfericidad presentado en la sección anterior.
  • 307. 10.7. CONTRASTE DE IGUALDAD DE VARIAS MEDIAS: EL ANÁLISIS DE LA VARIANZA MULT 10.6.5 Ajustes en la distribución La aproximación de la distribución del estadístico λ a la χ2 cuando el tamaño muestral no es muy grande puede mejorarse introduciendo factores de corrección. Box (1949) y Bartlett (1954) han demostrado que las aproximaciones mejoran si sutituimos en los estadísticos anteriores n por nc donde nc es menor que n y dependen de p y del contraste. Por ejemplo, Box (1949) demostró que el contraste de independencia mejora si sutituimos n por nc = n− (2p+11)/2. Estas correciones pueden ser importantes si el tamaño muestral es pequeño, p es grande y el estadístico obtenido esta cerca del valor crítico, pero no van a ser importantes si p/n es pequeño y el estadístico resultante es claramente conluyente en cualquiera de las direcciones. El lector interesado puede acudir a Muirhead (1982). Ejemplo 10.2 Contrastar si podemos admitir que la matriz de covarianzas de las medidas de calidad del ejercicio 10.1 es de la forma σ2 I. Si no es así contrastar si las variables aunque tengan distinta varianza son independientes. La estimación de bσ2 bajo la nula es trS/p = (10 + 12 + 4)/3 = 8, 67. Por otro lado se comprueba que |S| = 146. Entonces λ = 60 log 8, 67 − 20 log 146 = 29.92 que debe compararse con una χ2 con (3 + 2)(3 − 1)/2 = 5 grados de libertad, y el valor obtenido es claramente signiÞcativo, por lo que rechazamos que las variables tengan la misma varianza y estén incorreladas. Para realizar el contraste de independencia transformemos las variables dividiendo cada una de ellas por su varianza. Es decir, pasamos a nuevas variables z1 = x1/ √ 10, z2 = x2/ √ 12, z3 = x3/ √ 4, que tendrán matriz de covarianzas, llamando D a la matriz diagonal con elementos (1/ √ 10, 1/ √ 12, 1/ √ 4), tendremos: Vz = DVxD0 =   1 0.3651 −0.7906 0.3651 1 −0.4330 −0.7906 −0.4330 1   = Rx y el contraste ahora es λ = −20 log 0, 304 = 23.8 que debe compararse ahora con χ2 con 3 grados de libertad, con lo que se rechaza sin duda la hipótesis de independencia. 10.7 Contraste de igualdad de varias medias: el Análi- sis de la Varianza Multivariante Supongamos que hemos observado una muestra de tamaño n de una variable p dimensional que puede estratiÞcarse en G clases o grupos, de manera que existen n1 observaciones del grupo 1, ...., nG del grupo G. Un problema importante es contrastar que las medias de las
  • 308. 308 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES G clases o grupos son iguales. Vamos a resolverlo aplicando el contraste de la razón de verosimilitudes. La hipótesis a contrastar es: H0 : µ1 = µ2 = ... = µG = µ; donde, además, V es deÞnida positiva, e idéntica en los grupos. La hipótesis alternativa es: H1 : no todas las µi son iguales; con las mismas condiciones para V. La función de verosimilitud bajo H0 de una muestra normal homogénea se ha calculado en la sección 10.2 y sabemos que su máximo se alcanza para bµ = x y bV = S. Sustituyendo estas estimaciones en la función soporte tenemos que L(H0) = − n 2 log |S| − np 2 . (10.17) Bajo H1, los n vectores de observaciones se subdividen en n1 del grupo 1, ...., nG del grupo G. La función de verosimilitud bajo H1 será: f(µ1, ..., µp, V |X) = |V|−n/2 (2π)−np/2 exp ( − 1 2 GX g=1 ng X h=1 (xhg − µg)0 V−1 (xhg − µg) ) , donde xhg es el h vector de variables del grupo g, y µg su media. La maximización de esta función en el espacio paramétrico deÞnido por H1 se realiza por el procedimiento estudiado en 10.2. La estimación de la media de cada grupo será la media muestral, bµg = xg, y la estimación de la matriz de covarianzas común se obtiene utilizando que: GX g=1 ng X h=1 (xhg − xg)0 V−1 (xhg − xg) = tr à GX g=1 ng X h=1 (xhg − xg)0 V−1 (xhg − xg) ! GX g=1 ng X h=1 tr ¡ V−1 (xhg − ¯xg)(xhg − ¯xg)0 ¢ = tr ¡ V−1 W ¢ donde W = GX g=1 ng X h=1 (xhg − ¯xg)(xhg − ¯xg)0 (10.18) es la matriz de suma de cuadrados dentro de los grupos. Sustituyendo en la función de verosimilitud y tomando logaritmos se obtiene L(V|X) = n 2 log |V−1 | − n 2 trV−1 W/n
  • 309. 10.7. CONTRASTE DE IGUALDAD DE VARIAS MEDIAS: EL ANÁLISIS DE LA VARIANZA MULT y, según los resultados de 10.2, la varianza común a los grupos cuando estos tienen distinta media se estima por: bV = Sw = 1 n W (10.19) donde W está dada por (10.18). Sustituyendo estas expresiones en la función soporte ten- dremos que L(H1) = − n 2 log |Sw| − np 2 . (10.20) La diferencia de soportes será: λ = n log |S| |Sw| (10.21) y rechazaremos H0 cuando esta diferencia sera grande, es decir, cuando la variabilidad suponiendo H0 cierta, medida por |S|, sea mucho mayor que la variabilidad cuando per- mitimos que las medias de los grupos sean distintas, medida por |Sw|. Su distribución es, asintoticamente, una χ2 g donde los grados de libertad, g, se obtienen como por la diferencia entre ambos espacio paramétricos. H0 determina una región Ω0 donde hay que estimar los p componentes del vector de medias común y la matriz de covarianzas, en total p + p(p + 1)/2 parámetros. Bajo la hipótesis H1 hay que estimar G vectores de medias más la matriz de covarianzas lo que supone Gp + p(p + 1)/2 parámetros. La diferencia es g : g = dim(Ω) − dim(Ω0) = p(G − 1) (10.22) que serán los grados de libertad de la distribución asintótica. La aproximación a la distribución χ2 g del cociente de verosimilitudes puede mejorarse para tamaños muestrales pequeños. Se demuestra que el estadístico : λ0 = m log log |S| |Sw| , (10.23) donde m = (n − 1) − (p + G)/2, sigue asintóticamente una distribución χ2 g , donde g viene dada por (10.22), y la aproximación es mejor que tomando m = n en pequeñas muestras. El análisis de la varianza multivariante Este contraste es la generalización multivariante del análisis de la varianza y puede deducirse alternativamente como sigue. Llamemos variabilidad total de los datos a: T = nX i=1 (xi − ¯x)(xi − ¯x)0 , (10.24)
  • 310. 310 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES que mide las desviaciones respecto a una media común. Vamos a descomponer la matriz T como suma de dos matrices. La primera, W, es la matriz de las desviaciones respecto a las medias de cada grupo y viene dada por (10.18). La segunda medirá la variabilidad explicada por las diferencias entre las medias y la llamaremos B. Esta descomposición generaliza al caso vectorial la descomposición clásica de análisis de la varianza. Para obtenerla sumaremos y restaremos las medias de grupo en la expresión de T, como: T = GX g=1 ng X h=1 (xgh − ¯x + ¯xg − ¯xg)(xgh − ¯x + ¯xg − ¯xg)0 y desarrollando se comprueba que el doble producto se anula y resulta: T = B + W, (10.25) donde T viene dado por (10.24), W por (10.18) y B, la matriz de variabilidad explicada o de sumas de cuadrados entre grupos, se calcula por: B = GX g=1 ng(¯xg − ¯x)(¯xg − ¯x)0 . La descomposición (10.25) puede expresarse como Variabilidad Total (T) = Variabilidad Explicada (B) + Variabilidad Residual (W) que es la descomposición habitual del análisis de la varianza. Para hacer un contraste de que las medias son iguales podemos comparar el tamaño de las matrices T y B. La medida de tamaño adecuada es el determinante, con lo que concluimos que el contraste debe basarse en el cociente |T|/|W|. La distribución exacta de este cociente fue estudiada por Wilks. Para tamaños moderados el contraste es similar al de la razón de verosimilitudes (10.23), que puede escribirse también como: λ0 = m log |T| |W| = m log |W + B| |W| = m log |I + W−1 B| (10.26) Desde el punto de vista del cálculo de (10.26) como |I + A| = Π(1 + λi) donde λi son los vectores propios de A, este estadístico se reduce a λ0 = m X log(1 + λi) donde λi son los vectores propios de la matriz W−1 B. Ejemplo 10.3 Vamos a aplicar este contraste para ver si se observan diferencias detectables en pequeñas muestras en los datos de MediÞs, entre las medidas físicas de hombres y mujeres de la tabla A.5. En la muestra hay 15 mujeres (variable sexo = 0) y 12 hombres (sexo = 1). El primer paso del análisis es calcular las medias y matrices de covarianzas en cada grupo,
  • 311. 10.7. CONTRASTE DE IGUALDAD DE VARIAS MEDIAS: EL ANÁLISIS DE LA VARIANZA MULT por separado, y para el conjunto de los datos. En la tabla siguiente se presentan las medias para cada variable, para toda la muestra, y para los grupos de mujeres y hombres est pes pie lbr aes dcr lrt total 168.78 63.89 38.98 73.46 45.85 57.24 43.09 mujeres 161.73 55.60 36.83 70.03 43.33 56.63 41.06 hom bres 177.58 74.25 41.67 77.75 49.00 58.00 45.62 Las matrices de covarianzas dividiendo por n−1 para toda la muestra, mujeres y hombres son Para las mujeres: bSM =           37.64 22.10 80.40 6.38 7.36 1.92 15.65 12.94 3.06 7.41 9.49 14.39 1.49 3.99 9.42 2.75 7.20 0.76 1.17 2.559 2.94 9.02 9.31 1.98 4.53 1.12 0.95 3.78           Para los hombres bSH =           45.53 48.84 74.20 9.48 9.63 2.79 14.34 19.34 2.09 12.57 14.86 19.77 3.23 6.18 6.77 9.45 9.90 1.86 2.36 3.02 3.13 8.92 5.23 2.31 1.21 1.84 2.63 6.14           y para el conjunto de hombres y mujeres, se calcula como media ponderada de estas dos matrices bST = (14 cSM + 11cSH)/25 con lo que se obtiene bST =           41.11 33.86 77.67 7.476 8.36 2.30 15.07 15.76 2.63 9.68 11.85 16.76 2.25 4.95 8.25 5.70 8.390 1.24 1.70 2.76 3.03 8.98 7.52 2.13 3.07 1.44 1.70 4.82           Vamos a calcular el ratio de verosimilitudes como cociente de las variabilidades promedio ante ambas hipótesis. Bajo H0 se obtiene que la matriz de varianzas y covarianzas cuando suponemos la misma media, S conduce a la variabilidad promedio V P(H0) = |S|1/7 = 5.77 mientras que V P(H1) = |Sw|1/7 = 4.67
  • 312. 312 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES con lo que el contraste es 27((27 − 1) − (7 + 7)/2) log(5.77/4.67) = 108.5 que debe compararse con una χ2 con 7 grados de libertad, y no hay ninguna duda de que las diferencias son signiÞcativas. 10.8 Contrastes de datos atípicos El contraste de igualdad de medias puede aplicarse, como caso particular, para contrastar si una observación de una muestra de datos normales es atípica. La hipótesis nula será que todos los datos vienen de la misma población normal. La hipótesis alternativa será que el dato sospechoso ha sido generado por otra población desconocida. Para caracterizar la población alternativa podemos suponer que la media es distinta y la varianza la misma, o que la media es la misma y la varianza distinta. Si supusiesemos que tanto la media como la matriz de covarianzas tendríamos un problema de identiÞcación, porque no es posible con un solo dato estimar la media y la variabilidad. Puede comprobarse que los contrastes suponiendo la media distinta o la varianza distinta son similares (véase Peña y Guttman, 1993) y aquí consideraremos el caso más simple de media distinta pero misma matriz de covarianzas. Para aplicar este contraste a un dato sospechoso, xi, estableceremos: H0 : E(xi) = µ; frente a H1 : E(xi) = µi 6= µ; La función de verosimilitud bajo H0 es (10.17). Bajo H1, como la estimación µi es xi, la estimación de la varianza será S(i) = 1 n − 1 W(i), donde W(i)= nX h=1,j6=i (xh − ¯x(i))(xh − ¯x(i))0 , es la estimación de la suma de cuadrados de los residuos, y ¯x(i) es la media de las observa- ciones, en ambos casos eliminando la observación xi. La diferencia de soportes es, particu- larizando (10.26): λ = n log |T| |W(i)| y, se demuestra en el apéndice 10.3, que se veriÞca la relación: |T| |W(i)| = 1 + 1 n D2 (xi, ¯x(i))
  • 313. 10.9. CONTRASTES DE NORMALIDAD 313 donde D2 (xi, ¯x(i)) es: D2 (xi, ¯x(i)) = (xi − ¯x(i))0 S−1 (i) (xi − ¯x(i)). (10.27) la distancia de Mahalanobis entre el dato y la media sin incluirle. Por tanto, para realizar el test calcularemos la distancia de Mahalanobis (10.27), que se distribuirá, si H0 es cierta, para muestras grandes como una χ2 p . En la práctica, para detectar atípicos se calcula el máximo de las distancias D2 (xi, ¯x(i)) y este valor se compara con el percentil 0,95 o 0,99 de las tablas de percentiles del máximo de una χ2 p. El problema, entonces, es que si existe más de un atípico, la potencia del contraste puede ser muy baja, al estar contaminadas las estimaciones de los parámetros. Un proced- imiento más recomendable siempre que se trabaje con muestras que pueden ser heterogéneas es identiÞcar primero todas las observaciones sospechosas, con los procedimientos indicados en el capítulo 3, y después ir contrastando una por una si las observaciones se aceptan. Es decir, ordenamos todos los datos sospechosos por D2 (xi, ¯x(i)) y contrastamos si el más próximo puede incorporarse a la muestra. Si se rechaza esta incorporación el procedimiento termina y todos los datos sospechosos son declarados atípicos. En caso contrario, el dato se incorpora a la muestra y se recalculan los parámetros y las distancias de Mahalanobis, y se vuelve a aplicar el procedimiento a las restantes excluidas. 10.9 Contrastes de Normalidad Los métodos más utilizados en análisis multivariante suponen normalidad conjunta de las observaciones y conviene, cuando dispongamos de datos suÞcientes, contrastar esta hipótesis. Normalidad unidimensional La normalidad de las distribuciones univariantes puede contrastarse con los contrastes χ2 , Kolmogorov-Smirnov, Shapiro y Wilks, o con los contrastes basados en coeÞcientes de asimetría y curtosis, que pueden consultarse en Peña (2001). Llamando A = m3 m 3/2 2 ; K = m4 m2 2 , donde mh = 1 n X (xi − x)h . Se demuestra que, asintóticamente, con datos normales: A ∼ N(0; 6/n); K ∼ N(3; 24/n) y por tanto la variable X2 = nA2 6 + n (K − 3)2 24 se distribuirá, si la hipótesis de normalidad es cierta, como una χ2 con 2 grados de libertad. Rechazaremos la hipótesis de normalidad si X2 > χ2 2(α).
  • 314. 314 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES Normalidad multivariante La normalidad multivariante implica la normalidad de distribuciones marginales unidimen- sionales, pero la existencia de esta propiedad no garantiza la normalidad multivariante de los datos. Para contrastar la normalidad conjunta existen varios contrastes posibles, y aquí sólo comentaremos la generalización multivariante de los contrastes de asimetría y curtosis. (Véase Justel, Peña y Zamar (1997) para una generalización del contraste de Kolmogorov- Smirnov al caso multivariante). DeÞniendo los coeÞcientes de asimetría y curtosis multivariantes como en la sección 3.6: Ap = 1 n2 nX i=1 nX j=1 d3 ij Kp = 1 n nX i=1 d2 ii donde dij = (xi − x)0 S−1 (xi − x), se veriÞca asintóticamente: nAp/6 ∼ χ2 f con f = 1 6 p(p + 1)(p + 2) Kp ∼ N (p(p + 2); 8p(p + 2)/n) La potencia de este contraste no es muy alta a no ser que tengamos una muestra muy grande. Dos casos frecuentes en la práctica en que se rechaza la hipótesis de normalidad conjunta son: (1) Las distribuciones marginales son aproximadamente simétricas, y las relaciones en- tre las variables son lineales, pero existen valores atípicos que no pueden explicarse por la hipótesis de normalidad. En este caso si eliminamos (o descontamos con un estimador ro- busto) los valores atípicos, la normalidad conjunta no se rechaza y los métodos basados en la normalidad suelen dar buenos resultados. (2) Algunas (o todas) las distribuciones marginales son asimétricas y existen relaciones no lineales entre las variables. Una solución simple y que funciona bien en muchos casos es transformar las variables para conseguir simetría y relaciones lineales. 10.9.1 Transformaciones Para variables escalares Box y Cox (1964) han sugerido la siguiente familia de transforma- ciones para conseguir la normalidad: x(λ) = (x+m)λ−1 λ (λ 6= 0) (x > −m) ln (x + m) (λ = 0) (m > 0) donde λ es el parámetro de la transformación que se estima a partir de los datos y la constante m se elige de forma que x + m sea siempre positiva. Por lo tanto, m será cero si
  • 315. 10.9. CONTRASTES DE NORMALIDAD 315 trabajamos con datos positivos e igual en valor absoluto al valor más negativo observado, en otro caso. Suponiendo m = 0 esta familia incluye como casos particulares la transformación logarítmica, la raíz cuadrada y la inversa. Cuando λ > 1, la transformación produce una mayor separación o dispersión de los valores grandes de x, tanto más acusada cuanto mayor sea el valor de λ mientras que cuando λ < 1 el efecto es el contrario: los valores de x grandes tienden a concentrarse y los valores pequeños (x < 1) a dispersarse. Estas transformaciones son muy útiles para las distribuciones marginales. Para estudiar cómo determinar el valor del parámetro con una variable escalar, supongamos que m = 0 y que existe un valor de λ que transforma la variable en normal. La relación entre el modelo para los datos originales, x, y para los transformados, x(λ) , será: f(x) = f(x(λ) ) ¯ ¯ ¯ ¯ dx(λ) dx ¯ ¯ ¯ ¯ , (10.28) y como: dx(λ) dx = λxλ−1 λ = xλ−1 y suponiendo que x(λ) es N(µ, σ2 ), para cierto valor de λ, la función de densidad de las variables originales será: f (x) = 1 σ √ 2π e − 1 2σ2 µ xλ−1 λ −µ ¶2 xλ−1 Por tanto, la función de densidad conjunta de X = (xi, ..., xn) será, por la independencia de las observaciones: f (X) = 1 σn ¡√ 2π ¢n à nY i=1 xλ−1 i ! e − 1 2σ2 P µ xλ i −1 λ −µ ¶2 (10.29) y la función soporte es: L ¡ λ; µ, σ2 ¢ = − n 2 ln σ2 − n 2 ln 2π + (λ − 1) X ln xi − 1 2σ2 X µ xλ i − 1 λ − µ ¶2 . Para obtener el máximo de esta función utilizaremos que, para λ Þjo, los valores de σ2 y µ que maximizan la verosimilitud (o el soporte) son, derivando e igualando a cero: bσ2 (λ) = 1 n X ¡ x(λ) − bµ (λ) ¢2 , bµ (λ) = x(λ) = X x (λ) i n = 1 n X µ xλ i − 1 λ ¶ . Al sustituir estos valores en la verosimilitud obtenemos lo que se denomina la función de verosimilitud concentrada en λ. Su expresión es, prescindiendo de constantes: L (λ) = − n 2 ln bσ (λ)2 + (λ − 1) X ln xi (10.30)
  • 316. 316 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES El procedimiento para obtener bλ consiste en calcular L (λ) para distintos valores de λ. El valor que maximice esta función es el estimador MV de la transformación. Para conseguir normalidad multivariante supondremos que existe un vector de parámet- ros λ = (λ1, ..., λp) que produce normalidad multivariante, donde λj es la transformación aplicada al componente j del vector. Aplicando un análisis similar al caso univariante, la función soporte multivariante concentrada en el vector de parámetros de la transformación es: L(λ) = − n 2 ln ¯ ¯ ¯bΣ ¯ ¯ ¯ + p X j=1 " (λj − 1) nX i=1 ln xij # , donde los parámetros se han estimado aplicando las formulas habituales a los datos trans- formados: bµ = 1 n nX i=1 x (λ) i , y bΣ = 1 n nX i=1 (x (λ) i − bµ)(x (λ) i − bµ)0 . La estimación MV del parámetro vectorial λ no suele aportar mejoras importantes re- specto a transformar individualmente cada variable para que las marginales sean normales. Véase Johnson y Wichern (1998). 10.10 Lecturas recomendadas En este capítulo hemos resumido un tema muy amplio sobre el que existe abundante bib- liografía. El lector puede encontrar una buena introducción en inglés a los métodos de estimación y contraste basados en la función de verosimilitud en Casella y Berger (1990). En español vease Peña (2001) y las referencias allì indicadas. La estimación MV de la nor- mal multivariante se trata con detalle en Anderson (1984), Mardia et al (1979) y Muirhead (1982). Los contrastes de matrices de covarianzas se presentan claramente en Mardia et al (1979) y Rechner (1998). El análisis de la varianza multivariante es un tema muy amplio y puede ampliarse en Johnson y Wichern (1998), Morrison (1976), Seber (1984) y Rechner (1998). Métodos tradicionales para el contraste de datos atípicos pueden encontrarse en Bar- nett y Lewis (1994), y referencias a métodos más recientes en Peña y Prieto (2001). Para la transformación multivariante de Box-Cox véase Gnanadesikan (1997) y Velilla (1993). Por razones de espacio no hemos incluido la aplicación de nuevos métodos de estimación, como la estimación autosuÞciente de Efron, al caso multivariante. El lector puede consultarla en Efron (1982) and Efron y Tibshirani (1993). Ejercicios 10.1 Demostrar que la verosimilitud L(V|X) = n 2 log |V−1 S| − n 2 trV−1 S es invariante ante trasnformaciones de las variables y = Ax, con A cuadrada no singular.
  • 317. 10.10. LECTURAS RECOMENDADAS 317 10.2 Obtener los estimadores máximos verosímiles de los parámetros en la normal multi- variante derivando en la función de verosimilitud (10.4). Para la varianza escribir la función como función de V−1 y utilizar que ∂log|V−1 | ∂V−1 = V, y ∂trV−1S ∂V−1 = S. Comprobar entonces que ∂L(V−1|X) ∂V−1 = n 2 µ ∂log|V−1 | ∂V−1 − ∂tr(V−1S) ∂V−1 ¶ = n 2 (V − S) = 0. 10.3 Demostrar que la función soporte de la sección 10.2 puede escribirse como L(V|X) = −n 2 log |V| − n 2 trV−1 S(µ), donde S(µ) = Pn i=1(xi − µ)(xi − µ)0 /n y utilizar esta expresión para demostrar que el estimador MV de V cuando restringimos los valores de µ a una región A es es S(bµ), donde bµ es el valor que maximiza Pn i=1(x − µ)0 V−1 (x − µ) sobre A. 10.4 Demostrar que la función de verosimilitud del ejercicio anterior 10.1 puede escribirse como L(V|X) = np 2 (log λg − λ), donde λg y λ son la media geométrica y aritmética de los valores propios de la matriz V−1 S. 10.5 Demostrar que el contraste del análisis de la varianza multivariante equivale a com- parar las medias geométricas de los valores propios de las matrices de variabilidad total y no explicada. 10.6 Demostrar que el contraste del análisis de la varianza multivariante no se modiÞca si en lugar de trabajar con las variables originales lo hacemos con las componentes principales. 10.7 Demostrar que el contraste multivariante de que una muestra viene de una población es invariante ante transformaciones lineales no singulares de las variables. ¿Cómo sería el contraste si en lugar de las variables utilizamo sus componentes principales? 10.8 Demostrar que el estimador MV del parámetro σ2 en el modelo x ∼ Np(µ,σ2 I) es bσ2 = trS/p. 10.9 Demostrar que el contraste H0 : x ∼ Np(µ,σ2 V0) frente a H1 : x ∼ Np(µ, V) depende sólo de la media aritmética y geométrica de los valores propios V−1 0 S. APÉNDICE 10.1: Inadmisibilidad de la media muestral para p ≥ 3 Stein (1956) demostró que para p ≥ 3 la media muestral no es necesariamente el estimador óptimo de la media poblacional de una normal multivariante. Este resultado es consecuencia de que si tomamos como criterio seleccionar como estimador de µ el que minimice el error cuadrático medio de estimación, dado por E £ (µ − bµ)0 M−1 (µ − bµ) ¤ , donde M es una cierta matriz que sirve para deÞnir como se mide la distancia entre el estimador bµ y el parámetro µ. Eligiendo M = I, el estimador: bµs = µ 1 − (p − 2) ¯x0S−1¯x ¶ ¯x, es sesgado para µ, pero puede demostrarse que tiene un error cuadrático medio menor que ¯x. Por tanto, con este criterio, bµs es mejor estimador que la media muestral y en consecuencia la media muestral se dice que es un estimador inadmisible si p ≥ 3, ya que el estimador bµs tiene siempre menor error cuadrático medio. Observemos que bµs “contrae” (shrinkage) el valor de ¯x, ya que |bµs| ≤ |x|. Este resultado ha despertado un gran interés por los estimadores “shrinkage” que mejoran el error cuadrático medio de los estimadores MV tradicionales.
  • 318. 318 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES APÉNDICE 10.2: RAZÓN DE VEROSIMILITUDES Y LA T DE HOTELLING Para demostrar la relación entre la razón de verosimilitudes y la T de Hotelling utilizare- mos el siguiente Lemma 1 Si A es una matriz no singular y b un vector, |I + Abb0 | = 1 + b0 Ab. En efecto, observemos que la matriz bb0 tiene rango uno y también tendrá rango uno Abb0 . Por tanto, Abb0 tiene un único valor propio no nulo. Llamando λ a este valor propio no nulo y v al vector propio, como Abb0 v = λv, multiplicando por b0 se obtiene que λ = b0 Ab. Entonces la matriz I + Abb0 tendrá un valor propio igual a 1+λ y el resto serán la unidad . Como el determinante es el producto de los valores propios, queda demostrado el lema. Partiendo ahora de nS0 = nX i=1 (xi − ¯x + ¯x − µ0)(xi − ¯x + ¯x − µ0)0 , y desarrollando en los términos (xi − ¯x) y (¯x − µ0), resulta: nS0 = nS + n(¯x − µ0)(¯x − µ0)0 . Por tanto |S0| |S| = |S + (x − µ0)(x − µ0)0 | |S| , que puede escribirse |S0| |S| = |S−1 ||S + (¯x − µ0)(¯x − µ0)0 | = |I + S−1 (¯x − µ0)(¯x − µ0)0 |, y aplicando el lema anterior tenemos que: |I + S−1 (¯x − µ0)(¯x − µ0)0 | = 1 + (x − µ0)0 S−1 (x − µ0), con lo que, tenemos Þnalmente que : |S0| |S| = 1 + (¯x − µ0)0 S−1 (¯x − µ0) = 1 + T2 n − 1 . APÉNDICE 10.3: CONTRASTE DE VALORES ATIPICOS La relación entre T y W(i) se obtiene restando y sumando ¯x(i) : T = nX j=1 (xj − ¯x(i) + ¯x(i) − ¯x)(xj − ¯x(i) + ¯x(i) − ¯x)0 ,
  • 319. 10.10. LECTURAS RECOMENDADAS 319 que resulta en T = nX j=1 (xj − ¯x(i))(xj − ¯x(i))0 + n(¯x(i) − ¯x)(¯x(i) − ¯x)0 + F + F0 donde F = Pn j=1(xj − ¯x(i))(¯x(i) − ¯x)0 . El primer término puede escribirse nX j=1 (xj − ¯x(i))(xj − ¯x(i))0 = W(i) + (xi − ¯x(i))(xi − ¯x(i))0 y utilizando que ¯x(i) − ¯x = ¯x(i) − (n − 1)¯x(i) + xi n = 1 n (¯x(i) − xi) y reemplazando en todos los términos (¯x(i) − ¯x) por (¯x(i) − xi)/n se obtiene Þnalmente que T = W(i) + n − 1 n (xi − ¯x(i))(xi − ¯x(i))0 y, por tanto, |T| = ¯ ¯W(i) ¯ ¯ ¯ ¯ ¯ ¯1 + n − 1 n W−1 (i) (xi − ¯x(i))(xi − ¯x(i))0 ¯ ¯ ¯ ¯ y aplicando el lema del apéndice 10.2 |T| |W(i)| = 1 + 1 n (xi − ¯x(i))0 S−1 (i) (xi − ¯x(i)) donde S−1 (i) = (n − 1)W−1 (i) . Finalmente DS = n log(1 + 1 n (xi − ¯x(i))0 S−1 (i) (xi − ¯x(i))) y para n grande como log(1 + x/n) ' x/n , tenemos que la distancia de Mahalanobis D2 (xi, ¯x(i)) = (xi − ¯x(i))0 S−1 (i) (xi − ¯x(i)) ∼ χ2 p.
  • 320. 320 CAPÍTULO 10. INFERENCIA CON DATOS MULTIVARIANTES
  • 321. Capítulo 11 METODOS DE INFERENCIA AVANZADA MULTIVARIANTE 11.1 INTRODUCCIÓN En este capítulo vamos a presentar métodos más avanzados de inferencia para datos multi- variantes. En primer lugar presentamos un algoritmo para estimar por máxima verosimilitud muestras con datos incompletos. Este algoritmo, el EM, es muy útil para estimar distribu- ciones mezcladas, que utilizaremos en el capítulo 14 en problemas de clasiÞcación y también es útil en la estimación del modelo factorial que se presenta en el capítulo 11. Además este algoritmo tiene un interés general por sí mismo para resolver la estimación de valores ausentes en cualquier problema multivariante. A continuación se presentan los métodos ro- bustos clásicos de estimación, que pueden también considerarse como métodos de estimación de mezclas en un caso especial: hay una distribución central, que genera la mayoría de las observaciones, y una distribución contaminante de forma desconocida que introduce una pequeña proporción de atípicos en la muestra. Se presentan brevemente los métodos clásicos y se introduce un método reciente basado en proyecciones que es fácil de implementar y que puede evitar el efecto perturbador de los datos atípicos en la estimación de los parámetros. Se presenta también una breve introducción a la inferencia bayesiana. Además de su atractivo metodológico, la inferencia bayesiana permite incorporar información a priori, que puede ser importante en problemas de clasiÞcación (capítulo 12, análisis discriminante) y construcción de conglomerados (capítulo 14, clasiÞcación mediante mezclas). Los métodos bayesianos son también útiles en análisis factorial (capítulo 11). Finalmente, los métodos bayesianos de estimación por Montecarlo son muy eÞcaces para la estimación de mezclas, como veremos en el capítulo 14. En este capítulo se revisa brevemente el enfoque Bayesiano para la estimación y el contraste de hipótesis y se deduce un criterio de comparación de modelos a partir de este enfoque. Finalmente se presentan algunos métodos clasicos y bayesianos para selección de modelos. Este capítulo es más avanzado que los anteriores y puede saltarse en una primera lectura sin pérdida de continuidad, ya que la comprensión básica de los métodos que se presentan en los capítulos siguientes no requiere el material de este capítulo. Sin embargo este capítulo será necesario para el lector interesado en los detalles de aplicación de los métodos, y en 321
  • 322. 322 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE la comprensión de los algoritmos de estimación actuales para el análisis multivariante y los métodos de data mining, que están adquiriendo una popularidad creciente. 11.2 ESTIMACIÓN MV CON DATOS FALTANTES La estimación máximo verosímil con datos faltantes es importante por dos razones princi- pales. En primer lugar, es posible que la muestra tenga observaciones faltantes en algunas variables. Por ejemplo, si tomamos una muestra de personas desempleadas y queremos rela- cionar sus características físicas con la duración de desempleo, es posible que para algunas personas no se consiga este dato. (En otros casos podemos tener información parcial, por ejemplo un valor superior o inferior de la duración, y en estos casos decimos que el dato está censurado o truncado, no consideraremos estos casos en este libro). Como segundo ejemplo, si hacemos una encuesta de opinión, y representamos por x el vector de respuestas de un individuo, es posible que determinadas preguntas del cuestionario no sean respondidas por algunos individuos, dando lugar a un problema de datos faltantes. Si los datos faltantes ocurren en unos pocos elementos de la muestra, podemos eliminar las observaciones incom- pletas, pero si ocurren en una proporción importante de observaciones, podemos mejorar la precisión de las estimaciones utilizando todos los datos, con el coste de un mayor esfuerzo computacional. En segundo lugar, la estimación MV de muchos modelos de análisis multivariante puede realizarse más facilmente con este algoritmo. Por ejemplo, en el modelo factorial, que estu- diaremos en el capítulo 12, o en la estimación de distribuciones mezcladas para clasiÞcación, que estudiaremos en el capítulo 15. En el primer caso, podemos suponer que los factores son variables ausentes y en el segundo, que faltan los valores de las variables de clasiÞcación que nos indican de que población proviene cada elemento. Intuitivamente, el procedimiento para estimar los parámetros de un modelo con una muestra que contiene datos faltantes podría ser: (1) estimar los parámetros del modelo con los datos que están completos, maximizando la verosimilitud de la forma habitual; (2) Utilizar los parámetros estimados en (1) para predecir los valores ausentes; (3) Sustituir los datos ausentes por sus predicciones y obtener nuevos valores de los parámetros maximizando la verosimilitud de la muestra completada. Adicionalmente podríamos iterar entre (2) y (3) hasta que se obtenga convergencia, es decir hasta que el valor de los parámetros no cambie de una iteración a la siguiente. Veremos en la sección siguiente que este procedimiento intuitivo es óptimo en muchos casos, pero no siempre. La razón es que no tiene en cuenta cómo se utilizan los datos ausentes para estimar los parámetros a partir de la verosimilitud. Por ejemplo, supongamos el caso más simple de una variable escalar, x, y un único parámetro a estimar, θ. Supongamos que la función soporte para θ es de la forma: θ2 − 2θ P x2 i . Entonces, el estimador MV de θ es, derivando respecto a θ e igualando a cero, bθMV = P x2 i . Supongamos ahora que la observación x1 falta. Para obtener entonces el estimador bθMV tendriamos que estimar el valor esperado de x2 1 a la vista de la información disponible y utilizarlo en bθMV = P x2 i . Si en lugar del valor esperado de x2 1 calculamos el valor esperado de x1 y lo sustituimos en esta ecuación
  • 323. 11.2. ESTIMACIÓN MV CON DATOS FALTANTES 323 elevado al cuadrado, como en general E(x2 1) 6= [E(x1)]2 , este segundo procedimiento no es necesariamente óptimo. Por ejemplo, si la variable x1 tiene media cero dada la información disponible lo que necesitamos es calcular su varianza, E(x2 1), y sustituirlo en la ecuación del parámetro. Esto no es lo mismo que calcular E(x1), que es cero, y sustituirlo como x1, con lo que x2 1 será cero. Un procedimiento eÞciente y general para maximizar la verosimilitud cuando tenemos datos faltantes es el algoritmo EM (Dempster, Laird y Rubin, 1977), que extiende el procedimiento intuitivo anterior, como describimos a continuación 11.2.1 Estimación MV con el algoritmo EM Supongamos que tenemos una muestra de tamaño n de una variable vectorial, x, pero en algunos de los n elementos observados faltan los valores de algunas variables. Por ejemplo, observamos el peso y la altura de personas y en algunos casos tenemos sólo el dato de la estatura o sólo el dato del peso. Vamos a suponer que estos datos ausentes aparecen al azar, es decir, que en el ejemplo anterior la falta del dato del peso no aparece con más frecuencia en individuos de peso alto o bajo o con estatura más alta o más baja, sino que falta ese dato por razones no relacionadas con los valores de las variables. Para cada elemento no hay una relación entre los valores observados y la aparición o no de un dato ausente. Un ejemplo donde no se cumple esta condición es una encuesta de opinión donde las personas que maniÞestan desacuerdo en un punto, por ejemplo con la pregunta diez, dejan de responder al cuestionario a continuación. En este caso, los valores ausentes en la pregunta once no aparecen al azar, sino que son consecuencia del desacuerdo con la pregunta diez. Los dos casos más importantes de aparición de valores ausentes son: (1) Algunos elementos tienen datos faltantes: los elementos de la muestra x1, ..., xn1 , están completos, pero los restantes, xn1+1, ..., xn, carecen de los valores de algunas variables, o de todas ellas; (2) Algunas variables tienen datos faltantes: si dividimos el vector de variables en dos grupos y escribimos x = (y0 , z0 )0 , las variables y están completas pero las z tienen datos ausentes. Para plantear el problema de manera que englobe estos dos casos, supondremos que tenemos una muestra con una matriz de datos observados Y = (y1, ..., yn), donde yi es un vector p1 × 1, y un conjunto de datos ausentes Z = (z1, ..., zm), donde zi es un vector p2 × 1. Esta formulación cubre los dos casos anteriores, ya que en el primero tomamos z1 = xn1+1, ..., zm = xn y m = n − n1 + 1. En el segundo m = n. Este conjunto de variables proviene de un modelo con parámetros θ, y se desea estimar el vector de parámetros con la información disponible.La función de densidad conjunta de todas las variables (Y, Z) puede escribirse f(Y, Z|θ) =f(Z|Y, θ)f(Y|θ) que implica log f(Y|θ) = log f(Y, Z|θ)− log f(Z|Y, θ). En la estimación MV el primer miembro de esta expresión, log f(Y|θ), es la función soporte de los datos observados, cuya maximización sobre θ nos proporcionará el estimador
  • 324. 324 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE MV de los parámetros. El término log f(Y, Z|θ) es la función soporte si hubiésemos obser- vado la muestra completa, y el término log f(Z|Y, θ) proporciona la densidad de los datos ausentes conocida la muestra y los parámetros. Podemos escribir L(θ|Y) =LC(θ|Y, Z)− log f(Z|Y, θ). (11.1) Es frecuente que la maximización del soporte supuesta la muestra completa, LC(θ|Y, Z), sea fácil, mientras que la maximización del soporte con los datos observados, L(θ|Y), sea complicada. El algoritmo EM es un procedimiento iterativo para encontrar el estimador MV de θ trabajando siempre con la función más simple, LC(θ|Y, Z), en lugar de la compleja, L(θ|Y). La estimación se obtiene iterando en los dos pasos siguientes: 1. Partiendo de un estimador inicial, bθ (i) , (en la primera iteración i = 1) se calcula la esperanza de las funciones de los valores ausentes que aparecen en la función de verosimilitud completa, LC(θ|Y, Z), con respecto a la distribución de Z dados el valor bθ (i) y los datos observados Y. Sea: L∗ C(θ|Y) = EZ/bθ (i) [LC(θ|Y, Z)] el resultado de esta operación que se denomina el paso E (de tomar valores esperados) del algoritmo. Observemos que cuando LC(θ|Y, Z) sea una función lineal de Z, este paso llevará a sustituir en esta función los valores ausentes por sus esperanzas dados los parámetros. Sin embargo, cuando en la verosimilitud aparezcan funciones g(Z ) calcularemos la esperanza de estas funciones dados el resto de los datos y la estimación disponible de los parámetros. 2. A continuación se maximiza la función L∗ C(θ|Y) con respecto a θ. Este es el paso M (maximización) del algoritmo. Este paso M equivale a maximizar la verosimilitud completa donde se han sustituido las observaciones faltantes por ciertas estimaciones de sus valores. 3. Sea bθ (i+1) el estimador obtenido en el paso M. Con este valor volvemos al paso E. Se it- era entre ellos hasta obtener convergencia, es decir hasta que la diferencia ° ° °bθ (i+1) − bθ (i) ° ° ° sea suÞcientemente pequeña. Puede demostrarse (Dempster, Laird y Rubin, 1977), véase el apéndice 11.1, que este algoritmo maximiza L(θ|Y). Además, la verosimilitud aumenta en cada iteración, aunque la convergencia puede ser muy lenta. A continuación presentamos dos ejemplos de utilización del algoritmo. En el primero, la función de verosimilitud completa es lineal en los datos ausentes, con lo que les sustituimos por sus estimaciones. En el segundo, los valores ausentes aparecen de forma no lineal en la verosimilitud, y sustituiremos estas funciones por sus estimaciones.
  • 325. 11.2. ESTIMACIÓN MV CON DATOS FALTANTES 325 11.2.2 Estimación MV de mezclas Para ilustrar el comportamiento del algoritmo EM vamos a considerar un problema simple de estimación de mezclas que abordaremos con más generalidad en el capítulo 14. Supondremos que los datos de una muestra, x1, ..., xn se generan mediante la distribución π1f1(x) + (1−π1)f2(x) donde fi(x) es Np(µi, Vi), i = 1, 2. La función soporte para la muestra es L(θ|X) = nX i=1 log(π1f1(xi) + (1−π1)f2(xi)) donde θ = (µ1, µ2, V1, V2, π1) es el vector de parámetros. La estimación MV de los parámet- ros es complicada, porque tenemos que resolver las ecuaciones: ∂L(θ|X) ∂π1 = nX i=1 f1(xi) − f2(xi) π1f1(xi) + (1−π1)f2(xi) = 0 (11.2) Para interpretar esta ecuación llamemos π1i = π1f1(xi) π1f1(xi) + (1−π1)f2(xi) a la probabilidad a posteriori de que la observación i sea generada por la primera población. Entonces 1 − π1i = (1−π1)f2(xi) π1f1(xi) + (1−π1)f2(xi) y la ecuación (11.2) puede escribirse: nX i=1 ( π1i π1 − 1 − π1i (1−π1) ) = 0 que equivale a nX i=1 (π1i − π1) = 0 Es decir bπ1 = Pn i=1 bπ1i n Esta ecuación indica que la probabilidad estimada de pertenencia a la primera población debe ser igual al promedio de las probabilidades estimadas de que cada observación pertenezca a esa población. Desgraciadamente no puede aplicarse directamente porque para calcular las
  • 326. 326 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE bπ1i necesitamos todos los parámetros del modelo. Derivando la función soporte respecto a µ1 : ∂L(θ|X) ∂µ1 = nX i=1 π1f1(xi)V−1 1 (xi − µ1) π1f1(xi) + (1−π1)f2(xi) = 0 que puede escribirse como nX i=1 bπ1i(xi − µ1) = 0 de donde obtenemos: bµ1 = Pn i=1 bπ1gPn i=1 bπ1i xi. (11.3) que indica que la media de la primera población se estima dando un peso a cada observación proporcional a la probabilidad relativa de pertenecer a esta población. El mismo resultado se obtiene por simetría para cµ2 intercambiando bπ1g por bπ2g = 1−bπ1g. Análogamente, derivando respecto a V1 puede demostrarse que el estimador es: bV1 = Pn i=1 bπ1gPn i=1 bπ1g (xi − bµ1)(xi − bµ1)0 (11.4) que tiene un interpretación similar, como promedio de desviaciones de los datos respecto a sus medias, con pesos proporcionales a las probabilidades a posteriori. Para resolver estas ecuaciones y obtener los estimadores necesitamos las probabilidades bπ1i, y para calcular estas probabilidades con (15.10) necesitamos los parámetros del modelo. Por otro lado vemos que si las observaciones estuviesen clasiÞcadas como viniendo de una u otra población el problema es muy simple, porque entonces bπ1i es uno, si la i proviene de la primera población o cero, si viene de la segunda, y las fórmulas (11.3) y (11.4) se reducen a aplicar las fórmulas de estimación habituales a las observaciones de cada grupo. Intuitivamente, podríamos partir de una asignación, estimar los parámetros y calcular las probabilidades bπ1i e iterar entre ambas etapas y esta es la solución que se obtiene con el algoritmo EM. Como la estimación es muy simple si tenemos bien clasiÞcadas las observaciones vamos a aplicar el algoritmo EM introduciendo 2n variables de clasiÞcación que van a indicar de que población proviene cada dato muestral y que consideraremos como datos ausentes. Las primeras n variables z1i, i = 1, ..., n se deÞnen mediante : z1i = 1, si xi proviene de f1 = 0, si xi proviene de f2 y analogamente z2i se deÞne para que tome el valor uno si xi proviene de f2, de manera que z1i + z2i = 1. Para escribir la verosimilitud completa de las variables x y de las z tenemos en cuenta que, llamando θ al vector de parámetros, para una observación cualquiera: f(x1, z11, z21|θ) =f(x1/z11, z21θ)p(z11, z21|θ)
  • 327. 11.2. ESTIMACIÓN MV CON DATOS FALTANTES 327 donde f(x1|z11, z21θ) =f1(x1)z11 f2(x1)z21 ya que si z11 = 1 la dato x1 proviene de f1 y entonces forzosamente z21 = 0 y viceversa. La probabilidad de los valores z es: p(z11, z21|θ) =πz11 1 (1−π1)z21 ya que la probabilidad de z11 = 1 (en cuyo caso z21 = 0 ) es π1. Uniendo ambas ecuaciones podemos escribir log f(x1, z11, z21|θ) =z11 log π1 + z11 log f1(x1)+z21 log (1−π1) + z21 log f2(x1) y, para toda la muestra, llamando X = (x1, ..., xn) e incluyendo las variables de clasiÞcación Z = (z11, ..., z1n, z21, ..., z2n) es L(X, Z|θ) = X z1i log π1 + X z1i log f1(xi)+ X z2i log (1−π1) + X z2i log f2(xi) (11.5) Para aplicar el algoritmo EM primero necesitamos una estimación inicial de los parámet- ros. Esto puede hacerse representando gráÞcamente los datos en un diagrama de dispersión bivariante y diviendo en función de ese gráÞco los datos en dos grupos. Supongamos que tomamos como grupo 1 el de menor dispersión aparente. Entonces deÞnimos unos valores iniciales para las variables z, que llamaremos z(1) de manera que z (1) 1i = 1 si la observación xi se clasiÞca en la primera problación (entonces z (1) 2i = 0) y cero si se clasiÞca en la segunda (entonces z (1) 2i = 1). Una vez deÞnidas estas variables de clasiÞcación estimaremos las medias mediante bµ (1) 1 = P z (1) 1i xi P z (1) 1i (11.6) y lo mismo para bµ (1) 2 . Analogamente, estimaremos la matriz de varianzas y covarianzas mediante bV (1) 1 = 1 P z (1) 1i nX i=1 z (1) 1i (xi − bµ (1) 1 )(xi − bµ (1) 1 )0 , (11.7) que es simplemente la matriz de covarianzas muestrales de las observaciones de ese grupo. Finalmente, estimaremos la probabilidad de que un dato pertenezca al grupo uno por la proporción de datos en ese grupo: bπ(1) 1 = P z (1) 1i n (11.8) A continuación tomamos esperanzas en la distribución conjunta (11.5) respecto a la distribu- ción de los z supuesto este valor inicial bθ (1) de los parámetros. Como las variables z aparecen linealmente, esto se reduce a calcular sus esperanzas y sustituirlas en la ecuación (11.5). Las
  • 328. 328 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE 1 2 3 4 5 6 7 8 9 10 0.837 -0.722 -0.722 -0.201 -0.021 0.279 2.143 4.382 4.219 0.337 -0.655 -1.081 -0.048 0.379 -0.330 -0.500 3.530 5.355 2.324 1.623 11 12 13 14 15 16 17 18 19 20 2.408 0.595 6.925 3.680 -1.265 -0.538 6.351 5.289 4.868 -2.191 2.992 1.310 4.634 3.565 0.264 1.052 3.896 2.549 2.556 -0.414 Tabla 11.1: Datos simulados, los 6 primeros de una distribución y los 14 siguientes de otra variables z son binomiales puntuales, y su esperanza coincide con la probabilidad de que tomen el valor uno. Por tanto: cz1i = E(z1i|bθ (1) , xi) = P(z1i = 1|bθ (1) , xi) y esta probabilidad se calcula mediante el teorema de Bayes P(z1i = |1bθ (1) , xi) = bπ (1) 1 f1(x1|bθ (1) ) bπ (1) 1 f1(x1|bθ (1) ) + (1−bπ (1) 1 )f2(x1|bθ (1) ) (11.9) Una vez obtenidos los valores czji los sustituiremos en la función de verosimilitud (11.5) y la maximizaremos respecto a los parámetros. Esto conduce a resolver las ecuaciones (11.6), (11.7) y (11.8) pero sustituyendo ahora las z(1) ij por las estimaciones czji . Observemos que ahora las czji ya no serán valores cero o uno, y la fórmula (11.6) ya no calcula la media de las observaciones de un grupo sino que hace una media ponderada de todas las observaciones con peso proporcional a la probabilidad de pertenecer al grupo. Esto propocionará otro nuevo estimador bθ (2) que, mediante (11.9) conducirá a nuevos valores de las czji, y el proceso se itera hasta la convergencia. Ejemplo 11.1 Vamos a ilustrar el funcionamiento del algoritmo EM para estimar distribu- ciones normales con datos simulados. Hemos generado 20 observaciones de una variable bidi- mensional de acuerdo con el modelo .3N(0, I)+.7N(µ, V ) donde µ = (2, 2)0 y V = · 2 2 2 4 ¸ . Los datos generados, donde los seis primeros provienen de la primera mezcla y los 14 sigu- iente de la segunda se presentan en la tabla 11.1 Para obtener una estimación inicial de los parámetros, consideramos el histograma de cada variable.
  • 329. 11.2. ESTIMACIÓN MV CON DATOS FALTANTES 329 Figura 11.1: Histograma de la primera variable de la mezcla de normales El histograma de la primera variable representado en la Þgura (11.1) indica que los datos parecen ser mezcla de dos poblaciones con medias (0, 4) y similar variabilidad. Las desviaciones típicas de las poblaciones sobre esta variable son del orden de uno. El histograma de la segunda, Þgura (11.2), parece de nuevo también una mezcla, aunque dadas las pocas observaciones no es muy claro. Las medias parecen ser (0,3) pero ahora parece haber mas variabilidad en la segunda variables que en la primera. El diagrama de dispersión de las variables de la Þgura (??) indica dos grupos y correlación entre las variables. A primera vista este gráÞco de dispersión sugiere dos poblaciones, la primera con 11 elementos y media próxima al punto (0,0) y la segunda con nueve elementos y media alrededor del punto (4,3). Uniendo la información univariante y bivariante vamos a tomar como estimación inicial bµ (1) 1 = (0, 0)0 , bµ (1) 2 = (4, 3)0 y matrices de covarianzas bV (1) 1 = · 1 .5 .5 1 ¸ y bV (1) 2 = · 1 1 1 4 ¸ . Para las proporciones tomaremos la estimación inicial más simple π1 = π2 = .5. Una asignación mejor sería clasiÞcar las varaibles en los grupos y estimar a partir de esa clasiÞcación los parámetros pero vamos a tomar una estimación inicial rápida para ilustrar como funciona el algoritmo con estimaciones iniciales no muy precisas.
  • 330. 330 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE Figura 11.2: Histograma de la segunda variable en la mezcla de normales Diagrama de dispersión de las dos variables. La aplicación del algoritmo EM se resume en la tabla siguiente. Se indican las iteraciones, el valor de π1, y las medias estimadas de cada variable en cada iteración. iter bπ1 bµ11 bµ12 bµ21 bµ22 1 0.5551 −0.3021 0.1780 4.4961 3.4869 2 0.5488 −0.3289 0.1435 4.4614 3.4826 3 0.5479 −0.3308 0.1408 4.4551 3.4798 4 0.5478 −0.3311 0.1404 4.4536 3.4791 5 0.5477 −0.3311 0.1403 4.4533 3.4790 6 0.5477 −0.3311 0.1403 4.4532 3.4789 Se observa que la convergencia se alcanza bastante rápido, y que los resultados obtenidos son consistentes con los datos del gráÞco de dispersión de las variables. En efecto, once
  • 331. 11.2. ESTIMACIÓN MV CON DATOS FALTANTES 331 observaciones son clasiÞcadas en el primer grupo y nueve en el segundo. Las probabilidades a posterior de cada observación de pertenecer al grupo 1 son ( 0.9999 1.0000 1.0000 0.9998 1.0000 1.0000 0.0003 0.0000 0.0000 0.9725 0.0008 0.9828 0.0000 0.0000 1.0000 0.9989 0.0000 0.0000 0.0000 1.0000). Esto es consecuencia de que algunas observaciones generadas por el grupo 2 han aparecido muy próximas a las del grupo uno y, en consecuencia, se han marcado como provenientes del grupo 1. La estimación Þnal de las matrices de covarianzas es V1 = · 0.7131 0.1717 0.1717 0.6841 ¸ y V2 = · 2.3784 0.4209 0.4209 0.9414 ¸ . Se ha comprobado que esta solución no parece depender de los valores iniciales. Comen- zando con V1 = V2 = I se obtiene la misma solución y si tomamos como valores iniciales los exactos utilizados para generar los datos se obtiene de nuevo este resultado. El problema es que esta estimación es consistente con los datos, y dado el pequeño tamaño muestral la precisión de los estimadores es baja. Si repetimos el problema con n = 100 los parámetros obtenidos se aproximan mucho más a los verdaderos, pero la convergencia es muy lenta y hacen falta más de 50 iteraciones para alcanzarla. 11.2.3 Estimación de poblaciones normales con datos ausentes Vamos a aplicar el algoritmo EM para estimar los parámetros de una distribución normal multivariante cuando disponemos de observaciones ausentes. La función de verosimilitud para una muestra sin valores ausentes puede escribirse, según (10.4), en función de las ob- servaciones L(µ, V|X) = − n 2 log |V| − 1 2 tr(V−1 nX i=1 xix0 i) − n 2 µ0 V−1 µ + µ 0 V−1 nX i=1 xi (11.10) y sabemos que la estimación MV cuando tenemos toda la muestra es bµ = Pn i=1 xi/n y bV = S = Pn i=1 xix0 i/n − bµbµ 0 . Supongamos ahora que los vectores de observaciones x1, ..., xm (m < n) están completos, pero que los vectores xm+1 = z1, ..., xn = zn−m carecen de los valores de algunas variables (o de todas ellas). Con la notación de la sección anterior, sea Y el conjunto de datos disponibles y Z las variables ausentes. La función de verosimilitud completa viene dada por (11.10). Para aplicar el algoritmo EM, comenzaremos calculando un estimador inicial con los datos disponibles, y sean bµ(0) y bV(0) estos estimadores iniciales. Tomamos bµ(i) = bµ(0) y bV(i) = bV(0) y iteraremos entre los dos pasos siguientes: 1. Paso E. Hay que calcular la esperanza de la función de verosimilitud completa (11.10) respecto a la distribución de los datos faltantes Z, dados los parámetros bθ (i) =(bµ(i) , bV(i) ) y los datos observados Y . En esta función los datos faltantes aparecen en dos términos. El primero es µ 0 V−1 Pn i=1 xi , y allí aparecen de forma lineal, por lo que tendremos simplemente que sustituir los datos ausentes por sus estimaciones. El segundo es tr(V−1 Pn i=1 xix0 i), y aquí tendremos que sustituir las expresiones xix0 i por sus estimaciones. Comencemos con el primer término, tomar esperanzas de dados los parámetros y los datos conocidos implica sustituir xi para i > m por E(xi/Y, bθ (i) ). El calculo de esta esperanza se realiza como sigue:
  • 332. 332 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE (a) Si el vector xi es completamente inobservado, es decir, no se ha observado ninguna variable para ese elemento, entonces E(xi/Y, bθ (i) ) = bµ(i) , no depende de los datos ob- servados. Puede comprobarse que, Þnalmente, esta sustitución es equivalente a desechar completamente esta observación, lo que resulta intuitivo. Si no observamos en un elemento ninguna variable es equivalente a no tomarlo en la muestra. (b) Si el vector xi = [x0 1i x0 2i]0 se observa parcialmente, de manera que no conocemos los valores de ciertas variables x1i, pero si hemos observado los valores de otras x2i,entonces E(xi/Y, bθ (i) ) depende de los valores observados de x2i y será igual a la esperanza condiciona- da E(x1i/x2i,bθ (i) ). Esta esperanza se calcula, según la sección 8.5.1, por regresión mediante : E(x1i/Y, bθ (i) ) = E(x1i/x2i,bθ (i) ) = bx (i) 1i.2 = cµ1 (i) + bV (i) 12 bV (i) 22 (x2i − cµ2 (i) ) (11.11) donde hemos particionado el vector de medias y la matriz de covarianzas con relación a los dos bloques de variables. Para calcular la esperanza del segundo termino, observemos primero que E [tr(V−1 Pn i=1 xix0 i)] = tr [E(V−1 Pn i=1 xix0 i)] = tr [V−1 Pn i=1 E(xix0 i)] . Por tanto tenemos que obtener las esperan- zas E(xix0 i/Y, bθ (i) ) para i > m. Consideremos, como antes, los dos casos siguientes: (a) Si el vector es completamente inobservado, E(xix0 i/Y, bθ (i) ) = bV(i) − bµ(i) bµ(i)0 , y, de nuevo, puede comprobarse que esto va a ser equivalente a desechar completamente esta observación. (b) Si el vector xi se observa parcialmente y no conocemos los valores de x1i pero si los de x2i, utilizaremos la relación E(x1ix0 1i/Y, bθ (i) ) = E(x1ix0 1i/x2i,bθ (i) ) = bV (i) 11.2 + bx (i) 1i.2bx (i)0 1i.2 (11.12) donde bV (i) 11.2 es la matriz de varianzas de la variable x1i dado x2i. Según la sección 8.5.1 esta varianza condicionada viene dada por bV (i) 11.2 = bV (i) 11 − bV (i) 12 bV (i)−1 22 bV (i) 21 . (11.13) que podemos calcular a partir de bV(i) y sustituir en (11.12). 2. Paso M. En la función de verosimilitud completa (11.10) reemplazamos las fun- ciones de los valores ausentes por sus estimaciones (11.11) y (11.12) y calculamos los nuevos estimadores de máxima verosimilitud, que vendrán dados por bµ(i+1) = Pn i=1 bx (i) i n donde en bx (i) i los valores observados no se modiÞcan y los no observados se han sustituido por sus esperanzas condicionales (11.11). La estimación de bV(i+1) será bV(i+1) = nX i=1 E(xix0 i/Y,bθ (i) )/n − bµ (i+1) bµ (i+1)0
  • 333. 11.2. ESTIMACIÓN MV CON DATOS FALTANTES 333 donde las esperanzas de los valores observados son ellos mismos y las de los faltantes vienen dadas por (11.12) y (11.13). Con los valores estimados en el paso M volvemos al E, haciendo bµ(i) = bµ(i+1) y bV(i) = bV(i+1) . El algoritmo Þnaliza cuando el cambio en los parámetros de una iteración a la siguiente es menor que un valor pequeño, como .001. A continuación, presentamos un ejemplo de su funcionamiento. Ejemplo 11.2 Vamos a ilustrar el funcionamiento del algoritmo EM con los diez primeros datos de las variables estatura y peso de la base de datos MEDIFIS. Supondremos que en las tres primeras personas en la muestra no se ha observado la variable peso. Llamando x1 a esta variable, la muestra es: x1 = (∗, ∗, ∗, 52, 51, 67, 48, 74, 74, 50), donde el signo * indica que el valor está ausente. Sin embargo, suponemos que se han observado los diez valores de la variable estatura: x2 = (159, 164, 172, 167, 164, 161, 168, 181, 183, 158) Ejercicio 11.1 Para comenzar el algoritmo obtenemos una estimación inicial del vector de medias con los diez datos de x2 y los siete de x1. Este vector es bµ(0) = (59.43, 167.7). Con las siete parejas de datos completos calculamos la matriz de covarianzas bV(0) = · 118.24 70.06 70.06 79.26 ¸ . Con estos parámetros iniciamos el paso E, calculo de las esperanzas condicionadas. La es- peranza condicionada (regresión) de la primera variable en la segunda es E(x1/x2) = 59.43 + 70.06/79.26(x2 − 167.7) es decir, el peso se prevé con la recta de regresión entre peso y estatura cuyo coeÞciente de regresión es 70.06/79.26 = .8839. Aplicándolo a los valores faltantes E   x11 x12 x13   = 59.43 + 70.06/79.26   159 − 167.7 164 − 167.7 172 − 167.7   =   51.738 56.158 63.229   Después de esta primera estimación de los valores ausentes, estimaremos los productos cruzados. Los productos de la primera variable por la segunda son : E(x1ix2i/Y, bθ (i) ) = x2iE(x1i/x2i,bθ (i) ) que serán 159 × 51.738, para i=1, 164 × 56.158, para i=2, y 172 × 63.229, para i=3. Los cuadrados de la variable ausente se estima por E(x2 1i/Y, bθ (i) ) = bV (i) 11.2 + bx (i)2 1i.2 donde bV (i) 11.2 es la varianza residual de la regresión entre el peso y la estatura dada por 118.24 − 70.062 /79.26 = 56.31. Por tanto para i = 1, 2, 3 los valores serán 56.31 + 51.7382 = 2733.13, 56.31 + 56.1582 = 3210.03, 56.31 + 63.229 = 4.0542. Con estas estimaciones pasamos al paso M. En el calculo de la media, la nueva estimación será bµ(i) = (58.71, 167.7) donde ahora la primera componente se calcula con diez datos,
  • 334. 334 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE Na bx11 bx12 bx13 bµ1 s12 s2 1 ss2 1 1 51.739 56.159 63.229 58.713 58.577 107.582 90.686 2 52.283 55.978 61.890 58.615 57.594 108.300 89.012 3 52.294 55.927 61.740 58.596 57.540 108.865 88.929 4 52.281 55.910 61.717 58.591 57.547 109.070 88.941 5 52.275 55.905 61.713 58.589 57.553 109.135 88.948 6 52.272 55.903 61.711 58.589 57.555 109.156 88.9515 7 52.272 55.902 61.711 58.588 57.556 109.162 88.9525 8 52.271 55.902 61.711 58.588 57.556 109.164 88.953 9 52.271 55.902 61.711 58.588 57.556 109.164 88.953 Tabla 11.2: Estimaciones del algoritmo EM en las distintas iteraciones sustituyendo los ausentes por sus estimaciones. Para calcular la matriz de covarianzas se utiliza la expresión bV(i) = 1 10 · P bx2 1i P bx1ix2iP bx1ix2i P x2 2i ¸ − · 58.712 58.71 × 167.7 58.71 × 167.7 167.72 ¸ donde los valores bx1i son los observados (para i=4,...,10) o las estimaciones de los ausentes (para i=1,2,3) y análogamente para bx2 1i. Observemos que la estimación de bx2 1i NO es la estimación de bx1i elevada al cuadrado sino que además se le añade el valor de la varianza residual como hemos visto. La tabla 11.2siguiente indica la evolución de las estimaciones proporcionadas por el al- goritmo hasta la convergencia para los valores ausentes, la media de la primera variable, la covarianza y la varianza de la primera variable. El algoritmo converge en nueve iteraciones. Se ha añadido una columna adicional , ss2 1,varianza de la primera variable, para ilustrar las estimaciones que se obtendrían si en lugar de utilizar el algoritmo EM utlizamos el méto- do más simple de modiÞcar el paso E sustituyendo cada observación faltante por su media condicionada e iterando después. Se observa que este segundo procedimiento al no tener en cuenta toda la incertidumbre subestima las varianzas: la varianza con este método es siempre menor que la estimada por el algoritmo EM. 11.3 ESTIMACIÓN ROBUSTA La estimación MV depende de la hipótesis de normalidad en los datos. Esta es una hipótesis fuerte, y difícil de comprobar con muestras de tamaño mediano. En particular, la estimación MV de los parámetros suponiendo normalidad puede ser muy mala cuando los datos proven- gan de distribuciones con colas pesadas, que pueden generar valores atípicos. Supongamos por ejemplo que los datos provienen de una normal contaminada π1N1(µ, V) + (1−π1)N2(µ,cV) donde la mayoría de los datos, por ejemplo, π1 = .95, se hab generado con la distribución central, N1(µ, V), pero una pequeña proporción (1−π1), por ejemplo el 5%, provienen de la
  • 335. 11.3. ESTIMACIÓN ROBUSTA 335 distribución alternativa, que tiene mayor variabilidad, tanto más cuanto mayor sea c, que es siempre mayor que uno de manera que los elementos generados por ella pueden ser atípicos y estar mucho más alejados del centro que los de la primera. Hemos visto en la sección 11.2 , estimación de mezclas, que los estimadores MV de los parámetros se calculan como: bµ = Pn i=1 bz1ixi Pn i=1 bz1i y bV = 1 P bz1i nX i=1 bz1i(xi − x)(xi − x)0 , donde las variables bz1i son estimaciones de la probabilidad de que la observación provenga de la primera población (el dato no sea atípico). Los métodos robustos parten de estas ecua- ciones pero eligen los pesos bz1i que se aplican a las observaciones de manera que el estimador resultante tenga buenas propiedades de robustez ante un conjunto amplio de distribuciones contaminantes, no necesariamente normales. Maronna (1976) propuso estimar iterativa- mente los parametros de la normal multivariante con estas ecuaciones pero sustituyendo los bz1i por pesos wi(Di) convenientemente elegidos en función de la distancia de Mahalanobis del punto al centro de los datos. Por ejemplo, wi(Di) se toma igual a uno si la distancia es menor que una cierta constante y tiene a cero cuando la distancia crece. El proceso es iterativo y recuerda el algoritmo EM. Se parte de una estimación inicial de los parámetros, con ella se calculan las distancias de Mahalanobis y los pesos wi(Di). Con estas estimaciones se reestiman los parámetros con los nuevos pesos, lo que conducirá a nuevas distancias de Mahalanobis, que determinarán nuevos pesos y así sucesivamente. Este método de modiÞcar las ecuaciones de verosimilitud mediante pesos se conoce como M-estimación. Aunque este procedimiento es atractivo, no funciona bien en dimensiones altas. Puede demostrarse que el punto de ruptura de un M-estimador como el que hemos presentado, que descuenta las observaciones extremas, es, como máximo 1/(p + 1). Esta propiedad implica que en alta dimensión es necesario buscar un enfoque alternativo a los estimadores clásicos robustos. Hay dos enfoques al problema. El primero, buscar un estimador que se base sólo en una fracción de los datos, presumiblemente no contaminados. El segundo es eliminar los atípicos, y construir el estimador a partir de los datos limpios de atípicos. Con el primer enfoque un procedimiento simple es el introducido por Rousseeuw (1985), que propone calcular el elipsoide de mínimo volumen, o de mínimo determinante, que engloba al menos el 50% de los datos. La justiÞcación intuitiva del método es la siguiente. Los datos atípicos estarán en los extremos de la distribución, por lo que podemos buscar una zona de alta concentración de puntos y determinar con ellos el centro de los datos y la matriz de covarianzas, ya que los puntos de esa zona serán presumiblemente puntos buenos. Para encontrar ese núcleo central con alta densidad de datos, exigimos que el ellipsoide que cubre al menos el 50% de los datos tenga volumen mínimo. Esta idea es una generalización de los resultados univariantes, donde se obtienen estimadores muy robustos a partir de la idea de mediana. Por ejemplo, la mediana es una medida de centralización que se ve poco afectada
  • 336. 336 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE por una alta contaminación de los datos. Analogamente, para dispersión podemos utilizar la meda, o mediana de las desviaciones de los datos respcto a la mediana, que tiene también buenas propiedades. Generalizando estas ideas, podemos buscar el centro de la distribución de los datos multivariantes y su variabilidad construyendo el intervalo mínimo alrededor de un punto central que englobe el 50% de los datos. El centro de este intervalo será una estimación de la media y la matriz de covarianzas estimada en este intervalo, convenientemente escalada, estimará la matriz de varianzas de la problación. Para obtener este intervalo, el proceso se implementa como sigue. Tomamos una muestra mínima de tamaño p+1 y calculamos su media, x(1) , y su matriz de covarianzas, bV(1) . A esta muestra se la llama mínima, porque tiene el número exacto de elementos que necesitamos para calcular un valor del vector de medias y de la matriz de covarianzas, donde suponemos que la matriz de covarianzas estimada resulta no singular (en otro caso se tomaría otra muestra mínima). A continuación, calculamos las distancias de Mahalanobis al centro de esta muestra mínima para todos los puntos de la muestra completa de n puntos: Di = (xi − x(1) )0 bV(1)−1 (xi − x(1) ), y tomamos la mediana, m(1) , de estas n distancias. Entonces, por construcción, el elipsoide deÞnido por (x − x(1) )0 bV(1)−1 (x − x(1) ) ≤ m(1) contiene el 50% de los datos, o, lo que es equivalente, el elipsoide deÞnido por (x −x(1) )0 (m(1) bV(1) )−1 (x− x(1) ) ≤ 1 contiene el 50% de los datos. El volumen de un elipsoide de este tipo es proporcional a ¯ ¯ ¯m(1) bV(1) ¯ ¯ ¯ 1/2 = ¯ ¯ ¯bV(1) ¯ ¯ ¯ 1/2 (m(1) )p/2 . (11.14) El procedimiento de calcular el elipsoide de volumen mínimo que engloba el 50% de los datos es tomar N muestras mínimas, obteniendo centros, x(1) , ..., x(N) , matrices de covarianzas, bV(1) , ..., bV(N) , y medianas, m(1) , ..., m(N) , y calcular en cada muestra mínima el volumen (11.14). La muestra mínima que proporcione un menor valor del criterio (11.14) se utiliza para calcular los estimadores robustos como sigue. Supongamos que la muestra de volumen mínimo es la muestra J. Entonces, el estimador robusto de la media de los datos es x(J) , y la estimación de la matriz de covarianzas m(J) bV(J) se expande para que corresponda a una estimación de la matriz en la población. Como la distancia de Mahalanobis con respecto al centro de la problación con la matriz de la población es una χ2 p , tenemos que, para muestras grandes (x−x(J) )0 (m(J) bV(J) )−1 (x−x(J) ) que contiene el 50% de los datos debe ser próximo a la mediana de la χ2 p, que representaremos por χ2 p.50. Una estimación consistente de la matriz de covarianzas para datos normales es bV = (χ2 p.50)−1 m(J) bV(J) . Un procedimiento alternativo, más rápido y eÞciente que el método anterior, ha sido prop- uesto por Peña y Prieto (2001) basado en las ideas de proyecciones expuestas en el capítulo 3. El método consiste en tres etapas. En la primera se identiÞcan los posibles atípicos como datos extremos de las proyecciones de la muestra sobre las direcciones que maximizan o minimizan la kurtosis de los puntos proyectados. En segundo lugar, se eliminan todos los
  • 337. 11.4. ESTIMACIÓN BAYESIANA 337 atípicos potenciales o puntos sospechosos, y llamando U al conjunto de observaciones no sospechosas, la estimación incial robusta de los parámetros se realiza con: ˜m = 1 |U| X i∈U xi, ˜S = 1 |U| − 1 X i∈U (xi − ˜m)(xi− ˜m)0 , En tercer lugar, utilizando estos estimadores robustos se contrastan una por una las obser- vaciones sospechosas para ver si son atípicas. Como vimos en la sección 10.8 el contraste utiliza la distancia de Mahalanobis: vi = (xi− ˜m)T ˜S−1 (xi− ˜m), ∀i 6∈ U. y aquellas observaciones i 6∈ U tales que vi < T2 0.99(p, n−1), donde T2 0.99(p, n−1) es el percentil .99 de la distribución de Hotelling las consideramos como aceptables y las incluimos en U. Cuando una nueva observación se incluye en U los parámetros se recalculan y el proceso se repite hasta que no se encuentran nuevas observaciones. Finalmente, una vez contrastados todos los puntos se estiman los parámetros utilizando los elementos que no se han considerado atípicos, y estos serán los estimadores robustos Þnales. Este método se basa en los resultados de la sección 4.5 donde justiÞcamos que los atípicos aislados van a identiÞcarse buscando la dirección de máxima kurtosis y los grupos numerosos de atípicos van a aparecer en las direcciones de mínima kurtosis asociada a distribuciones bimodales. 11.4 ESTIMACIÓN BAYESIANA 11.4.1 Concepto En el enfoque bayesiano un parámetro es una variable aleatoria y la inferencia respecto a sus posibles valores se obtiene aplicando el cálculo de probabilidades (teorema de Bayes) para obtener la distribución del parámetro condicionada a la información disponible. Si se desea un estimador puntual, se tomará la media o la moda de dicha distribución; si se desea un intervalo de conÞanza, se tomará la zona que encierre una probabilidad Þjada en dicha distribución. En consecuencia, una vez obtenida la distribución de probabilidad del parámetro, los problemas habituales de inferencia quedan resueltos con la distribución a posteriori de manera automática y simple. El enfoque bayesiano tiene dos ventajas principales. La primera es su generalidad y co- herencia: conceptualmente todos los problemas de estimación se resuelven con los principios del cálculo de probabilidades. La segunda es la capacidad de incorporar información a priori con respecto al parámetro adicional a la muestral. Esta fortaleza es, sin embargo, también su debilidad, porque exige siempre representar la información inicial respecto al vector de parámetros mediante una distribución inicial o a priori, p(θ). Este es el aspecto más con- trovertido del método, ya que algunos cientíÞcos rechazan que la información inicial -que
  • 338. 338 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE puede incluir los prejuicios del investigador- se incluya en un proceso de inferencia cientíÞca. En principio esto podría evitarse estableciendo una distribución neutra, de referencia o no informativa para el problema, pero, aunque esto es factible en casos simples, puede ser en si mismo un problema complejo en el caso multivariante, como veremos a continuación. La distribución Þnal o a posteriori se obtiene mediante el teorema de Bayes. Si llamamos X a la matriz de datos, con distribución conjunta f(X|θ), que proporciona las probabilidades de los valores muestrales conocido el vector de parámetros, la distribución a posteriori p(θ|X) será: p(θ|X) = f(X|θ)p(θ) R f(X|θ)p(θ)d(θ) . (11.15) El denominador de esta expresión puede escribirse como m(X) la distribución marginal de los datos. Esta distribución se denomina distribución predictiva y se obtiene ponderando las distribuciones f(X|θ) para cada posible valor del parámetro por las probabilidades que la distribución a priori asigna a estos valores. En la práctica, el cálculo de (11.15) se simpliÞca observando que el denominador no depende de θ, y actúa únicamente como una constante normalizadora para que la integral de p(θ|X) sea la unidad. Por tanto, podemos calcular la distribución posterior escribiendo: p(θ|X) = k`(θ|X)p(θ), (11.16) ya que, dada la muestra, X es constante y al considerar f(X|θ) como función de θ se convierte en la función de verosimilitud `(θ|x). Multiplicando para cada valor de θ las ordenadas de `(θ|X) y p(θ) resulta la distribución posterior. Para la forma de la posterior la constante k es irrelevante, y siempre puede determinarse al Þnal con la condición de que p(θ|X) sea una función de densidad e integre a uno. Esta regla se resume en: Posterior ∝ Prior × Verosimilitud donde ∝ indica proporcional. La distribución a posteriori es un compromiso entre la prior y la verosimilitud. Cuando p(θ) es aproximadamente constante sobre el rango de valores en los que la verosimilitud no es nula, diremos que p(θ) es localmente uniforme o no informativa, y la posterior vendrá determinada por la función de verosimilitud. Una ventaja adicional del enfoque bayesiano es su facilidad para procesar información secuencialmente. Supongamos que después de calcular (11.16) observamos una nueva mues- tra de la misma población Y, independiente de la primera. Entonces, la distribución inicial será ahora p(θ|X) y la distribución Þnal será : p(θ|XY) = k`(θ|Y)p(θ|X). Naturalmente este mismo resultado se obtendría considerando una muestra ampliada (X, Y) y aplicando el teorema de Bayes sobre dicha muestra, ya que por la independencia de X e Y: p(θ|XY) = k`(θ|XY)p(θ) = k`(θ|X)p(θ|Y)p(θ) La estimación bayesiana proporciona estimadores (la media de la distribución a posteriori) que son admisibles con criterios clásicos.
  • 339. 11.4. ESTIMACIÓN BAYESIANA 339 11.4.2 Distribuciones a priori Una manera simple de introducir la información a priori en el análisis es utilizar distribuciones a priori conjugadas, que se combinan con la verosimilitud para producir distribuciones a posteriori simples, como veremos en la sección siguiente. Si no se dispone de información a priori, o se desea que los datos hablen por sí mismos, se debe establecer una distribución a priori no informativa o de referencia. Intuitivamente, una distribución a priori no informativa para un vector de parámetros de localización es aquella que es localmente uniforme sobre la zona relevante del espacio paramétrico, y escribiremos p (θ) = c. Sin embargo, esta elección tiene el problema de que si el vector de parámetros puede tomar cualquier valor real Z ∞ −∞ p(θ)dθ = ∞, y la prior no puede interpretarse como una distribución de probabilidad, sino como una herramienta para calcular la posterior. En efecto, si podemos suponer que a priori un parámetro escalar debe estar en el intervalo (−h, h), donde h puede ser muy grande pero es un valor Þjo, la distribución a priori p(θ) = 1/2h es propia, ya que integra a uno. La distribución p (θ) = c debe pues considerarse como una herramienta simple para obtener la posterior. Estas distribuciones se denominan impropias. En problemas simples trabajar con distribuciones a priori impropias no produce problemas, (aunque puede dar lugar a paradojas, véase por ejemplo Bernardo y Smith, 1994), pero en situaciones un poco más complicadas la distribución a posteriori correspondiente puede no existir. Las distribuciones constantes están sujetas a una diÞcultad conceptual adicional: si suponemos que la distribución a priori para un parámetro escalar θ es del tipo p(θ) = c y hacemos una transformación uno a uno del parámetro ϕ = g(θ), como p(ϕ) = p(θ) ¯ ¯ ¯ ¯ dθ dϕ ¯ ¯ ¯ ¯ si la distribución es constante para el parámetro θ, no puede ser constante para el parámetro ϕ. Por ejemplo, si p(θ) = c, y ϕ = 1/θ, entonces |dθ/dϕ| = ϕ−2 y p(ϕ) = cϕ−2 , que no es uniforme. Nos encontramos con la paradoja de que si no sabemos nada sobre θ y θ > 0, no podemos decir que no sabemos nada (en el sentido de una distribución uniforme) sobre logθ 0 θ2 . Una solución es utilizar las propiedades de invarianza del problema para elegir que transformación del parámetro es razonable suponer con distribución constante, pero aunque esto suele ser claro en casos simples (para las medias y para los logartimos de las varianzas) , no es inmediato cómo hacerlo para parámetros más complejos. Jeffreys (1961), Box y Tiao (1973), Bernardo (1979) y Bernardo y Smith (1994), entre otros, han estudiado el problema de establecer distribuciones de referencia con propiedades razonables. Para distribuciones normales, y para los casos simples considerados en este libro, la distribución de referencia para un vector de parámetros de localización podemos tomarla como localmente uniforme y suponer que en la zona relevante para la inferencia p (θ) = c. Para matrices de covarianza, Jeffreys, por consideraciones de invarianza ante transformaciones, propuso tomar la distribución de referencia proporcional al determinante de la matriz de covarianzas elevado a −(p + 1)/2, donde p es la dimensión de la matriz. Señalaremos por último que el problema de la distribución a priori, aunque de gran importancia conceptual, no es tan crucial en la práctica como puede parecer a primera vista
  • 340. 340 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE ya que : (1) Si tenemos muchos datos, la verosimilitud será muy apuntada, y la posterior ven- drá determinada por la verosimilitud, ya que entonces cualquier priori razonable será casi constante sobre la zona relevante para la inferencia. (2) Si tenemos poca información muestral, cualquier procedimiento estadístico va a ser muy sensible a las hipótesis que hagamos sobre el modelo de distribución de probabilidad, que van a afectar tanto o más que la prior al análisis. Sin embargo, estas hipótesis no podremos comprobarlas con eÞcacia con muestras pequeñas. Conviene en estos casos, sea cual sea la prior elegida, estudiar la sensibilidad de la solución a cambios en el modelo y en la prior. 11.4.3 Cálculo de la Posterior Distribuciones Conjugadas El cálculo de la distribución posterior puede ser complicado y requerir métodos numéricos. El problema se simpliÞca si podemos expresar aproximadamente nuestra información a pri- ori con una distribución que simpliÞque el análisis. Una familia de distribuciones a priori adecuada para este objetivo es aquella con la misma forma que la verosimilitud, de manera que la posterior pueda calcularse fácilmente y pertenezca a la misma familia que la priori. A estas familias se las denomina conjugadas. Una clase C de distribuciones a priori para un parámetro vectorial, θ, es conjugada, si cuando la prior pertenece a esa clase, p(θ) ∈ C entonces la posterior también pertence a la clase, p(θ|X) ∈ C. La distribución conjugada puede elegirse tomando la distribución a priori con la forma de la verosimilitud. Por ejemplo, supongamos que queremos hacer inferencia respecto al parámetro θ en un modelo de la familia exponencial f(X|θ) = g(X)h(θ) exp {t(X)g(θ)} . La verosimilitud de la muestra será l(θ|X) = k × h(θ)n exp n g(θ) X t(X) o y podemos tomar como familia conjugada : p(θ) = k × h(θ)ν exp {g(θ)m} , con lo que se obtiene inmediatamente la posterior: p(θ|X) = k × h(θ)ν+n exp n g(X) h m + X t(X) io . En la sección siguiente veremos ejemplos de su utilización para estimar los parámetros de una normal multivariante.
  • 341. 11.4. ESTIMACIÓN BAYESIANA 341 Métodos de Monte Carlo con Cadenas de Markov (MC2 ) Cuando no sea posible utilizar una distribución a priori conjugada y el cálculo de la posterior sea complejo, podemos utilizar el ordenador para generar muestras de la distribución poste- rior. Existe una variedad de métodos para realizar esta simulación, que se conocen bajo el nombre común de métodos de Monte Carlo con Cadenas de Markov (o métodos MC2 ) y el lector interesado puede acudir a Robert y Casella(1999) , Carlin y Louis (1996) y Gaberman (1997). En este libro sólo presentaremos uno de estos métodos, el muestreo de Gibbs o Gibbs sampling, que es especialmente útil para la estimación de las distribuciones mezcladas consideradas en el capítulo 14. El muestro de Gibbs es apropiado para obtener muestras de una distribución conjunta cuando es fácil muestrear de las distribuciones condicionadas. Supongamos que estamos in- teresados en obtener muestras de la distribución conjunta de dos variables aleatorias, f(x, y), y supongamos que conocemos las distribuciones condicionadas f(x/y), y f(y/x). Este méto- do se implementa como sigue : 1. Fijar un valor arbitrario inicial y(0) y obtener un valor al azar para x de la distribución f(x/y(0) ). Sea x(0) este valor. 2. Obtener un valor al azar para y de la distribución f(y/x(0) ). Sea y(1) este valor. 3. Volver a 1 con y(1) en lugar de y(0) y alternar entre 1 y 2 para obtener parejas de valores (x(i) , y(i) ), para i = 1, ..., N. Se demuestra que, para N suÞcientemente grande, la pareja (x(N) , y(N) ) es un valor al azar de la distribución conjunta f(x, y). Un problema importante es investigar la convergencia de la secuencia. Puede demostrarse que, bajo ciertas condiciones generales, el algoritmo converge, pero la convergencia puede requerir un número enorme de iteraciones en algunos problemas (véase por ejemplo Justel y Peña, 1996). 11.4.4 Estimación Bayesiana de referencia en el modelo normal Supongamos que se desea estimar los parámetros de una normal multivariante sin introducir información a priori. Es más simple tomar como parámetros µ, V−1 , donde V−1 es la matriz de precisión. La estimación de referencia para este problema supone que, a priori, p(µ, V−1 ) = p(µ)p(V−1 ), donde p(µ) es constante en la región donde la verosimilitud es no nula y p(V−1 ) se elige como no informativa en el sentido de Jeffreys. Puede demostrarse que, entonces, una prior conveniente es proporcional a |V−1 |−1/2(p+1) , con lo que la prior resultante es p(µ, V−1 ) ∝ |V|1/2(p+1) . (11.17) La expresión de la verosimilitud es, según lo expuesto en la sección 10.2.2, y expresándola ahora en función de V−1 f(X|µ, V−1 ) = C|V−1 |n/2 exp n − n 2 trV−1 S(µ) o , (11.18)
  • 342. 342 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE y multiplicando estas dos ecuaciones, (11.17) y (11.18), resulta la posterior p(µ, V−1 |X) = C1|V−1 |(n−p−1)/2 exp ½ − 1 2 trV−1 S(µ)n ¾ , (11.19) donde C1 es la constante necesaria para que la densidad integre a uno. Observemos que si el objetivo es obtener la moda de la posterior no necesitamos calcular esta constante. La marginal de µ se obtiene integrando respecto a V. Para ello, observamos que en esta integración la matriz S(µ) es una constante, ya que no depende de V, y la función a integrar es similar a la distribución Wishart, siendo ahora V−1 la variable, en lugar de W, n = m, y S(µ)n igual a la matriz de constantes Σ. El término que falta para tener la distribución completa es |Σ|−m/2 , que equivale a |S(µ)n|n/2 . Introduciendo esta constante, multiplicando y dividiendo para completar la integral y prescindiendo de constantes, obtenemos que la posterior será p(µ|X) ∝ |S(µ)|−n/2 (11.20) y, se demuestra en el Apéndice 11.2, que este determinante puede escribirse como p(µ|X) ∝ |1 + (¯x − µ)0 S−1 (¯x − µ)| −n/2 Esta expresión indica que la densidad marginal del vector de medias es una t multivariante con n−p grados de libertad (véase la sección 9.6.2). La moda de la densidad se alcanza para µ = ¯x, resultado análogo al obtenido por MV. De la forma de la densidad (11.20) concluimos que este valor de µ minimiza el determinante de la matriz de sumas de cuadrados S(µ). Este criterio, minimizar el determinante de las sumas de cuadrados residuales, suele llamarse de mínimos cuadrados multivariante. La posterior de V se obtiene integrando (11.19) con respecto a µ. Se demuestra en el Apéndice 11.2 que la distribución a posteriori para V−1 es una distribución Wishart Wp(n − 1, S−1 /n). Puede comprobarse que la media de la distribución a posteriori de V es nS/(n−p−2), por lo que si tomamos este valor como estimador de V obtendremos un valor distinto que con el método MV. 11.4.5 Estimación con información a priori Supongamos que disponemos de información a priori para estimar los parámetros de una distribución Np(µ, V). La forma de la verosimilitud (11.18) sugiere (véase el apéndice 11.2.) las siguientes distribuciones a priori. Para µ dada V−1 estableceremos que p(µ|V−1 ) ∼ Np(µ0, V|n0), y esta distribución indica que, conocida V, la mejor estimación a priori que podemos dar del valor de µ es µ0, y la incertidumbre que asignamos a esta estimación a priori es V|n0. En principio podríamos reßejar nuestra incertidumbre respecto µ con cualquier matriz de covarianzas, pero el análisis se simpliÞca si suponemos que esta incertidumbre es una fracción de la incertidumbre del muestreo. Observemos que ésta es la distribución a priori para µ
  • 343. 11.4. ESTIMACIÓN BAYESIANA 343 condicionada a V, por lo que tiene sentido expresar la incertidumbre en función de la varianza muestral. Una vez que hayamos visto el papel que juega el parámetro n0 comentaremos cómo Þjarlo. Para la matriz de precisión estableceremos que: p(V−1 ) ∼ Wp(m0, M|m0) que escribimos de esta forma para que los parámetros tengan una interpretación más sencilla. Así, a priori, el valor esperado de la matriz de precisión es M, y, como veremos, el parámetro m0 controla la precisión que queremos dar a esta estimación inicial. Utilizando estas dos distribuciones, la distribución a priori conjunta resultante es p(µ, V−1 ) = p(µ|V−1 )p(V−1 ). El apéndice 11.2. calcula la distribución a posteriori mediante p(µ, V|X) ∝ `(X|µ, V)p(µ, V) y allí se obtiene que, a posteriori, la distribución de la media condicionada a la varianza es también normal: p(µ|V−1 , X) ∼ Np(µp, Vp) donde la media a posteriori, que puede tomarse como el estimador bayesiano de µ, es: µp = n0µ0 + n¯x n0 + n y la incertidumbre en esta estimación es Vp = V n0 + n La media a posteriori es una media ponderada de la información a priori y la proporcionada por la muestra, y los coeÞcientes de ponderación son n0 y n. El parámetro n0 representa pues el peso que queremos dar a nuestra estimación prior con relación a la muestral. Vemos también que la incertidumbre asociada equivale a la de una muestra de tamaño n0 + n. Podemos interpretar n0 como el número de observaciones equivalentes que asignamos a la información contenida en la prior. Por ejemplo, si n0 = 10 y tomamos una muestra de tamaño 90, queremos que nuestra prior tenga un peso del 10% en el cálculo de la posterior. La distribución a posteriori de la matriz de precisión es p(V−1 |X) ∼ Wp(n + m0, Mp), donde la matriz de la Wishart es M−1 p = m0M−1 + nS+ nn0 n + n0 (¯x − µ0)(¯x − µ0)0 .
  • 344. 344 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE Para interpretar este resultado, recordemos que la media de una distribución de Wishart Wp(n + m0,Mp) es E(V−1 |X) = µ m0 n + m0 M−1 + n n + m0 S+ nn0 (n + n0)2 (¯x − µ0)(¯x − µ0)0 ¶−1 , el término entre paréntesis juega el papel de la matriz de varianzas y vemos que suma tres fuentes de incertidumbre: las dos que vienen de la distribución prior y la muestral. El primer término es la matriz de covarianzas a priori, el segundo la matriz de covarianzas muestral y el tercero el incremento de covarianzas debido a la discordancia entre la media a priori y la muestral. El término m0 controla el peso que queremos dar a la estimación prior de la varianza, frente a la varianza muestral, y el término n0 el peso de la discrepancia entre la media a prioiri y la estimada. Observemos también que si la información proporcionada por la muestra es grande con relación a la prior, es decir, n es grande con relación a m0 y n0, de manera que m0/n y n0/n sean pequeños, la esperanza de la precisión posterior es, aproximadamente, la precisión muestral, S−1 . 11.5 CONTRASTES BAYESIANOS 11.5.1 Conceptos básicos En el enfoque bayesiano, la hipótesis nula no se acepta o rechaza, como en el enfoque clásico, sino que se determina su probabilidad a posteriori dados los datos. Supongamos el contraste general considerado en el capítulo anterior: dado un parámetro vectorial, θ, p−dimensional, que toma valores en Ω se desea contrastar la hipótesis: H0 : θ ∈ Ω0, frente a la hipótesis alternativa H1 : θ ∈ Ω − Ω0. Suponemos que existen probabilidades a priori para cada una de las dos hipótesis. Estas probabilidades quedan automáticamente determinadas si establecemos una distribución a priori sobre θ, ya que entonces: p0 = P(H0) = P(θ ∈ Ω0) = Z Ω0 p(θ)dθ y p1 = P(H1) = P(θ ∈ Ω − Ω0) = Z Ω−Ω0 p(θ)dθ. Las probabilidades a posteriori de las hipótesis las calcularemos mediante el teorema de Bayes P(Hi|X) = P(X|Hi)P(Hi) P(X) i = 0, 1
  • 345. 11.5. CONTRASTES BAYESIANOS 345 log10 B01 B01 P(H0) para (p0/p1 = 1) Interpretación. 0 1 0, 5 indecisión −1 10−1 0, 1 débil rechazo de H0 −2 10−2 0, 01 rechazo de H0 −3 10−3 0, 001 rechazo sin duda de H0 Tabla 11.3: Interpretación del factor de Bayes según Jefreys y de aquí se obtiene el resultado fundamental: P(H0|X) P(H1|X) = f(X|H0) f(X|H1) . P(H0) P(H1) (11.21) que puede expresarse como Ratio de posteriores = R.Verosimilitudes x R. Prioris Esta expresión indica que la evidencia respecto a la hipótesis nula se obtiene multiplicando la evidencia proporcionada por los datos, con la evidencia a priori. Al cociente entre las verosimilitudes se denomina factor de Bayes, B, y si las probabilidades a prioiri de ambas hipótesis son las mismas, determina las probabilidades a posteriori de las hipótesis. Expresando las probabilidades a posteriori en términos del parámetro, se obtiene P(Hi|X) = P(θ ∈ Ωi/X) = Z Ωi p(θ|X)dθ i = 0, 1 donde Ω1 = Ω − Ω0, y p(θ|X) es la distribución a posteriori para el vector de parámetros de interés dada por (11.15). Por tanto p(Hi|X) = 1 f(X) Z Ωi f(X|θ)p(θ)dθ i = 0, 1 donde Ω1 = Ω− Ω0. Sustituyendo en (11.21) se obtiene que el factor de Bayes de la primera hipótesis respecto a la segunda, B01, es B01 = p1 p0 R Ω0 f(X|θ)p(θ)dθ R Ω−Ω0 f(X|θ)p(θ)dθ Jeffreys ha dado la escala de evidencia para el factor de Bayes que se presenta en la Tabla 11.3. La primera columna presenta el factor de Bayes en una escala logaritmica, la segunda el factor de Bayes, la tercera la probabilidad de la hipótesis nula supuesto que las probabilidades a priori para las dos hipótesis son las mismas. La última columna propone la decisión a tomar respecto a H0.
  • 346. 346 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE 11.5.2 Comparación entre los contraste bayesianos y los clásicos Si suponemos que, a priori, las probabilidades de ambas hipótesis son las mismas, el factor de Bayes es comparable al ratio del contraste de verosimilitudes, pero existe una diferencia fundamental: en el constraste de verosimilitudes se toma el máximo de la verosimilitud, mientras que en el enfoque bayesiano se toma el promedio sobre la región relevante, pro- mediando con la distribución a priori. Por tanto, el contraste tiene en cuenta al calcular la integral el tamaño del espacio deÞnido por Ω0 y por Ω1. Por ejemplo, supongamos que θ es un parámetro escalar 0 ≤ θ ≤ 1 y que contrastamos: H0 : θ = θ0 frente a H1 : θ 6= θ0. Para que las probabilidades a priori de ambas hipótesis sean las mismas, supongamos que Þjamos p(θ = θ0) = 1/2 y que p(θ) = 1/2 si θ 6= θ0. Entonces, el factor de Bayes compara f(X|θ0) con el valor promedio de la verosimilitud cuando θ 6= θ0, mientras que el contraste de verosimilitudes compara f(X|θ0) con el valor máximo de la verosimilitud. Si el valor θ = θ0 no es exactamente cierto, sino sólo aproximadamente cierto, y el tamaño de la muestra es muy grande: 1. Con el enfoque bayesiano, los valores alejados de θ0 tendrán una verosimilitud muy pequeña con muestras grandes y al promediar sobre todos los valores se tenderá a favorecer a H0. Al aumentar n puede hacer muy difícil rechazar H0. 2. Con el enfoque clásico, comparamos f(X|θ0) con f(X|θMV ), donde θMV es el esti- mador MV que estará próximo al verdadero valor para muestras grandes, y esta diferencia aumentará con el tamaño muestral, por lo que terminaremos siempre rechazando H0. En resumen, con el enfoque clásico, cuando n → ∞ se rechaza H0 en la práctica, mientras que con el enfoque bayesiano cuando n → ∞ es más difícil rechazar H0 en la práctica. Esto es consecuencia de que el enfoque bayesiano tiene en cuenta la verosimilitud de H0 y de H1, mientras que el enfoque clásico mira sólo a H0. Es importante señalar que esta contradicción desaparece en el momento en que refor- mulamos el problema como uno de estimación. Entonces ambos métodos coincidirán con muestras grandes en la estimación del parámetro. 11.6 Selección de Modelos 11.6.1 El Criterio de Akaike El método de máxima verosimilitud supone que la forma del modelo es conocida y sólo falta estimar los parámetros. Cuando no es así debe aplicarse con cuidado. Por ejemplo, supong- amos que se desea estimar un vector de parámetros θ = (θ1, ...θp)0 y admitimos en lugar de un modelo único la secuencia de modelos M1 = (θ1, 0, ..., 0), ...., Mi = (θ1, ..., θi, 0, .., 0), ...,Mp = (θ1, ..., θp), es decir el modelo Mi (i = 1, ..., p) indica que los primeros i parámetros son
  • 347. 11.6. SELECCIÓN DE MODELOS 347 distintos de cero y los restantes cero. Es claro que si estimamos los parámetros bajo cada modelo y calculamos el valor máximo del soporte sustituyendo los parámetros por sus esti- maciones MV, el modelo con mayor soporte de los datos será el modelo Mp con todos los parámetros libres. Este resultado es general: el método de máxima verosimilitud siempre da mayor soporte al modelo con más parámetros, ya que la verosimilud sólo puedo aumentar si introduzco más parámetros para explicar los datos. Esta limitación del método de máxima verosimilitud fue percibida por Fisher, que propuso el método en 1936 para estimar los parámetros de un modelo, indicando sus limitaciones para comparar modelos distintos. La solución habitula para seleccionar entre los modelos es hacer un contraste de hipótesis utilizando el contraste de verosimilitudes y elegiendo el modelo Mi frente al Mp mediante λ = 2(L(Mp) − L(Mi)) = D(Mi) − D(Mp) donde L(Mp) es el soporte del modelo Mp al sustituir en el función soporte el parámetro θ por su estimación MV y L(Mi) el soporte del modelo Mi al estimar los parámetros con la restriccion θi+1 = .. = θp = 0, y D(Mj) = −2L(Mj) es al desviación. Suponiendo que el modelo más simple, Mi, es correcto, el estadístico λ se distribuye como una χ2 con p − i grados de libertad. Akaike propuso un enfoque alternativo para resolver el problema de seleccionar el modelo suponiendo que el objetivo es hacer predicciones tan precisas como sea posible. Sea f(y|Mi) la densidad de una nueva observacion bajo el modelo Mi y sea f(y) la verdadera función de densidad que puede o no ser una de las consideradas, es decir, el modelo verdadero puede o no ser uno de los Mi. Queremos seleccionar el modelo de manera que f(y|Mi) sea tan próxima como sea posible a f(y). Una manera razonable de medir la distancia entre estas dos funciones de densidad es mediante la distancia de Kullback-Leibler entre las dos densidades, que se calcula: KL(f(y|Mi), f(y)) = Z log f(y|Mi) f(y) f(y)dy (11.22) Para interpretar esta medida observemos que la diferencia de logaritmos equivale, cuando los valores de ambas funciones son similares, a la diferencia relativa, ya que log f(y|Mi) f(y) = log(1 + f(y|Mi) − f(y) f(y) ) ∼= f(y|Mi) − f(y) f(y) y cuando las diferencias son grandes, el logaritmo es mejor medida de discrepancia que la diferencia relativa. Las discrepancias se promedian respecto a la verdadera distribución de la observación y la medida (11.22) puede demostrarse que es siempre positiva. Una manera alternativa de escribir esta medida es KL(f(y|Mi), f(y)) = Ey log f(y|Mi) − Ey log f(y) donde Ey indica obtener la esperanza bajo la verdadera distribución de y. Como esta cantidad es siempre positiva, minimizaremos la distancia entre la verdadera distribución y
  • 348. 348 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE f(y|Mi) haciendo el primer término lo más pequeño posible. Puede demostrarse que (Akaike, 1985) que esto equivale a minimizar AIC = −2L(Mi) + 2i = D(Mi) + 2i (11.23) es decir, minimizamos la suma de la desviación del modelo, que disminuirá si introducimos más parámetros, y el número de parámetros en el modelo, que tiende a corregir por este efecto. 11.6.2 El criterio BIC Una ventaja del enfoque bayesiano es que el problema de selección de modelos puede abor- darse con los mismos principios que el contraste de hipótesis. Supongamos que en un proble- ma estadístico dudamos entre un conjunto de m modelos posibles para los datos observados M1, . . . , Mm. Si consideramos los modelos como posibles hipótesis sobre los datos, calculare- mos sus probabilidades a posteriori, M1, . . . , Mm y seleccionaremos el modelo con máxima probabilidad a posteriori. Estas probabilidades vienen dadas por : P (Mj|X) = f (X|Mj) f (X) P (Mj) j = 1, ..., m (11.24) donde P (Mj) es la probabilidad a priori del modelo j. Esta ecuación indica cómo pasamos de la probabilidad a priori a la posteriori para cada modelo: se calcula las verosimilitud marginal de los datos para ese modelo, f (X|Mj) ,donde el nombre marginal proviene de que esta función no depende de los valores de los parámetros, y se compara con la verosimilitud marginal promedio para todos los modelos, f (X). En efecto, llamemos θj a los parámetros del modelo Mj. La distribución f (X|Mj) viene dada por f (X|Mj) = Z f (X|θj,Mj) p (θj|Mj) dθj = Z Lj (X|θj) p (θj|Mj) dθj es decir, se obtiene promediando la verosimilitud del modelo, Lj (X|θ) , por las probabilidades a priori de los parámetros, p (θj|Mj) . Por lo tanto, esta función expresa la verosimilitud de los datos dado el modelo, sea cual sea el valor de los parámetros, lo que justiÞca el nombre de verosimilitud marginal. El denominador de (11.24) es f (X) = X f (X|Mj) P (Mj) y puede interpretarse como una media ponderada de las verosimilitudes marginales, siendo los coeÞcientes de la ponderación las probabilidades a priori. La conclusión que se desprende de (11.24) es que seleccionar el modelo con mayor prob- abilidad a posteriori equivale a seleccionar el modelo donde el producto de la verosimilitud marginal f (X|Mj) y de la prior del modelo P (Mj) sea máxima.
  • 349. 11.6. SELECCIÓN DE MODELOS 349 Las expresiones anteriores se derivan de las reglas del cálculo de probabilidades y son exactas. Es posible obtener una expresión aproximada de f (X|Mj) si suponemos que la distribución a posteriori del vector de parámetros es asintóticamente normal multivariante. Supongamos que para el modelo j esta distribución a posteriori es : p (θj|X, Mj) = (2π)−pj/2 |Sj|−1/2 exp ½ −1/2 ³ θj − bθj ´0 S−1 j ³ θj − bθj ´¾ donde pj es la dimensión del vector de parámetros del modelo Mj, y bθj es el estimador MV de θj y Sj la matriz de covarianzas de este estimador. Por el teorema de Bayes: p (θj|X, Mj) = lj (θj|X) p (θj|Mj) f (X|Mj) donde lj (θj|X) es la verosimilitud, p (θj|Mj) la probabilidad a priori para los parámetros y f (X|Mj) la verosimilitud marginal. Esta expresión es cierta para cualquier valor del parámetro y en particular para θj = bθj. Tomando logaritmos y particularizando esta expre- sión para bθj, podemos escribir log f (X|Mj) = Lj ³ bθj|X ´ + log p ³ bθj|Mj ´ − · −(pj/2) log 2π − 1 2 log |Sj| ¸ (11.25) La matriz Sj de covarianzas del estimador de los parámetros tiene términos habitualmente del tipo a/n. Escribiendo Sj ≡ 1 n Rj entonces |Sj| = n−pj |Rj| y sustituyendo en (11.25): log f (X|Mj) = Lj ³ bθj|X ´ + log p ³ bθj|Mj ´ + pj 2 log 2π − pj 2 log n + 1 2 log |Rj| . Vamos a aproximar esta expresión para n grande. Para ello vamos a mantener en esta expresión únicamente los términos que crecen con n y despreciar los que tomen un valor acotado que no crece con n. El primer término es el valor del soporte en el máximo que es la suma de n términos para las n observaciones y será de orden n. El segundo es el valor de la prior y, para n grande, podemos suponer que va a ser aproximadamente constante con relación a la verosimilitud. El tercer término, (pj/2) log 2π es de orden constante. El cuarto crece con n y el último, por construcción, esta acotado. En consecuencia, para n grande podemos escribir: log f (X|Mj) ' Lj ³ bθj|X ´ − pj 2 log n. Esta expresión fue obtenida por primera vez por Schwarz (1978), que propuso escoger el modelo que conduzca a un valor máximo de esta cantidad. Una forma equivalente de
  • 350. 350 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE este criterio, llamada criterio BIC (Bayesian Information Criterion), es xalcular para cada modelo la cantidad: BIC(Mj) = −2Lj ³ bθj|X ´ + pj log n y seleccionar aquel modelo para el cual esta cantidad es mínima. De esta manera este criterio pondera la desviación del modelo, medida por −2Lj ³ bθj|X ´ , con el número de parámetros. Si introducimos más parámetros en el modelo mejorará el ajuste, con lo que aumentará el soporte o disminuirá la desviación, y este efecto queda compensado por el aumento del número de parámetros que aparece en pj log n. 11.6.3 Relación entre el BIC y EL AIC La forma general de estos dos criterios de selección es D(Mj) + pjg(n) donde D(Mj) es la desviación del modelo medida por −2Lj ³ bθj|X ´ , y pj el número de parámetros. La constante que multiplica al número de parámetros es distinta en ambos criterios En el criterio BIC esta constante es log n, mientras que en el AIC es 2. Por tanto, el criterio BIC seleccionará modelos más parsimoniosos, es decir, con menor número de parámetros que el AIC. Otros autores han propuesto otros criterios que corresponden a distintas funciones g(n) La diferencia entre estos criterios se explica por su distinto objetivo El criterio BIC trata de seleccionar el modelo correcto, con máxima probabilidad a posteriori, y puede demostrarse que es un criterio consitente, de manera que la probabilidad de seleccionar el modelo correcto tiende a uno cuando crece el tamaño muestral. El criterio AIC no pretende seleccionar el modelo correcto, ya que admite que este modelo verdadero puede no estar entre los estimados, y trata de obtener el modelo que proporcione mejores predicciones entre los existentes. Puede demostrarse que, en condiciones generales de que el modelo verdadero puede aproximarse arbitariamente bien con los estimados al crecer el tamaño muestral, el criterio AIC es eÞciente, en el sentido de escoger el modelo que proporciona, en promedio, mejores predicciones. Sin embargo, en muestras pequeñas o medianas, el criterio AIC tiende a seleccionar modelos con más parámetros de los necesarios. 11.7 Lecturas complementarias Una buena introducción al algoritmo EM se encuentra en Tanner (1991) y con ejemplos multivariantes en Flury (1997). Versiones más amplias se encuentran en Gelman et al (1995) y Little y Rubin (1987). El libro de Schafer (1997) contiene numerosos ejemplos de su aplicación con datos multivariantes. La estimación de mezclas se estudia con detalle en Titterington at al (1987), y varios de los textos de cluster, que comentaremos en el capítulo 15, incluyen el estudio de es- tas distribuciones. La estimación robusta puede consultarse en Hampel at al (1986) and
  • 351. 11.7. LECTURAS COMPLEMENTARIAS 351 Rousseew and Leroy (1987). La estimación Bayesiana multivariante en Bernardo y Smith (1994), O’Hagan (1994) y Press (1989). Los algoritmos de cadenas de Markov (métodos MC2 ) en Gamerman (1997), Carlin y Louis (1996) y Robert y Casella (1999). Los contrastes bayesianos en Berger (1985). La literatura de selección de modelos es muy amplia. Algunas referencias básicas son Akaike(1974), Miller (1990) y McQuarrie y Tsai (1998), Chow (1981) y Lanterman (2001). APÉNDICE 11.1.CONVERGENCIA DEL ALGORITMO EM Sea L∗ C(θ|bθ(i)) = E h LC(θ|Y, Z)|bθ(i), Y i la función que maximizamos en el paso M del algoritmo. Vamos a demostrar que cuando bθ(i) = bθ(i+1) = bθF entonces · ∂L(θ|Y) ∂θ ¸ θ=bθF = 0 y bθF es el estimador MV. Para ello observemos que L∗ C(θ|bθ(i)) = Z log f(Z|Y, θ)f(Z|Y,bθ(i))dZ+L(θ|Y) y si maximizamos esta expresión derivando e igualando a cero se obtiene: ∂L∗ C(θ|bθ(i)) ∂θ = Z ∂f(Z|Y, θ) ∂θ f(Z|Y,bθ(i)) f(Z|Y, θ) dZ+L0 (θ|Y) =0, con lo que tendremos que bθ(i+1) veriÞca Z · ∂f(Z|Y, θ) ∂θ ¸ bθ(i+1) f(Z|Y,bθ(i)) f(Z|Y, bθ(i+1)) dZ+L0 (bθ(i+1)|Y) =0. Cuando bθ(i) = bθ(i+1) = bθF el primer miembro es cero, ya que se reduce a Z · ∂f(Z|Y, θ) ∂θ ¸ bθ(i+1) dZ que es siempre cero, como se comprueba derivando en la ecuación R f(Z|Y, θ)dZ =1. Por tanto tendrá que veriÞcarse que L0 (bθ(i+1)|Y) =0 que implica que bθ(i+1) es el estimador MV. APENDICE 11.2: ESTIMACIÓN BAYESIANA
  • 352. 352 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE Demostraremos primero que la distribución marginal a posteriori de V−1 con la prior de referencia es una Wishart invertida. Integrando en la conjunta p(V−1 |X) = Z C1|V−1 |(n−p−1)/2 exp ½ − 1 2 trV−1 S(µ)n ¾ dµ, y utilizando S(µ)n = nS + n(¯x − µ)(¯x − µ)0 , podemos escribir p(V−1 |X) = C1|V−1 |(n−p−2)/2 exp ½ − 1 2 trV−1 nS ¾ A donde A = Z |V|−1/2 exp n − n 2 (¯x − µ)0 V−1 (¯x − µ) o dµ, que con las constantes adecuadas integra a uno. Por tanto, podemos concluir que la dis- tribución a posteriori para V−1 es una distribución Wishart Wp(n − 1, S−1 /n). Obtendremos ahora las distribuciones en el caso de prioris informativas. La verosimilitud de los parámetros de la normal tiene la forma del producto de una normal por una Wishart, con lo que la prior conjugada a este problema debe ser de la forma: p(µ, V−1 ) ∝ |V−1 |(m0−p)/2 exp © −(1/2) £ trV−1 M−1 m0 + n0(µ − µ0)0 V−1 (µ − µ0) ¤ª . De acuerdo con esta distribución a priori, p(µ|V−1 ) es una normal multivariante con media µ0 y varianza V|n0, p(µ|V−1 ) ∝ |V−1 |1/2 exp © −1/2 £ n0(µ − µ0)0 V−1 (µ − µ0) ¤ª mientras que p(V−1 ) sigue una distribución Wishart Wp(m0,M/m0) p(V−1 ) ∝ |V−1 |(m0−p−1)/2 exp © −(1/2)trV−1 M−1 m0 ª . La distribución posterior será p(µ, V−1 |X) = C|V−1 |(n+m0−p)/2 exp {−E/2} , donde el exponente, E, puede escribirse: E = tr(V−1 (M−1 m0 + nS)) + n(¯x − µ)V−1 (¯x − µ)0 + n0(µ − µ0)0 V−1 (µ − µ0). Vamos a expresar de otra forma las formas cuadráticas. Para ello utilizaremos el siguiente resultado general: Lemma 2 Si A y B son matrices no singulares, se veriÞca que (z − a)0 A(z − a) + (z − b)0 B(z − b) = (z − c)0 D(z − c) + (a − b)0 H(a − b) donde c = (A + B)−1 (Aa + Bb), D = (A + B) y H = (A−1 +B−1 )−1 . Además se veriÞca |A| 1 2 |B| 1 2 = |A + B| 1 2 |A−1 +B−1 |−1 2
  • 353. 11.7. LECTURAS COMPLEMENTARIAS 353 Comencemos demostrando que los dos miembros de las formas cuadráticas son idénticos. El primer miembro puede escribirse z0 (A + B)z − 2z0 (Aa + Bb) + a0 Aa + b0 Bb y llamando c = (A + B)−1 (Aa + Bb),también puede escribirse z0 (A + B)z − 2z0 (A + B)c + c0 (A + B)c − c0 (A + B)c + a0 Aa + b0 Bb que es igual a (z − c)0 (A + B)(z − c) + a0 Aa + b0 Bb − (a0 A + b0 B)(A + B)−1 (Aa + Bb) La primera parte de esta expresión es la primera forma cuadrática del segundo miembro del Lemma. Operando en la segunda parte, resulta a0 (A − A(A + B)−1 A)a + b0 (B − B(A + B)−1 B)b − 2b0 B(A + B)−1 Aa y utilizando que, según la sección 2.3.4: (A−1 +B−1 )−1 = A − A(A + B)−1 A = B − B(A + B)−1 B = B(A + B)−1 A resulta que la segunda forma cuadrática es (a − b)0 (A−1 +B−1 )−1 (a − b) Para comprobar la segunda parte, como (A−1 +B−1 )−1 = B(A + B)−1 A, tenemos que |A−1 +B−1 |−1 = |B||A + B|−1 |A| con lo que |A||B| = |A + B||A−1 +B−1 |−1 Utilizando este lema, la suma de (¯x − µ)V−1 (¯x − µ)0 y n0(µ − µ0)0 V−1 (µ − µ0) puede escribirse como: (n + n0)(µ − µp)0 V−1 (µ − µp) + nn0 n + n0 (¯x − µ0)V−1 (¯x − µ0) donde µp = n0µ0 + n¯x n0 + n Con estos resultados la posterior puede descomponerse como producto de p(µ|V−1 X) por p(V−1 |X). La primera distribución es la de la media a posteriori dada la varianza, que es normal multivariante p(µ|V−1 X) = c|V−1 |1/2 exp © −1/2 £ (n + n0)(µ − µp)0 V−1 (µ − µp) ¤ª . y la segunda es la distribución marginal a posteriori de la matriz de precisión, p(V−1 |X), dada por p(V−1 |X) = C|V−1 |(n+m0−p−1)/2 exp © −1/2(trV−1 M−1 p ) ª donde M−1 p = M−1 m0 + nS+ nn0 n + n0 (¯x − µ0)(¯x − µ0)0 y representa una distribución de Wishart Wp(n + m0,Mp).
  • 354. 354 CAPÍTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE
  • 355. Capítulo 12 ANÁLISIS FACTORIAL 12.1 INTRODUCCIÓN El análisis factorial tiene por objeto explicar si un conjunto de variables observadas por un pequeño número de variables latentes, o no observadas, que llamaremos factores. Por ejemplo, supongamos que hemos tomado veinte medidas físicas del cuerpo de una persona: estatura, longitud del tronco y de las extremidades, anchura de hombros, peso, etc. Es intuitivo que todas estas medidas no son independientes entre sí, y que conocidas algunas de ellas podemos prever con poco error las restantes. Una explicación de este hecho es que las dimensiones del cuerpo humano dependen de ciertos factores, y si estos fuesen conocidos podríamos prever con pequeño error los valores de las variables observadas. Como segundo ejemplo, supongamos que estamos interesados en estudiar el desarrollo humano en los países del mundo, y que disponemos de muchas variables económicas, sociales y demográÞcas, en general dependientes entre sí, que están relacionadas con el desarrollo. Podemos pregun- tarnos si el desarrollo de un país depende de un pequeño número de factores tales que, conocidos sus valores, podríamos prever el conjunto de las variables de cada país. Como tercer ejemplo, supongamos que medimos con distintas pruebas la capacidad mental de un individuo para procesar información y resolver problemas. Podemos preguntarnos si existen unos factores, no directamente observables, que explican el conjunto de resultados observa- dos. El conjunto de estos factores será lo que llamamos inteligencia y es importante conocer cuántas dimensiones distintas tiene este concepto y cómo caracterizarlas y medirlas. El análisis factorial surge impulsado por el interés de Karl Pearson y Charles Sperman en com- prender las dimensiones de la inteligencia humana en los años 30, y muchos de sus avances se han producido en el área de la psicometría. El análisis factorial esta relacionado con los componentes principales, pero existen ciertas diferencias. En primer lugar, los componentes principales se construyen para explicar las varianzas, mientras que los factores se construyen para explicar las covarianzas o correlaciones entre las variables. En segundo lugar, componentes principales es un herramienta descriptiva, mientras que el análisis factorial presupone un modelo estadístico formal de generación de la muestra dada. 355
  • 356. 356 CAPÍTULO 12. ANÁLISIS FACTORIAL 12.2 EL MODELO FACTORIAL 12.2.1 Hipótesis básicas Supondremos que observamos un vector de variables x, de dimensiones (p × 1), en elemen- tos de una población. El modelo de análisis factorial establece que este vector de datos observados se genera mediante la relación: x = µ + Λf + u (12.1) donde: 1. f es un vector (m × 1) de variables latentes o factores no observadas. Supondremos que sigue una distribución Nm(0, I), es decir los factores son variables de media cero e independientes entre sí y con distribución normal. 2. Λ es una matriz (p × m) de constantes desconocidas (m < p). Contiene los coeÞcientes que describen como los factores, f, afectan a las variables observadas, x, y se denomina matriz de carga. 3. u es un vector (p × 1) de perturbaciones no observadas. Recoge el efecto de todas las variables distintas de los factores que inßuyen sobre x. Supondremos que u tiene distribución Np(0, ψ) donde ψ es diagonal, y que las perturbaciones están incorreladas con los factores f. Con estas tres hipótesis deducimos que: (a) µ es la media de las variables x, ya que tanto los factores como las perturbaciones tienen media cero; (b) x tiene distribución normal, al ser suma de variables normales, y llamando V a su matriz de covarianzas x ∼Np(µ, V). La ecuación (12.1) implica que dada una muestra aleatoria simple de n elementos generada por el modelo factorial, cada dato xij puede escribirse como: xij = µj + λj1f1i + ... + λjmfmi + uij i = 1, ..., n j = 1, ..., p que descompone xij, el valor observado en el individuo i de la variable j, como suma de m + 2 términos. El primero es la media de la variable j, µj, del segundo al m + 1 recogen el efecto de los m factores, y el último es una perturbación especíÞca de cada observación, uij. Los efectos de los factores sobre xij son el producto de los coeÞcientes λj1, ..., λjm, que dependen de la relación entre cada factor y la variable j, (y que son los mismos para todos los elementos de la muestra), por los valores de los m factores en el elemento muestral i, f1i, ..., fmi. Poniendo juntas las ecuaciones para todas las observaciones, la matriz de datos, X, (n × p), puede escribirse como: X = 1µ0 + FΛ 0 +U
  • 357. 12.2. EL MODELO FACTORIAL 357 donde 1 es un vector n × 1 de unos, F es una matriz (n × m) que contiene los m factores para los n elementos de la población, Λ0 es la transpuesta de la matriz de carga (m × p) cuyos coeÞcientes constantes relacionan las variables y los factores y U es una matriz (n×p) de perturbaciones. 12.2.2 Propiedades La matriz de carga Λ contiene las covarianzas entre los factores y las variables observadas. En efecto, la matriz de covarianzas (p × m) entre las variables y los factores se obtiene multiplicando (12.1) por f0 por la derecha y tomando esperanzas: E £ (x − µ)f0¤ = ΛE [ff0 ] + E [uf0 ] = Λ ya que, por hipótesis, los factores están incorrelados (E [ff0 ] = I) y tienen media cero y están incorrelados con las perturbaciones (E [uf0 ] = 0). Esta ecuación indica que los términos λij de la matriz de carga, Λ, representan la covarianza entre la variable xi y el factor fj, y, al tener los factores varianza unidad, son los coeÞcientes de regresión cuando explicamos las variables observadas por los factores. En el caso particular en que las variables x estén estandarizadas, los términos λij coeÞcientes son también las correlaciones entre las variables y los factores. La matriz de covarianzas entre las observaciones veriÞca, según (12.1): V = E £ (x − µ)(x − µ)0¤ = ΛE [ff0 ] Λ0 + E [uu0 ] ya que E[fu0 ] = 0 al estar incorrelados los factores y el ruido. Entonces, se obtiene la propiedad fundamental: V = ΛΛ0 + ψ, (12.2) que establece que la matriz de covarianzas de los datos observados admite una descomposición como suma de dos matrices: (1) La primera, ΛΛ0 , es una matriz simétrica de rango m < p. Esta matriz contiene la parte común al conjunto de las variables y depende de las covarianzas entre las variables y los factores. (2) La segunda, ψ, es diagonal, y contiene la parte especíÞca de cada variable, que es independiente del resto. Esta descomposición implica que las varianzas de las variables observadas pueden de- scomponerse como: σ2 i = mX j=1 λ2 ij + ψ2 i , i = 1, . . . , p. donde el primer término es la suma de los efectos de los factores y el segundo el efecto de la perturbación. Llamando h2 i = mX j=1 λ2 ij,
  • 358. 358 CAPÍTULO 12. ANÁLISIS FACTORIAL a la suma de los efectos de los factores que llamaremos comunalidad, tenemos que σ2 i = h2 i + ψ2 i , i = 1, . . . , p. (12.3) Esta igualdad puede interpretarse como una descomposición de la varianza en: Varianza observada = Variabilidad común + Variabilidad especíÞca (Comunalidad) que es análoga a la descomposición clásica de la variabilidad de los datos en una parte explicada y otra no explicada que se realiza en el análisis de la varianza. En el modelo factorial la parte explicada es debida a los factores y la no explicada al ruido o componente aleatorio. Esta relación es la base del análisis que presentamos a continuación. Ejemplo 12.1 Supongamos que tenemos tres variables generadas por dos factores. La ma- triz de covarianzas debe veriÞcar   σ11 σ12 σ13 σ21 σ22 σ23 σ31 σ32 σ33   =   λ11 λ12 λ21 λ22 λ31 λ32   · λ11 λ21 λ31 λ12 λ22 λ32 ¸ +   ψ11 0 0 0 ψ22 0 0 0 ψ33   Esta igualdad proporciona 6 ecuaciones distintas (recordemos que al ser V simétrica sólo tiene 6 términos distintos). La primera será: σ11 = λ2 11 + λ2 12 + ψ11 Llamando h2 1 = λ2 11 + λ2 12 a la contribución de los dos factores en la variable 1. Las seis ecuaciones son : σii = h2 i + ψ2 i i = 1, 2, 3 σij = λi1λj1 + λi2λj2 i = 1, 2, 3 i 6= j 12.2.3 Unicidad del modelo En el modelo factorial ni la matriz de carga, Λ, ni los factores, f, son observables. Esto plantea un problema de indeterminación: dos representaciones (Λ, f) y (Λ∗ , f∗ ) serán equivalentes si Λf = Λ∗ f∗ Esta situación conduce a dos tipos de indeterminación. (1) Un conjunto de datos puede explicarse con la misma precisión con factores incorrelados o correlados. (2) Los factores no quedan determinados de manera única. Vamos a analizar estas dos indeterminaciones. Para mostrar la primera, si H es cualquier matriz no singular, la representación (12.1) puede también escribirse como x = µ + ΛHH−1 f + u (12.4)
  • 359. 12.2. EL MODELO FACTORIAL 359 y llamando Λ∗ = ΛH a la nueva matriz de carga, y f∗ = H−1 f a los nuevos factores: x = µ + Λ∗ f∗ + u, (12.5) donde los nuevos factores f∗ tienen ahora una distribución N ¡ 0, H−1 (H−1 )0¢ y, por lo tanto, están correlados. Análogamente, partiendo de factores correlados, f ∼ N(0, Vf ), siempre podemos encontrar una expresión equivalente de las variables mediante un modelo con fac- tores incorrelados. En efecto, sea A una matriz tal que Vf = AA0 . (Esta matriz siempre existe si Vf es deÞnida positiva), entonces A−1 Vf (A−1 )0 = I, y escribiendo x = µ + Λ(A)(A−1 )f + u, y tomando Λ∗ = ΛA como la nueva matriz de coeÞcientes de los factores y f∗ = A−1 f como los nuevos factores, el modelo es equivalente a otro con factores incorrelados. Esta indeterminación se ha resuelto en las hipótesis del modelo tomando siempre los factores como incorrelados. En segundo lugar, si H es ortogonal, el modelo x = µ + Λf+u y el x = µ + (ΛH)(H0 f) + u son indistinguibles. Ambos contienen factores incorrelados, con matriz de covarianzas la identidad. En este sentido, decimos que el modelo factorial está indeterminado ante rota- ciones. Esta indeterminación se resuelve imponiendo restricciones sobre los componentes de la matriz de carga, como veremos en la sección siguiente. Ejemplo 12.2 Supongamos x = (x1, x2, x3)0 y el modelo factorial M1 siguiente: x =   1 1 0 1 1 0   · f1 f2 ¸ +   u1 u2 u3   y los factores están incorrelados. Vamos a escribirlo como otro modelo equivalente de factores también incorrelados. Tomando H = 1√ 2 · 1 1 1 −1 ¸ , esta matriz es ortogonal, ya que H−1 = H0 = H. Entonces x =   1 1 0 1 1 0   1 √ 2 · 1 1 1 −1 ¸ 1 √ 2 · 1 1 1 −1 ¸ · f1 f2 ¸ + [u] . Llamando a este modelo, M2, puede escribirse como: x =    2√ 2 0 1√ 2 − 1√ 2 1√ 2 1√ 2    · g1 g2 ¸ + [u] y los nuevos factores, g, están relacionados con los anteriores, f, por: · g1 g2 ¸ = ³√ 2 ´−1 · 1 1 1 −1 ¸ · f1 f2 ¸
  • 360. 360 CAPÍTULO 12. ANÁLISIS FACTORIAL y son por lo tanto una rotación de los iniciales. Comprobemos que estos nuevos factores están también incorrelados. Su matriz de varianzas es: Vg = ³√ 2 ´−1 · 1 1 1 −1 ¸ Vf · 1 1 1 −1 ¸ ³√ 2 ´−1 y si Vf = I ⇒ Vg = I, de donde se deduce que los modelos M1 y M2 son indistinguibles. 12.2.4 Normalización del modelo factorial Como el modelo factorial esta indeterminado ante rotaciones la matriz Λ no está identiÞcada. Esto implica que aunque observemos toda la población, y µ, y V sean conocidos, no podemos determinar Λ de manera única. La solución para poder estimar esta matriz es imponer restricciones sobre sus términos. Los dos métodos principales de estimación que vamos a estudiar utilizan alguna de las dos siguientes normalizaciones: Criterio 1: Exigir: Λ0 m×pΛp×m = D = Diagonal (12.6) Con esta normalización los vectores que deÞnen el efecto de cada factor sobre las p vari- ables observadas son ortogonales. De esta manera, los factores además de estar incorrelados producen efectos lo más distintos posibles en las variables. Vamos a comprobar que esta normalización deÞne una matriz de carga de manera única. Supongamos primero que ten- emos una matriz Λ tal que el producto Λ0 Λ no es diagonal. Transformamos los factores con Λ∗ = ΛH, donde H es la matriz que contiene en columnas los vectores propios de Λ0 Λ. Entonces: Λ0∗ Λ∗ = H0 Λ0 ΛH (12.7) y como H diagonaliza Λ0 Λ la matriz Λ∗ veriÞca la condición (12.6). Veamos ahora que esta es la única matriz que lo veriÞca. Supongamos que rotamos esta matriz y sea Λ∗∗ = ΛC donde C es ortogonal. Entonces la matriz Λ∗∗0 Λ∗∗ = C0 Λ0∗ Λ∗ C no será diagonal. Analogamente, si partimos de una matriz que veriÞca (12.6) si la rotamos dejará de veriÞcar esta condición. Cuando se veriÞca esta normalización, postmultiplicando la ecuación (12.2) por Λ, podemos escribir (V − ψ) Λ = ΛD, que implica que las columnas de Λ son vectores propios de la matriz V − ψ, que tiene como valores propios los términos diagonales de D. Esta propiedad se utiliza en la estimación mediante el método del factor principal.
  • 361. 12.2. EL MODELO FACTORIAL 361 Criterio 2: Exigir: Λ0 ψ−1 Λ = D =Diagonal (12.8) En esta normalización los efectos de los factores sobre las variables, ponderados por las varianzas de las perturbaciones de cada ecuación, se hacen incorrelados. Como la anterior, esta normalización deÞne una matriz de carga de manera única. En efecto, supongamos que Λψ−1 Λ no es diagonal, y transformamos con Λ∗ = ΛH. Entonces: Λ0∗ ψ−1 Λ∗ = H0 ¡ Λ0 ψ−1 Λ ¢ H (12.9) y como Λ0 ψ−1 Λ es una matriz simétrica y deÞnida no negativa, siempre puede diagonalizarse si escogemos como H la matriz que contiene en columnas los vectores propios de Λ0 ψ−1 Λ. Analogamente, si se veriÞca de partida (12.8) y rotamos la matriz de carga esta condición dejará de veriÞcarse. Esta es la normalización que utiliza la estimación máximo verosímil. Su justiÞcación es que de esta manera los factores son condicionalmente independientes dados los datos, como veremos en el apéndice 12.4. Con esta normalización, postmultiplicando la ecuación (12.2) por ψ−1 Λ, tenemos que Vψ−1 Λ − Λ = Λ D y premultiplicando por ψ−1/2 , resulta: ψ−1/2 Vψ−1 Λ − ψ−1/2 Λ = ψ −1/2 ΛD que implica ψ−1/2 Vψ−1/2 ψ−1/2 Λ = ψ−1/2 Λ (D + I) y concluimos que la matriz ψ−1/2 Vψ−1/2 tiene vectores propios ψ−1/2 Λ con valores propios D + I. Esta propiedad se utiliza en la estimación máximo verosímil. 12.2.5 Número máximo de factores Si sustituimos en (12.2) la matriz teórica de covarianzas, V, por la matriz muestral, S, el sistema estará identiÞcado si es posible resolverlo de manera única. Para ello existe una restricción en el número de factores posibles. El número de ecuaciones que obtenemos de (12.2) es igual al conjunto de términos de S, que es p+p(p−1)/2 = p(p+1)/2. El número de incógnitas en el segundo término es pm, los coeÞcientes de la matriz Λ, más los p términos de la diagonal de ψ, menos las restricciones impuestas para identiÞcar la matriz Λ. Suponiendo que Λ0 ψ−1 Λ debe ser diagonal, esto supone m(m − 1)/2 restricciones sobre los términos de Λ, . Para que el sistema este determinado debe haber un número de ecuaciones igual o mayor que el de incógnitas. En efecto, si existen menos ecuaciones que incógnitas no es posible
  • 362. 362 CAPÍTULO 12. ANÁLISIS FACTORIAL encontrar una solución única y el modelo no está identiÞcado. Si el número de ecuaciones es exactamente igual al de incógnitas existirá una solución única. Si existen más ecuaciones que incógnitas, podremos resolver el sistema en el sentido de los mínimos cuadrados y encontrar unos valores de los parámetros que minimicen los errores de estimación. Por lo tanto: p + pm − m(m − 1) 2 ≤ p(p + 1) 2 que supone: p + m ≤ p2 − 2pm + m2 , es decir (p − m)2 1 p + m. El lector puede comprobar que esta ecuación implica que, cuando p no es muy grande (menor de 10) aproximadamente el número máximo de factores debe ser menor que la mitad del número de variables menos uno. Por ejemplo, el número máximo de factores con 7 vari- ables es 3. Esta es la regla que se obtiene si escribimos la desigualdad anterior despreciando el término de las restricciones sobre los elementos de Λ. 12.3 EL MÉTODO DEL FACTOR PRINCIPAL El método del factor principal es un método para estimar la matriz de carga basado en componentes principales. Evita tener que resolver las ecuaciones de máxima verosimilitud, que son más complejas. Tiene la ventaja de que la dimensión del sistema puede identiÞcarse de forma aproximada. Se utiliza en muchos programas de ordenador por su simplicidad. Su base es la siguiente: supongamos que podemos obtener una estimación inicial de la matriz de varianzas de las perturbaciones bψ. Entonces, podemos escribir S − bψ = ΛΛ0 , (12.10) y como S − ˆψ es simétrica, siempre puede descomponerse como: S − bψ = HGH0 = (HG1/2 )(HG1/2 )0 (12.11) donde H es cuadrada de orden p y ortogonal, G es también de orden p, diagonal y contiene las raíces características de S − bψ. El modelo factorial establece que G debe ser diagonal del tipo: G = · G1m×m Om×(p−m) O(p−m)×m O(p−m)×(p−m) ¸ ya que S − bψ tiene rango m. Por tanto, si llamamos H1 a la matriz p × m que contiene los vectores propios asociados a los valores propios no nulos de G1 podemos tomar como estimador de Λ la matriz p × m: bΛ = H1G 1/2 1 (12.12)
  • 363. 12.3. EL MÉTODO DEL FACTOR PRINCIPAL 363 con lo que resolvemos el problema. Observemos que la normalización resultante es: bΛ0bΛ = G 1/2 1 H0 1H1G 1/2 1 = G1 = Diagonal (12.13) ya que los vectores propios de matrices simétricas son ortogonales, por lo que H0 1H1 = Im. Por tanto, con este método se obtienen estimadores de la matriz bΛ con columnas ortogonales entre sí. En la práctica la estimación se lleva a cabo de forma iterativa como sigue: 1. Partir de una estimación inicial de bΛi o de bψi mediante bψi = diag ³ S−bΛbΛ0 ´ . 2. Calcular la matriz cuadrada y simétrica Qi = S−bψi. 3. Obtener la descomposición espectral de Qi de forma Qi = H1iG1iH0 1i + H2iG2iH0 2i donde G1i contiene los m mayores valores propios de Qi y H1i sus valores propios. Elegiremos m de manera que los restantes vectores propios contenidos en G2i sean todos pequeños y de tamaño similar. La matriz Qi puede no ser deÞnida positiva y algunos de sus valores propios pueden ser negativos. Esto no es un problema grave si estos valores propios son muy pequeños y podemos suponerlos próximos a cero. 4. Tomar bΛi+1 = H1iG 1/2 1i y volver a (1). Iterar hasta convergencia, es decir hasta que kΛn+1 − Λnk < ². Los estimadores obtenidos serán consistentes pero no eÞcientes, como en el caso de Máx- ima verosimilitud. Tampoco son invariantes ante transformaciones lineales, como los MV, es decir, no se obtiene necesariamente el mismo resultado con la matriz de covarianzas y con la de correlaciones. Para llevar a la práctica esta idea, debemos especiÞcar cómo obtener el estimador inicial bψ, problema que se conoce como la estimación de las comunalidades. 12.3.1 Estimación de las comunalidades Estimar los términos ψ2 i equivale a deÞnir valores para los términos diagonales, h2 i , de ΛΛ0 , ya que h2 i = s2 i − bψ 2 i . Existen las siguientes alternativas: 1. tomar bψi = 0. Esto equivale a extraer los componentes principales de S. Supone tomar bh2 i = s2 i (en el caso de correlaciones bh2 i = 1 ), que es claramente su valor máximo, por lo que podemos comenzar con un sesgo importante. 2. tomar bψ 2 j = 1/s∗ jj, donde s∗ jj es el elemento diagonal j-ésimo de la matriz de precisión S−1 . Según el apéndice 3.2 esto equivale a tomar h2 j como: bh2 j = s2 j − s2 j (1 − R2 j ) = s2 j R2 j , (12.14)
  • 364. 364 CAPÍTULO 12. ANÁLISIS FACTORIAL donde R2 j es el coeÞciente de correlación múltiple entre xj y el resto de las variables. Intuitivamente, cuanto mayor sea R2 j mayor será la comunalidad bh2 j . Con este método comenzamos con una estimación sesgada a la baja de h2 i , ya que bh2 i ≤ h2 i . En efecto, por ejemplo, suponemos que para la variable x1 el modelo verdadero es x1 = mX j=1 λ1jfj + u1 (12.15) que está asociado a la descomposición σ2 1 = h2 1 + ψ2 1. La proporción de varianza explicada es h2 1/σ2 1. Si escribimos la ecuación de regresión x1 = b2x2 + . . . + bpxp + ²1 sustituyendo cada variable por su expresión en términos de los factores tenemos que: x1 = b2 ³X λ2jfj + u2 ´ + . . . + bp ³X λpjfj + up ´ + ². (12.16) que conducirá a una descomposición de la varianza σ2 1 = bh2 1 + bψ 2 1. Claramente bh2 1 ≤ h2 1, ya que en (12.16) forzamos a que aparezcan como regresores además de los factores, como en (12.15) los ruidos u1, . . . , up de cada ecuación. Además, es posible que un factor afecte a x1 pero no al resto, con lo que no aparecerá en la ecuación (12.16). En resumen, la comunalidad estimada en (12.16) será una cota inferior del valor real de la comunalidad. Ejemplo 12.3 En este ejemplo mostraremos las iteraciones del algoritmo del factor prin- cipal de forma detallada para los datos de ACCIONES del Anexo I. La matriz de varianzas covarianzas de estos datos en logaritmos es, S =   0.13 0.15 −0.19 0.15 0.13 −0.03 −0.19 −0.03 0.16   Para estimar la matriz de cargas realizamos los pasos del algoritmo del factor principal descritos anteriormente. Antes de empezar el algoritmo tenemos que Þjar la cota para decidir la convergencia . Fijaremos un ε grande, 0.05, de forma que en pocas iteraciones el algoritmo converja a pesar de los errores acumulados por el redondeo. Paso 1. Tomando la segunda alternativa para la estimación inicial de las comunalidades diag(bψ 2 i ) = 1/s∗ jj. donde s∗ jj es el elemento j-ésimo de la matriz S−1 S−1 =   52.094 −47.906 52.88 −47.906 52.094 −47.12 52.88 −47.12 60.209   bψ 2 i =   1/52.094 0 0 0 1/52.094 0 0 0 1/60.209   =   0.019 0 0 0 0.019 0 0 0 0.017  
  • 365. 12.3. EL MÉTODO DEL FACTOR PRINCIPAL 365 Paso 2. Calculamos la matriz cuadrada y simétrica Qi = S−bψi Qi =   0.13 0.15 −0.19 0.15 0.13 −0.03 −0.19 −0.03 0.16   −   0.019 0 0 0 0.019 0 0 0 0.017   =   0.111 0.15 −0.19 0.15 0.111 −0.03 −0.19 −0.03 0.143   Paso 3. Descomposición espectral de Qi y separación en dos términos H1iG1iH0 1iy H2iG2iH0 2i. Los valores propios de Qi son 0.379, 0.094, y −0.108. Observemos que uno de ellos es negativo, con lo que la matriz no es deÞnida positiva. Como hay un valor propio mucho mayor que los demás tomaremos un único factor. Esto supone la descomposición   0.111 0.15 −0.19 0.15 0.111 −0.03 −0.19 −0.03 0.143   =   −0.670 −0.442 0.596   × 0.379 ×   −0.670 −0.442 0.596   0 + +   −0.036 0.741 −0.783 −0.438 −0.621 0.508   · 0.094 0 0 −0.108 ¸   −0.036 0.741 −0.783 −0.438 −0.621 0.508   0 Paso 4. Calculamos bΛi+1 = H1iG 1/2 1i bΛi+1 =   −0.670 −0.442 0.596   × √ 0.379 =   −0.412 −0.272 0.367   Esta es la primera estimación de la matriz de carga. Vamos a iterar para mejorar esta estimación. Para ello volvemos al paso 1. Paso 1. Estimamos los términos de la diagonal de bψi mediante bψi = diag ³ S−bΛbΛ0 ´ bψi = diag      0.13 0.15 −0.19 0.15 0.13 −0.03 −0.19 −0.03 0.16   −   −0.412 −0.272 0.367   £ −0.412 −0.272 0.367 ¤    =   0.180 0 0 0 0.056 0 0 0 0.0253   Paso 2. Calculamos la matriz cuadrada y simétrica Qi = S−bψi Qi =   0.13 0.15 −0.19 0.15 0.13 −0.03 −0.19 −0.03 0.16   −   0.180 0 0 0 0.056 0 0 0 0.0253   =   −0.05 0.15 −0.19 0.15 0.074 −0.03 −0.19 −0.03 0.135  
  • 366. 366 CAPÍTULO 12. ANÁLISIS FACTORIAL Paso 3. Descomposición espectral de Qi = H1iG1iH0 1i + H2iG2iH0 2i   −0.05 0.15 −0.19 0.15 0.074 −0.03 −0.19 −0.03 0.135   =   −0.559 −0.450 0.696   × 0.307 ×   −0.559 −0.450 0.696   0 + +   0.081 0.825 0.806 −0.385 0.586 0.414   · 0.067 0 0 −0.215 ¸   0.081 0.825 0.806 −0.385 0.586 0.414   0 Paso 4. Calculamos bΛi+1 = H1iG 1/2 1i bΛi+1 =   −0.559 −0.450 0.696   × √ 0.307 =   −0.310 −0.249 0.386   comprobamos si se cumple el criterio de convergencia kΛn+1 − Λnk < ². ° ° ° ° ° °   −0.310 −0.249 0.386   −   −0.412 −0.272 0.367   ° ° ° ° ° ° = 0.106 ≥ ² = 0.05 volvemos al paso 1 hasta que se cumpla el criterio. Paso 1. Volvemos a estimar bψi = diag ³ S−bΛbΛ0 ´ bψi = diag      0.35 0.15 −0.19 0.15 0.13 −0.03 −0.19 −0.03 0.16   −   −0.310 −0.249 0.386   £ −. 31 −. 249 . 386 ¤    =   0.254 0 0 0 0.068 0 0 0 0.011   Paso 2. Calculamos la matriz cuadrada y simétrica Qi = S−bψi Qi =   0.13 0.15 −0.19 0.15 0.13 −0.03 −0.19 −0.03 0.16   −   0.254 0 0 0 0.068 0 0 0 0.011   =   −0.124 0.15 −0.19 0.15 0.062 −0.03 −0.19 −0.03 0.149   Paso 3. Descomposición espectral de Qi. Indicaremos sólo el primer vector y valor propio   −0.124 0.15 −0.19 0.15 0.062 −0.03 −0.19 −0.03 0.149   =   −0499 −0.425 0.755   × 0.291 ×   −0499 −0.425 0.755   0 + H2iG2iH0 2i
  • 367. 12.3. EL MÉTODO DEL FACTOR PRINCIPAL 367 Paso 4. Calculamos bΛi+1 = H1iG 1/2 1i bΛi+1 =   −0499 −0.425 0.755   × √ 0.291 =   −0.269 −0.229 0.407   comprobamos si se cumple el criterio de convergencia ° ° °ˆΛn+1 − ˆΛn ° ° ° < ². ° ° ° ° ° °   −0.269 −0.229 0.407   −   −0.310 −0.249 0.386   ° ° ° ° ° ° = 0.05 ≥ ² = 0.05 El criterio de convergencia se ha cumplido y el modelo con los parámetros estimados es: x =   −0.269 −0.229 0.407   f1 +   u1 u2 u3     u1 u2 u3   ∼ N3     0 0 0   ,   0.254 0 0 0 0.068 0 0 0 0.011     Observemos que la expresión del factor obtenido es bastante distinta a la del primer componente principal que se obtuvo en el ejercicio 5.1 Ejemplo 12.4 Para la base de datos de INVEST se realizó un análisis descriptivo en el capítulo 4 en el que se propuso una transformación logarítmica en todas las variables y la eliminación de EEUU. Sobre este conjunto de datos, una vez estandarizados, vamos a ilustrar el cálculo de un único factor mediante el método del factor principal (en el ejemplo siguiente se consideran 2 factores). Vamos a comparar los dos métodos propuestos para inicializar el algortimo con los datos estandarizados. En el primer caso comenzamos las iteraciones con bψj = 0 =⇒ bh2 (0) = 1, y el número de iteraciones antes de converger es 6. El criterio de parada en el paso k del algoritmo es, en este caso, que la diferencia máxima entre las comunalidades en k y k-1 sea menor de 0.0001. En la siguiente tabla se presentan las estimaciones de las comunalidades para los pasos i=0,1,2,3,6. ˆh2 (0) ˆh2 (1) ˆh2 (2) ˆh2 (3) ˆh2 (6) INTER.A 1 0.96 0.96 0.96 0.96 INTER.B 1 0.79 0.76 0.75 0.75 AGRIC. 1 0.94 0.94 0.94 0.94 BIOLO. 1 0.92 0.91 0.91 0.91 MEDIC. 1 0.97 0.97 0.97 0.97 QUIMI. 1 0.85 0.83 0.82 0.82 INGEN. 1 0.9 0.88 0.88 0.88 FÍSICA 1 0.94 0.93 0.93 0.93
  • 368. 368 CAPÍTULO 12. ANÁLISIS FACTORIAL En negrilla Þgura el resultado Þnal una vez que ha convergido el algoritmo. Si inicializamos el algoritmo con el segundo método, bψj = 1 − R2 j =⇒ bh2 (0) = R2 j , el número de iteraciones antes de converger es 5. En la siguiente tabla se presentan cómo varían la estimaciones de las comunalidades para los pasos i=0,1,2,3,5. ˆh2 (0) ˆh2 (1) ˆh2 (2) ˆh2 (3) ˆh2 (5) INTER.A 0.98 0.96 0.96 0.96 0.96 INTER.B 0.82 0.76 0.75 0.75 0.75 AGRIC. 0.95 0.94 0.94 0.94 0.94 BIOLO. 0.97 0.92 0.91 0.91 0.91 MEDIC. 0.98 0.97 0.97 0.97 0.97 QUIMI. 0.85 0.82 0.82 0.82 0.82 INGEN. 0.93 0.89 0.88 0.88 0.88 FÍSICA 0.97 0.94 0.93 0.93 0.93 En negrilla Þgura el resultado Þnal una vez que ha convergido el algoritmo. Al haber inicial- izado el algoritmo en un punto más próximo al Þnal, la convergencia ha sido más rápida, y ya en la segunda iteración el resultado es muy próximo al Þnal. Se observa como la esti- mación inicial de las comunalidades, ˆh2 (0), es cota superior de la estimación Þnal, ˆh2 (5). En la siguiente tabla presentamos la estimación de ˆΛ(0) de las que partimos en ambos métodos y la estimación de las cargas Þnales obtenidas. bψj = 0 bψj = 1 − R2 j Final Factor1 Factor1 Factor1 INTER.A 0.97 0.97 0.98 INTER.B 0.89 0.87 0.87 AGRIC. 0.97 0.97 0.97 BIOLO. 0.96 0.96 0.95 MEDIC. 0.98 0.98 0.99 QUIMI. 0.92 0.90 0.91 INGEN. 0.94 0.94 0.94 FÍSICA 0.96 0.97 0.97 El segundo método proporciona un ˆΛ(0) más próximo al resultado Þnal, sobre todo para aque- llas variables donde la variabilidad especíÞca es mayor. 12.3.2 Generalizaciones El método de estimación del factor principal es un procedimiento de minimizar la función: F = tr (S − ΛΛ0 − ψ) 2 . (12.17)
  • 369. 12.3. EL MÉTODO DEL FACTOR PRINCIPAL 369 En efecto, esta función puede escribirse F = p X i=1 p X j=1 (sij − vij)2 (12.18) donde vij son los elementos de la matriz V = ΛΛ0 + ψ. Ahora bien, por la descomposición espectral, dada una matriz S cuadrada simétrica y no negativa la mejor aproximación en el sentido de mínimos cuadrados (12.18) mediante una matriz de rango m, AA0 se obtiene tomando A = HD1/2 , donde H contiene los vectores propios y D1/2 las raíces de los valores propios de S (véase el apéndice 5.2), que es lo que hace el método del factor principal. Harman (1976) ha desarrollado el algoritmo MINRES que minimiza (12.17) más eÞcien- temente que el método del factor principal y Joreskog (1976) ha propuesto el algoritmo USL (unweighted least squares), que se basa en derivar en (12.17), obtener bΛ como función de ψ y luego minimizar la función resultante por un algoritmo no lineal tipo Newton-Raphson. Ejemplo 12.5 Con los datos de INVEST, utilizados en el ejemplo anterior, presentamos el análisis factorial para dos factores realizado con un programa de ordenador con el método del factor principal. La tabla 12.1 indica la variabilidad de ambos factores. El segundo factor explica poca variabilidad (2%) pero ha sido incluido por tener una clara interpretación. Factor1 Factor2 Variabilidad 7.18 0.17 Ph 0.89 0.02 Ph i=1 Ph 0.89 0.91 Tabla 12.1: Variabilidad explicada por los dos primeros factores estimados por el método del factor principal. El algoritmo del factor principal se inicia con bψj = 1 − R2 j , y se han realizado 14 itera- ciones antes de converger a los pesos que se presentan en la tabla 12.2. Factor1 Factor2 ψ2 i INTER.A 0.97 -0.06 0.04 INTER.B 0.87 0.16 0.22 AGRIC. 0.97 -0.03 0.06 BIOLO. 0.95 -0.24 0.02 MEDIC. 0.99 -0.10 0.02 QUIMI. 0.91 -0.09 0.17 INGEN. 0.94 0.21 0.06 FÍSICA 0.97 0.17 0.03 Tabla 12.2: Matriz de cargas de los factores y comunalidades El primer factor es la suma de las publicaciones en todas las bases, nos da una idea de volumen. Según este factor los países quedarían ordenados en función de su producción
  • 370. 370 CAPÍTULO 12. ANÁLISIS FACTORIAL cientíÞca. El segundo factor contrapone la investigación en biomedicina con la investigación en tecnología. Este segundo componente separa a Japón y Reino Unido, países con una gran producción cientíÞca. En la Þgura 12.1 se presenta un gráÞco de los paises sobre estos dos factores. El lector debe comparar estos resultados con los obtenidos en el capítulo 5 (ejercicios 5.6 y 5.10) con componentes principales. Factor1 Factor2 -2 -1 0 1 -1.5-1.0-0.50.00.51.01.5 UK JP F G C I AH S CH E B D AU FI N Y GR IR P Figura 12.1: Representación de los países en el plano formado por los dos primeros factores. 12.4 ESTIMACIÓN MÁXIMO VEROSÍMIL 12.4.1 Estimación MV de los parámetros Enfoque directo Las matrices de parámetros pueden estimarse formalmente mediante máxima verosimilitud. La función de densidad de las observaciones originales es Np(µ, V). Por tanto la verosimilitud es la estudiada en el capítulo 10. Sustituyendo µ por su estimador, x, la función soporte para V es: log(V|X) = − n 2 log |V| − n 2 tr ¡ SV−1 ¢ , (12.19) y sustituyendo V por (12.2) la función soporte de Λ y ψ es : L(Λ, ψ) = − n 2 ¡ log |ΛΛ0 + ψ| + tr(S(ΛΛ0 + ψ)−1 ¢ . (12.20)
  • 371. 12.4. ESTIMACIÓN MÁXIMO VEROSÍMIL 371 Los estimadores de máxima verosimilitud se obtienen maximizando (12.20) respecto a las matrices Λ y ψ. Derivando con respecto a estas matrices y tras ciertas manipulaciones algebraicas que se resumen en el Apéndice 12.1, (vease Anderson, 1984, pp. 557-562) o Lawley y Maxwell, 1971), se obtienen las ecuaciones: bψ = diag (S − ˆΛˆΛ 0 ) (12.21) ³ bψ −1/2 (S − I) bψ −1/2 ´ ³ bψ −1/2 bΛ ´ = ³ bψ −1/2 bΛ ´ D (12.22) donde D es la matriz resultado de la normalización bΛ0 bψ −1 bΛ = D =diagonal. (12.23) Estas tres ecuaciones permiten resolver el sistema utilizando un algoritmo iterativo tipo Newton-Raphson. La solución numérica es a veces difícil porque puede no haber una solu- ción en la cual bψ sea deÞnida positiva, y es necesario entonces acudir a la estimación con restricciones. Observemos que (12.22) conduce a una ecuación de valores propios: nos dice que bψ −1/2 bΛ contienen los vectores propios de la matriz simétrica ³ bψ −1/2 (S − I) bψ −1/2 ´ y que D contiene los valores propios El algoritmo iterativo para resolver estas ecuaciones es: 1. Partir de una estimación inicial. Si tenemos una estimación bΛi, (i = 1 la primera vez), por ejemplo por el método del factor principal, se calcula la matriz bψi mediante bψi = diag ³ S−bΛi bΛ0 i ´ . Alternativamente, podemos estimar la matriz bψi directamente por el método del factor principal. 2. Se calcula la matriz cuadrada simétrica Ai = bψ −1/2 i ³ S−bψi ´ bψ −1/2 i = bψ −1/2 Sbψ −1/2 − I. Esta matriz pondera los términos de S por su importancia en términos de los componentes especíÞcos. 3. Se obtiene la descomposición espectral de Ai de forma que Ai = H1iG1iH0 1i + H2iG2iH0 2i donde los m mayores valores propios de Ai están en la matriz diagonal (m × m), G1i y los p − m menores de la G2i y H1i y H2i contienen los correspondientes vectores propios. 4. Se toma bΛi+1 = bψ 1/2 i H1iG 1/2 1i y se sustituye en la función de verosimilitud, que se maximiza respecto a ψ. Esta parte es fácil de hacer con un algortimo de optimización no lineal. Con el resultado obtenido se vuelve a (2), iterando hasta la convergencia. Puede ocurrir que este algoritmo converja a un máximo local donde algunos de los térmi- nos de la matriz ψ sean negativos. Esta solución impropia se denomina a veces una solución
  • 372. 372 CAPÍTULO 12. ANÁLISIS FACTORIAL de Heywood. Los programas existentes cambian entonces esos valores por números positivos e intentan encontrar otro máximo local, aunque no siempre el algortimo converge. En el Apéndice 12.1 se comprueba que la estimación MV es invariante ante transforma- ciones lineales de las variables. En consecuencia, el resultado de la estimación no depende —como ocurre en componentes principales— del uso de la matriz de covarianzas o de correla- ciones. Una ventaja adicional del método de máxima verosimilitud es que podemos obtener las varianzas asintóticas de los estimadores mediante la matriz de información en el óptimo. Observemos que cuando la matriz bψ tiene los términos diagonales aproximadamente iguales, la estimación MV conducirá a resultados similares al método del factor principal. En efecto, sustituyendo en las ecuaciones del estimador MV bψ = kI, ambos métodos utilizan la misma normalización y la ecuación (12.22) es análoga a la (12.11), que se resuelve en el método del factor principal. El algortimo EM Un procedimiento alternativo para maximizar la verosimilitud es considerar los factores como valores ausentes y aplicar el algoritmo EM. La función de verosimiltud conjunta de los datos y los factores puede escribirse f(x1, ..., xn, f1, ..., fn) = f(x1, ..., xn|f1, ..., fn) f(f1, ..., fn). El soporte para la muestra completa es log(ψ, Λ|X, F) = − n 2 log |ψ| − 1 2 X (xi − Λfi)0 ψ−1 (xi − Λfi) − 1 2 X fif0 i, (12.24) donde suponemos que las variables xi tienen media cero, lo que equivale a sustituir la media por su estimador la media muestral. Observemos que, dados los factores, la estimación de Λ podría hacerse como una regresión. Por otro lado, dados los parámetros podríamos estimar los factores, como veremos en la sección 12.7. Para aplicar el algoritmo EM necesitamos: (1) Paso M: maximizar la verosimilitud completa respecto a Λ y ψ supuesto conocidos los valores fi de los factores. Esto es fácil de hacer, ya que las Þlas de Λ se obtienen haciendo regresiones entre cada variable y los factores, y los elementos diagonales de ψ son las varianzas residuales en estas regresiones. (2) Paso E: hay que calcular la esperanza de la verosimilitud completa respecto a la dis- tribución de los fi dados los parámetros. Desarrollando (12.24) se observa que las expresiones que aparecen en la verosimilitud son la matriz de covarianzas entre los factores y la matriz de covarianzas entre los factores y los datos. Los detalles de su estimación pueden consultarse en Bartholomew y Knott (1999, p.49) 12.4.2 Otros métodos de estimación Como el método de máxima verosimilitud es complicado, se han propuesto otros métodos aproximados para calcular estimadores con similares propiedades asintóticas pero de cál- culo más simple. Uno de ellos es el de mínimos cuadrados generalizados que exponemos a continuación. Para justiÞcarlo, observemos que la estimación MV puede reinterpretarse como sigue: si no existiesen restricciones sobre V el estimador MV de esta matriz es S y, sustituyendo esta estimación en (12.19) la función soporte en el máximo es: − n 2 log |S| − n 2 p.
  • 373. 12.4. ESTIMACIÓN MÁXIMO VEROSÍMIL 373 Maximizar la función soporte es equivalente a minimizar con respecto a V la función de discrepancia obtenida restando del máximo valor anterior el soporte (12.19). La función obtenida con esta diferencia es: F = n 2 tr ¡ SV−1 ¢ − n 2 p − log ¯ ¯SV−1 ¯ ¯ que indica que se desea hacer V tan próximo a S como sea posible, midiendo la distancia entre ambas matrices por la traza y el determinante del producto SV−1 . Observemos que como V se estima con restricciones ¯ ¯SV−1 ¯ ¯ ≤ 1 y el logaritmo será negativo o nulo. Centrándonos en los dos primeros términos, y despreciando el determinante, la función a minimizar es: F1 = tr ¡ SV−1 ¢ − p = tr ¡ SV−1 − I ¢ = tr £ (S − V) V−1 ¤ que minimiza las diferencias entre la matriz S observada y la estimada V, pero dando un peso a cada diferencia que depende del tamaño de V−1 . Esto conduce a la idea de mínimos cuadrados generalizados, MCG (GLS en inglés), donde minimizamos tr £ (S − V) V−1 ¤2 y puede demostrarse que si se itera el procedimiento de MCG se obtienen estimadores asintóticamente eÞcientes Ejemplo 12.6 Vamos a ilustrar la estimación MV para los datos de INVEST. Suponiendo dos factores se obtienen los resultados de las tablas siguientes: Factor1 Factor2 Variabilidad 6.80 0.53 Ph 0.85 0.06 Ph i=1 Ph 0.85 0.91 Tabla 12.3: Variabilidad explicada por los dos primeros factores estimados por máxima verosimilitud. Factor1 Factor2 ψ2 i INTER.A 0.95 0.25 0.02 INTER.B 0.85 0.08 0.26 AGRIC. 0.92 0.26 0.07 BIOLO. 0.88 0.45 0.01 MEDIC. 0.93 0.3 0.02 QUIMI. 0.86 0.29 0.17 INGEN. 0.95 0.05 0.09 FÍSICA 1 0 0 Tabla 12.4: Matriz de cargas de los factores Si comparamos estos resultados con los obtenidos por el método del factor principal (ejer- cicio 12.5) vemos que el primer factor es similar, aunque aumenta el peso de la física y hay
  • 374. 374 CAPÍTULO 12. ANÁLISIS FACTORIAL más diferencias relativas entre los pesos de las variables. El segundo factor tiene más cam- bios pero su interpretación es también similar. Las varianzas de los componentes especíÞcos presentan pocos cambios con ambos enfoques. Las Þguras 12.2 y 12.3 presentan los pesos y la proyección de los datos sobre el plano de los factores. FISICA INTER.A INGEN. MEDIC. AGRIC. BIOLO. QUIMI. INTER.F 0.00.20.40.60.81.0 Factor1 BIOLO. MEDIC. QUIMI. AGRIC. INTER.A INTER.F INGEN. FISICA 0.00.10.20.30.4 Factor2 Figura 12.2: Pesos de los variables de INVEST en los dos factores estimados por MV. 12.5 DETERMINACIÓN DEL NÚMERO DE FAC- TORES 12.5.1 Contraste de verosimilitud Supongamos que se ha estimado un modelo con m factores. El contraste de que la descom- posición es adecuada puede plantearse como un contraste de razón de verosimilitudes: H0 : V = ΛΛ0 +ψ H1 : V 6= ΛΛ0 +ψ. Este contraste recuerda al de esfericidad parcial que estudiamos en el capítulo 10, aunque existen diferencias porque no exigimos que los componentes especíÞcos tengan igual varianza. El contraste se deduce con los mismos principios que estudiamos en el capítulo 10. Sea ˆV0 el valor de la matriz de varianzas y covarianzas de los datos estimados bajo H0. Entonces,
  • 375. 12.5. DETERMINACIÓN DEL NÚMERO DE FACTORES 375 Factor1 Factor2 -1 0 1
  • 376. 376 CAPÍTULO 12. ANÁLISIS FACTORIAL y, por tanto, mide la distancia entre ˆV0 y e S en términos del determinante, −n log ¯ ¯ ¯S bV−1 0 ¯ ¯ ¯ , que es el segundo término de la verosimilitud. El contraste rechaza H0 cuando λ sea mayor que el percentil 1 − α de una distribución χ2 g con grados de libertad, g, dados por g = dim(H1) − dim(H0). La dimensión del espacio paramétrico de H1 es p + µ p 2 ¶ = p(p + 1)/2, igual al número de elementos distintos de V. La dimensión de H0 es pm — por la matriz Λ — más los p elementos de ψ, menos m(m− 1)/2 restricciones resultantes de la condición que Λ0 ψ−1 Λ debe ser diagonal. Por tanto: g = p + p(p − 1)/2 − pm − p + m(m − 1)/2 = (12.28) = (1/2) ¡ (p − m)2 − (p + m) ¢ Bartlett (1954) ha demostrado que la aproximación asintótica de la distribución χ2 mejora en muestras Þnitas introduciendo un factor de corrección. Con esta modiÞcación, el test es rechazar H0 si (n − 1 − 2p + 4m + 5 6 ) ln |ˆΛˆΛ 0 + ˆψ| |S| > χ2 [((p−m)2 −(p+m))/2] (1 − α) (12.29) Generalmente este contraste se aplica secuencialmente: Se estima el modelo con un valor pequeño, m = m1 (que puede ser m1 = 1) y se contrata H0. Si se rechaza, se reestima con m = m1 + 1, continuando hasta aceptar H0. Un procedimiento alternativo, propuesto por Joreskog (1993), que funciona mejor ante moderadas desviaciones de la normalidad es el siguiente: calcular el estadístico (12.29) para m = 1, . . . , mmax. Sean X2 1 , . . . , X2 mmax sus valores y g1, . . . , gmmax sus grados de libertad. Calcularemos las diferencias X2 m − X2 m+1 y consideramos estas diferencias como valores de una χ2 con gm − gm+1 grados de libertad. Si el valor obtenido es signiÞcativo aumentamos el número de factores y procedemos así hasta que no encontremos una mejora signiÞcativa en el ajuste del modelo. El contraste (12.27) admite una interesante interpretación. El modelo factorial establece que la diferencia entre la matriz de covarianzas, S (p × p), y una matriz diagonal de rango p, ψ, es aproximadamente una matriz simétrica de rango m, ΛΛ0 , es decir: S−bψ ' bΛbΛ0 . Premultiplicando y postmultiplicando por bψ −1/2 se obtiene que la matriz A, dada por: A = bψ −1/2 Sbψ −1/2 − I, (12.30) debe ser asintóticamente igual a la matriz: B = bψ −1/2 bΛbΛ0 bψ −1/2 , (12.31) y tener asintóticamente rango m, en lugar de rango p. Se demuestra en el apéndice 12.2 que el contraste (12.27) equivale a comprobar si la matriz A tiene rango m, lo que debe ser
  • 377. 12.5. DETERMINACIÓN DEL NÚMERO DE FACTORES 377 asintóticamente cierto por (12.31), y que el test (12.27) puede escribirse λ = −n p X m+1 log(1 + di) (12.32) donde di son las p − m menores raíces características de la matriz A. La hipótesis nula se rechaza si λ es demasiado grande comparada con la distribución χ2 con (1/2)((p−m)2 −p−m). En el Apéndice 12.2 se demuestra que este contraste es un caso particular del contraste de verosimilitud sobre la esfericidad parcial de una matriz que presentamos en 10.6. Cuando el tamaño muestral es grande y m es pequeño con relación a p, si los datos no siguen una distribución normal multivariante el contraste conduce generalmente a rechazar H0. Este es un problema frecuente en contraste de hipótesis con muestras grandes, donde tendemos a rechazar H0. Por tanto, es necesario a la hora de decidir el número de factores, diferenciar entre signiÞcatividad práctica y signiÞcatividad estadística, como ocurre en todo contraste de hipótesis. Este contraste es muy sensible a desviaciones de la normalidad por lo que en la práctica el estadístico (12.27) se utiliza como medida de ajuste del modelo más que como un test formal. 12.5.2 Criterios de selección Una alternativa a los contrastes es plantear el problema como uno de selección de modelos. Entonces estimaremos el modelo factorial para distinto número de factores, calcularemos la función soporte en el máximo para cada modelo y, aplicando el criterio de Akaike, elegiremos aquel modelo donde AIC(m) = −2L(H0,m) + 2np sea mínimo. En esta expresión 2L(H0,m) es la función soporte para el modelo que establece m factores particularizada en los estimadores MV, que viene dada por (12.25), y np es el número de parámetros en el modelo. Observemos que esta expresión tiene en cuenta que al aumentar m la verosimilitud de L(H0,m) aumenta, o la desviación −2L(H0,m) disminuye, pero este efecto se contrapesa con el número de parámetros que aperece penalizando la relación anterior. Este mismo criterio de selección puede escribirse como minimizar las diferencias AIC(m) − AIC(H1), donde en todos los modelos restamos la misma cantidad, AIC(H1), que es el valor del AIC para el modelo que supone que no existe estructura factorial y que estima la matriz de covarianzas sin restricciones. Entonces la función a minimizar es AIC∗ (m) = 2(L(H1) − L(H0,m)) − 2g = λ(m) − 2g donde λ(m) es la diferencia de soportes (12.27), donde en esta expresión bV0 se estima con m factores, y g es el número de grados de libertad dado por (12.28). Un criterio alternativo es el BIC presentado en el capítulo 11. Con este criterio en lugar de penalizar el número de parámetros con 2 lo hacemos con logn. Este criterio aplicado a la seleccion del modelo factorial mediante las diferencias de soporte es: BIC(m) = λ(m) − g log n
  • 378. 378 CAPÍTULO 12. ANÁLISIS FACTORIAL Ejemplo 12.7 Aplicaremos el método de máxima verosimilitud a los datos de INVEST, para realizar un contraste sobre el número de factores. Si basamos el contraste en la expresión (12.27) obtenemos la siguiente tabla, m λ gm p − valor AIC BIC 1 31.1 20 0.053 −8.9 −29.79 2 11.73 13 0.55 −14.27 −27.84 3 6.49 7 0.484 −7.51 −14.82 4 5.27 2 0.072 1.27 −0, 73 por ejemplo, si m = 1 el número de grados de libertad es (1/2) ((7)2 − (9)) = 20. Vemos que para α = 0.05 no podemos rechazar la hipótesis nula de que un factor es suÞciente. Sin embargo, el criterio de Akaike indica que el mínimo se obtiene con dos factores, y el criterio BIC conÞrma, por poca diferencia, la elección de un factor. Como el p−valor del contraste anterior está en el límite vamos a comparar este test con el procedimiento propuesto por Joreskog. El primer paso es utilizar la corrección propuesta por Barlet, que realizamos multiplicando los estadísticos χ2 m por (n−1−(2p+4m+5)/6)/n. Por ejemplo, el estadístico corregido para p = 1 es, X2 1 = ((20 − 1 − (2 ∗ 8 + 4 ∗ 1 + 5)/6)/20) ∗ 31.1 = 23.06 en la siguiente tabla presentamos los resultados. p X2 m X2 m − X2 m+1 gm − gm+1 p − valor 1 23.06 14.76 7 0.039 2 8.30 3.92 6 0.687 3 4.38 1 5 0.962 4 3.38 Este método indica que rechazamos la hipótesis de un factor, pero no podemos rechazar la hipótesis de dos factores, con lo que concluimos que el número de factores, escogido con el método de Joreskog, es igual a dos. Como vemos, en este ejemplo el criterio de Joreskov coindice con el criterio de Akaike Ejemplo 12.8 Para los datos EPF de la Encuesta de Presupuestos Familiares del Anexo A.3, aplicaremos la técnica de análisis factorial con la estimación máximo verosímil. Los datos han sido transformados en logaritmos para mejorar la asimetría, al igual que se hizo en el análisis de Componentes Principales presentado en los ejemplos 4.2 y 4.3. Para este análisis también hemos estandarizado las observaciones. Aceptamos el contraste de un único factor dado que el p-valor es 0.242. La estimación de los pesos de este factor es aproximadamente una ponderación con menor peso en los epígrafes de alimentación, vestido y calzado, como se muestra en la tabla 12.5
  • 379. 12.6. ROTACIÓN DE LOS FACTORES 379 X1 X2 X3 X4 X5 X6 X7 X8 X9 Factor 1 0.61 0.64 0.86 0.88 0.82 0.84 0.93 0.89 0.72 Tabla 12.5: Vector de cargas de los factores 12.6 ROTACIÓN DE LOS FACTORES Como vimos en la sección 12.2.3, la matriz de carga no esta identiÞcada ante multiplicaciones por matrices ortogonales, que equivalen a rotaciones. En análisis factorial está deÞnido el espacio de las columnas de la matriz de carga, pero cualquier base de este espacio puede ser una solución. Para elegir entre las posibles soluciones, se tienen en cuenta la interpretación de los factores. Intuitivamente, será más fácil interpretar un factor cuando se asocia a un bloque de variables observadas. Esto ocurrirá si las columnas de la matriz de carga, que representan el efecto de cada factor sobre las variables observadas, contienen valores altos para ciertas variables y pequeños para otras. Esta idea puede plantearse de distintas formas que dan lugar a distintos criterios para deÞnir la rotación. Los coeÞcientes de la matriz ortogonal que deÞne la rotación se obtendrán minimizando una función objetivo que expresa la simplicidad deseada en la representación conseguida al rotar. El criterio más utilizado es el Varimax, que exponemos a continuación. Criterio Varimax La interpretación de los factores se facilita si los que afectan a algunas variables no lo hacen a otras y al revés. Este objetivo conduce al criterio de maximizar la varianza de los coeÞcientes que deÞnen los efectos de cada factor sobre las variables observadas. Para precisar este criterio, llamemos δij a los coeÞcientes de la matriz de carga asociados al factor j en las i = 1, ..., p ecuaciones después de la rotación y δj al vector que es la columna j de la matriz de carga después de la rotación. Se desea, que la varianza de los coeÞcientes al cuadrado de este vector sea máxima. Se toman los coeÞcientes al cuadrado para prescindir de los signos, ya que interesa su valor absoluto. Llamando δ.j = P δ2 ij/p a la media de los cuadrados de los componentes del vector δj, la variabilidad para el factor j es: 1 p p X i=1 (δ2 ij − δ.j)2 = 1 p p X i=1 δ4 ij − (1/p)2 ( p X i=1 δ2 ij)2 , (12.33) y el criterio es maximizar la suma de las varianzas para todos los factores, dada por: q = (1/p) mX j=1 p X i=1 δ4 ij − (1/p)2 mX j=1 ( p X i=1 δ2 ij)2 . (12.34) Sea Λ la matriz de carga estimada inicialmente. El problema es encontrar una matriz ortogonal M tal que la matriz δ dada por δ = ΛM,
  • 380. 380 CAPÍTULO 12. ANÁLISIS FACTORIAL y cuyos coeÞcientes δij viene dados por δij = λ0 i mj siendo λ0 i la Þla i de la matriz Λ y mj la columna j de la matriz M que buscamos, veriÞque la condición de que estos coeÞciente maximicen (12.34). Los términos de la matriz M se obtendrán derivando (12.34) respecto a cada uno de sus términos mij teniendo en cuenta las restricciones de ortogonalidad m0 imi = 1; m0 imj = 0 (i 6= j). El resultado obtenido es la rotación varimax. Ejemplo 12.9 Si aplicamos una rotación varimax a la estimación MV de los datos de IN- VEST del ejemplo 7.6 se obtiene el resultado presentado en la Þgura 12.4. Esta nueva matriz BIOLO. MEDIC. INTER.A AGRIC. QUIMI. INGEN. FISICA INTER.F 0.00.20.40.60.8 Factor1 FISICA INGEN. INTER.F INTER.A AGRIC. MEDIC. QUIMI. BIOLO. 0.00.20.40.60.8 Factor2 Figura 12.4: Resultado de aplicar una rotación varimax para los factores de INVES. de cargas resulta al multiplicar los coeÞcientes de la matriz ortogonal que deÞnen la rotación, M, por la matriz de cargas obtenida en la estimación MV y presentada en el ejemplo 12.6 δ = Λ            0.95 0.25 0.85 0.08 0.92 0.26 0.88 0.45 0.93 0.3 0.86 0.29 0.95 0.05 1 0             M· 0.53 0.85 0.85 −0.53 ¸ =             0.71 0.67 0.52 0.68 0.71 0.64 0.85 0.51 0.75 0.63 0.70 0.58 0.55 0.78 0.53 0.85            
  • 381. 12.7. ESTIMACIÓN DE LOS FACTORES 381 Rotaciones oblicuas El modelo factorial está indeterminado no sólo ante rotaciones ortogonales sino ante rota- ciones oblicuas. En efecto, como vimos en la sección 6.1 el modelo puede establecerse con factores incorrelados o correlados. La solución obtenida de la estimación de Λ corresponde siempre a factores incorrelados, pero podemos preguntarnos si existe una solución con factores correlados que tenga una interpretación más interesante. Matemáticamente esto implica deÞnir nuevos factores f∗ = Hf, donde H es una matriz no singular que puede interpretarse, en general, como un giro oblicuo. La nueva matriz de varianzas y covarianzas de los factores será V∗ f = HH0 . Existen diversos procedimientos para obtener rotaciones oblicuas, como el Quartmin, Oblimax, Promax, etc. que el lector puede consultar en la literatura especializada. El prob- lema de las rotaciones oblicuas es que los factores, al estar correlados, no pueden interpretarse independientemente. 12.7 ESTIMACIÓN DE LOS FACTORES En muchos problemas el interés del análisis factorial es determinar la matriz de carga, y los valores particulares de los factores en los elementos de la muestra no tienen interés. Sin embargo, en otros casos se desean obtener los valores de las variables factores sobre los elementos observados. Existen dos procedimientos para estimar los factores: el primero, debido a Bartlett, supone que el vector de valores de los factores para cada observación es un parámetro a estimar. El segundo, supone que son variables aleatorias. Vamos a revisar brevemente ambos procedimientos. 12.7.1 Los factores como parámetros El vector (p × 1) de valores de las variables en el individuo i, xi, tiene una distribución normal con media Λfi, donde fi es el vector (m × 1) de factores para el elemento i en la muestra, y matriz de covarianzas ψ, es decir xi ∼ Np(Λfi, ψ) Los parámetros fi pueden estimarse por máxima verosimilitud como se indica en el Apéndice 12.3. El estimador resultante es el de mínimos cuadrados generalizados, dado por bfi = ³ bΛ0 bψ −1 bΛ ´−1 bΛ0 bψ −1 xi. (12.35) que tiene una clara interpretación intuitiva: si conocemos Λ, el modelo factorial xi = Λfi + ui es un modelo de regresión con variable dependiente xi, variables explicativas las columnas de Λ y parámetros fi. Como la perturbación, ui, no se distribuye como N(0, I) sino N(0, ψ), tendremos que utilizar mínimos cuadrados generalizados, lo que conduce a (12.35).
  • 382. 382 CAPÍTULO 12. ANÁLISIS FACTORIAL 12.7.2 Los factores como variables aleatorias El segundo método es suponer que los factores son variables aleatorias, y buscar un predictor lineal que minimice el error cuadrático medio de predicción. Llamando fi como antes a los valores de los factores en el individuo i y xi al vector de variables observadas, el vector (fi, xi) tendrá una distribución normal multivariante y el objetivo es encontrar E [fi|xi]. Por los resultados de la sección 8.5.1 tenemos que: E [fi|xi] = E [fi] + Cov (fi, xi) V ar (xi)−1 (xi − E (xi)) Como E [fi] = 0 y las covarianzas entre los factores y las variables son los términos de la matriz de carga, podemos escribir, suponiendo variables de media cero y los parámetros conocidos: bfi = E [fi|xi] = Λ0 V−1 xi (12.36) que es el predictor regresión lineal de los factores sobre los datos. En efecto Λ0 representa las covarianzas entre factores y variables y V las covarianzas entre variables. Esta ecuación puede también escribirse (vease el Apéndice 12.3) como bfi = (I + Λ0 ψ−1 Λ)−1 Λ0 ψ−1 xi. (12.37) Comparando (12.35) y (12.36) vemos que éste último método puede interpretarse como una regresión cresta (ridge regression). Supone sumar la unidad a los elementos diagonales de la matriz Λ0 ψ−1 Λ. Este estimador tiene también una interpretación bayesiana que se presenta en el Apéndice 12.4. Si en las ecuaciones (12.35) y (12.37) sustituimos los valores teóricos por los estimados, obtenemos un vector bfi que representa la estimación del valor de los m factores en el individuo i. Aplicando sucesivamente estas ecuaciones a los n datos muestrales, x1, ..., xn, obtendremos los valores de los factores para los n individuos, f1, ..., fn, donde cada fi es un vector (m × 1). Ejemplo 12.10 Con los datos de ACCIONES estimaremos los valores del factor supuesta la matriz de carga estimada en ejemplo 12.3 para las variables en logaritmos. Vamos a detallar su obtención para las primeras 5 acciones de dicho ejemplo. La matriz de datos X contendrá estas 5 observaciones. X =       1.22 4.5 3.41 1.63 4.02 2.29 1.5 3.96 2.44 1.25 3.85 2.42 1.77 3.75 1.95       Comencemos por el primer método, mínimos cuadrados generalizados. Los estimadores de bΛ, bψ −1 , obtenidos en el ejemplo 12.3 son, bΛ =   −0.269 −0.229 0.407   ; bψ −1 =   1.984 0 0 0 3.834 0 0 0 9.534  
  • 383. 12.8. DIAGNOSIS DEL MODELO 383 y aplicando las fórmulas obtenemos, ³ bΛ0 bψ −1 bΛ ´−1 = 0.5; ³ bΛ0 bψ −1 bΛ ´−1 bΛ0 bψ −1 =   −0.55 −1.75 19.24   0 Los 5 primeros valores del primer factor se calculan con bfi = X µ³ bΛ0 bψ −1 bΛ ´−1 bΛ0 bψ −1 ¶ , bfi =       1.22 4.5 3.41 1.63 4.02 2.29 1.5 3.96 2.44 1.25 3.85 2.42 1.77 3.75 1.95         −0.55 −1.75 19.24   =       57.062 36.128 39.191 39.136 29.982       Para estimar los valores por el segundo método calcularemos : ³ I+bΛ0 bψ −1 bΛ ´−1 = 0.342; ³ I+bΛ0 bψ −1 bΛ ´−1 bΛ0 bψ −1 =   −0.36 −1.15 12.65   0 y los 5 primeros valores del primer factor se calculan con bfi = X ³ I + bΛ0 bψ −1 bΛ ´−1 bΛ0 bψ −10 , bfi =       1.22 4.5 3.41 1.63 4.02 2.29 1.5 3.96 2.44 1.25 3.85 2.42 1.77 3.75 1.95         −0.36 −1.15 12.65   =       37.52 23.75 25.77 25.73 19.72       Observemos que ambas estimaciones presentan la misma estructura, pero el efecto de contracción del segundo método hace que los valores obtenidos sean menores. 12.8 DIAGNOSIS DEL MODELO Residuos de los factores Para contrastar si el modelo es adecuado conviene calcular los factores bf y los residuos e y estudiar sus propiedades. De acuerdo con las hipótesis: u ∼ Np(0, ψ) Por tanto, si la matriz de covarianzas de los residuos no es diagonal debemos aumentar el número de factores hasta que los residuos estimados: bui = ei = xi − Λbfi veriÞquen las hipótesis. En concreto, contrastaremos si los residuos tienen una distribución normal. Los residuos pueden indicarnos también la presencia de observaciones atípicas o de grupos de observaciones que no se ajustan bien al modelo construido.
  • 384. 384 CAPÍTULO 12. ANÁLISIS FACTORIAL Ejemplo 12.11 Para los datos de EPF calculamos la matriz de varianzas covarianzas de los residuos del modelo estimado en el ejercicio 12.8, donde se estimó un único factor. ˆψ =               0.61 0.13 -0.04 -0.03 -0.06 -0.03 0.02 -0.11 0.05 0.13 0.57 -0.01 0.04 -0.01 0.01 -0.05 -0.13 0.04 -0.04 -0.01 0.22 -0.07 -0.07 -0.05 -0.01 0.01 -0.06 -0.03 0.04 -0.07 0.19 -0.03 -0.01 -0.05 -0.03 0.02 -0.06 -0.01 -0.07 -0.03 0.3 0 -0.02 -0.04 -0.01 -0.03 0.01 -0.05 -0.01 0 0.26 -0.06 -0.05 0.1 0.02 -0.05 -0.01 -0.05 -0.02 -0.06 0.1 -0.01 -0.1 -0.11 -0.13 0.01 -0.03 -0.04 -0.05 -0.01 0.18 -0.05 0.05 0.04 -0.06 0.02 -0.01 0.1 -0.1 -0.05 0.45               En la diagonal Þgura la varianza especíÞca, se aprecia que los términos de fuera de la diagonal son relativamente pequeños. Compararemos esta matriz con la resultante de estimar dos factores, que en el contraste tiene un p-valor de 0.64, la nueva matriz de varianzas de los residuos es: ˆψ =               0.6 0.12 -0.04 -0.04 -0.07 -0.06 0.02 -0.1 0.01 0.12 0.53 0.03 0.02 -0.01 -0.04 -0.01 -0.09 -0.08 -0.04 0.03 0.22 -0.04 -0.05 -0.01 -0.03 0.01 0 -0.04 0.02 -0.04 0.19 -0.02 -0.04 -0.02 0 -0.05 -0.07 -0.01 -0.05 -0.02 0.3 -0.01 -0.01 -0.02 -0.03 -0.06 -0.04 -0.01 -0.04 -0.01 0.18 -0.01 -0.01 -0.05 0.02 -0.01 -0.03 -0.02 -0.01 -0.01 0.03 -0.04 0 -0.1 -0.09 0.01 0 -0.02 -0.01 -0.04 0.19 0.01 0.01 -0.08 0 -0.05 -0.03 -0.05 0 0.01 0.17               y la variabilidad especiÞca ha disminuido en las variables X7 y X9 y fuera de la diagonal, en general, los valores son más pequeños. Se podía incrementar el número de factores en uno más, pero se corre el peligro de sobreajustar el modelo y que la interpretación de los pesos esté demasiado sujeta a los datos en concreto usados. En las Þguras 12.5 y 12.6 se presentan las cargas de los factores y la representación de las distintas provincias en el espacio formado por estos dos factores.Las cargas del segundo factor permiten una interpretación análoga a la descrita para el segundo componente principal. En la Þgura 12.7 presentamos los histogramas de las distribuciones marginales de los residuos. Algunos de estos histogramas no parecen seguir una distribución normal. Residuos del ajuste Se deÞnen los residuos del ajuste como los términos de S− bV. Frecuentemente es más cómodo utilizar los residuos estandarizados, donde cada residuo se divide por su desviación típica asintótica.
  • 385. 12.8. DIAGNOSIS DEL MODELO 385 X7 X8 X4 X3 X6 X5 X9 X2 0.00.20.40.60.8 Factor1 X9 X6 X2 X7 X4 X3 X8 X1 -0.10.10.3 Factor2 Figura 12.5: Representación de la matriz de cargas de los dos primeros factores estimados por máxima verosimilitud. Medidas de ajuste del modelo Podemos construir una medida del ajuste del modelo factorial para cada variable mediante γ2 i = h2 i s2 i = 1 − ψ2 i s2 i que suele denominarse coeÞciente de correlación al cuadrado entre la variable y los factores. El coeÞciente de determinación para todo el sistema puede construirse con R2 = 1 − ¯ ¯ ¯bψ ¯ ¯ ¯ 1/p ¯ ¯ ¯ bV ¯ ¯ ¯ 1/p , donde ¯ ¯ ¯bψ ¯ ¯ ¯es el determinante de la matriz de varianzas residuales y ¯ ¯ ¯ bV ¯ ¯ ¯ el estimado por el modelo. El estadístico χ2 dado por (12.27) proporciona otra medida global de ajuste. Para calibrar su valor lo compararemos con sus grados de libertad. Cuando los datos no son normales la distribución de (12.27) puede desviarse mucho de la χ2 pero, en cualquier caso, su valor puede utilizarse como un criterio de ajuste. Ejemplo 12.12 Calculamos el coeÞciente de correlación al cuadrado entre la variable y los factores para los datos el ejemplo 12.8 en el modelo con dos factores. Como las variables
  • 386. 386 CAPÍTULO 12. ANÁLISIS FACTORIAL Factor1 Factor2 -2 -1 0 1 2 -101 Almeria Cadiz CordobaGranada Huelva Jaen Malaga Sevilla Huesca Teruel Zaragoza Asturias Baleares Las-Palmas Tenerife Cantabria Avila Burgos Leon Palencia Salamanca Segovia Soria Valladolid Zamora Albacete Ciudad-Real Cuenca Guadalajara Toledo Barcelona Gerona Lerida Tarragona Alicante Castellon Valencia Badajoz Caceres La-Coruna Lugo Orense Pontevedra Madrid Murcia Navarra Alava Guipuzcoa Vizcaya La-Rioja Ceuta-Melilla Figura 12.6: Representación de las provincias en los dos primeros factores. originales estaban estandarizadas, s2 i = 1 para i = 1, . . . , 9, los coeÞcientes se calculan como 1 menos la varianza especiÞca. X1 X2 X3 X4 X5 X6 X7 X8 X9 γ2 i 0.4 0.47 0.78 0.81 0.7 0.82 0.97 0.81 0.83 El coeÞciente de determinación es R2 = 1 − ( 1.781499 × 10−8 0.0002415762 )1/9 = . 652 y vemos que proporciona un valor promedio de las relaciones de dependencia en el sistema. 12.9 Análisis Factorial ConÞrmatorio El análisis factorial puede aplicarse como una herramienta exploratoria o como un modelo para contrastar teorías. En este segundo caso, el número de factores se supone conocido a priori y se establecen restricciones sobre los elementos de la matriz de carga. Por ejemplo, algunos pueden ser cero o iguales entre sí. Dada la existencia de información adicional,
  • 387. 12.9. ANÁLISIS FACTORIAL CONFIRMATORIO 387 -2 -1 0 1 2 0.00.20.40.6 X1 -2 -1 0 1 0.00.20.4 X2 -1.0 -0.5 0.0 0.5 1.0 1.5 0.00.40.8 X3 -1.0 -0.5 0.0 0.5 1.0 1.5 0.00.40.8 X4 -1.5 -1.0 -0.5 0.0 0.5 1.0 0.00.20.40.6 X5 -1.5 -0.5 0.0 0.5 1.0 1.5 0.00.40.8 X6 -0.2 0.0 0.2 0.4 0.6 0123 X7 -1.5 -0.5 0.0 0.5 1.0 1.5 0.00.40.8 X8 -0.5 0.0 0.5 1.0 0.00.40.8 X9 Figura 12.7: Histograma de las distribuciones marginales de los residuos. se supone habitualmente que los factores tienen matriz de varianza y covarianzas Vf no necesariamente identidad, aunque con restricciones en sus términos. La ecuación fundamental se convierte en Vx = ΛVf Λ0 + ψ pero ahora las tres matrices desconocidas del sistema, Λ, Vf y ψ contienen numerosas re- stricciones de manera que el número total de parámetros libres, t, veriÞca t ≤ p (p + 1) 2 para que el modelo esté identiÞcado. La estimación se realiza por máxima verosimilitud, pero la restricción Λ0 ψ−1 Λ =diagonal no suele imponerse si no es necesaria para identiÞcar el modelo. Los contrastes de bondad del modelo son análogos a los estudiados, pero ahora el número de grados de libertad será p(p+1) 2 − t, siendo t el número de parámetro libres estimados. Sin embargo, los efectos de no normalidad son aquí más graves que cuando estimamos todos los parámetros, como ocurre en análisis factorial exploratorio. Recomendamos que el análisis factorial conÞrmatorio, se compare siempre con un análisis exploratorio para conÞrmar que el modelo impuesto no está en contradicción con los datos observados.
  • 388. 388 CAPÍTULO 12. ANÁLISIS FACTORIAL 12.10 Relación con componentes principales En componentes principales descomponemos la matriz de varianzas y covarianzas de las X como: S = AΓA0 = [a1 . . . an]      λ1 0 · · · 0 0 λ2 · · · 0 ... ... ... 0 0 · · · λn         a1 ... a0 n    = [a1 . . . an]    λ1a0 1 ... λna0 n    = λ1a1a0 1 + . . . + λnana0 n Si λj = 0 para j < h, podemos reconstruir S con los primeros j componentes. Llamando H = AΓ1/2 , tenemos que: S = HH0 . En Análisis factorial descomponemos S como: S = ΛΛ0 + ψ, y como la matriz ψ es diagonal puede recoger las varianzas de las variables, mientras que la matriz de carga recoge las covarianzas de las variables. Esta es una diferencia importante entre ambos métodos. El primero trata de explicar las varianzas, mientras que el segundo explica las covarianzas o correlaciones. Observemos que si bψ ' 0, es lo mismo tomar m componentes principales que estimar m factores. La diferencia es tanto menor cuanto menor sea bψ. Otra forma de estudiar la relación entre ambos métodos es la siguiente: sea X la matriz de datos original y Z la matriz de valores de los componentes. Entonces: Z = XA, o también, como A es ortogonal X = ZA0 , que permite reconstruir las variables originales a partir de los componentes. Escribiendo x1 = α11z1 + . . . + αm1zm + . . . + αpmzp ... xp = αp1z1 + . . . + αpmzm + . . . + αppzp con m componentes tenemos: x1 = α11z1 + . . . + α1mzm + v1 ... xp = αp1z1 + . . . + αmpzm + vp
  • 389. 12.11. LECTURAS RECOMENDADAS 389 Esta representación es aparentemente análoga al modelo factorial, ya que v1 estará in- correlada con los factores (z1, ..., zm) al incluir únicamente las variables (zm+1, ..., zp) que son ortogonales a las anteriores. Sin embargo, la diferencia básica es que en el modelo factorial los errores de las distintas ecuaciones están incorrelados, mientras que en ésta representación no lo estarán. En efecto, como (v1, ...vp) contienen todas las variables comunes (zm+1, ..., zp) estarán correladas. Por esta razón, en general los resultados de ambos métodos serán distin- tos. Estos resultados indican que si existen m componentes principales que explican una proporción muy alta de la variabilidad, de manera que la variabilidad especíÞca dada por los términos diagonales de ψ sea pequeña, el análisis factorial y el análisis de componentes principales sobre la matriz de correlaciones serán resultados similares. También en este caso la estimación mediante el método de factores principales conducirá a resultados similares al de máxima verosimilitud. Aparte de estas diferencias, ambas técnicas tienen una interpretación diferente: en com- ponentes principales tratamos de representar graÞcamente los datos, mientras que en análisis factorial suponemos que los factores generan las variables observadas. 12.11 Lecturas recomendadas La mayoría de los textos de análisis multivariante incluyen un capítulo de análisis factori- al. Buenos textos recomendables para complementar lo aqui expuesto son Cuadras (1991), que presenta una exposición muy detallada y clara, Jobson (1992), Johnson and Wichern (1998), Mardia et al (1979), Rechner (1998) y Seber (1984). Presentaciones más extensas se encuentran en Bartholomew y Knott (1999) y Harman (1980). La estimación máximo verosimil se estudia con detalle en Joreskov (1963) y Lawley y Maxwell (1971), aunque no se incluyen métodos más modernos de estimación basados en el algoritmo EM o en métodos bayesianos. Bartholomew y Knott (1999) presentan de forma clara la estimación mediante el algoritmo EM. Otra buena referencia sobre el tema es Schafer (1997). Para el tratamiento Bayesiano véase O’ Hagan (1994) EJERCICIOS Ejercicio 12.1 Dado el modelo factorial x = Λ f + u , donde x = (x1, x2, x3, x4) tiene media cero y varianzas ( 1, 2, 1, 7), y donde Λ = (.8, 1, 0, 2)0 , y Var(f) = 1, se pide: (1) Calcular las covarianzas entre las variables y el factor; (2) Calcular las correlaciones entre las variables y el factor; (3) Escribir el modelo como un modelo unifactorial con un factor de varianza igual a 5. Ejercicio 12.2 Indicar si es posible el siguiente modelo factorial x = Λ f + u , donde x = (x1, x2, x3) tiene media cero y varianzas (3, 1, 2), y donde Λ = (3, 0, 3)0 , y Var(f) = 1. Ejercicio 12.3 Dado un modelo factorial con x = (x1, x2, x3, x4, x5,x6) de media cero y Λ = (λ1λ2) con λ1 = (1, 1, 1, 0, 0, 0)0 , y λ2 = (0, 1, 0, 1, 0, 1) y Var(f) = · 1 .5 .5 2 ¸ , escribirlo en forma estándar con la normalización Λ0 Λ = Diagonal
  • 390. 390 CAPÍTULO 12. ANÁLISIS FACTORIAL Ejercicio 12.4 Demostrar utilizando la relación fundamental que a. Si la varianza especíÞca es igual a la varianza de una variable, la Þla de la matriz de carga correspondiente a dicha variable debe tener todos los elementos nulos. b. Si la covarianza entre dos variables es cero, las Þlas correspondientes a estas variables en la matriz de carga son ortogonales. c. Si las variables están estandarizadas la correlación entre las variables i y j es el pro- ducto escalar de las Þlas de la matriz de carga correspondientes a estas variables. d. Si las variables están estandarizadas, la correlación entre la variable i y el factor j es el término (ij) de la matriz de carga. Ejercicio 12.5 Demostrar utilizando la relación fundamental que si las varianzas de los componentes especíÞcos son idénticos, las columnas de la matriz de carga son vectores propios de la matriz de covarianzas, y obtener los valores propios. Ejercicio 12.6 Indicar cuál será el número máximo de factores incorrelados que podemos estimar con diez variables. ¿Y si los factores están correlados? Ejercicio 12.7 Demostrar mediante un ejemplo que con el método del factor principal no se obtiene la misma matriz de carga con variables estandarizadas y sin estandarizar. Ejercicio 12.8 Se dispone de 20 variables y antes de realizar un análisis factorial se realizan componentes principales y se eligen los 5 primeros componentes. A continuación se realiza un análisis factorial sobre estos componentes. ¿Cuántos factores esperaríamos encontrar? Ejercicio 12.9 Demostrar que si cada columna de la matriz de carga tiene un único ele- mento no nulo, el modelo factorial no está identiÞcado. Ejercicio 12.10 Demostrar que si rotamos los factores la comunalidad total de cada variable no varía. Ejercicio 12.11 Si Λ = (1, 1, ..., 1)0 indicar la ecuación para estimar el valor del factor en un individuo si a. diag(ψ) = p(1, 1, .., 1), b. diag(ψ) = (1, 2, .., p) Ejercicio 12.12 Demostrar que en el modelo unifactorial con ψ = σ2 I , el determinante de bV0 es ((Λ0 Λ) + σ2 )(σ2 )p−1 . Ejercicio 12.13 Demostrar que si todas las variables tienen perturbaciones con la misma varianza y ψ =ψ0I, y suponiendo Λ0 Λ = diagonal = D, las columnas de Λ son directamente vectores propios de la matriz V, con valores propios di +ψ0, donde di es el término diagonal de D
  • 391. 12.11. LECTURAS RECOMENDADAS 391 APÉNDICE 12.1:ESTIMACIÓN MÁXIMO-VEROSÍMIL DEL MODELO FACTORIAL La estimación MV de Λ y ψ requiere escribir la ecuación de verosimilitud con la restricción Λψ−1 Λ = D = diagonal, derivarla y obtener las condiciones de primer orden. Este proceso conduce al mismo resultado que resolver la ecuación de estimación por momentos S = bΛbΛ0 + bψ (12.38) con las restricciones de que bΛ sea (p × m) y ψ diagonal. Esta segunda condición se satisface tomando: bψ = diag ³ S − bΛbΛ0 ´ . (12.39) Supongamos que a partir de un valor inicial de bΛ obtenemos la matriz bψ mediante (12.39). El nuevo estimador de Λ debe satisfacer aproximadamente la ecuación S − bψ = bΛbΛ0 . Este sistema tiene p(p + 1)/2 ecuaciones y p × m incógnitas y en general no tiene solución única. Para reducirlo a un sistema de p×m ecuaciones post-multipliquemos la ecuación (12.38) por bψ −1 bΛ. Reordenando términos, se obtiene el sistema de ecuaciones: Sbψ −1 bΛ = bΛ(bΛ0 bψ −1 bΛ + I) =bΛ(D + Im) (12.40) donde Im es la matriz identidad de orden m. Esta ecuación cuando bψ −1 es conocido pro- porciona un sistema no lineal de (p × m) ecuaciones con (p × m) incógnitas para obtener bΛ, y sugiere que bΛ puede obtenerse a partir de los vectores propios Sbψ −1 , pero esta matriz no es simétrica. Para resolver este problema, premultiplicando por bψ −1/2 , podemos escribrir bψ −1/2 Sbψ −1/2 (bψ −1/2 bΛ) = (bψ −1/2 bΛ)(D + Im) (12.41) que muestra que podemos obtener bψ −1/2 bΛ como vectores propios de la matriz simétrica bψ −1/2 Sbψ −1/2 , o tambien, de la matriz simétrica bψ −1/2 Sbψ −1/2 − Ip. Los estimadores MV satisfacen dos propiedades importantes. La primera es tr ³ SbV−1 0 ´ = p que indica que con la distancia de la traza la matriz estimada está tan cerca como es posible de la matriz de covarianzas observada S. En efecto, bV0 = S, entonces tr ¡ SS−1 ¢ = tr (Ip) = p. La segunda es que se obtiene el mismo resultado trabajando con variables estandarizadas o sin estandarizar, es decir si estimamos por MV la matriz de carga con las variables originales se obtiene el mismo resultado que si (1) estandarizamos las variables restando las medias y dividiendo por las desviaciones típicas , (2) estimamos por MV la matriz de carga, que es entonces la matriz de correlación entre las variables originales y los factores, (3) pasamos de esa matriz de correlación a la matriz de covarianzas multiplicando por las desviaciones típicas de las variables.
  • 392. 392 CAPÍTULO 12. ANÁLISIS FACTORIAL Demostremos la primera propiedad. Si bV0 = bψ + bΛbΛ0 es la estimación MV de la matriz de covarianzas, entonces (véase la sección 2.3.4): bV−1 0 = ³ bψ + bΛbΛ0 ´−1 = bψ −1 − bψ −1 bΛ ³ Im + bΛ0 bψ −1 bΛ ´−1 bΛ0 bψ −1 y multiplicando por S y tomando trazas : tr ³ S bV−1 0 ´ = tr ³ Sbψ −1 ´ − tr ³ Sbψ −1 bΛ (Im + D)−1 bΛ0 bψ −1 ´ Utilizando la condición (12.40) tr ³ S bV−1 0 ´ = tr ³ Sbψ −1 ´ − tr ³ bΛbΛ0 bψ −1 ´ y, por las propiedades lineales de la traza, tr ³ SbV−1 0 ´ = tr h³ S − bΛbΛ0 ´ bψ −1 i = tr ³ diag ³ S − bΛbΛ0 ´ bψ −1 ´ . donde el último paso proviene de que el producto de dos matrices diagonales es diagonal y la traza es simplemente la suma de sus elementos diagonales. Por otro lado, la ecuación (12.39) implica diag ³ S − bΛbΛ0 ´ bψ −1 = Ip y tomando trazas en esta ecuación tr ³ S bV−1 0 ´ = tr ³³ S − bΛbΛ0 ´ bψ −1 ´ = tr (Ip) = p y hemos demostrado que el estimador MV veriÞca (??). Para demostrar la segunda propiedad, supongamos que hacemos la transformación y = DX, donde D es cualquier matriz diagonal (por ejemplo, estandarizamos las variables lo que equivale a trabajar con R, matriz de correlación, en lugar de con S, matriz de covarianzas). Entonces Sy = DSxD y ψy = DψxD. Al calcular la nueva matriz para obtener los valores y vectores propios, tendremos ψ−1/2 y Sy −1 ψ−1/2 y = (DψxD)−1/2 DSxD(DψxD)−1/2 = ψ−1/2 x Sx −1 ψ−1/2 x y es idéntica a la anterior. APÉNDICE: 12.2 CONTRASTES SOBRE EL RANGO DE UNA MATRIZ En este apéndice vamos a demostrar que el contraste sobre el número de factores es un caso particular del contraste general de esfericidad parcial, estudiado en 10.6. Necesitamos para ello el Lema siguiente:
  • 393. 12.11. LECTURAS RECOMENDADAS 393 Lemma 3 |Im − UU0 | = |Ip − U0 U|. Esta igualdad se demuestra aplicando la fórmula del determinante de una matriz particionada a los determinantes de la igualdad · Im U U0 Ip ¸ = · Ip U0 U Im ¸ . Vamos a utilizar este lema para demostrar que el contraste de la razón de verosimili- tudes (12.27) tiene en cuenta únicamente los p − m menores valores propios de la matriz bψ −1/2 Sbψ −1/2 . Partiendo del estimador MV de bV0, tenemos: ¯ ¯ ¯ bV0 ¯ ¯ ¯ = ¯ ¯ ¯bΛbΛ0 + bψ ¯ ¯ ¯ = ¯ ¯ ¯bψ 1/2 ¯ ¯ ¯ ¯ ¯ ¯bψ −1/2 bΛbΛ0 bψ −1/2 + Ip ¯ ¯ ¯ ¯ ¯ ¯bψ 1/2 ¯ ¯ ¯ = ¯ ¯ ¯bψ ¯ ¯ ¯ ¯ ¯ ¯bΛ0 bψ −1/2 bψ −1/2 bΛ + Im ¯ ¯ ¯ Llamando D = bΛ0 bψ −1 bΛ , se obtiene que, ¯ ¯ ¯bV0 ¯ ¯ ¯ = ¯ ¯ ¯bψ ¯ ¯ ¯ |D + Im| = ¯ ¯ ¯bψ ¯ ¯ ¯ mY i=1 (1 + dj) (12.42) donde dj es el elemento diagonal j de D. Por otro lado, de la estimación de los parámetros por el método de MV del apéndice 12.1, hemos visto en la relación (12.41), que la matriz bψ −1/2 Sbψ −1/2 − Ip tiene m valores propios iguales a los términos diagonales de D. En general esta matriz tendrá rango p, y llamemos también di a sus restantes valores propios para i = m + 1, ..., p. En consecuencia, los valores propios de la matriz bψ −1/2 Sbψ −1/2 serán 1 + di y podemos escribir: ¯ ¯ ¯bψ −1/2 Sbψ −1/2 ¯ ¯ ¯ = |S| / ¯ ¯ ¯bψ ¯ ¯ ¯ = p Y i=1 (1 + di) (12.43) y utilizando (12.42) y (12.43) ¯ ¯ ¯bV0 ¯ ¯ ¯ |S| = ¯ ¯ ¯bψ ¯ ¯ ¯ Qm i=1(1 + di) ¯ ¯ ¯bψ ¯ ¯ ¯ Qp i=1(1 + di) = 1 Qp i=m+1(1 + di) con lo que se obtiene Þnalmente: λF = n log ¯ ¯ ¯bV0 ¯ ¯ ¯ /|S| = −n log p X i=m+1 (1 + di) (12.44) y el contraste de verosimilitud depende únicamente de los valores propios más pequeños de la matriz bψ −1/2 Sbψ −1/2 . Vamos a demostrar ahora que este contrate es un caso particular del contraste de esferi- cidad parcial, presentado en 10.6, cuyo estadístico es: λEP = n(p − m) log Pp i=m+1 λi p − m − n log p Y i=m+1 λi (12.45)
  • 394. 394 CAPÍTULO 12. ANÁLISIS FACTORIAL donde λi son los valores propios de S, y que el estadístico (12.44) resulta de aplicar este contrate a la matriz bψ −1/2 Sbψ −1/2 . Si el modelo factorial es correcto, asintóticamente S = ψ + ΛΛ0 y pre y postmultiplicando por ψ−1/2 : ψ−1/2 Sψ−1/2 = I + ψ−1/2 ΛΛ0 ψ−1/2 (12.46) que descompone la matriz ψ−1/2 Sψ−1/2 en una de rango m más la matriz identidad. Como los valores propios de esta matriz son 1 + di, tenemos que λEP = n(p − m) log Pp i=m+1(1 + di) p − m − n log p X i=m+1 (1 + di) (12.47) queda ahora por demostrar que el primer término es cero. Tomando trazas en (12.46). tr(ψ−1/2 Sψ−1/2 ) = p + tr(ψ−1/2 ΛΛ0 ψ−1/2 ) = p + tr(Λ0 ψ−1 Λ) = p + mX i=1 dj pero también, por ser 1+di los valores propios de ψ−1/2 Sψ−1/2 , sabemos que tr(ψ−1/2 Sψ−1/2 ) =Pp i=1(1 + di), e igulando ambos resultados para la traza: p X i=1 (1 + di) = p + mX i=1 dj de donde resulta p X i=m+1 di = 0 o, lo que es equivalente p X i=m+1 (1 + di) = p − m. y sustituyendo en (12.47) el primer término se anula y queda únicamente el segundo, con lo que obtenemos el contraste de la razón de verosimilitud. APÉNDICE 12.3 :ESTIMACIÓN DE LOS FACTORES Sea xi el vector (p × 1) en el individuo i. Su función de densidad será: f(xi) = |ψ|−1/2 (2π)−p/2 exp © −1/2(xi − Λfi)0 ψ−1 (xi − Λfi) ª supongamos que ψ y Λ son conocidas y se trata de estimar fi. Entonces, la función de verosimilitud en logaritmos será: L = log f(xi) = K − 1/2(xi − Λfi)0 ψ−1 (xi − Λfi)
  • 395. 12.11. LECTURAS RECOMENDADAS 395 donde K es una constante. Maximizar L equivale a minimizar: M = (xi − Λfi)0 ψ−1 (xi − Λfi) que es el criterio de mínimos cuadrados. Entonces: M = x0 iψ−1 xi − 2f0 iΛ0 ψ−1 xi + f0 iΛ0 ψ−1 Λfi. Derivando respecto a fi e igualando a cero: dM dfi = 0 = −2Λ0 ψ−1 xi + 2Λ0 ψ−1 Λfi por tanto fi = (Λ0 ψ−1 Λ)−1 Λ0 ψ−1 xi sustituyendo en esta expresión Λ y ψ por sus estimadores MV se obtiene el vector ˆfi para cada observación. Si el parámetro se considera como variable aleatoria, por las propiedades de la esperanza condicional bfi = E [fi|xi] = Λ0 V−1 xi Utilizando que: V−1 = (ψ + ΛΛ0 )−1 = ψ−1 − ψ−1 Λ(I + Λ0 ψ−1 Λ)−1 Λ0 ψ−1 , entonces, Λ0 V−1 = Λ0 ψ−1 − Λ0 ψ−1 Λ(I + Λ0 ψ−1 Λ)−1 Λ0 ψ−1 Λ0 V−1 = [I − Λ0 ψ−1 Λ(I + Λ0 ψ−1 Λ)−1 ]Λ0 ψ−1 Λ0 V−1 = (I + Λ0 ψ−1 Λ)−1 Λ0 ψ−1 . y sustituyendo en la expresión de bfi, se obtiene: bfi = (I + Λ0 ψ−1 Λ)−1 Λ0 ψ−1 xi. APÉNDICE 12.4: INTERPRETACIÓN BAYESIANA DEL ES- TIMADOR DE LOS FACTORES El estimador (12.37) tiene una clara interpretación bayesiana. Como a priori, la distribu- ción del factor, π (fi), es N(0, I), y la verosimilitud f (x|f, Λ, ψ) es N (Λf, ψ), la posterior condicionada a los parámetros es: f (fi|x, Λ, ψ) = k f (x|fi, Λ, ψ) π (fi) (12.48) donde k es una constante. El exponente de la distribución posterior será: (x − Λf)0 ψ−1 (x − Λf) + f0 f = f0 ¡ I + Λ0 ψ−1 Λ ¢ f− 2f0 Λ0 ψ−1 x + x0 ψ−1 x,
  • 396. 396 CAPÍTULO 12. ANÁLISIS FACTORIAL y completando el cuadrado, el exponente puede escribirse f0 ¡ I + Λ0 ψ−1 Λ ¢ f − 2f0 ¡ I + Λ0 ψ−1 Λ ¢ ¡ I + Λ0 ψ−1 Λ ¢−1 Λ0 ψ−1 x+ Resto es decir ³ f−bf ´0 ¡ I + Λ0 ψ−1 Λ ¢ ³ f−bf ´ donde bf = E [f|Λ, ψ] = ¡ I + Λ0 ψ−1 Λ ¢−1 Λ0 ψ−1 x (12.49) y V ar ³ bf ´ = V ar [f|Λ, ψ] = ¡ I + Λ0 ψ−1 Λ ¢−1 (12.50) Por tanto, el estimador (12.37) puede interpretarse como la media de la distribución a posteriori de los factores. Observemos que la condición Λ0 ψ−1 Λ = diagonal hace que los factores sean, a posteriori, condicionalmente independientes.
  • 397. Capítulo 13 ANÁLISIS DISCRIMINANTE 13.1 INTRODUCCIÓN El problema de discriminación o clasiÞcación, que abordaremos en este capítulo, puede plantearse de varias formas y aparece en muchas áreas de la actividad humana: desde la diagnosis médica a los sistemas de concesión de créditos o de reconocimiento de falsas obras de arte. El planteamiento estadístico del problema es el siguiente. Se dispone de un conjunto amplio de elementos que pueden venir de dos o más poblaciones distintas. En cada elemento se ha observado una variable aleatoria p− dimensional x, cuya distribución se conoce en las poblaciones consideradas. Se desea clasiÞcar un nuevo elemento, con valores de las vari- ables conocidas, en una de las poblaciones. Por ejemplo, la primera aplicación del análisis discriminante consitió en clasiÞcar los restos de un cráneo descubierto en una excavación como humano, utilizando la distribución de medidas físicas para los cráneos humanos y los de antropoides. El problema de discriminación aparece en muchas situaciones en que necesitamos clasi- Þcar elementos con información incompleta. Por ejemplo, los sistemas automáticos de concesión de créditos (credit scoring) implantados en muchas instituciones Þnancieras tienen que utilizar variables medibles hoy (ingresos, antigüedad en el trabajo, patrimonio, etc) para prever el comportamiento futuro. En otros casos la información podría estar disponible, pero puede requerir destruir el elemento, como en el control de calidad de la resistencia a la ten- sión de unos componentes. Finalmente, en otros casos la información puede ser muy costosa de adquirir. En ingeniería este problema se ha estudiado con el nombre de reconocimiento de patrones (pattern recognition), para diseñar máquinas capaces de clasiÞcar de manera automática. Por ejemplo, reconocer voces y sonidos, clasiÞcar billetes o menedas, reconocer caracteres escritos en una pantalla de ordenador o clasiÞcar cartas según el distrito postal. Otros ejemplos de aplicaciones del análisis discriminante son: asignar un texto escrito de procedencia desconocida a uno de varios autores por las frecuencias de utilización de pal- abras, asignar una partitura musical o un cuadro a un artista, una declaración de impuestos como potencialmente defraudadora o no, una empresa como en riesgo de quiebra o no, las enseñanzas de un centro como teóricas y aplicadas, un paciente como enfermo de cáncer o no, un nuevo método de fabricación como eÞcaz o no. Las técnicas que vamos a estudiar reciben también el nombre de clasiÞcación supervisada, 397
  • 398. 398 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE para indicar que conocemos una muestra de elementos bien clasiÞcados que sirve de pauta o modelo para la clasiÞcación de las siguientes observaciones. Existen varios enfoques posibles para este problema. El primero, que se presenta en este capítulo, es el análisis discriminante clásico debido a Fisher, basado en la normalidad multivariante de las variables consideradas y que es óptimo bajo dicho supuesto. Si todas las variables son continuas, es frecuente que aunque los datos originales no sean normales es posible transformar las variables para que lo sean, y los métodos de este capítulo pueden aplicarse a las variables transformadas. Sin embargo, cuando tengamos variables discretas y continuas para clasiÞcar, la hipótesis de normalidad multivariante es poco realista, y en el capítulo siguiente se presentan otros enfoques al problema que pueden funcionar mejor en estos casos. 13.2 CLASIFICACIÓN ENTRE DOS POBLACIONES 13.2.1 Planteamiento del Problema Sean P1 y P2 dos poblaciones donde tenemos deÞnida una variable aleatoria vectorial, x, p- variante. Supondremos que x es absolutamente continua y que las funciones de densidad de ambas poblaciones, f1 y f2, son conocidas. Vamos a estudiar el problema de clasiÞcar un nuevo elemento, x0, con valores conocidos de las p variables en una de estas poblaciones. Si conocemos las probabilidades a priori π1, π2, con π1 + π2 = 1, de que el elemento venga de cada una de las dos poblaciones, su distribución de probabilidad será una distribución mezclada f(x) =π1f1(x)+π2f2(x) y una vez observado x0 podemos calcular las probabilidades a posteriori de que el elemen- to haya sido generado por cada una de las dos poblaciones, P(i/x0), con i = 1, 2. Estas probabilidades se calculan por el teorema de Bayes P(1|x0) = P(x0|1)π1 π1P(x0|1)+π2P(x0|2) y como P(x0|1) = f1(x0)∆x0, tenemos que: P(1/x0) = f1(x0)π1 f1(x0)π1 + f2(x0)π2 , (13.1) y para la segunda población P(2|x0) = f2(x0)π2 f1(x0)π1 + f2(x0)π2 . (13.2) ClasiÞcaremos x0 en la población más probable a posteriori. Como los denominadores son iguales, clasiÞcaremos x0 en P2 si: π2f2(x0) > π1f1(x0)
  • 399. 13.2. CLASIFICACIÓN ENTRE DOS POBLACIONES 399 Si las probabilidades a priori son iguales, la condición de clasiÞcar en P2 se reduce a: f2(x0) > f1(x0) es decir, clasiÞcamos a x0 en la población más probable, o donde su verosimilitud es más alta. Consideración de las consecuencias En muchos problemas de clasiÞcación los errores que podemos cometer tienen distintas con- secuencias que podemos cuantiÞcar. Por ejemplo, si una máquina automática clasiÞca equiv- ocadamente un billete de 10 euros como de 20, y devuelve el cambio equivocado, el coste de clasiÞcación es de 10 euros. En otros casos estimar el coste puede ser más complejo: si no concedemos un crédito que sería devuelto podemos perder un cliente y los ingresos futuros que este podría generar, mientras que si el crédito no se devuelve el coste es la cantidad impagada. Como tercer ejemplo, si clasiÞcamos un proceso productivo como en estado de control, el coste de equivocarnos será una producción defectuosa, y si, por error, paramos un proceso que funciona adecuadamente, el coste será el de la parada y revisión. En general supondremos que las posibles decisiones en el problema son únicamente dos: asignar en P1 o en P2. Una regla de decisión es una partición del espacio muestral Ex (que en general será Rp ) en dos regiones A1 y A2 = Ex − A1, tales que: si x0 ∈ A1 =⇒ d1 (clasiÞcar en P1). si x0 ∈ A2 =⇒ d2 (clasiÞcar en P2). Si las consecuencias de un error de clasiÞcación pueden cuantiÞcarse, podemos incluirlas en la solución del problema formulándolo como un problema bayesiano de decisión. Supong- amos que: 1. las consecuencias asociadas a los errores de clasiÞcación son, c(2|1) y c(1|2), donde c(i|j) es el coste de clasiÞcación en Pi de una unidad que pertenece a Pj. Estos costes se suponen conocidos; 2. el decisor quiere maximizar su función de utilidad y esto equivale a minimizar el coste esperado. Con estas dos hipótesis la mejor decisión es la que minimiza los costes esperados, o funciones de pérdida de oportunidad, en la terminología de Wald. Los resultados de cada decisión que se presenta esquemáticamente en la Þgura 13.1. Si clasiÞcamos al elemento en el grupo 2 las posibles consecuencias son: (a) acertar, con probabilidad P(2|x0), en cuyo caso no hay ningún coste de penalización; (b) equivocarnos, con probabilidad P(1|x0), en cuyo caso incurrimos en el coste asociado c(2|1).
  • 400. 400 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE 0 d2 C(2/1) 0 d1 C(1/2) 0P(1/x) P(2/x) P(1/x) P(2/x) Figura 13.1: Representación de un problema de clasiÞcación entre dos grupos como un problema de decisión. El coste promedio, o valor esperado, de la decisión ”d2: clasiÞcar x0 en P2” será: E(d2) = c(2|1)P(1|x0) + 0P(2|x0) = c(2|1)P(1|x0). (13.3) Análogamente, el coste esperado de la decisión ”d1: clasiÞcar en el grupo 1” es: E(d1) = 0P(1|x0) + c(1|2)P(2|x0) = c(1|2)P(2|x0). (13.4) Asignaremos al elemento al grupo 2 si su coste esperado es menor, es decir, utilizando (13.1) y (13.2), si: f2(x0)π2 c (2|1) > f1(x0)π1 c (1|2) . (13.5) Esta condición indica que, a igualdad de los otros términos, clasiÞcaremos en la población P2 si (a) su probabilidad a priori es más alta; (b) la verosimilitud de que x0 provenga de P2 es más alta; (c) el coste de equivocarnos al clasiÞcarlo en P2 es más bajo. En el Apéndice 13.1 se demuestra que este criterio es equivalente a minimizar la proba- bilidad total de error en la clasiÞcación.
  • 401. 13.2. CLASIFICACIÓN ENTRE DOS POBLACIONES 401 13.2.2 Poblaciones Normales: Función lineal discriminante Vamos a aplicar el análisis anterior al caso en que f1 y f2 son distribuciones normales con distintos vectores de medias pero idéntica matriz de varianzas. Para establecer la regla con carácter general supondremos que se desea clasiÞcar un elemento genérico x, que si pertenece a la población i = 1, 2 tiene función de densidad: fi(x) = 1 (2π)p/2|V |1/2 exp ½ − 1 2 (x − µi)0 V−1 (x − µi) ¾ . La partición óptima, es, de acuerdo con la sección anterior, clasiÞcar en la población P2 si: f2(x)π2 c(2|1) > f1(x)π1 c(1|2) . (13.6) Como ambos términos son siempre positivos, tomando logaritmos y sustituyendo fi(x) por su expresión, la ecuación anterior se convierte en: − 1 2 (x − µ2)0 V−1 (x − µ2) + log π2 c(2|1) > − 1 2 (x − µ1)0 V−1 (x − µ1) + log π1 c (1|2) , Llamando D2 i a la distancia de Mahalanobis entre el punto observado, x, y la media de la población i: D2 i = (x − µi)0 V−1 (x − µi) podemos escribir: D2 1 − log π1 c (1|2) > D2 2 − log π2 c(2|1) (13.7) y suponiendo iguales los costes y las probabilidades a priori, c(1/2) = c(2/1); π1 = π2, la regla anterior se reduce a: ClasiÞcar en 2 si D2 1 > D2 2 es decir, clasiÞcar la observación en la población de cuya media esté más próxima, midiendo la distancia con la medida de Mahalanobis. Observemos que si las variables x tuvieran V = Iσ2 , la regla equivale a utilizar la distancia euclídea. La Þgura 13.2 muestra las curvas de equidistancia con la distancia de Mahalanobis para dos poblaciones normales con centros en el origen y el punto (5,10).
  • 402. 402 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE Figura 13.2: Curvas de equidistancia con la distancia de Mahalanobis para clasiÞcar 13.2.3 Interpretación Geométrica La regla general anterior puede escribirse de una forma equivalente que permite interpretar geométricamente el método de clasiÞcación utilizado. La ecuación (13.7) indica que debemos calcular la distancia de Mahalanobis, corregirla por el término correspondiente a las prob- abilidades a priori y los costes, y clasiÞcar en el población donde esta distancia modiÞcada sea mínima. Como las distancias tiene siempre el término común x0 V−1 x, que no depende de la población, podemos eliminarlo de las comparaciones y calcular el indicador −µ0 iV−1 x + 1 2 µ0 iV−1 µi − log πi c(i|j) , que será una función lineal en x y clasiÞcar el individuo en la población donde esta función sea mínima. Esta regla divide el conjunto de valores posibles de x en dos regiones cuya frontera viene dada por: −µ0 1V−1 x + 1 2 µ0 1V−1 µ1 = −µ0 2V−1 x + 1 2 µ0 2V−1 µ2 − log c(1|2)π2 c(2|1)π1 , que, como función de x, equivale a: (µ2 − µ1)0 V−1 x =(µ2 − µ1)0 V−1 µ µ2 + µ1 2 ¶ − log c(1|2)π2 c(2|1)π1 . (13.8) Llamando: w = V−1 (µ2 − µ1) (13.9)
  • 403. 13.2. CLASIFICACIÓN ENTRE DOS POBLACIONES 403 la frontera puede escribirse como: w0 x = w0 µ2 + µ1 2 − log c(1|2)π2 c(2|1)π1 (13.10) que es la ecuación de un hiperplano. En el caso particular en que c(1|2)π2 = c(211)π1, clasiÞcaremos en P2 si w0 x > w0 µ µ1 + µ2 2 ¶ . (13.11) o lo que es equivalente, si w0 x − w0 µ1 > w0 µ2 − w0 x (13.12) Esta ecuación indica que el procedimiento para clasiÞcar un elemento x0 puede resumirse como sigue: (1) calcular el vector w con (13.9); (2) construir la variable indicadora discriminante: z = w0 x = w1x1 + .... + wpxp que transforma la variable multivariante x en la variable escalar z , que es una com- binación lineal de los valores de la variable multivariante con coeÞcientes dados por el vector w; (3) calcular el valor de la variable indicadora para el individuo a clasiÞcar, x0 = (x10, ..., xp0), con z0 = w0 x0 y el valor de la variable indicadora para las medias de las poblaciones, mi = w0 µi. ClasiÞcar en aquella población donde la distancia |z0 − mi| sea mínima. En términos de la variable escalar z, como el valor promedio de z en Pi es : E(z|Pi) = mi = w0 µi, i = 1, 2 La regla de decisión (13.12) equivale a clasiÞcar en P2 si: |z − m1| > |z − m2| (13.13) Esta variable indicadora, z, tiene varianza: V ar(z) = w0 V ar(x)w = w0 Vw = (µ2 − µ1)0 V−1 (µ2 − µ1) = D2 . (13.14) y el cuadrado de la distancia escalar entre las medias proyectadas es la distancia de Maha- lanobis entre los vectores de medias originales: (m2 − m1)2 = (w0 (µ2 − µ1))2 = (µ2 − µ1)0 V−1 (µ2 − µ1) = D2 . (13.15)
  • 404. 404 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE Figura 13.3: Representación de la dirección óptima de proyección para discriminar entre las dos poblaciones. La variable indicadora z puede interpretarse como una proyección si estandarizamos el vector w. Dividiendo los dos miembros de (13.11) por la norma de w y llamando u al vector unitario w/ kwk , la regla de clasiÞcación se convierte en clasiÞcar en P2 si u0 x − u0 µ1 > u0 µ2 − u0 x, (13.16) donde, al ser u un vector unitario, u0 x es simplemente la proyección de x en la dirección de u y u0 µ1 y u0 µ2 las proyecciones de las medias poblacionales en esa dirección. En la Þgura 13.3 se observa que el hiperplano perpendicular a u por el punto medio u0 (µ1 +µ2)/2 divide el espacio muestral en dos regiones A1 y A2 que constituyen la partición óptima buscada. Si c(1|2)π2 6= c(2|1)π1 la interpretación es la misma, pero el hiperplano frontera se desplaza paralelamente a sí mismo, aumentando o disminuyendo la región A2. La dirección de proyección, w = V−1 (µ2 −µ1) tiene una clara interpretación geométrica. Consideremos en primer lugar el caso en que las variables están incorreladas y estandarizadas de manera que V = I. Entonces, la dirección óptima de proyección es la deÞnida por µ2 −µ1. En el caso general, la dirección de proyección puede calcularse en dos etapas: primero, se estandarizan las variables de forma multivariante, para pasar a variables incorreladas con varianza unidad; segundo, se proyectan los datos transformados sobre la dirección que une las medias de las variables estandarizadas. En efecto, el cálculo de w0 x puede escribirse como: w0 x = £ (µ2 − µ1)0 V−1/2 ¤ (V−1/2 x) donde V−1/2 existe si V es deÞnida positiva. Esta expresión indica que esta operación equiv- ale a: (1) estandarizar las variables x pasando a otras y = V−1/2 x que tienen como matriz
  • 405. 13.2. CLASIFICACIÓN ENTRE DOS POBLACIONES 405 de covarianzas la identidad y como vector de medias V−1/2 µ; (2) proyectar las variables estandarizadas y sobre la dirección µ2(y) − µ1(y) = (µ2 − µ1)0 V−1/2 . La Þgura 13.4 ilustra algunas direcciones de proyección. En (a) y (b) la dirección de las linea que une las medias coindice con alguno de los ejes principales de la elipse y por tanto la dirección w = V−1 (µ2 −µ1) coincide con (µ2 −µ1), ya que este es un vector propio de V, y por tanto también de V−1 . En (c) la dirección óptima es un compromiso entre (µ2 − µ1) y las direcciones deÞnidas por los vectores propios de V−1 . (c) (a) (b) w w w Figura 13.4: En los casos (a) y (b) la dirección óptima coindice con la linea de medias y con los ejes de la elipse. En el caso (c) es un compromiso entre ambos 13.2.4 Cálculo de Probabilidades de error La utilidad de la regla de clasiÞcación depende de los errores esperados. Como la distribución de la variable z = w0 x es normal, con media mi = w0 µi y varianza D2 = (m2−m1)2 , podemos calcular las probabilidades de clasiÞcar erróneamente una observación en cada una de las dos poblaciones. En concreto, la probabilidad de una decisión errónea cuando x ∈ P1 es: P(2|1) = P ½ z ≥ m1 + m2 2 | z es N(m1; D) ¾ y llamando y = (z−m1)/D a una variable aleatoria N(0, 1), y Φ a su función de distribución: P(2|1) = P ½ y ≥ m1+m2 2 − m1 D ¾ = 1 − Φ µ D 2 ¶ Análogamente, la probabilidad de una decisión errónea cuando x ∈ P2 es: P(1|2) = P ½ z ≤ m1 + m2 2 | z es N(m2; D) ¾ =
  • 406. 406 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE = P ½ y ≤ m1+m2 2 − m2 D ¾ = Φ µ − D 2 ¶ y ambas probabilidades de error son idénticas, por la simetría de la distribución normal . Podemos concluir que la regal obtenida hace iguales y mínimas (veáse Apéndice 13.1) las probabilidades de error y que los errores de clasiÞcación sólo dependen de las distancias de Mahalanobis entre las medias. 13.2.5 Probabilidades a posteriori El grado de conÞanza al clasiÞcar una observación depende de la probabilidad acertar. La probabilidad a posteriori de que la observación pertenezca a la primera población se calcula con : P(1|x) = π1f1(x) π1f1(x) + π2f2(x) = = π1 exp © −1 2 (x − µ1)0 V−1 (x − µ1) ª (π1 exp © −1 2 (x − µ1)0V−1(x − µ1) ª + π2 exp © −1 2 (x − µ2)0V−1(x − µ2) ª y llamando D2 1 y D2 2 a las distancias de Mahalanobis entre el punto y cada una de las dos medias, esta expresión puede escribirse: P(1|x) = 1 1 + π2 π1 exp © −1 2 (D2 2 − D2 1) ª y sólo depende de las probabilidades a priori y de las distancias entre el punto y las medias de ambas poblaciones. Observemos que si π2/π1 = 1, cuanto más alejado esta el punto de la primera población, es decir, cuanto mayor sea D2 1 respecto a D2 2, mayor serà el denominador y menor será la probabilidad de que pertenezca a ella, P(1|x), y al contrario. Ejemplo 13.1 Se desea clasiÞcar un retrato entre dos posibles pintores. Para ello se miden dos variables: la profundidad del trazo y la proporción que ocupa el retrato sobre la superÞcie del lienzo. Las medias de estas variables para el primer pintor, A, son (2 y .8) y para el segundo, B, (2.3 y .7) y las desviaciones típicas de estas variables son .5 y .1 y la correlación entre estas medidas es .5. La obra a clasiÞcar tiene medidas de estas variables (2.1 y .75). Calcular las probabilidades de error. Las distancias de Mahalanobis serán, calculando la covarianza como el producto de la correlación por las desviaciones típicas: D2 A = (2.1 − 2, .75 − .8) · .25 .025 .025 .01 ¸−1 µ 2.1 − 2 75 − .8 ¶ = 0, 52
  • 407. 13.3. GENERALIZACIÓN PARA VARIAS POBLACIONES NORMALES 407 y para la segunda D2 B = (2.1 − 2.3, .75 − .7) · .25 .025 .025 .01 ¸−1 µ 2.1 − 2.3 .75 − .7 ¶ = 0, 8133 Por tanto, asignaremos la obra al primer pintor. El error esperado de clasiÞcación con esta regla depende de la distancia de Mahalanobis entre las medias que es D2 = (2. − 2.3, .8 − .7) · .25 .025 .025 .01 ¸−1 µ 2. − 2.3 .8 − .7 ¶ = 2, 6133 y D = 1.6166. La probabilidad de equivocarnos es P(A/B) = 1 − Φ( 1.6166 2 ) = 1 − Φ(.808) = 1 − 0, 8106 = 0, 1894. De manera que la clasiÞcación mediante estas variables no es muy precisa, ya que podemos tener un 18,94% de probabilidad de error. Calculemos la probabilidad a posteriori de que el cuadro pertenezca al pintor A suponiendo que, a priori, ambos pintores son igualmente probables. P(A/x) = 1 1 + exp(−0.5(0, 8133 − 0, 52) = 1 1.86 = 0, 5376 Esta probabilidad indica que al clasiÞcar la obra como perteneciente al pintor A existe mucha incertidumbre en la decisión, ya que las probabilidades de que pertenezca a cada pintor son semejantes (0,5376 y 0,4624). 13.3 GENERALIZACIÓN PARA VARIAS POBLA- CIONES NORMALES 13.3.1 Planteamiento General La generalización de estas ideas para G poblaciones es simple: el objetivo es ahora dividir el espacio Ex en G regiones A1, . . . , Ag, . . . , AG tales que si x pertenece a Ai el punto se clasiÞca en la población Pi. Supondremos que los costes de clasiÞcación son constantes y no dependen de la población en que se haya clasiÞcado. Entonces, la región Ag vendrá deÞnida por aquellos puntos con máxima probabilidad de ser generados por Pg, es decir donde el producto de la probabilidad a priori y la verosimilitud sean máximas: Ag = {x ∈ Ex|πgfg(x) > πifi(x); ∀i 6= g} (13.17) Si las probabilidades a priori son iguales, πi = G−1 , ∀i, y las distribuciones fi (x) son normales con la misma matriz de varianzas, la condición (13.17) equivale a calcular la dis- tancia de Mahalanobis del punto observado al centro de cada población y clasiÞcarle en
  • 408. 408 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE la población que haga esta distancia mínima. Minimizar las distancias de Mahalanobis¡ x − µg ¢0 V−1 ¡ x − µg ¢ equivale, eliminando el término x0 V−1 x que aparece en todas las ecuaciones, a minimizar el indicador lineal Lg (x) = −2µ0 gV−1 x + µ0 gV−1 µg. (13.18) y llamando wg = V−1 µg la regla es min g (w 0 gµg − 2w 0 gx) Para interpretar esta regla, observemos que la frontera de separación entre dos pobla- ciones, (ij), vendrá deÞnida por: Aij(x) = Li(x) − Lj(x) = 0 (13.19) sustituyendo con (13.18) y reordenando los términos se obtiene: Aij(x) = 2(µi − µj)0 V−1 x + (µi − µj)0 V−1 (µi + µj) = 0 y llamando wij = V−1 (µi − µj) = wi − wj la frontera puede escribirse como: w0 ijx = w0 ij 1 2 (µi + µj). Esta ecuación admite la misma interpretación como proyección que en el caso de dos poblaciones. Se construye una dirección wij y se proyectan las medias y el punto x que tratamos de clasiÞcar sobre esta dirección. La región de indiferencia es cuando el punto proyectado está equidistante de las medias proyectadas. En otro caso, asignaremos el punto a la población de cuya media proyectada esté más próxima. Vamos a comprobar que si tenemos G poblaciones sólo necesitamos encontrar r = min(G − 1, p) direcciones de proyección. En primer lugar observemos que, aunque podemos construir¡G 2 ¢ = G (G − 1) /2 vectores wij a partir de las G medias, una vez que tenemos G − 1 vectores los demás quedan determinados por éstos. Podemos determinar los G − 1 vectores wi,i+1, para i = 1, ..., G − 1, y obtener cualquier otro a partir de estas G − 1 direcciones. Por ejemplo: wi,i+2 = V−1 (µi − µi+2) = V−1 (µi − µi+1) − V−1 (µi+1 − µi+2) = wi,i+1 − wi+1,i+2.
  • 409. 13.3. GENERALIZACIÓN PARA VARIAS POBLACIONES NORMALES 409 En conclusión, si p > G − 1, el número máximo de vectores w que podemos tener es G − 1, ya que los demás se deducen de ellos. Cuando p ≤ G − 1, como estos vectores pertenecen a Rp el número máximo de vectores linealmente independientes es p. Es importante resaltar que, como es natural, la regla de decisión obtenida cumple la propiedad transitiva. Por ejemplo, si G = 3, y obtenemos que para un punto (x) D2 1(x) > D2 2(x) D2 2(x) > D2 3(x) entonces forzosamente debemos concluir que D2 1(x) > D2 3(x) y esta será el resultado que obtendremos si calculamos estas distancias, por lo que el análisis es coherente. Además, si p = 2, cada una de las tres ecuaciones Aij(x) = 0 será una recta y las tres se cortarán en el mismo punto. En efecto, cualquier recta que pase por el punto de corte de las rectas A12(x) = 0 y A23(x) = 0 tiene la expresión a1A12(x) + a2A23(x) = 0 ya que si x∗ 0 es el punto de corte como A12 (x∗ ) = 0, por pertenecer a la primera recta, y A23 (x∗ ) = 0, por pertenecer a la segunda, pertenecerá a la combinación lineal. Como, según (13.19), A13 (x) = L1 (x) − L3 (x) = L1 (x) − L2 (x) + L2 (x) − L3 (x), tenemos que: A13(x) = A12(x) + A23(x) y la recta A13(x) debe siempre pasar por el punto de corte de las otras dos. 13.3.2 Procedimiento operativo Para ilustrar el procedimiento operativo, supongamos cinco poblaciones con p > 4, con lo que existirán cuatro reglas de clasiÞcación independientes y las demás se deducen de ellas. Tenemos dos formas de realizar el análisis. La primera es calcular para las G poblaciones las distancias de Mahalanobis (o lo que es equivalente, las proyecciones (13.18)) y clasiÞcar el elemento en la más próxima. La segunda es hacer el análisis comparando las poblaciones dos a dos. Supongamos que hemos obtenido de las comparaciones 2 a 2 los siguientes resultados: (i > j indica que la población i es preferida a la j, es decir, el punto se encuentra más próximo a la media de la población i que a la de j): 1 > 2 2 > 3 4 > 3 5 > 4 Las poblaciones 2, 3 y 4 quedan descartadas (ya que 1 > 2 > 3 y 5 > 4). La duda no resuelta se reÞere a las poblaciones 1 y 5. Construyendo (a partir de las reglas anteriores) la regla para discriminar entre estas dos últimas poblaciones, supongamos que
  • 410. 410 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE 5 > 1 y clasiÞcaremos en la población 5. Cuando p < G − 1 el máximo número de proyecciones linealmente independientes que podemos construir es p, y éste será el máximo número de variables a deÞnir. Por ejemplo, supongamos que p = 2 y G = 5. Podemos deÞnir una dirección de proyección cualquiera, por ejemplo w12 = V−1 (µ1 − µ2) y proyectar todas las medias (µ1, µ2, ..., µ5) y el punto x sobre dicha dirección. Entonces, clasiÞcaremos el punto en la población de cuya media proyectada está más próxima. Ahora bien, es posible que sobre esta dirección coincidan las medias proyectadas de varias pobla- ciones. Si esto ocurre con, por ejemplo, las µ4 y µ5, resolveremos el problema proyectando sobre la dirección deÞnida por otra pareja de poblaciones. Ejemplo 13.2 Una máquina que admite monedas realiza tres mediciones de cada moneda para determinar su valor: peso (x1), espesor (x2) y la densidad de estrías en su canto (x3). Los instrumentos de medición de estas variables no son muy precisos y se ha comprobado en una amplia experimentación con tres tipos de monedas usadas, M1, M2, M3 , que las medidas se distribuyen normalmente con medias para cada tipo de moneda dadas por: µ1 = 20 8 8 µ2 = 19.5 7.8 10 µ3 = 20.5 8.3 5 y matriz de covarianzas V =   4 .8 −5 .8 .25 −.9 −5 −.9 9   Indicar cómo se clasiÞcaría una moneda con medidas (22, 8.5 ,7) y analizar la regla de clasiÞcación. Calcular las probabilidades de error. Aparentemente la moneda a clasiÞcar está más próxima a M3 en las dos primeras coor- denadas, pero más próxima a M1 por x3, la densidad de estrías. La variable indicador para clasiÞcar entre M1 y M3 es z = (µ1 − µ3)V−1 x = 1.77x1 − 3.31x2 + .98x3 la media de esta variable para la primera moneda, M1,es 1.77×20−3.31×8+.98×8 =16.71 y para la tercera, M3, 1.77 × 20.5 − 3.31 × 8.3 + .98 × 5 =13.65. El punto de corte es la media, 15.17. Como para la moneda a clasiÞcar es z = 1.77 × 22 − 3.31 × 8.5 + .98 × 7 = 17.61
  • 411. 13.3. GENERALIZACIÓN PARA VARIAS POBLACIONES NORMALES 411 la clasiÞcaremos como M1. Este análisis es equivalente a calcular las distancias de Maha- lanobis a cada población que resultan ser D2 1 = 1.84, D2 2 = 2.01 y D2 3 = 6.69. Por tanto clasiÞcamos primero en M1, luego en M2 y Þnalmente como M3. La regla para clasiÞcar entre la primera y la segunda es z = (µ1 − µ2)V−1 x = −.93x1 + 1.74x2 − .56x3 de estas dos reglas deducimos inmediatamente la regla para clasiÞcar entre la segunda y la tercera, ya que (µ2 − µ3)V−1 x = (µ1 − µ3)V−1 x − (µ1 − µ2)V−1 x Analicemos ahora las reglas de clasiÞcación obtenidas. Vamos a expresar la reglas inicial para clasiÞcar entre M1 y M3 para las variables estandarizadas, con lo que se evita el problema de las unidades. Llamando exi a las variables divididas por sus desviaciones típicas ex1 = x1/2;ex2 = x2/.5, y ex3 = x3/3, la regla en variables estandarizadas es z = 3.54ex1 − 1.65ex2 + 2.94ex3 que indica que las variables con más peso para decidir la clasiÞcación son la primera y la tercera, que son la que tienen mayores coeÞcientes. Observemos que con variables es- tandarizadas la matriz de covarianzas es la de correlación R =   1 .8 −.83 .8 1 −.6 −.83 −.6 1   El origen de estas correlaciones entre los errores de medida es que si la moneda adquiere suciedad y aumenta ligeramente su peso, también aumenta su espesor y hace más difícil determinar su densidad de estrías. Por eso hay correlaciones positivas entre peso y espesor, al aumentar el peso aumenta el espesor, pero negativas con las estrías. Aunque la moneda que queremos clasiÞcar tiene mucho peso y espesor, lo que indicaría que pertenece a la clase 3, entonces la densidad de estrías debería medirse como baja, ya que hay correlaciones negativas entre ambas medidas, y sin embargo se mide relativamente alta en la moneda. Las tres medidas son coherentes con una moneda sucia del tipo 1, y por eso se clasiÞca con facilidad en ese grupo. Vamos a calcular la probabilidad a posteriori de que la observación sea de la clase M1. Suponiendo que las probabilidades a priori son iguales esta probabilidad será P(1/x0) = exp(−D2 1/2) exp(−D2 1/2) + exp(−D2 2/2) + exp(−D2 3/2) y sustituyendo las distancias de Mahalanobis P(1/x0) = exp(−1.84/2) exp(−1.84/2) + exp(−2.01/2) + exp(−6.69/2) = .50 y análogamente P(2/x0) = .46, y P(3/x0) = .04.
  • 412. 412 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE Podemos calcular las probabilidades de error de clasiÞcar una moneda de cualquier tipo en otra clase. Por ejemplo, la probabilidad de clasiÞcar una moneda M3 con esta regla como tipo M1 es P(z > 15.17/N(13.64, √ 3.07)) = P(y > 15.17 − 13.64 1.75 ) = P(y > .87) = .192 como vemos esta probabilidad es bastante alta. Si queremos reducirla hay que aumentar la distancia de Mahalanobis entre las medias de los grupos, lo que supone ”aumentar” la matriz V−1 o ”reducir” la matriz V. Por ejemplo, si reducimos a la mitad el error en la medida de las estrías introduciendo medidores más precisos, pero se mantiene las correlaciones con las otras medidas, pasamos a la matriz de covarianzas V2 =   4 .8 −2.5 .8 .25 −.45 −1 −.2 2.25   la regla de clasiÞcación entre la primera y la tercera es ahora z = (µ1 − µ3)V−1 x = 3.44x1 − 4.57x2 + 4.24x3 y la distancia de Mahalanobis entre las poblaciones 1 y 3 (monedas M1 y M3) ha pasado de 3.01 a 12.38, lo que implica que la probabilidad de error entre estas dos poblaciones ha disminuido a 1 − Φ( √ 12.38/2) = 1 − Φ(1.76) = .04 y vemos que la probabilidad de error ha disminuido considerablemente. Podemos así calcular la precisión en las medidas que necesitaríamos para conseguir unas probabilidades de error determinadas. 13.4 POBLACIONES DESCONOCIDAS. CASO GEN- ERAL 13.4.1 Regla estimada de clasiÞcación Vamos a estudiar cómo aplicar la teoría anterior cuando en lugar de trabajar con poblaciones disponemos de muestras. Abordaremos directamente el caso de G poblaciones posibles. Como caso particular, la discriminación clásica es para G = 2. La matriz general de datos X de dimensiones n × p, (n individuos y p variables), puede considerarse particionada ahora en G matrices correspondientes a las subpoblaciones. Vamos a llamar xijg a los elementos de estas submatrices, donde i representa el individuo, j la variable y g el grupo o submatriz. Llamaremos ng al número de elementos en el grupo g y el número total de observaciones es: n = GX g=1 ng Vamos a llamar x0 ig al vector Þla (1×p) que contiene los p valores de las variables para el individuo i en el grupo g, es decir, x0 ig = (xi1g, ...., xipg). El vector de medias dentro de cada clase o subpoblación será:
  • 413. 13.4. POBLACIONES DESCONOCIDAS. CASO GENERAL 413 xg = 1 ng ng X i=1 xig (13.20) y es un vector columna de dimensión p que contiene las p medias para las observaciones de la clase g. La matriz de varianzas y covarianzas para los elementos de la clase g será: bSg = 1 ng − 1 ng X i=1 (xig − xg)(xig − xg)0 (13.21) donde hemos dividido por ng − 1 para tener estimaciones centradas de las varianzas y co- varianzas. Si suponemos que las G subpoblaciones tienen la misma matriz de varianzas y covarianzas, su mejor estimación centrada con todos los datos será una combinación lineal de las estimaciones centradas de cada población con peso proporcional a su precisión. Por tanto: bSw = GX g=1 ng − 1 n − G bSg y llamaremos W a la matriz de sumas de cuadrados dentro de las clases que viene dada por: W = (n − G)bSw (13.22) Para obtener las funciones discriminantes utilizaremos xg como estimación de µg, y bSw como estimación de V. En concreto, suponiendo iguales las probabilidades a priori y los costes de clasiÞcación, clasiÞcaremos al elemento en el grupo que conduzca a un valor mínimo de la distancia de Mahalanobis entre el punto x y la media del grupo. Es decir, llamando bwg = bS−1 w xg clasiÞcaremos un nuevo elemento x0 en aquella población g donde min g (x0 − xg)0bS−1 w (x0 − xg) = min g bw0 g(xg − x0) que equivale a construir las variables indicadoras escalares zg,g+1 = bw0 g,g+1x0 g = 1, ..., G donde bwg,g+1 = bS−1 w (xg − xg+1) = bwg − bwg+1 y clasiÞcar en g frente a g + 1 si |zg,g+1 − bmg| < |zg,g+1 − bmg+1|
  • 414. 414 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE donde bmg = bw0 g,g+1xg. Conviene antes de construir la regla de clasiÞcación realizar un test de que los grupos son realmente distintos, es decir, que no todas las medias µg son iguales. Este contraste puede realizarse siguiendo lo expuesto en la sección 10.7. En la apéndice 13.2 se demuestra que en el caso de dos grupos la función de discriminación lineal bw = bS−1 ω (x2 − x1) puede obtenerse por regresión, deÞniendo una variable Þcticia que tome los valores cero o uno según que el dato pertenezca a una u otra población. 13.4.2 Cálculo de Probabilidades de error El cálculo de probabilidades de error podría hacerse sustituyendo los parámetros descono- cidos por los estimados y aplicando las fórmulas de la sección 13.2, pero este método no es recomendable ya que va a subestimar mucho las probabilidades de error al no tener en cuenta la incertidumbre de estimación de los parámetros. Un mejor procedimiento, que además no depende de la hipótesis de normalidad, es aplicar la función discriminante a las n observaciones y clasiÞcarlas. En el caso de 2 grupos, obtendríamos la tabla: ClasiÞcado P1 P2 Realidad P1 n11 n12 P2 n21 n22 donde nij es el número de datos que viniendo de la población i se clasiÞca en j. El error aparente de la regla es: Error = n12 + n21 n11 + n22 = Total mal clasiÞcados Total bien clasiÞcados . Este método tiende a subestimar las probabilidades de error ya que los mismos datos se utilizan para estimar los parámetros y para evaluar el procedimiento resultante. Un proced- imiento mejor es clasiÞcar cada elemento con una regla que no se ha construido usándolo. Para ello, podemos construir n funciones discriminantes con las n muestras de tamaño n − 1 que resultan al eliminar uno a uno cada elemento de la población y clasiÞcar después cada dato con la regla construida sin él. Este método se conoce como validación cruzada y con- duce a una mejor estimación del error de clasiÞcación. Si el número de observaciones es muy alto, el coste computational de la validación cruzada es alto y una solución más rápida es subdividir la muestra en k grupos iguales y realizar la validación cruzada eliminado en lugar de una observación uno de estos grupos. Ejemplo 13.3 Vamos a utilizar los datos de MEDIFIS para clasiÞcar personas por su género conocidas las medidas físicas de las variables de la tabla A.5. Como los datos para toda la población de hombre y mujeres son desconocidos, vamos a trabajar con los datos muestrales. En la muestra hay 15 mujeres (variable sexo=0) y 12 hombres (sexo=1). En el ejemplo 10.2 comprobamos que las medias de las poblaciones de las medidas físicas de hombres y mujeres son diferentes. Las funciones discriminantes bwg = bS−1 w xg se indican en la tabla adjunta
  • 415. 13.5. VARIABLES CANÓNICAS DISCRIMINANTES 415 est pes pie lbr aes dcr lrt hombres −1.30 −4.4 20.0 10.0 −2.1 24.4 −4.4 mujeres −1.0 −4.4 17.7 9.5 −2.5 25.1 −4.7 diferencia −.3 0 2.3 .5 .4 −.7 .3 La diferencia entre estas dos funciones proporciona la función lineal discriminante. Se observa que la variable con mayor peso en la discriminación es la longitud del pie. Para interpretar este resultado, la tabla siguiente indica las diferencias estandarizadas entre los medias de cada variable en ambas poblaciones. Por ejemplo, la diferencia estandarizada entre las estaturas es (177.58 − 161.73)/6.4 = 2.477 est pes pie lbr aes dcr lrt dif medias 15.8 18.65 4.83 7.72 5.67 1.36 4.56 desv. típicas 6.4 8.8 1.5 3.1 2.9 1.7 2.2 dif. estand. 2.47 2.11 3.18 2.48 1.97 .78 2.07 , La variable que separa más ambas poblaciones es la longitud del pie. Como, además, la longitud del pie esta muy correlada con la estatura y la longitud del brazo, conocida la longitud del pie estas variables no son tan informativas, lo que explica su bajo peso en la función discriminante. Si aplicamos la función discriminante para clasiÞcar los datos muestrales obtenemos un porcentaje de éxitos del 100%. Todas las observaciones se clasiÞcan bien. Aplicando vali- dación cruzada se obtiene ClasiÞcado M H Realidad M 13 2 H 2 10 Ejemplo 13.4 que supone una proporción de aciertos de 23/27=0.852. Las observaciones mal clasiÞcadas son las 2, 7, 9, y 18. Vemos que el método de validación cruzada da una idea más realista de la eÞcacia del procedimiento de clasiÞcación. 13.5 VARIABLES CANÓNICAS DISCRIMINANTES 13.5.1 El caso de dos grupos La función lineal discriminante para dos grupos fue deducida por primera vez por Fisher por un razonamiento intuitivo que vamos a resumir brevemente. El criterio propuesto por Fisher es encontrar una variable escalar: z = α0 x (13.23) tal que maximice la distancia entre las medias proyectadas con relación a la variabilidad resultante en la proyección. Intuitivamente, la escala z permitirá separar lo más posible ambos grupos. La media de la variable z en el grupo 1, que es la proyección del vector de medias sobre la dirección de α, es bm1 = α0 x1, y la media en el grupo 2 es bm2 = α0 x2. La varianza de
  • 416. 416 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE la variable z será la misma en ambos grupos, α0 Vα, y la estimaremos con s2 z = α0 Swα. Se desea escoger α de manera que la separación entre las medias m1 y m2 sea máxima. Una medida adimensional de esta separación es: φ = µ bm2 − bm1 sz ¶2 , y esta expresión es equivalente a: φ = (α0 (x2 − x1))2 α0Swα . (13.24) En esta relación α representa una dirección, ya que φ es invariante ante multiplicaciones de α por una constante: si β = pα, φ(β) = φ(α). Para encontrar la dirección α que maximice φ, derivando (13.24) e igualando a cero: dφ dα = 0 = 2α0 (x2 − x1)(x2 − x1)0 α0 Swα − 2Swα (α0 (x2 − x1))2 (α0Swα)2 que escribiremos: (x2 − x1)α0 Swα = Swα (α0 (x2 − x1)) o también (x2 − x1) = Swα (α0 (x2 − x1)) α0Swα que resulta en α = λSw −1 (x2 − x1) donde λ = (α0 Swα)/α0 (x2−x1). Como, dada α, λ es una constante y la función a optimizar es invariante ante constantes, podemos tomar α normalizado para que λ = 1, con lo que resulta: α = Sw −1 (x2 − x1) (13.25) que es la dirección w de proyección que hemos encontrado en la sección anterior. Además: α0 Swα = (x2 − x1)0 Sw −1 (x2 − x1) = D2 (x2, x1) = ( bm2 − bm1)2 y la varianza de la variable resultante de la proyección es la distancia de Mahalanobis entre las medias. También: α0 (x2 − x1) = (x2 − x1)0 Sw −1 (x2 − x1) = D2 (x2, x1) y comparando con (13.24) vemos que φ es la distancia de Mahalanobis entre las medias. El procedimiento obtenido conduce a buscar una dirección de proyección que maximice la distancia de Mahalanobis entre los centros de ambas poblaciones. Observemos que si Sw= I la distancia de Mahalanobis se reduce a la euclídea y la dirección de proyección es paralela al vector que une ambas medias. Finalmente, observemos que esta regla se ha obtenido sin imponer ninguna hipótesis sobre la distribución de la variable x en las poblaciones.
  • 417. 13.5. VARIABLES CANÓNICAS DISCRIMINANTES 417 13.5.2 Varios Grupos El enfoque de Fisher puede generalizarse para encontrar variables canónicas que tengan máx- imo poder discriminante para clasiÞcar nuevos elementos entre G poblaciones. El objetivo es, en lugar de trabajar con las p variables originales x, deÞnir un vector z = (z1, ..., zr)0 de r variables canónicas, donde r = min(G − 1, p), que se obtengan como combinación lineal de las originales, zi = u0 ix, y que permitan resolver el problema de clasiÞcación de la forma siguiente: (1) Proyectamos las medias de las variables en los grupos, xg , sobre el espacio determi- nado por las r variables canónicas. Sean z1, ..., zg las variables r × 1 cuyas coordenadas son estas proyecciones. (2) Proyectamos el punto x0 a clasiÞcar y sea z0 su proyección sobre dicho espacio. (3) ClasiÞcamos el punto en aquella población de cuya media se encuentre más próxima. Las distancias se miden con la distancia euclídea en el espacio de las variables canónicas z. Es decir, clasiÞcaremos en la población i si: (z0 − zi)0 (z0 − zi) = min g (z0 − zg)0 (z0 − zg) Con varios grupos la separación entre las medias la mediremos por el cociente entre la variabilidad entre grupos, o variabilidad explicada por los grupos, y la variabilidad dentro de los grupos, o no explicada o residual. Este es el criterio habitual para comparar varias medias en el análisis de la varianza y conduce al estadístico F de Fisher. Para obtener las variables canónicas discriminantes comenzamos buscando un vector u0 1, de norma uno, tal que los grupos de puntos proyectados sobre él tengan separación relativa máxima. La proyección de la media de las observaciones del grupo g en esta dirección será la variable escalar: zg = u0 1xg y la proyección de la media para todos los datos será: zT = u0 1xT donde xT es el vector p×1 que contiene las medias de las p variables para las n observaciones de la muestra uniendo todos los grupos. Tomando como medida de la distancia entre las medias de los grupos proyectadas z1, ..., zg su variación total dada por PG g=1 ng(zg − zT )2 , y comparando esta cantidad con la variabilidad dentro de los grupos, dada por P P (zig −zg)2 , la separación relativa entre las medias, vendrá dada por el estadístico : φ = P ng(zg − zT )2 P P (zig − zg)2 . y si todos los datos provienen de la misma población y no existen grupos distintos esta variable se distribuye como una F con G − 1 y n − G + 1 grados delibertad. Vamos a expresar este criterio en función de los datos originales. La suma de cuadrados dentro de grupos, o variabilidad no explicada, para los puntos proyectados, es: V NE = ng X j=1 GX g=1 (zjg − zg)2 = ng X j=1 GX g=1 u0 (xjg − xg)(xjg − xg)0 u = u0 Wu
  • 418. 418 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE donde W está dada por W = ng X j=1 GX g=1 (xjg − xg)(xjg − xg)0 que coincide con (13.22). Esta matriz tiene dimensiones p× p y tendrá, en general, rango p, suponiendo n − G ≥ p. Estima la variabilidad de los datos respecto a sus medias de grupo, que es la misma, por hipótesis, en todos ellos. La suma de cuadrados entre grupos, o variabilidad explicada, para los puntos proyectados es: V E = GX g=1 ng(zg − zT )2 = (13.26) = X ngu0 (xg − xT )(xg − xT )0 u = = u0 Bu siendo B la matriz de suma de cuadrados entre grupos, que puede escribirse: B = GX g=1 ngaga0 g siendo ag = xg − xT . La matriz B es cuadrada p × p y simétrica y se obtiene como suma de G matrices de rango uno formadas por los vectores ag, que no son independientes, ya que están ligados por la relación PG g=1 ngag = 0,que implica que el rango de B será G − 1. En resumen, la matriz W mide las diferencias dentro de grupos y la B las diferencias entre grupos. La cantidad a maximizar puede también escribirse: φ = u0 1Bu1 u0 1Wu1 , (13.27) derivando e igualando a cero de la forma habitual: dφ du1 = 0 = 2Bu1(u0 1Wu1) − 2(u0 1Bu1)Wu1 (u0 1Wu1)2 = 0 entonces: Bu1 = Wu1 µ u0 1Bu1 u0 1Wu1 ¶ es decir, por Bu1 = φWu1 y suponiendo W no singular: W−1 Bu1 = φu1
  • 419. 13.5. VARIABLES CANÓNICAS DISCRIMINANTES 419 que implica que u1 debe de ser un vector propio de W−1 B y entonces φ es su valor propio asociado. Como queremos maximizar φ, que es el valor del estadístico F en un contrate escalar sobre las medias proyectadas, u será el vector propio asociado al mayor valor propio de la matriz W−1 B. Podemos plantearnos obtener un segundo eje tal que maximice la separación φ, pero con la condición de que la nueva variable canónica z2 = u0 2x esté incorrelada con la primera, z1 = u0 1x. Puede demostrarse análogamente que esto ocurre si tomamos el segundo vector propio (ligado al segundo valor propio) de la matriz W−1 B. En general, sean α1, . . . , αr los valores propios no nulos de W−1 B y u1, . . . , ur los vectores propios ligados a los valores propios no nulos. Las variables escalares zj = u0 jx ordenadas por los valores propios α1 > α2 > . . . > αr proporcionan máxima separación en el sentido de que el estadístico F para contrastar si existen diferencias entre los G grupos proyectados tiene un valor igual a αj . Además, estas variables escalares zj están incorreladas, tanto dentro de grupos como en toda la muestra. Para comprobarlo sea zj el vector n × 1 resultado de proyectar los puntos muestrales en la dirección u0 j, es decir, zj = Xuj. Esta variable tendrá media zj = 10 zj/n = 10 Xuj/n = x0 T uj y la covarianza entre dos variables escalares, zj y zh vendrá dada por cov(zj, zh) = 1 n nX i=1 (zji − zj)(zhi − zh) = 1 n nX i=1 u0 j(xi − xT )(xi − xT )0 uh y llamando T a la matriz de suma de cuadrados totales la covarianzas entre las variables canónicas son u0 jTuh. Si descomponemos estas variables en grupos, de manera que cada vari- able zj da lugar a G variables zjg donde g indica el grupo, puede comprobarse analogamente que las covarianzas entre zjg y zhg, sumadas para todos los grupos vienen dadas por u0 jWuh. Vamos a demostrar que, para dos vectores propios distintos, h 6= j: u0 hWuj = u0 hTuj = 0, donde T = W + B. Comprobemos esta propiedad. Supongamos que αh > αj. Los vectores propios de W−1 B veriÞcan que (W−1 B)uh = αhuh es decir Buh = αhWuh. (13.28) Por tanto, para otro vector propio distinto uj, donde αh 6= αj, tenemos: Buj = αjWuj (13.29) multiplicando (13.28) por u0 j y (13.29) por u0 h: u0 jBuh = αhu0 jWuh u0 hBuj = αju0 hWuj
  • 420. 420 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE Como los primeros miembros son iguales, los segundos deben de serlo y al ser αh 6= αj, forzosamente u0 jWuh = 0 = u0 jBuh = u0 jTuh. Observemos que los vectores propios de la matriz W−1 B no serán, en general, ortogonales ya que aunque las matrices W−1 y B son simétricas, su producto no necesariamente lo es. Además, el rango de esta matriz, W−1 B, será r = min(p, G − 1), (recordemos que el rango del producto de dos matrices es menor o igual que el de las originales) y éste es el máximo número de factores discriminantes que podemos obtener. La matriz W−1 B ha sido llamada por Rao matriz de distancias de Mahalanobis gener- alizada, ya que su traza es la suma de las distancias de Mahalanobis entre la media de cada grupo y la media total. En efecto, tenemos que tr(W−1 B) = tr X (xg − xT )0 (W/ng)−1 (xg − xT ) 13.5.3 Variables canónicas discriminantes Este procedimiento proporciona r = min(p, G − 1) variables canónicas discriminantes que vienen dadas por z = U0 rx (13.30) donde Ur es una matriz p×r que contiene en columnas los vectores propios de W−1 B y x un vector p× 1. El vector r × 1, z, recoge los valores de las variables canónicas para el elemento x, que son las coordenadas del punto en el espacio deÞnido por las variables canónicas. Las variables canónicas así obtenidas resuelven el problema de clasiÞcación. En efecto, para clasiÞcar un nuevo individuo x0 basta calcular sus coordenadas z0 con (13.30) y asignarlo al grupo de cuya media transformada esté más próxima con la distancia euclídea. Un problema importante es investigar cuántas dimensiones necesitamos para la discrimi- nación, ya que es posible que la mayoría de la capacidad de separación de las poblaciones se consiga con las primeras variables canónicas. Para estudiar este problema supongamos que los vectores propios de W−1 B en vez de tomarlos con norma unidad, ui,los estandarizamos con vi = ui/ |u0 iWui|1/2 de manera que estos vectores vi sigan siendo vectores propios de W−1 B pero ahora veriÞcan v0 iWvi = 1. Entonces, la variabilidad explicada por la variable canónica vi es, por (13.26), V E(vi) = v0 iBvi pero al ser vi un vector propio de W−1 B veriÞca Bvi = αiWvi y multiplicando por v0 i y teniendo en cuenta que por construcción v0 iWvi = 1 : V E(vi) = v0 iBvi = αi, que indica que la variabilidad explicada por la variable canónica vi es igual a su valor propio asociado. Por tanto, los valores propios de W−1 B estandarizados para que v0 iWvi = 1 nos
  • 421. 13.5. VARIABLES CANÓNICAS DISCRIMINANTES 421 indican la variabilidad explicada que cada variable canónica aporta al problema de discrim- inación. Cuando p y G son grandes es frecuente que la mayor capacidad de discriminación se consiga con unas pocas variables canónicas. Los resultados de clasiÞcación que se obtienen con las variables canónicas son idénticos a los obtenidos con la distancia de Mahalanobis (véase Hernández y Velilla, 2001, para un estudio completo de este problema). Esto es inmediato de comprobar si G = 2, caso de dos poblaciones, o cuando las medias sean colineales. En ambos casos la matriz B tiene rango uno y el vector propio de W−1 B unido al valor propio no nulo proporciona automáticamente la función lineal discriminante de Fisher. Para comprobarlo basta notar que si G = 2 la matriz B es: B = n1n2 n1 + n2 (x1 − x2)(x1 − x2)0 y el vector propio asociado al valor propio no nulo de W−1 B es W−1 (x1 − x2), que ya obtuvimos anteriormente. Si las medias de las G poblaciones están en una línea recta, entonces: (x1 − xT ) = p1(x2 − xT ) = ... = kj(xg − xT ) = c(x1 − x2) y la matriz B puede escribirse B = GX g=1 (xg − xT )(xg − xT )0 = k∗ (x1 − x2)(x1 − x2)0 y su vector propio asociado al valor propio no nulo de W−1 B es proporcional a W−1 (x1 −x2). Ejemplo 13.5 Vamos a estudiar la discriminación geográÞca entre los países del mundo del banco de datos MUNDODES. Los 91 países incluidos se han clasiÞcado a priori como del este de Europa (9 países, clave 1), América central y del sur (12 países, clave 2), Europa Occidental mas Canadá y EEUU (18 países, clave 3), Asia (25 países, clave 4) y Africa (27 países, clave 5). La variable PNB se ha expresado en logaritmos neperianos, de acuerdo con los resultados descriptivos que obtuvimos en el capítulo 3. Se presenta la salida del programa SPSS para la discriminación múltiple que proporciona los resultados del análisis discriminante utilizando las variables canónicas Las medias de los cinco grupos en cada variable son: G TN TM MI EH EM LPNB 1 15.15 10.52 18.14 67.35 74.94 7.48 2 29.17 9.416 51.32 62.70 68.53 7.25 3 13.01 9.583 8.044 71.25 77.97 9.73 4 30.31 8.072 56.488 63.08 65.86 7.46 5 44.52 14.622 99.792 50.63 54.14 6.19 Total 29.46 10.734 55.281 61.38 66.03 7.51 y la columna total indica las medias para el conjunto de los datos. Las desviaciones típicas en los grupos son: G TN TM MI EH EM LPNB
  • 422. 422 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE 1 3.97 2.16 6.97 2.22 1.50 .48 2 7.38 5.51 31.69 4.92 5.31 .66 3 1.85 1.37 1.734 2.51 2.18 .44 4 10.01 3.77 46.02 7.92 9.73 1.69 5 5.685 4.79 30.58 7.09 7.03 1.04 Total 13.69 4.68 46.30 9.72 11.13 1.64 y la matriz W con 86 grados de libertad es TN TM MI EH EM LPNB TN 46.90 TM 11.89 15.63 MI 139.41 87.49 1007.64 EH -27.42 -18.76 -169.71 37.55 EM -31.88 -21.08 -194.29 40.52 46.20 LPNB -3.54 -2.18 -22.42 4.60 5.43 1.25 que podemos expresar como matriz de correlaciones: TN TM MI EH EM LPNB TN 1.00000 TM .43930 1.00000 MI .64128 .69719 1.00000 EH -.65345 -.77451 -.87247 1.00000 EM -.68487 -.78452 -.90052 .97278 1.00000 LPNB -.46341 -.49350 -.63275 .67245 .71588 1.00000 Las funciones de clasiÞcación lineales para cada grupo son: G = 1 2 3 4 5 TN 3.4340 3.7363 3.3751 3.6194 3.9314 TM 9.7586 9.1856 9.6773 8.6879 8.9848 MI 1.7345 1.7511 1.7387 1.7107 1.6772 EH -.1319 .28153 .7638 1.7363 .59934 EM 16.962 16.3425 15.780 14.347 15.342 LPNB -9.422 -8.2661 -5.999 -6.703 -7.053 (Constante) -690.658 -683.135 -690.227 -642.071 -647.1495 y los valores propios de W−1 B y la proporción de variacion explicada son: Fcn Val. pr. Var. % 1* 3.9309 69.33 69.33 2* 1.1706 20.65 89.97 3* .4885 8.62 98.59 4* .0802 1.41 100.00 Se observa que la primera función discriminante o variable canónica, deÞnida por el primer vector propio de la matriz W−1 B explica el 69% de la variabilidad y que las dos primeras explican conjuntamente el 89,97%. Los coeÞcientes de las variables canónicas indican que las variable más importantes son globalmente la esperanza de vida de la mujer y la tasa de natalidad.
  • 423. 13.5. VARIABLES CANÓNICAS DISCRIMINANTES 423 funciones discriminantes canónicas Primera Variable canónica 43210-1-2-3-4 Segundavariablecanonica 3 2 1 0 -1 -2 -3 -4 G Centroidesdegrupo Group5 Group4 Group3 Group2 Group1 9190 89 88 87 86 85 84 83 82 81 80 79 78 77 76 75 74 73 72 71 70 69 68 67 66 65 6463 62 61 60 59 58 5756 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 3332 31 30 2928 27 26 25 24 23 22 21 20 19 17 16 15 14 13 12 11 10 9 87 6 5 4 3 2 1 Figura 13.5: GráÞco de proyección de los puntos sobre las dos primeras variables canónicas. En el gráÞco pueden verse las proyecciones de los paises sobre las dos primeras variables canónicas. Los resultados de la clasiÞcación con las 4 variables canónicas se resumen en siguiente tabla, donde r representa la clasiÞcación real y p la previsa por el modelo. p1 p2 p3 p4 p5 r1 8 1 r2 1 9 1 1 r3 18 r4 2 2 19 2 r5 1 4 22 Se observa que se clasiÞcan bien los paises europeos y entre los asiáticos es donde aparece más variabilidad. En este caso los errores aparentes obtenidos clasiÞcando con la distancia de Mahalanobis (sin validación cruzada) y con las variables canónicas son los mismos. La salida adjunta de MINITAB incluye la información básica. En primer lugar se presenta el resultado de clasiÞcar con las funciones discriminantes: True Group.... Group 1 2 3 4 5 1 8 1 0 0 0 2 1 9 0 2 1 3 0 1 18 2 0 4 0 0 0 19 4 5 0 1 0 2 22 N Total 9 12 18 25 27 N Correct 8 9 18 19 22 Propor. 0.89 0.75 1.0 0.76 0.82 N = 91 N Correct = 76 Proportion Correct = 0.835 y a continuación el resultado aplicando validación cruzada: Colocado Verdadero grupo
  • 424. 424 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE Group 1 2 3 4 5 1 8 1 1 0 0 2 1 8 0 4 1 3 0 1 17 2 0 4 0 1 0 16 5 5 0 1 0 3 21 N. Total 9 12 18 25 27 N Correct 8 8 17 16 21 Propor. 0.89 0.67 0.94 0.64 0.78 N = 91 N Correct = 70 Propor. Correct = 0.769 funciones lineales discriminantes 1 2 3 4 5 Con. -689.05 -681.53 -688.62 -640.46 -645.54 C2 3.43 3.74 3.38 3.62 3.93 C3 9.76 9.19 9.68 8.69 8.98 C4 1.73 1.75 1.74 1.71 1.68 C5 -0.13 0.28 0.76 1.74 0.60 C6 16.96 16.34 15.78 14.35 15.34 C9 -9.42 -8.27 -6.00 -6.70 -7.05 La tabla siguiente resume los resultados con validación cruzada. p1 p2 p3 p4 p5 r1 8 1 r2 1 8 1 1 1 r3 1 17 r4 4 2 16 3 r5 1 5 21 Finalmente la matriz de distancias entre las medias de los grupos con la distancia de Mahalanobis es EO(1) AL(2) E(3) AS(4) AF(5) EO(1) 7.2 7.8 20.3 25.2 AL(2) 10.9 6.5 7.6 E(3) 15.4 30.0 AS(4) 1.9 AF(5) Se observa que la mayor distancia aparece entre el grupo E (que incluye los paises de europa occidental más Canadá y EEUU) y Africa. La segunda es entre EO y Africa. La distancia menor es entre Asia y Africa. 13.6 DISCRIMINACIÓN CUADRÁTICA. DISCRIM- INACIÓN DE POBLACIONES NO NORMALES Si admitiendo la normalidad de las observaciones la hipótesis de igualdad de varianzas no fuese admisible, el procedimiento de resolver el problema es clasiÞcar la observación en el
  • 425. 13.6. DISCRIMINACIÓN CUADRÁTICA. DISCRIMINACIÓN DE POBLACIONES NO NORMALES grupo con máxima probabilidades a posteriori. Esto equivale a clasiÞcar la observación x0 en la grupo donde se minimice la función : min j∈(1,...,G) · 1 2 log |Vj| + 1 2 (x0 − µj)0 V−1 j (x0 − µj) − ln(Cjπj) ¸ Cuando Vj y µj son desconocidos se estiman por Sj y xj de la forma habitual. Ahora el término x0 0 V−1 j x0 no puede anularse, al depender del grupo, y las funciones discriminantes no son lineales y tendrán un término de segundo grado. Suponiendo que los costes de clasiÞcación son iguales en todos los grupos, clasiÞcaremos nuevas observaciones con la regla : min j∈(1,...,G) · 1 2 log | bVj| + 1 2 (x0 − bµj)0 bV−1 j (x0 − bµj) − ln πj ¸ En el caso particular de dos poblaciones y suponiendo las mismas probabilidades a priori clasiÞcaremos una nueva observación en la población 2 si log | bV1| + (x0 − bµ1)0 bV−1 1 (x0 − bµ1) > log | bV2| + (x0 − bµ2)0 bV−1 2 (x0 − bµ2) que equivale a x0 0( bV−1 1 − bV−1 2 )x0 − 2x0 0(bV−1 1 bµ1 − bV−1 2 bµ2) > c (13.31) donde c = log(| bV2|/| bV1|) + bµ2 0 bV−1 2 bµ2 − bµ1 0 bV−1 1 bµ1. Llamando bV−1 d = ( bV−1 1 − bV−1 2 ) y bµd = bVd( bV−1 1 bµ1 − bV−1 2 bµ2) y deÞniendo las nuevas variables z0 = bV −1/2 d x0 y llamando z0 = (z01, ..., z0p)0 y deÞniendo el vector m = (m1, ..., mp)0 = bV 1/2 d (bV−1 1 bµ1 − bV−1 2 bµ2), la ecuación (13.31) puede escribirse p X i=1 z2 0i − 2 p X i=1 z0imi > c Esta es una ecuación de segundo grado en las nuevas variables z0i. Las regiones resultantes con estas funciones de segundo grado son típicamente disjuntas y a veces difíciles de interpre- tar en varias dimensiones. Por ejemplo, la Þgura (13.6) muestra un ejemplo unidimensional del tipo de regiones que se obtienen con la discriminación cuadrática.
  • 426. 426 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE Figura 13.6: Ejemplo de discriminación cuadrática. La zona de clasiÞcación de P1 es la zona central y la de P2 la de las colas El número de parámetros a estimar en el caso cuadrático es mucho mayor que en el caso lineal. En el caso lineal hay que estimar Gp + p(p + 1)/2 y en el caso cuadrático G(p+p(p+1)/2) . Por ejemplo con 10 variables y 4 grupos pasamos de estimar 95 parámetros en el caso lineal a 260 en el caso cuadrático. Este gran número de parámetros hace que, salvo en el caso en que tenemos muestras muy grandes, la discriminación cuadráticas sea bastante inestable y, aunque las matrices de covarianzas sean muy diferentes, se obtengan con frecuencia mejores resultados con la función lineal que con la cuadrática. Un problema adicional con la función discriminante cuadrática es que es muy sensible a desviaciones de la normalidad de los datos. La evidencia disponible indica que la clasiÞcación lineal es en estos casos más robusta. Recomendamos siempre calcular los errores de clasiÞcación con ambas reglas utilizando validación cruzada y en caso de que las diferencias sean muy pequeñas quedarse con la lineal. Aparece también un problema de discriminación cuadrática en el análisis de determinadas poblaciones no normales. (Véase Lachenbruch (1975)). En el caso general de poblaciones arbitrarias tenemos dos alternativas: (a) aplicar la teoría general expuesta en 13.2 y obten- er la función discriminante que puede ser complicada, b) aplicar la teoría de poblaciones normales, tomar como medida de distancia la distancia de Mahalanobis y clasiÞcar x en la población Pj para la cual la D2 : D2 = (x − xj)0 bV−1 j (x − xj) es mínima. Para poblaciones discretas estas aproximaciones no son buenas. Se han propuesto méto- dos alternativos basados en la distribución multinomial o en la distancia χ2 cuya eÞcacia está aun por determinarse. Ejemplo 13.6 Si aplicamos la discriminación cuadrática a los datos de las medidas físicas
  • 427. 13.7. DISCRIMINACIÓN BAYESIANA 427 se obtiene la tabla de errores de clasiÞcación por validación cruzada (sin aplicar validación cruzada se acierta el 100% como en el caso lineal) ClasiÞcado M H Realidad M 11 4 H 5 7 que supone un porcentaje de aciertos del 67%, menor que en el caso lineal. No hay evidencia de que la discriminación cuadrática suponga ninguna ventaja en este caso. 13.7 DISCRIMINACIÓN BAYESIANA Hemos visto en la sección 13.2 que el enfoque Bayesiano permite dar una solución general del problema de clasiÞcación cuando los parámetros son conocidos. Cuando los parámetros deben estimarse a partir de los datos, el enfoque Bayesiano aporta también una solución directa del problema que tiene en cuenta la incertidumbre en la estimación de los parámetros, a diferencia del enfoque clásico que ignora esta incertidumbre. La solución es válida sean o no iguales las matrices de covarianza. El procedimimiento para clasiÞcar una observación, x0, dada la muestra de entrenamiento X, es asignarla a la población más probable. Para ello se obtiene el máximo de las probabilidades a posteriori de que la observación a clasiÞcar, x0, venga de cada una de las poblaciones dada la muestra X. Estas probabilidades se calculan por P(i/x0, X) = fi(x0|X)πi PG g=1 fg(x|X)πj donde las densidades fg(x0|X), que se denominan predictivas a posteriori o simplemente predictivas, son proporcional a las probabilidades de que la observación x0 se genere por la población g. Estas densidades se obtienen a partir de la verosimilitud promediando sobre los posibles valores de los parámetros en cada población con su distribución a posteriori: fg(x0|X) = Z f(x0|θg)p(θg|X)dθg (13.32) donde θg son los parámetros de la población g. Vamos a estudiar como obtener estas probabilidades. En primer lugar, la distribución a posteriori de los parámetros se calcula de la forma habitual mediante p(θg|X) =kf(X|θg)p(θg). Como vimos en la sección 9.2.2 la verosimilitud para la población g con ng elementos mues- trales y media muestra xg y varianza Sg es f(X|θg) =k ¯ ¯V−1 g ¯ ¯ng/2 exp(− ng 2 tr(V−1 g © Sg + (xg − µg)(xg − µg)0 ª )
  • 428. 428 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE y con la prior de referencia p(µg, V−1 g ) = k ¯ ¯V−1 g ¯ ¯−(p+1)/2 se obtiene la posterior p(µg, V−1 g /X)=k ¯ ¯V−1 g ¯ ¯(ng−p−1)/2 exp(− ng 2 tr(V−1 g © Sg + (xg − µg)(xg − µg)0 ª La distribución predictiva se obtendrá con (13.32), donde ahora θi = (µg, V−1 g ). Integrando respecto a estos parámetros puede obtenerse, (véase Press, 1989, para los detalles de la integración ) que la distribución predictiva es t multivariante p(x0/X, g) = · nπ(ng + 1) ng ¸−p/2 Γ ¡ng 2 ¢ Γ ¡ng−p 2 ¢|Sg|−1/2 · 1 + 1 ng + 1 (x0 − xg)0 S−1 g (x0 − xg) ¸−ng/2 Con esta distribución podemos calcular las probabilidades a posteriori para cada población. Alternativamente, para decidir entre la población i y la j podemos calcular el ratio de las probabilidades a posteriori, dado por : P(i|x) P(j|x) = cij πi πj . |Sj|1/2 |Si|1/2 ³ 1 + 1 nj+1 (x0 − xj)0 S−1 j (x0 − xj) ´nj/2 ³ 1 + 1 ni+1 (x0 − xi)0S−1 i (x0 − xi) ´ni/2 donde πi son las probabilidades a priori, Sj las matrices de varianza y covarianzas estimadas, y cij = · ni(nj + 1) nj(ni + 1) ¸p/2 Γ ¡ni 2 ¢ Γ ¡nj−p 2 ¢ Γ ¡nj 2 ¢ Γ ¡ni−p 2 ¢ Si los tamaños muestrales son aproximadamente iguales, ni ' nj, entonces cij ' 1. El clasiÞcador óptimo es cuadrático. Si suponemos que las matrices de covarianza de los grupos son iguales de nuevo obtenemos la función lineal discriminante (véase Aitchinson y Dunsmore, 1975). 13.8 Lecturas complementarias El análisis discriminante clásico aquí presentado se estudia en todos los libros de análisis multivariante. Presentaciones a un nivel similar al aquí expuesto se encuentran en Cuadras (1991), Flury (1997), Johnson and Wichern (1998), Mardia et al (1979), Rechner (1998) y Seber (1984). Un texto básico muy detallado y con muchas extensiones y regerencias se encuentra en McLachlan (1992). Lachenbruch, (1975) contiene muchas referencias históric- as. Enfoques más aplicados centrados en al análisis de ejemplos y salidas de ordenador se persenta en Huberty (1994), Hair el al (1999) y Tabachnick y Fidell (1996). Un enfoque bayesiano al problema de la clasiÞcación puede consultarse en Press (1989).
  • 429. 13.8. LECTURAS COMPLEMENTARIAS 429 Ejercicios 13.1 Suponga que se desea discriminar entre dos poblaciones normales con vectores de medias (0,0) y (1,1) , varianzas (2,4) y coeÞciente de correlación lineal r=.8. Construir la función lineal discriminante e interpretarla. 13.2 Discutir cómo varían las probabilidades de error en el problema anterior como función del coeÞciente de correlación. ¿Ayuda la correlación a la discriminación? 13.3 Las probabilidades a priori en el problema 13.1 son 0.7 para la primera población y 0,3 para la segunda. Calcular la función lineal discriminante en este caso. 13.4 Se desea discriminar entre tres poblaciones normales con vectores de medias (0,0), (1,1) y (0,1) con varianzas (2,4) y coeÞciente de correlación lineal r =.5. Calcular y dibujar las funciones discriminantes y hallar su punto de corte. 13.5 Si los costes de equivocarnos en el problema anterior no son los mismos, de manera que el coste de clasiÞcar en la tercera población cuando viene de la primera es el doble de los demás, calcular las funciones discriminantes. 13.6 JustiÞque que los valores propios de W−1 B son positivos, demostrando que esta matriz tiene los mismos valores propios que la matriz W−1/2 BW−1/2 . 13.7 JustiÞcar que se obtienen las mismas variables canónicas discriminantes utilizando las matrices W y B, que las matrices asociadas de varianzas corregidas por grados de libertad. 13.8 Demostrar que es lo mismo obtener el mayor vector propio de W−1 B y el menor de T−1 W. 13.9 Demostrar que el primer componente principal cuando hay dos grupos viene dado por v = c(W − λI)−1 (x1 − x2) (sugerencia: Si T = W + B, el primer componente es el mayor autovector (ligado al mayor autovalor) de T y veriÞca T v = Wv + Bv =λv. Como B = k(x1 − x2)(x1 − x2)0 , tenemos que Wv + c(x1 − x2) = λv). 13.10 Demostrar que si (x1 − x2) es un vector propio de W−1 la dirección discriminante es el eje natural de distancia entre las medias y coincide con el primer componente principal. 13.11 Demostrar que la distancia de Mahalanobis es invariante a transformaciones lineales comprobando que si y = Ax + b, con A cuadrada y no singular, se veriÞca que D2 (yi, yj) = D2 (xi, xj). (Sugerencia: utilizar que Vy = AVxA0 y V−1 y = (A0 )−1 V−1 x A0 ) APÉNDICE 13.1:EL CRITERIO MINIMIZAR LA PROBABIL- IDAD DEL ERROR El criterio de minimizar la probabilidad de error puede escribirse como minimizar PT , donde: PT (error) = P(1|x ∈ 2) + P(2|x ∈ 1) siendo P(i|x ∈ j) la probabilidad de clasiÞcar en la población i una observación que proviene de la j. Esta probabilidad viene dada por el área encerrada por la distribución j en la zona de clasiÞcación de i, es decir: P(i|x ∈ j) = Z Ai fj(x)dx por tanto: PT = Z A1 f2(x)dx+ Z A2 f1(x)dx
  • 430. 430 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE y como A1 y A2 son complementarios: Z A1 f2(x)dx = 1− Z A2 f2(x)dx que conduce a: PT = 1 − Z A2 (f2(x) − f1(x))dx y para minimizar la probabilidad de error debemos maximizar la integral. Esto se consigue deÞniendo A2 como el conjunto de puntos donde el integrando es positivo, es decir: A2 = {x|f2(x) > f1(x)} y obtenemos de nuevo el criterio antes establecido. APÉNDICE 13.2: DISCRIMINACIÓN Y REGRESIÓN Un resultado interesante es que la construcción de una función discriminante en el caso de dos poblaciones, puede abordarse como un problema de regresión. Consideremos las n observaciones como datos en un modelo lineal y deÞnamos unas variable respuesta y que toma el valor +k1, cuando x ∈ P1 y −k2, cuando x ∈ P2. Podemos asignar a k1 y k2 valores cualesquiera, aunque, como veremos, los cálculos se simpliÞcan si hacemos estas constantes iguales al número de elementos de la muestra en cada clase. El modelo será: yi = β1(x1i − x1) + β2(x2i − x2) + ... + βp(xpi − xp) + ui i = 1, 2 (13.33) donde hemos expresado las x en desviaciones. El estimador de mínimos cuadrados es: bβ = (eX0 eX)−1 eX0 Y (13.34) donde eX es la matriz de los datos en desviaciones. Sea x1 el vector de medias en el primer grupo, x2 en el segundo y xT el correspondiente a todas las observaciones. Supongamos que en la muestra hay n1 datos del primer grupo y n2 del segundo. Entonces, xT = n1x1 + n2x2 n1 + n2 . (13.35) Sustituyendo (13.35) en el primer término de (13.34): eX0 eX = n1+n2X i=1 (xi − xT )(xi − xT )0 = = n1X i=1 (xi − xT )(xi − xT )0 + n1+n2 X i=1+n1 (xi − xT )(xi − xT )0 .
  • 431. 13.8. LECTURAS COMPLEMENTARIAS 431 Como n1X i=1 (xi − xT )(xi − xT )0 = n1X i=1 (xi − x1 + x1 − xT )(xi − x1 + x1 − xT )0 = = n1X i=1 (xi − x1)(xi − x1)0 + n1(x1 − xT )(x1 − xT )0 ya que los términos cruzados se anulan al ser Pn i=1(xi − x1) = 0. Procediendo análogamente para el otro grupo, podemos escribir: eX0 eX = n1X i=1 (xi − x1)(xi − x1)0 + n1+n2X i=n1+1 (xi − x2)(xi − x2)0 (13.36) +n1(x1 − xT )(x1 − xT )0 + n2(x2 − xT )(x2 − xT )0 Los primeros dos términos conducen a la matriz W de sumas de cuadrados dentro de grupos que, como hemos visto, estima V, mediante: bV = S = 1 n1 + n2 − 2 W. (13.37) Los segundos dos términos son las sumas de cuadrados entre grupos. Sustituyendo xT por (13.35): x1 − n1x1 + n2x2 n1 + n2 = 1 n1 + n2 n2(x1 − x2), (13.38) con lo que resulta: (x1 − xT )(x1 − xT )0 = µ n2 n1 + n2 ¶2 (x1 − x2)(x1 − x2)0 (13.39) (x2 − xT )(x2 − xT )0 = µ n1 n1 + n2 ¶2 (x2 − x1)(x2 − x1)0 (13.40) Sustituyendo (13.39) y (13.40) en (13.36) obtenemos que: eX0 eX = (n1 + n2 − 2)S + n1n2 n1 + n2 (x1 − x2)(x1 − x2)0 que implica ³ eX0 eX ´−1 = (n1 + n2 − 2)−1 S−1 + aS−1 (x1 − x2)(x1 − x2)0 S−1 (13.41) donde a es una constante. Por otro lado: eX0 Y = n1+n2X i=1 yi(xi − xT ) = k1 n1X i=1 (xi − xT ) − k2 n2X i=1 (xi − xT )
  • 432. 432 CAPÍTULO 13. ANÁLISIS DISCRIMINANTE sustituyendo xT por su expresión (13.35), resulta, por (13.38): eX0 Y = k1n1n2 n1 + n2 (x1 − x2) + k2n1n2 n1 + n2 (x1 − x2) = (x1 − x2)kT (13.42) siendo kT = n1n2(k1 + k2)/(n1 + n2). Sustituyendo (13.41) y (13.42) en la fórmula (13.34) se obtiene que: bβ = k.S−1 (x1 − x2) que es la expresión de la función discriminante clásica.
  • 433. Capítulo 14 DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN 14.1 INTRODUCCIÓN El problema de discriminación o clasiÞcación cuando conocemos los parámetros de las dis- tribuciones admite una solución general que hemos visto en el capítulo anterior. Sin embargo, en la mayoría de las aplicaciones los parámetros son desconocidos y deben estimarse a partir de los datos. Si la distribución conjunta de las observaciones es normal multivariante, uti- lizar las distancias de Mahalanobis estimadas suele dar buenos resultados y será óptimo con muestras grandes. Sin embargo, es frecuente que los datos disponibles para la clasiÞcación no sean normales. Por ejemplo, en muchos problemas de clasiÞcación se utilizan variables discretas. En estos casos no tenemos garantías de que los métodos estudiados en el capítulo 13 sean óptimos. En este capítulo presentamos otros métodos de clasiÞcación. Una posibilidad es intentar construir un modelo que explique los valores de la variable de clasiÞcación. Por ejemplo, si se desea discriminar entre créditos que se devuelven o que presentan problemas para su cobro, puede añadirse a la base de datos una nueva variable, y, que tome el valor cero cuando el crédito se devuelve sin problemas, y el valor uno en otro caso. El problema de discriminación se convierte en prever el valor de la variable Þcticia, y, en un nuevo elemento del que conocemos el vector de variables x. Si el valor previsto está más próximo a cero que a uno, clasiÞcaremos al elemento en la primera población. En otro caso, lo haremos en la segunda. Para modelar este tipo de relaciones se utilizan los modelos de respuesta cualitativa, que se revisan en la sección siguiente. Dentro de esta clase el modelo más utilizado es el modelo logístico, que se estudia con cierto detalle en las secciones siguientes. Además del modelo logístico, presentamos brevemente en este capítulo otros métodos de discriminación, que pueden verse como procedimientos generales de aproximar la función de clasiÞcación en casos complejos no lineales y que requiren el uso intensivo del ordenador. El primero de estos métodos es el de los árboles de clasiÞcación, CART, que es un algoritmo para llevar a la práctica una idea simple pero efectiva, especialmente cuando muchas de 433
  • 434. 434CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN las variables de clasiÞcación son binarias. El segundo es el de las redes neuronales, que son aproximaciones universales de funciones y, convenientemente construidas, pueden dar buenos resultados en casos no lineales. El tercero es los métodos no paramétricos, que utilizan aproximaciones locales. El cuarto ha sido propuesto recientemente por Vapnik (2000) y constituye una Þlosofía alternativa a las redes neuronales para aproximar funciones generales. La eÞcacia de estos procedimientos es todavía objeto de investigación. 14.2 EL MODELO LOGIT 14.2.1 Modelos con respuesta cualitativa Consideremos el problema de la discriminación entre dos poblaciones. Una forma de abordar el problema es deÞnir una variable de clasiÞcación, y, que tome el valor cero cuando el elemento pertenece a la primera población, P1, y uno cuando pertenece a la segunda, P2. Entonces, la muestra consistirá en n elementos del tipo (yi, xi) , donde yi es el valor en ese elemento de la variable binaria de clasiÞcación y xi un vector de variables explicativas. A continuación, construiremos un modelo para prever el valor de la variable Þcticia binaria en un nuevo elemento cuando se conocen las variables x. El primer enfoque simple es formular el modelo de regresión: y = β0 + β0 1x + u (14.1) y, hemos visto en el capítulo anterior, que si estimamos los parámetros por mínimos cuadra- dos este procedimiento es equivalente a la función lineal discriminante de Fisher y es óptimo para clasiÞcar si la distribución conjunta de las variables explicativas es normal multivari- ante, con la misma matriz de covarianzas. Sin embargo, este modelo presenta problemas de interpretación. Tomando esperanzas en (14.1) para x = xi: E [y|xi] = β0 + β0 1xi (14.2) Llamemos pi a la probabilidad de que y tome el valor 1 (pertenezca a la población P2) cuando x = xi : pi = P (y = 1|xi) (14.3) la variable y es binomial y toma los valores posibles uno y cero con probabilidades pi y 1−pi. Su esperanza será : E [y|xi] = pi × 1 + (1 − pi) × 0 = pi (14.4) y de (14.2) y (14.4), concluimos que: pi = β0 + β0 1xi (14.5) Esta formulación tiene dos problemas principales:
  • 435. 14.2. EL MODELO LOGIT 435 1. Si estimamos el modelo lineal (14.1), la predicción byi = bpi estima, por (14.5), la prob- abilidad de que un individuo con características deÞnidas por x = xi pertenezca a la segunda población. Sin embargo pi debe estar entre cero y uno, y no hay ninguna garantía de que la predicción byi veriÞque esta restricción: podemos obtener probabil- idades mayores que la unidad o negativas. Esto no es un problema para clasiÞcar la observación, pero sí lo es para interpretar el resultado de la regla de clasiÞcación. 2. Como los únicos valores posibles de y son cero y uno la perturbación ui sólo puede tomar los valores 1 − β0 + β1xi = 1 − pi y −β0 − β0 1xi = −pi con probabilidades pi y (1 − pi) . La esperanza de la perturbación es cero ya que: E [ui] = pi (1 − pi) + (1 − pi) (−pi) = 0 pero la perturbación no sigue una distribución normal. En consecuencia, los esti- madores minimocuadráticos de los coeÞcientes del modelo (14.1) no serán eÞcientes. La varianza de ui es: V ar (ui) = (1 − pi)2 pi + (1 − pi) p2 i = (1 − pi) pi, y las perturbaciones son heterocedásticas. Para estimar los parámetros del modelo se debería utilizar mínimos cuadrados ponderados. A pesar de estos dos inconvenientes, este modelo simple estimado por mínimos cuadrados conduce a una buena regla de clasiÞcación, ya que, según la interpretación de Fisher, maxi- miza la separación entre los grupos, sea cual sea la distribución de los datos. Sin embargo, cuando los datos no son normales, o no tienen la misma matriz de covarianzas, la clasiÞcación mediante una ecuación de relación lineal no es necesariamente óptima. Si queremos que el modelo construido para discriminar nos proporcione directamente la probabilidad de pertenecer a cada población, debemos transformar la variable respuesta para garantizar que la respuesta prevista esté entre cero y uno. Escribiendo: pi = F (β0 + β0 1xi) , pi estará entre cero y uno si escogemos F para que tenga esa propiedad. La clase de funciones no decrecientes acotadas entre cero y uno es la clase de las funciones de distribución, por lo que el problema se resuelve tomando como F cualquier función de distribución. Algunas posibilidades consideradas son: (1) Tomar como F la función de distribución de una uniforme. Esto equivale a truncar el modelo de regresión, ya que entonces: pi = 1 si β0 + β0 1xi ≥ 1 pi = β0 + β0 xi 0 < β0 + β0 1xi < 1 pi = 0 β0 + β0 1xi ≤ 0. Esta solución no es sin embargo satisfactoria ni teóricamente (un pequeño incremento de x produce en los extremos un salto muy grande, cuando sería más lógico una evolución gradual), ni prácticamente: la estimación del modelo es difícil e inestable debido a la discontinuidad.
  • 436. 436CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN (2) Tomar como F la función de distribución logística, dada por: pi = 1 1 + e−β0−β0 1xi . (14.6) Esta función tiene la ventaja de la continuidad. Además como: 1 − pi = e−β0−β0 1xi 1 + e−β0−β0 1xi = 1 1 + eβ0+β0 1xi resulta que: gi = log pi 1 − pi = β0 + β0 1xi (14.7) que es un modelo lineal en esta transformación que se denomina logit. La variable Logit, g, representa en una escala logarítmica la diferencia entre las probabilidades de pertenecer a ambas poblaciones, y al ser una función lineal de las variables explicativas nos facilita la estimación y la interpretación del modelo. (3) Tomar otra distribución, como por ejemplo escoger F igual a la distribución normal estándar. Se obtiene entonces el modelo probit, que es muy similar al logit, sin tener las ventajas de interpretación del modelo logístico, como veremos a continuación. 14.2.2 El modelo logit con datos normales El modelo logit se aplica a una amplia gama de situaciones donde las variables explicativas no tienen una distribución conjunta normal multivariante. Por ejemplo, si algunas son categóricas, podemos introducirlas en el modelo logit mediante variables Þcticias como se hace en el modelo de regresión estándar. Una ventaja adicional de este modelo es que si las variables son normales veriÞcan el modelo logit. En efecto, supongamos que las variables x provienen de una de dos poblaciones normales multivariantes con distinta media pero la misma matriz de varianzas covarianzas. Hemos visto en el capítulo anterior (sección 12.2) que, suponiendo las probabilidades a priori de ambas poblaciones iguales: pi = P (y = 1|xi) = f1 (xi) f1 (xi) + f2 (xi) (14.8) y, utilizando la transformación logit, (14.7): gi = log f1 (xi) f2 (xi) = − 1 2 (xi − µ1)0 V−1 (xi − µ1) + 1 2 (xi − µ2)0 V−1 (xi − µ2) y simpliÞcando gi = 1 2 ¡ µ2V−1 µ2 − µ1V−1 µ1 ¢ + (µ1 − µ2)0 V−1 xi. Por tanto, gi es una función lineal de las variables x, que es la característica que deÞne el modelo logit. Comparando con (14.7) la ordenada en el origen, β0, es igual β0 = 1 2 ¡ µ2V−1 µ2 − µ1V−1 µ1 ¢ = − 1 2 w0 (µ1 + µ2)
  • 437. 14.2. EL MODELO LOGIT 437 donde w = V−1 (µ1 − µ2) , y el vector de pendientes β1 = w Observemos que la estimación de bw mediante el modelo logístico no es eÞciente en el caso normal. En efecto, en lugar de estimar los p (p + 1) /2 términos de la matriz bV y los 2p de las medias x1 y x2, con el modelo logístico estimamos únicamente p + 1 parámetros β0, β1, . . . βp. En el caso de normalidad se obtiene un mejor procedimiento con la regla de Fisher, que estima bV, x1 y x2, la distribución completa de las x, mientras que el modelo logístico estima sólo los p + 1 parámetros de la distribución de y condicionada a x. Como: f (x, y) = f (y|x) f (x) perdemos información al considerar sólo la condicionada f (y|x) –como hace el modelo logístico– en lugar de la conjunta f (x, y), que se utiliza en el enfoque del capítulo anterior. Efron (1975) demostró que cuando los datos son normales multivariantes y estimamos los parámetros en la muestra, la función de discriminación lineal de Fisher funciona mejor que regresión logística En resumen, en el caso de normalidad la regla discriminante es mejor que el modelo logístico. Sin embargo, la función logística puede ser más eÞcaz cuando los poblaciones tengan distinta matriz de covarianzas o sean marcadamente no normales. En el campo de la concesión automática de créditos (Credit Socoring) existen numerosos estudios comparando ambos métodos. La conclusión general es que ninguno de los dos métodos supera al otro de manera uniforme y que depende de la base de datos utilizada. Rosenberg y Gleit (1994) y Hand y Henley (1997) han presentado estudios sobre este problema. 14.2.3 Interpretación del Modelo Logístico Los parámetros del modelo son β0, la ordenada en el origen, y β1 = ¡ β1, ..., βp ¢ , las pendi- entes. A veces se utilizan también como parámetros exp(β0) y exp(βi), que se denominan los odds ratios o ratios de probabilidades, e indican cuanto se modiÞcan las probabilidades por unidad de cambio en las variables x. En efecto, de (14.7) deducimos que Oi = pi 1 − pi = exp(β0). p Y j=1 exp(βj)xj . Supongamos dos elementos, i, k, con todos los valores de las variables iguales excepto la variable h y xih = xjh +1. El cociente de los ratios de probabilidades (odds ratio) para estas dos observaciones es: Oi Ok = eβh e indica cuanto se modiÞca el ratio de probabilidades cuando la variable xh aumenta una unidad. Sustituyendo bpi = .5 en el modelo logit, entonces,
  • 438. 438CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN log pi 1 − pi = β0 + β1xi1 + ... + βpxip = 0, es decir, xi1 = − β0 β1 − p X j=2 βjxij β1 , y xi1 representa el valor de x1 que hace igualmente probable que un elemento, cuyas restantes variables son xi2, ..., xip, pertenezca a la primera o la segunda población. 14.3 LA ESTIMACIÓN DEL MODELO LOGIT 14.3.1 Estimación MV Supondremos una muestra aleatoria de datos (xi, yi), i = 1, ..., n. La función de probabili- dades para una respuesta yi cualquiera es: P(yi) = pyi i (1 − pi)1−yi yi = 0, 1 y para la muestra : P (y1, . . . yn) = nY i=1 pyi i (1 − pi)1−yi . Tomando logaritmos: log P(y) = nX i=1 yi log µ pi 1 − pi ¶ + X log (1 − pi) (14.9) la función soporte (de verosimilitud en logaritmos) puede escribirse como log P(β) = nX i=1 (yi log pi + (1 − yi) log(1 − pi)). (14.10) donde β0 = ¡ β0, β1, . . . , βp ¢ es un vector de p + 1 componentes, incluyendo la constante β0 que determina las probabilidades pi. Maximizar la verosimilitud puede expresarse como minimizar una función que mide la desviación entre los datos y el modelo. En el capítulo 10 se deÞnió la desviación de un modelo mediante D(θ) = −2L(θ) y por tanto la desviación del modelo será: D(β) = −2 nX i=1 (yi log pi + (1 − yi) log(1 − pi)). (14.11)
  • 439. 14.3. LA ESTIMACIÓN DEL MODELO LOGIT 439 y hablaremos indistintamente de de maximizar el soporte o minimizar la desviación del modelo. Se deÞne la desviación de cada dato (deviance) por: di = −2(yi log pi + (1 − yi) log(1 − pi)). (14.12) y miden el ajuste del modelo al dato (yi, xi). En efecto, observemos en primer lugar que como los bpi son menores que uno, sus logaritmos son negativos, por lo que la desviación es siempre positiva. Además, en el calculo de la desviación sólo interviene uno de sus dos términos, ya que yi solo puede valer cero o uno. Entonces: • Si yi = 1, y la observación pertenece a la segunda población, el segundo término de la desviación es nulo y di = −2 log pi. La observación tendrá una desviación grande si la probabilidad estimada de pertenecer a la segunda población, pi, es pequeña, lo que indica que esta observación está mal explicada por el modelo. • Si yi = 0, y la observación pertenece a la primera población, sólo interviene el segundo término de la desviación di = −2 log (1−pi). La desviación será grande si pi es grande, lo que indica que la probabilidad de pertenecer a la verdadera población es pequeña y el modelo ajusta mal dicho dato. Para maximizar la verosimilitud, expresando pi en función de los parámetros de interés, β ,en (14.9) obtenemos la función soporte: L (β) = nX i=1 yix0 iβ − nX i=1 log ³ 1 + ex0 iβ ´ (14.13) que derivaremos para obtener los estimadores MV. Escribiendo el resultado como vector columna: ∂L (β) ∂β = nX i=1 yixi − nX i=1 xi µ ex0 iβ 1 + ex0 iβ ¶ (14.14) e igualando este vector a cero y llamando bβ a los parámetros que satisfacen el sistema de ecuaciones: nX i=1 yixi = X xi µ 1 1 + e−xc0 iβ ¶ = X byixi (14.15) Estas ecuaciones establecen que el producto de los valores observados por las variables explicativas debe ser igual al de los valores previstos. También, que los residuos del modelo, ei = yi − byi, deben ser ortogonales a las variables x. Esta condición es análoga a la obtenida en el modelo de regresión estándar, pero ahora el sistema (14.15) resultante no es lineal en los parámetros bβ. Para obtener el valor bβMV que maximiza la verosimilitud acudiremos a
  • 440. 440CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN un algoritmo tipo Newton-Raphson. Desarrollando el vector (∂L (β) /∂β) alrededor de un punto βa, se tiene ∂L (β) ∂β = ∂L (βa) ∂β + ∂2 L (βa) ∂β∂β0 (β − βa) ; para que el punto βa corresponda al máximo de verosimilitud su primera derivada debe anularse. Imponiendo la condición ∂L (βa) /∂β = 0, se obtiene: βa = bβ+ µ − ∂2 L (βa) ∂β∂β0 ¶−1 µ ∂L (β) ∂β ¶ (14.16) que expresa cómo obtener el punto máximo βa, a partir de un punto próximo cualquiera β. La ecuación depende de la matriz de segundas derivadas, que, en el óptimo, es la inversa de la matriz de varianzas y covarianzas asintótica de los estimadores MV . Para obtener su expresión, derivando por segunda vez en (14.14), se obtiene: cM−1 = µ − ∂2 L (β) ∂β∂β0 ¶ = nX i=1 xix0 iωi (14.17) donde los coeÞcientes ωi están dados por: ωi = ex0 iβ ³ 1 + e x0 i β ´2 = pi(1 − pi) (14.18) Sustituyendo en (14.16) las expresiones (14.17) y (14.14) y evaluando las derivadas en un estimador inicial bβ, se obtiene el siguiente método para obtener un nuevo valor del estimador, βa, a partir del bβ βa = bβ + Ã nX i=1 xix0 ibωi !−1 ³X xi (yi − bpi) ´ (14.19) donde bpi y bωi se calculan con el valor bβ. El algortimo puede escribirse como: βa = bβ + ³ X0 cWX ´−1 X0 ³ Y− bY ´ (14.20) donde cW es una matriz diagonal con términos bpi (1 − bpi) y bY el vector de valores esperados de Y. La matriz de varianzas y covarianzas de los estimadores así obtenidos es aproximada- mente, según (14.20), ³ X0 cWX ´−1 . Observemos que la ecuación (14.20) indica que debemos
  • 441. 14.3. LA ESTIMACIÓN DEL MODELO LOGIT 441 modiÞcar el estimador si los residuos no son ortogonales a las variables explicativas, es decir si X0 ³ Y− bY ´ 6= 0. La modiÞcación del estimador depende de esta diferencia y se reparte entre los componentes de bβ en función de su matriz de varianzas y covarianzas estimada. La forma habitual de implementar este método es el siguiente algoritmo iterativo que proporciona en convergencia el estimador MV de β. 1. Fijar un valor arbitrario inicial, bβ1, para los parámetros y obtener el vector bY1 para dicho valor en el modelo logit. Por ejemplo, si bβ1 = 0, byi = bpi = 1 1 + e−0 = 1 2 y el vector bY tiene todas sus componentes iguales a 1/2. 2. DeÞnir una variable auxiliar zi de residuos estandarizados por: zi = yi − byi p byi (1 − byi) = yi − bpi p bpi (1 − bpi) o vectorialmente: Z =cW−1/2 (Y− bY) donde cW es una matriz diagonal con términos byi (1 − byi). 3. Estimar por mínimos cuadrados una regresión con variable dependiente Z y matriz de regresores T =cW1/2 X. Los parámetros estimados con esta regresión, bb1, vendrán dados por: bb1 = (T0 T) −1 T0 Z = ³ X0 cWX ´−1 X0 ³ Y− bY ´ y, comparando con (14.20), vemos que b1 estima el incremento βa − bβ1 de los parámet- ros que nos acerca al máximo. 4. Obtener un nuevo estimador de los parámetros bβ2 del modelo logístico mediante bβ2 = bβ1 + bb1 5. Tomar el valor estimado resultante de la etapa anterior, que en general llamaremos bβh, y sustituirlo en la ecuación del modelo logístico para obtener el vector de estimadores bY ³ bβh ´ = bYh. Utilizando este vector bYh construir la matriz cWh y las nuevas variables Zh y Th Zh = cW −1/2 h ³ Y− bYh ´ , Th = cW 1/2 h X, y volver a la etapa 2. El proceso se repite hasta obtener la convergencia ³ bβh+1 ' bβh ´ .
  • 442. 442CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN 14.3.2 Contrastes Si queremos contrastar si una variable o grupo de variables incluidas dentro de la ecuación es signiÞcativo, podemos construir un contraste de la razón de verosimilitudes comparando el máximo de la función de verosimilitud para el modelo con y sin estas variables. Supongamos que β = (β1β2), donde β1 tiene dimensión p−s, y β2 tiene dimensión s. Se desea contrastar si el vector de parámetros: H0 : β2 = 0. frente a la alternativa H1 : β2 6= 0 El contrate de razon de verosimilitudes utiliza que λ = 2L(H1) − 2L(H0), donde L(H1) es el máximo del soporte cuando estimamos los parámetros bajo H1 y L(H0) es el máximo cuando estimamos los parámetros bajo H0 es, si H0 es cierta, una χ2 s. Una manera equivalente de deÞnir el contraste es llamar D(H0) = −2L(bβ1) a la desviación cuando el modelo se estima bajo H0, es decir, suponiendo que β2 = 0, y D(H1) = −2L(bβ1 bβ2) a la desviación bajo H1. La desviación será menor con el modelo con más parámetros (la verosimilitud será siempre mayor bajo H1 y, si H0 es cierta, la diferencia de desviaciones, que es el contraste de verosimilitudes χ2 s = D(H0) − D(H1) = 2L(bβ1 bβ2) − 2L(bβ1) se distribuye como una χ2 s con s grados de libertad. En particular este test puede aplicarse para comprobar si un parámetro es signiÞcativo y debe dejarse en el modelo. Sin embargo, es más habitual en estos casos comparar el parámetro estimado con su desviación típica. Los cocientes wj = bβj s(bβj) se denominan estadísticos de Wald y en muestras grandes se distribuyen, si el verdadero valor del parámetro es cero, como una normal estándar. Una medida global del ajuste es R2 = 1 − D(bβ) D0 = 1 − L(bβ) L(β0) donde el numerador es la desviación (verosimilitud en el máximo) para el modelo con parámetros estimados bβ y el denominador la desviación (verosimilitud) para el modelo que sólo incluye la constante β0. Observemos que, en este último caso, la estimación de la prob- abilidad pi es constante para todos los datos e igual a m/n siendo m el número de elementos en la muestra con la variable y = 1. Entonces, sustituyendo en (14.11) la desviación máxima
  • 443. 14.3. LA ESTIMACIÓN DEL MODELO LOGIT 443 que corresponde al modelo más simple posible con sólo β0 que asigna la misma probabilidad a todos los datos, es D0 = −2L(β0)= − 2m log m − 2(n − m) log(n − m) + 2n log n. Por otro lado, si el ajuste es perfecto, es decir todas las observaciones con y = 1 tienen pi = 1 y las de y = 0 tienen pi = 0, entonces, según (14.9) la desviación es cero y L(bβ) = 0 y R2 = 1. Por el contrario, si las variables explicativas no inßuyen nada la desviación con las variables explicativas será igual que sin ellas, L(bβ) = L(β0) y R2 = 0. Ejemplo 14.1 Vamos a utilizar los datos de MEDIFIS para construir un modelo logit que clasiÞque una persona como hombre o mujer en función de sus medidas físicas. Si intentamos explicar la variables binaria, género, en función de todas las variables observadas obtenemos que el modelo es log pi 1 − pi = −488.84 + 11.84pie + 2.93aes − 5.10dcr − 10.5lrt − 3.73est + 4.59lbr + .14pes el modelo ajusta perfectamente los datos y no es posible calcular desviaciones típicas para los coeÞcientes. El modelo no es único. El problema es que tenemos sólo 27 observaciones y con las siete variables clasiÞcamos fácilmente todas las observaciones. Sin embargo, el modelo obtenido puede ser muy malo para clasiÞcar otras observaciones. Vamos a contruir el modelo paso a paso. La variable con mayor coeÞciente en la ecuación anterior es el pie con lo que comenzaremos con esta variable. Estimando el modelo estimado con el programa SPSS (con MINITAB no se produce convergencia del algoritmo), el modelo es: log pi 1 − pi = −433 + 11.08pie Los dos parámetros están muy correlados y las desviaciones típicas son muy grandes. El valor inicial de la desviación es D0=37.1. Después de estimar el modelo la desviación es D= 3.8. La diferencia entre desviaciones nos proporciona el contraste para ver si la variable pie es signiÞcativa. Esta diferencia es 33.27 que bajo la hipótesis de que el parámetro es cero será aproximadamente una distribución ji-cuadrado con 1 grado de libertad. El valor es tan grande que rechazamos la hipótesis a cualquier nivel de signiÞcación y concluimos que el pie es muy útil para discriminar. Es interesante que, en este caso, el estadístico de Wald lleva a un resultado distinto. Como los parámetros están muy correlados, la desviación típica del coeÞciente del pie es 108.9, y el estadístico de Wald es 11.08/ 108.= .01 que no es signiÞcativo. Si aplicamos esta ecuación para clasiÞcar los datos muestrales obtenemos un porcentaje de éxitos del 96%. Sólo una observación se clasiÞca mal como indica la tabla ClasiÞcado M H Realidad M 15 0 H 1 11
  • 444. 444CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN Ejemplo 14.2 Vamos a intentar introducir una variable adicional en el modelo logístico anterior que contiene sólo el pie. Introducimos la estatura, y el modelo estimado es log pi 1 − pi = −440.85 + 12.0pie − −.169est con desviaciones típicas (4092), (104.9) y (0, 5243) . El coeÞciente de estatura es -.1693 con error estándar .5243 dando lugar a un estadístico de Wald de .3, con lo que concluimos que este coeÞciente no es signiÞcativo. La desviación de este modelo es 3.709. Por tanto la reducción en desviación debida a la variable estatura con respecto al modelo que sólo incluye el pié es sólo de 3.80-3.71=.09, que no es signiÞcativa comparada con una ji-cuadrado con 1 grado de libertad. Este resultado es previsible ya que el modelo con las siete variables tiene una desviación de cero y el que contiene sólo el pie una desviación de D= 3.8: el contraste de que las seis variables adicionales no inßuyen lleva, en consecuencia, a un valor del estadístico de 3.8, y este valor en la hipótesis de que las variable no inßuyen debe provenir de una χ2 6 con seis grados de libertad, lo que concuerda con lo observado, y debemos concluir que ninguna de las variables adicionales inßuye. La conclusión es pues que únicamente con el pie podemos clasiÞcar estos datos con poco error. Si comparemos estos resultados con los del capítulo anterior (ejemplo 13.3) son bastante consistentes porque allí ya observamos que la variable más importante era el pié. El por- centaje de clasiÞcación de la función lineal discriminante era del 100% que disminuía al 85% con validación cruzada. En el modelo logístico con sólo una variable hemos obtenido el 96% de éxito. Con validación cruzada este valor disminuye algo, pero mucho menos que en el ejemplo 13.3 debido a la economía de parámetros que hace que se produzca menos sobreajuste. Ejemplo 14.3 Vamos a utilizar los datos de MUNDODES para ver cuáles son las variables que clasiÞcan mejor a un país como perteneciente al continente africano. La función logit estimada es log pi 1 − pi = 15.58 + .18tn − .14tm −.033mi + .05lpnb + .13em − .47eh Las variables tn, mi y eh son signiÞcativas, con un cociente entre la estimación del parámetro y la desviación típica de 6.8, 2.09 y 2.5 respectivamente. La desviación inicial es D(β0)=-2(27log27+64log64-91log91)= 110.66. Por otro lado, la desviación del modelo esti- mado es -2 L(bβ) = 41.41 y la diferencia entre estas dos cantidades proporciona el contraste de que las variables no inßuyen. Si esto es cierto la diferencia, 69.25 será una ji-cuadrado con 6 grados de libertad. Como este valor es muy grande rechazamos esta hipótesis y admitimos que las variables inßuyen. El pseudo coeÞciente de determinación es R2 = 1 − 41.41 110.66 = .63 La tabla de clasiÞcación con este modelo es
  • 445. 14.4. EL MODELO MULTILOGIT 445 ClasiÞcado nA A Realidad nA 61 3 A 5 22 que supone una proporción de éxitos de 83/91, o de 91%. 14.3.3 Diagnosis Los residuos del modelo logit (que a veces se denominan residuos de Pearson) se deÞnen por: ei = yi − bpi p bpi(1 − bpi) y, si el modelo es correcto, serán variables de media cero y varianza unidad que pueden servirnos para hacer la diagnosis del modelo. El estadístico χ2 = Pn i=1 e2 i permite realizar un contraste global de la bondad del ajuste. Si el modelo es adecuado se distribuye asintóti- camente como una χ2 con gl = n − p − 1 , donde p + 1 es el número de parámetros en el modelo. En lugar de los residuos de Pearson se utiliza mucho las desviaciones de las observaciones o pseudoresiduos, deÞnidas en (14.12) por di = −2(yi log bpi+(1−yi) log(1−bpi)), que aparece, de manera natural, en la maximización de la función de verosimilitud. Podemos hacer un contraste de razón de verosimilitudes de la bondad del modelo como sigue: la hipótesis nula será que el modelo es adecuado, es decir, las probabilidades pueden calcularse con el modelo logístico con p + 1 parámetros. La hipótesis alternativa será que el modelo no es adecuado y las n probabilidades son libres (supuesto que las x son distintas). Entonces, la desviación bajo H0 es D(H0), mientras que bajo H1 cada observación queda perfectamente clasiÞcada dando pi = 0 si pertenece a la primera población y pi = 1 si pertenece a la segunda, y la desviación es cero porque todas las observaciones se clasiÞcan sin error. El contraste de la razón de verosimilitudes se reduce al estadístico desviación global: D(H0) = −2 X (yi log bpi + (1 − yi) log(1 − bpi)) que, si el modelo es correcto, será también asintóticamente una χ2 con n − p − 1 grados de libertad 14.4 EL MODELO MULTILOGIT El modelo logit puede generalizarse para más de dos poblaciones, es decir, para variables respuesta cualitativas con más de dos niveles posibles. Supongamos G poblaciones, entonces, llamando pig a la probabilidad de que la observación i pertenezca a la clase g, podemos escribir: pig = eβ0g+β0 1gxi 1 + PG−1 j=1 e−β0j−β0 1jxi j = 1, ..., G − 1 (14.21)
  • 446. 446CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN y piG = 1 1 + PG−1 j=1 e−β0j−β0 1jxi con lo que automáticamente garantizamos que PG g=1 pig = 1. Diremos que las probabilidades pig satisfacen una distribución logística multivariante. La comparación entre dos categorías se hace de la forma habitual pig pij = eβ0g+β0 1gxi eβ0j+β0 1jxi = e(β0g−β0j) e(β0 1g−β0 1j)xi Esta ecuación indica que las probabilidades relativas entre dos alternativas no dependen del resto. Esa hipótesis puede generalizarse (véase Maddala, 1983). La estimación y contrastes de esos modelos son extensiones directas de los logit ya es- tudiados y no entraremos en los detalles que el lector interesado puede encontrar en Fox (1984) 14.5 OTROS MÉTODOS DE CLASIFICACIÓN 14.5.1 Árboles de ClasiÞcación Un procedimiento alternativo de clasiÞcación debido a Breiman y Friedman (véase Breiman et al., 1984) son los árboles de clasiÞcación (ClassiÞcation and Regression Trees, CART). Este procedimiento no utiliza un modelo estadístico formal y es más bien un al- goritmo para clasiÞcar utilizando particiones binarias sucesivas utilizando los valores de una variable cada vez. La idea del procedimiento se resume en la Þgura 14.1. Suponemos que se dispone de una muestra de entrenamiento, que incluye la información del grupo al que pertenece cada dato y que servirá para construir el criterio de clasiÞcación. Posteriormente se aplicará el criterio para clasiÞcar nuevos datos. Comenzamos con un nudo inicial y nos preguntamos como dividir el conjunto de datos disponibles en dos partes más homogéneas utilizando el valor de una de las variables. La variable se escoge de manera que una par- tición de los datos en función de que su valor para esta variable sea mayor o menor que una constante proporcione una división de los datos en dos conjuntos lo más homogeneos posibles. El algortimo comienza seleccionando una variable, supongamos que la xi, y obteniendo un punto de corte, c, de manera que separemos los datos que tienen x1 ≤ c de aquellos con x1 > c. De este nudo incial saldrá ahora dos, uno al que llegarán las observaciones con x1 ≤ c y otro al que llegarán las que tienen x1 > c. En cada uno de estos nudos se vuelve a repetir el proceso de seleccionar una variable y un punto de corte dividir la muestra en dos partes más homogéneas. El proceso termina cuando hayamos clasiÞcado todas las observaciones (o casi todas) correctamente en su grupo. La construcción del árbol requiere las decisiones siguientes: 1. La selección de las variables y de sus puntos de corte para hacer las divisiones. 2. Cuando un nudo se considera terminal y cuando se continua dividiendo.
  • 447. 14.5. OTROS MÉTODOS DE CLASIFICACIÓN 447 x2? x3? x5? x7? G2 x4? G3 x6? G1 G4 G1G3 SI SI SI NO NO NO NO NO SI SI x1<c? Figura 14.1: Ejemplo de árbol de clasiÞcación 3. La asignación de las clases a los nudos terminales. Supongamos que se desea clasiÞcar las observaciones en G grupos. Por el primer nudo, llamado nudo raiz y marcado en la Þgura por x1, pasarán todas las observaciones, mientras que por cualquier otro nudo sólo pasarán las observaciones que veriÞcan las condiciones de llegada a ese nudo. Por ejemplo, en el nudo x2?. sólo se encuentran aquellas observaciones para las que se responde SI a la pregunta : ¿es x1 < c?. Podemos entonces asociar a cada nudo el subconjunto de observaciones que pasarán por él. Para decidir la variable que va a utilizarse para hacer la partición en un nudo se calcula primero la proporción de observaciones que pasan por el nudo para cada uno de los grupos. Llamando a los nudos t = 1, ..., T, y p(g|t) a las probabilidades de que las observaciones que llegan al nudo t pertenezcan a cada una de las clases, se deÞne la impureza del nudo t por I(t) = − GX g=1 p(g|t) log p(g|t) esta medida se llama entropía, es no negativa y mide la diversidad. Se utilizó en la sección 4.2.3 para obtener criterios de proyección. Por ejemplo, con dos grupos la impureza es I(t) = −p log p − (1 − p) log(1 − p) Esta función está representada la Þgura 14.2. Se observa que la heterogeneidad o diversidad es máxima es cuando p=.5, y tiende a cero cuando p se aproxima a cero o a uno.
  • 448. 448CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN Figura 14.2: Representacion de la entropia como funcion de la probabilidad de un grupo Con G grupos, si en el nudo t todas las observaciones pertenecen al grupo g, de manera que p(g|t) = 1, y p(i|t) = 0, i 6= g, la entropía o impureza del nudo es I(t) = 0 (tomamos 0log0 = 0, que es su valor límite). En otro caso, la impureza será positiva y será máxima cuando p(g|t) = G−1 . La variable utilizada para realizar la división de los datos en un nudo se selecciona minimizando la heterogeneidad o impureza resultante de la división. Consideremos preguntas q posibles del tipo: ¿es xi < a? y sean pS y pN las proporciones de las observaciones del nudo t que irán a los nudos resultantes de responder ”Si” a la pregunta q (nudo tS) y al responder ”No” (nudo tN ). Llamemos I(tS) y I(tN ) a las impurezas resultantes de estos nudos que surgirán como consecuencia de la pregunta q. El cambio en entropía o heterogeneidad después de la pregunta q, será la diferencia entre la entropía del nudo, I(t), y la entropía después del nudo, que vendrá dada por pSI(tS) + pN I(tN ). El cambio en entropía producido por la pregunta q es: ∆I(t, q) = I(t) − pSI(tS) − pN I(tN ) (14.22) y se desea escoger q para maximizar el cambio de entropía en el nudo. El procedimiento es el siguiente: se deÞne un conjunto de preguntas q del tipo xi < a, para i = 1, ..., p y a ∈ (−∞, ∞). Para cada pregunta se calcula la disminución de impureza o entropía que implica y se escoge aquella pregunta que maximice la impureza resultante medida por (14.22). La clasiÞcación en los nudos terminales se hace asignado todas las observaciones del nudo al grupo más probable en ese nudo, es decir, aquel grupo con máxima p(g|t). Si la impureza del nudo es cero, todas las observaciones pertenecen al mismo grupo, y la clasiÞcación de las observaciones podría hacerse sin error, en otro caso, si la impureza del nudo no es cero, la clasiÞcación tendrá un cierto error. Este proceso de construcción del árbol puede generar muchos nudos cuando el número de variables es grande y se plantea el problema de cómo simpliÞcar o podar el árbol para hacerlo más manejable con poca pérdida de información. Además, pueden utilizarse otras medidas
  • 449. 14.5. OTROS MÉTODOS DE CLASIFICACIÓN 449 de diversidad para realizar las divisiones. No entraremos en los detalles de los algoritmos existentes que el lector interesado puede encontrar en Breiman et al. (1984) Los árboles de clasiÞcación suelen dar buenos resultados cuando muchas de las variables de clasiÞcación son cualitativas y cuando las relaciones entre las variables son muy lineales. Sin embargo, son más ineÞcaces que los procedimientos clásicos cuando las variables son aproximadamente normales. La evidencia disponible sobre su eÞcacia es distintos tipos de problemas es todavía pequeña. Ejemplo 14.4 Ilustraremos la idea de los árboles de clasiÞcación con los datos de MEDIFIS. La impureza total de los datos inicialmente es I0 = −(12/27) log(12/27) − (15/27) log(15/27) = .687 consideremos preguntas del tipo pie< a?. Si tomamos a = 41, y llamamos q1 a la pregunta pie<41? , la muestra se divide en 18 casos con respuesta SI y 9 con respuesta NO. La impureza en los nudos resultantes será: Para el nudo NO, la impureza es cero, porque todos los elementos del nudo son hombres. En el nudo SI de los 18 elementos 15 son mujeres y 3 hombres con lo que la impureza será I(S, q1) = −(15/18) log(15/18) − (3/18) log(3/18) = .451 con lo que la impureza resultante con esta pregunta es ∆I(q1) = .687 − (9/27).0 − (18/27)(.451) = .387 Comparemos este resultado con el obtenido con la pregunta q2 : pie< 40?. Ahora la muestra se divide en 16 y 11. La impureza del grupo SI es I(S, q2) = −(15/16) log(15/16) − (1/16) log(1/16) = .234 y la impureza del grupo No es cero. La reducción de impureza de esta pregunta es ∆I(q2) = .687 − (11/27).0 − (16/27)(.234) = .548 por tanto, es mejor dividir con la pregunta q2 que con la q1, ya que obtenemos un grupo más homogeneo como resultado de la división. Otras posibles preguntas se analizan de la misma forma. 14.5.2 Redes Neuronales Las redes neuronales son algoritmos generales de análisis de datos basados en un uso intensivo del ordenador. Su justiÞcación proviene de que, en condiciones generales, pueden aproximar cualquier función del tipo y = f(x1, ..., xp) Supongamos para simpliÞcar la discriminación entre dos grupos. Entonces, y es una variable binaria, cero- uno, y el problema es encontrar la función f que mejor se ajusta
  • 450. 450CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN x1 x2 x3 x4 x5 y Figura 14.3: Representación de una red neuronal con una capa intermedia. a los datos observados. Las redes neuronales se construyen a partir de elementos llama- dos nodos, unidades, o neuronas. Estas unidades reciben un conjunto de entradas, x, que representaremos por la variable vectorial x, y calculan una variable escalar de salida apli- cando una ponderación a los componentes de la entrada, añadiendo una constante de sesgo y transformando el resultado de forma no lineal como: z = g(w0 x) donde w es un vector y g una función generalmente no lineal. El vector x incorpora una variable adicional, x0 = 1, de manera existe un término de sesgo w0 incluido en el vector de pesos w0 = (w0, ..., wp). Se han propuesto distintos tipos de funciones g pero la función más utilizada en problemas de clasiÞcación es la función logística g(t) = 1/(1 + e−t ) que proporcionará una salida entre cero y uno. Otra función utilizada es g(t) = sign(t) que produce una respuesta binaria con valores posibles 1 y -1. Por ejemplo, el modelo logístico puede verse como una red neuronal de un sólo nodo y función g logística. Aunque existen muchas estructuras de redes neuronales posibles, la más utilizada para clasiÞcación es el perceptrón, que consiste en un conjunto de neuronas clasiÞcadas en capas y cuya representación gráÞca se ilustra en la Þgura (14.3). Esta estructura contiene cinco neuronas de entrada, tres en la capa intermedia y una de salida. Las variables de entrada, (x1, ..., xp), que caracterizan al elemento a clasiÞcar se intro- ducen por las neuronas iniciales. Por ejemplo, la red de la Þgura 14.3 es adecuada para clasiÞcar elementos donde se han medido cinco variables. En la neuronas iniciales la función de respuesta es la unidad, es decir x = f(x), y estas neuronas sirven para distribuir las
  • 451. 14.5. OTROS MÉTODOS DE CLASIFICACIÓN 451 variables x en la segunda capa de neuronas. Supongamos que la capa intermedia contiene M neuronas (en la Þgura M = 3), entonces cada neurona intermedia i = 1, ..., M recibe un vector de entrada xi y genera una variable escalar de salida zi = gi(w0 ixi) (14.23) Por ejemplo, en la Þgura 14.3 la neurona de la capa terminal recibe el vector z = (z1, z2, z3)0 y genera una salida y. Pueden existir varias neuronas terminales y las respuestas de la capa intermedia pasan a las neuronas de salida, y cada una de ellas producirá una variable de salida de acuerdo con una función f. Supongamos que existen j = 1, ..., J neuronas terminales. La salida que producirá la neurona j será yj = fj(w0 jzj) = fj(w0 jGj(W, x)) donde w0 j es la función de ponderación en esta neurona y zj es el vector de entrada a la neurona que esta compuesto por las salidas de las neuronas de la capa intermedia. Este vector de entrada tiene M componentes, tantos como salidas intermedias, y cada uno viene dado por (14.23), por lo que puede expresarse como zj = (z1j, ..., zMj) = (g1(w0 1x1), ..., gM (w0 M xM )) = Gj(W, x). Por ejemplo, si suponemos que tanto las tres funciones de la capa intermedia como la terminal de la Þgura 14.3 proporciona una respuesta logística, la respuesta Þnal es: y = g(w40 + w41z1 + w42z2 + w43z3) donde g es la función logística. Sustituyendo z por su expresión, que es una función logística de las variables de entrada, tenemos Þnalmente que y = g(w40 + w4i 3X i=1 w4ig(w0 ix)) La clasiÞcación se realiza en función del valor de la variable y. Por ejemplo, si y > .5 el dato se clasiÞca en la primera población y si y < .5 en la segunda. Para llevar a la práctica este método, hay que estimar los parámetros que deÞnen cada función gi. Por ejemplo, en la red de la Þgura 14.3 para cada neurona hay que estimar seis pesos, el coeÞciente constante del sesgo más los pesos para cada una de las cinco variables, lo que supone 6×3 = 18 parámetros para la capa intermedia, más los 6 de la capa Þnal, lo que supone un total de 24 parámetros. Si llamamos ci a la variable binaria que incluye las etiquetas de los datos, por ejemplo, ci = 1 cuando pertenece a la primera clase y ci = 0 cuando pertenece a la segunda, la estimación de los pesos se obtiene minimizando : E = nX i=1 (ci − yi)2 = nX i=1 (ci − f(x, w))2 con respecto a los parámetros w o pesos que caracterizan la red. Esta función, que es no lineal en los parámetros, se minimiza frecuentemente con un algoritmo del gradiente, donde los pesos se modiÞcan en cada iteración proporcionalmente al gradiente de esta función wij → wij + η ∂E wij
  • 452. 452CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN siendo η la longitud de paso. El lector interesado en los detalles puede acudir a Ripley (1996). Las redes neuronales necesitan muestras grandes para estimar eÞcientemente los muchos parámetros que se introducen. La experiencia disponible parece indicar que si la estructura de la red neuronal se diseña bien, en situaciones estándar pueden dar resultados similares a los métodos clásicos, y pueden comportarse mejor en situaciones donde las relaciones entre las variables de clasiÞcación sean muy no lineales. Sin embargo la experiencia disponible es muy limitada por la falta de reglas precisas sobre el número de neuronas a colocar en la capa intemedia y los problemas de convergencia de los algoritmos de estimación, dado el alto número de parámetros a estimar. Por ejemplo, supongamos que queremos clasiÞcar en 4 clases posibles datos de dimensión 10. Si utilizamos cinco neuronas en la capa intermedia y 3 neuronas de salida (necesitamos G − 1 neuronas de salida) esto supone 88 parámetros a estimar. Un inconveniente de las redes neuronales es la falta de una teoría que oriente sobre las situaciones en que darán buenos resultados y aquellas en las que pueden ser muy ineÞcientes. 14.5.3 Métodos no Paramétricos Vecinos más próximos Un procedimiento de clasiÞcación simple y que ha dado buenos resultados con poblaciones no normales es el siguiente: (1) DeÞnir una medida de distancia entre puntos, habitualmente la distancia de Maha- lanobis. (2) Calcular las distancias del punto a clasiÞcar, x0, a todos los puntos de la muestra. (3) Seleccionar los m puntos muestrales más próximos al que pretendemos clasiÞcar. Calcular la proporción de estos m puntos que pertenece a cada una de las poblaciones. ClasiÞcar el punto x0 en la población con mayor frecuencia de puntos entre los m. Este método se conoce como m− vecinos próximos. En el caso particular de m = 1 el método consiste en asignarle a la población al que pertenece el elemento más próximo. Un problema clave de este método es claramente la selección de m. Una práctica habitual es tomar m = √ ng donde ng es un tamaño de grupo promedio. Otra posibilidad es probar con distintos valores de m, aplicarselo a los puntos de la muestra cuya clasiÞcación es conocida y obtener el error de clasiÞcación en función de m. Escoger aquel valor de m que conduzca al menor error observado. Estimación de densidades Si la densidad de las observaciones no es normal y tenemos una muestra grande podemos intentar estimar directamente la distribución de los datos. Para clasiÞcar un punto x0, no necesitamos estimar toda la densidad sino sólo la densidad en ese punto, ya que la clasiÞcación se realiza maximizando la probabilidad a posteriori, es decir, maximizando max g πgfg(x0) Un estimador ingenuo de la densidad de la población g en el punto x0 es construir un hipercubo con centro en x0 y lado h, contar los puntos provenientes de la densidad g incluidos
  • 453. 14.5. OTROS MÉTODOS DE CLASIFICACIÓN 453 en el, ng(x0) y estimar la densidad por el cociente entre la frecuencia relativa de puntos en el cubo y su volumen. Es decir fg(x0) = ng(x0) nghp Este es un procedimiento similar al de los vecinos más próximos, pero en lugar de Þjar el número m de puntos más próximos Þjamos un entorno h y contamos cuantos puntos de cada distribución están en dicho intervalo. La regla anterior puede escribirse como fg(x0) = 1 nghp nX i=1 p Y j=1 K µ xij − x0j h ¶ donde la función K se denomina el núcleo y tiene la propiedad K µ xij − x0j h ¶ = 1, si |xij − x0j| ≤ h 0, en otro caso Este estimador de la densidad es muy irregular, ya que los puntos o bien entran en el hipercubo y contribuyen con valor uno a la densidad en el punto, o no cuentan en absoluto para determinar la densidad. Un estimador mejor es permitir que los puntos contribuyan a la estimación de la densidad en función de su distancia, lo que puede hacerse sustituyendo el núcleo rectangular por una función suave que promedie la información de los puntos en función de su distancia. Un núcleo muy utilizado es el normal, dado por K(u) = 1 √ 2π exp(− u2 2 ). El procedimiento puede mejorarse teniendo en cuenta la dependencia de las variables y utilizando un núcleo multivariante que tenga en cuanta esta dependencia. Por ejemplo, un núcleo normal multivariante conduciría a : fg(x0) = 1 nhp |Sg|1/2 nX i=1 exp ½ − 1 2h2 (xi − x0)0 S−1 g (xi − x0) ¾ donde Sg es una estimación de la matriz de covarianzas en el grupo g. En general es frecuente tomar la misma matriz Sg en todos los grupos y estimarla como una media ponderada de las matrices de cada grupo. El problema de este método es que la estimación de la densidad depende críticamente de la elección del parámetro h, que es desconocido. Puede utilizarse el error de clasiÞcación como comentamos antes para estimar h. Remitimos al lector interesado a McLachan (1992) para un estudio detallado de este tema. Más recientemente algunos autores han tratado de mejorar la idea de vecinos más próximos introduciendo criterios de invarianza ante rotaciones para mejorar las propiedades del método, véase Hastie y Simard (1998). Otros autores han utilizado estimación no paramétrica para estimar directamente las relaciones no lineales de clasiÞcación, vease por ejemplo Hastie, Tibshirani y Buja (1994).
  • 454. 454CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN 14.5.4 Otros Métodos Un método reciente que está adquiriendo cierta popularidad es el denominado SVM (support vector machines), véase Vapnik (2000) y Cherkassky y Mulier (1998). Este método adopta un punto de vista distinto del habitual: en lugar de buscar una reducción del espacio de los datos y resolver el problema en ese espacio de dimensión menor busca un espacio de dimensión mayor donde los puntos pueden separarse de forma lineal. Para entender la Þlosofía del método deÞnamos problemas separables linealmente. Supongamos que tenemos una muestra de n elementos del tipo (yi, xi) donde yi es la variable binaria de clasiÞcación, que, por conveniencia ahora, tomamos con valores posibles -1 y +1 en lugar de cero y uno, y xi ∈ Rp es el vector de variables para la observación i. Este conjunto de n datos es linealmente separable si es posible encontrar un vector w ∈ Rp que deÞna un plano que nos separe perfectamente las observaciones. Es decir, todas las observaciones de un grupo, por ejemplo las de yi = −1 se encuentran a un lado del plano y veriÞcan que w0 xi + b < −1, para un cierto escalar b, mientras que los puntos del otro grupo con yi = 1 están al otro lado y veriÞcan w0 xi + b > 1. Estas dos desigualdades pueden también escribirse conjuntamente como yi(w0 xi + b) ≥ 1 para i = 1, ..., n Sea f(xi) = w0 xi + b el valor del hiperplano de separación óptima entre los dos conjuntos para un punto xi. La distancia entre un punto cualquiera, xi, y el hiperplano viene dada por la proyección del punto en la dirección w, que es el vector ortogonal al plano. Esta proyección se calcula mediante w0 xi/ kwk . Como los puntos veriÞcan yi(w0 xi + b) ≥ 1, maximizaremos las distancias de los puntos al plano maximizando yi(w0 xi + b) kwk para todos los puntos muestrales. Esto ocurrirá si el numerador es positivo y el denominador tan pequeño como sea posible, lo que conduce al problema de programación cuadrática min kwk2 yi(w0 xi + b) ≥ 1, i = 1, ..., n
  • 455. 14.6. LECTURAS COMPLEMENTARIAS 455 x xx x x x + + + + + + + + x w f=0 f=1 f=-1 Figura 14.4: Representación de dos clases de puntos separables linealmente en cierto espacio, el plano separador f y el vector w ortogonal al plano. Cuando los datos no son linealmente separables el procedimiento habitual es proyectar los datos sobre un espacio de dimensión menor y utilizar funciones no lineales para separarlos grupos. Por ejemplo, en discriminación con dos poblaciones normales multivariantes con distinta matriz de covarianzas es frecuente que los datos no sean linealmente separables y entonces como hemos visto proyectamos los datos sobre un espacio de dimensión menor y utilizamos una función cuadrática para discriminar sobre las proyecciones en dicho espacio. En enfoque del vector soporte (VSM) es aplicar una transformación a los datos que los lleve a un espacio de dimensión mucho mayor que p y entonces aplicar una discriminación lineal como la que se ha presentado. La clave del procedimiento es darse cuenta que para resolver el problema en un espacio de dimensión alta solo necesitamos conocer los productos escalares entre las observaciones y si deÞnimos adecuadamente un producto escalar en el espacio ampliado tenemos resuelto el problema. Los detalles técnicos de implantación del método dejan todavía muchos interrogantes por resolver y el lector interesado puede acudir a la referencias indicadas al comienzo de la sección. 14.6 Lecturas complementarias El modelo logistíco se estudia en Hosmer y Lemeshow (1989), Cramer (1991) y Fox (1984). Estos modelos son casos particulares de los modelos lineales generalizado estudiados por Mc Cullagh y Nelder (1989). Su aplicación para discriminación se presentan claramente en McLachlan (1992), que contiene numerosas referencias a otros métodos no presentados en este libro. Las redes neuronales para clasiÞcación se explican en Hand (1997), Ripley (1996), Hertz et al. (1991) y Bishop (1995). El libro de McLachlan (1992) es una buena referencia general para métodos alternativos de discriminación. Veáse también Fukunaga (1990). La teoria de aprendizaje estadístico y su aplicación para la construcción de máquinas
  • 456. 456CAPÍTULO 14. DISCRIMINACIÓN LOGÍSTICA Y OTROS MÉTODOS DE CLASIFICACIÓN de clasiÞcación se presenta en Cherkassky y Mulier (1998) y Vapnik (2000). Ejercicios 14.1 Escribir la transformación logit como la diferencia entre las funciones soporte del dato a clasiÞcar bajo los dos modelos posibles. 14.2 Demostrar que el estimador de β0 en el modelo logístico si β1 = ... = βp = 0 viene dado por bβ0 = log bp/(1 − bp) donde bp = P yi/n. Interpretar este resultado. 14.3 Supongamos que los datos tienen observaciones repetidas de manera que para cada xi se han observado ni datos y ri de ellos pertenecen a la población con y = 1 y ni −ri a la de y = 0. Demostrar que la función soporte puede escribirse entonces como L(β) = P ri log pi +P (ni − ri) log(1 − pi). 14.4 Demostrar que si las dos poblaciones bajo consideración son normales multivariantes con distiantas medias y matriz de covarianzas, la función logit para clasiÞcar la observación x es g(x) = a+b0 x+x0 Ax, determinar la expresión de a, b y A en función de los parámetros del modelo. 14.5 Demostrar que para clasiÞcar una observación en las condiciones del ejemplo 14.2 la función logística es lineal en los parámetros y por lo tanto el modelo logístico puede aplicarse analogamente en este caso, aunque el número de parámetros a estimar es mayor. 14.6 Demostrar que en el caso de una única variable explicativa, si las observaciones de los dos grupos estan separadas, en el sentido de que todas las observaciones con y = 0 están en una zona xi < c y todas las de y = 1 en la zona xi > c, la función soporte es L(β) = P xi>c log pi + P xi<c log(1 − pi) y por tanto puede tomar el valor máximo cero si hacemos pi = 1 para las observaciones con xi > c y pi = 0 para las observaciones con xi < c. 14.7 Demostrar que el ejercicio 14.6 podemos aproximarnos arbitrariamente al valor L(β) = 0 tomando bβ0 = −cbβ1 y haciendo que bβ1 sea arbitrariamente grande. 14.8 Explicar, a la vista de los ejercicios 14.6 y 14. 7 porque el método de máxima verosimilitud va a fallar si todas las observaciones están perfectamente separadas, en el sentido deÞnido en 14.6
  • 457. Capítulo 15 CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES 15.1 FUNDAMENTOS En este capítulo volveremos al problema del análisis de conglomerados para analizar la homogeneidad de una muestra y encontrar grupos si existen, problema que ya estudiamos, desde un punto de vista descriptivo, en el capítulo 8. En este capítulo supondremos que los datos se han generado por una mezcla de G distribuciones desconocidas y preentaremos métodos para identiÞcar los grupor. Hay tres métodos principales para partir una muestra heterogénea en grupos más homogéneos. El primero, y más antiguo, es el método de k-medias, (o G medias en nuestra notación) que se presentó en el capítulo 8 como un algortimo heurístico para maximizar una medida de homogeneidad al partir la muestra en G grupos. En este capítulo veremos que las hipótesis que hagamos respecto a los componentes de la mezcla implican distintos criterios a maximizar con el algoritmo de k-medias. El segundo, es tratar de estimar los parámetros de los componentes de la mezcla y clasiÞcar después las observaciones a los grupos por sus probabilidades de pertenencia a las distintas poblaciones. En este capítulo estudiaremos con detalle el caso en el que los datos provienen de una mezcla de G poblaciones normales. El tercero, es proyectar los puntos sobre distintas direcciones que separen los grupos lo más posible y clasiÞcar las observaciones en grupos mediante estas proyecciones univariantes. Los procedimientos de partición de la muestra en grupos o conglomerados a partir de la hipótesis de que los datos provienen de mezclas de distribuciones, están relacionados con el análisis discriminante que vimos en el capítulo 13. En ambos casos suponemos mezclas, y queremos encontrar criterios para asignar nuevas observaciones a las distintas poblaciones. Sin embargo, en análisis discriminante suponemos que las poblaciones son conocidas, o ten- emos una muestra de cada población (a veces llamada muestra de entrenamiento), donde las observaciones están clasiÞcadas sin error, de manera que podemos estimar los parámetros de cada distribución. En análisis de conglomerados ni conocemos el número de poblaciones ni disponemos de datos previos de clasiÞcación, y toda la información sobre el número de grupos y su estructura debe obtenerse de la muestra disponible. 457
  • 458. 458 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES 15.2 EL METODO de K-MEDIAS para mezclas Para obtener criterios que podamos aplicar al caso de conglomerados, volvamos a revisar el problema de discriminar entre G poblaciones normales multivariantes N ¡ µg, Vg ¢ , cuando se dispone de una muestra de entrenamiento donde se conoce la procedencia de las observa- ciones, y sea ng al número de elementos de la muestra que provienen de la población g, donde g = 1, . . . , G, y P ng = n. Aplicando los resultados de la sección 10.2.2, la verosimilitud de la muestra será, sumando los soportes : log f (x1, . . . xn) = − GX g=1 ng 2 log |Vg| − GX g=1 ng 2 tr ¡ V−1 g S ¡ µg ¢¢ donde S ¡ µg ¢ = 1 ng Png i=1 ¡ xi − µg ¢ ¡ xi − µg ¢0 . Según esta ecuación la estimación de cada vector de medias, µg, será xg, la media muestral y la función soporte concentrada en este parámetro será: log f (x1, . . . xn) = − GX g=1 ng 2 log |Vg| − GX g=1 ng 2 tr ¡ V−1 g Sg ¢ donde Sg = 1 ng ng X i=1 (xi − xg) (xi − xg)0 . Supongamos que admitimos la hipótesis Vg = σ2 I, es decir las variables están incorreladas y tienen la misma varianza entre sí y en todos los grupos. Entonces, la función soporte se reduce a: log f (x1, . . . xn) = − np 2 log σ2 − 1 2σ2 tr à g X i=1 ngSg ! y llamando W = g X i=1 ngSg maximizar la verosimilitud supondría min tr(W)
  • 459. 15.2. EL METODO DE K-MEDIAS PARA MEZCLAS 459 que es el criterio de la traza, equivale a minimizar la suma ponderada de las varianzas estimadas en cada grupo. Este criterio se obtuvo, por otros métodos, en el capítulo 8, y es el que se utiliza en el algoritmo de k-medias. Tiene la ventaja de ser simple y fácil de calcular, pero no es invariante ante transformaciones lineales y no tiene en cuenta las correlaciones. Si admitimos la hipótesis Vg = V, la verosimilitud es equivalente a la del problema de discriminación clásica estudiado en el capítulo 13, y viene dada por : log f (x1, . . . xn) = − n 2 log |V| − 1 2 tr à V−1 à gX i=1 ngSg !! y la estimación MV de V es entonces bV = 1 n g X i=1 ngSg = 1 n W, e insertando esta estimación en la función de verosimilitud, maximizar la verosimilitud equiv- ale a: min |W| que es el criterio del determinante, propuesto por Friedman and Rubin (1967). Este criterio si es invariante a transformaciones lineales, y, como veremos, tiende a identiÞcar grupos elípticos. En el caso general en que las poblaciones tienen distinta matriz de varianzas y covarianzas, la estimación MV de Vg es Sg y el máximo de la función de verosimilitud es log f (x1, . . . xn) = − 1 2 X ng log |Sg| − np 2 , (15.1) y maximizar esta verosimilitud equivale a: min X ng log |Sg| (15.2) En otros términos, cada grupo debe tener ”volumen” mínimo. Suponemos que cada grupo tiene ng > p + 1, de manera que |Sg| sea no singular, lo que exige que n > G (p + 1). Un criterio adicional propuesto por Friedman y Rubin (1967) es partir de la descom- posición del análisis de la varianza multivariante y maximizar el tamaño de la distancia de Mahalanobis generaliza entre los grupos dada por W−1 B. De nuevo el tamaño de esta matriz puede medirse por la traza o el determinante, pero este criterio no ha dado buenos resultados en el análisis de conglomerados (vease Seber, 1984). Cualquiera de estos criterios puede maximizarse con un algoritmo similar al k—medias que vimos en la capítulo 8. El criterio del determinante es fácil de implementar y, como se demuestra en el apéndice 15.1, tiende a producir grupos elípticos, mientras que el de la traza
  • 460. 460 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES produce grupos esféricos. El criterio (15.2) tiene el inconveniente de que es necesario imponer restricciones fuertes sobre el número de observaciones en cada grupo para que las matrices no sean singulares, ya que si el número de grupos es grande, el número de parámetros a estimar puede ser muy alto. En la práctica, parece mejor permitir algunos rasgos comunes en las matrices de covarianzas y esto no es fácil de imponer con este criterio. Además, si un grupo tiene pocas observaciones y |Sg| es casi singular, este grupo tendrá un peso desproporcionado en el criterio y el algoritmo tiende a caer es ese tipo de soluciones. Por esta razón ese criterio, aunque tiene interés teórico, se utiliza poco en la práctica. 15.2.1 Número de grupos En la práctica el número de grupos, G, es desconocido y el algoritmo se calcula para distinto valores de G, G = 1, 2, .... Comparar las soluciones obtenidas no es simple, porque cualquiera de los criterios disminuirá si aumentamos el número de grupos. En efecto, según el análisis de la varianza multivariante, la variabilidad total puede descomponerse como: T = W + B (15.3) Intuitivamente, el objetivo de la división en grupos es conseguir que B, la variabilidad entre los grupos, sea lo más grande posible, mientras que W, la variabilidad dentro de cada grupo, sea lo más pequeña posible. Dada una división cualquiera en grupos, si elegimos uno cualquiera de ellos podemos aplicarle de nuevo esta descomposición, con lo que reduciremos de nuevo la variabilidad descomponiendo más este grupo. Por tanto, no podemos utilizar ningún criterio basado en el tamaño de W para comparar soluciones con grupos distintos, ya que simpre podemos disminuir W haciendo más grupos. Como vimos en el capítulo 8 podemos realizar un test F aproximado calculando la re- ducción proporcional de variabilidad que se obtiene aumentando un grupo adicional. El test es: H = tr(WG) − tr(WG+1) tr(WG+1)/(n − G − 1) (15.4) y, en la hipotesis de que G grupos son suÞcientes, el valor de H puede compararse con una F con p, p(n − G − 1) grados de libertad. La regla de Hartigan (1975), implantada en algunos programas informáticos, es continuar dividiendo el conjunto de datos si este cociente es mayor que 10. Un criterio adicional para seleccionar los grupos es el propuesto por Calinski y Harabasz (1974). Este criterio parte de la descomposición (15.3) y selecciona el valor de G maximizando CH = max tr(B)/(G − 1) tr(W)/(n − G) (15.5) Ambos criterios parecen funcionar bien en las aplicaciones y están relacionados (veáse los ejercicios 15.1 y 15.2)
  • 461. 15.2. EL METODO DE K-MEDIAS PARA MEZCLAS 461 G = 2 G = 3 G = 4 G = 5 G = 6 eh 30 20 14 15 14 em 35 22 13 16 12 mi 509 230 129 76 83 tm 15 11 9 9 9 tn 64 58 37 35 26 Total 653 341 202 151 144 H 77.4 61.5 30.4 6.2 CH 265.9 296.3 356.6 359.7 302 Tabla 15.1: Tabla con la varianza promedio dentro de los grupos para cada variable con distinto número de grupos con el algoritmo de k-medias. Ejemplo 15.1 Vamos a comprar los dos criterios para seleccionar el número de grupos en el algoritmo de k-medias con el criterio de la traza para los datos de los países. Vamos a utilizar únicamente las 5 variables demográÞcas de MUNDODES. Comenzaremos con los resultados del programa SPSS. Para decidir el número de grupos este programa nos proporciona una tabla con las varianzas de cada variable dentro de los grupos. La tabla 15.1 resume esta información: Por Þlas esta tabla da la suma de cuadrados en todos los grupos para cada variable dividida por el número de grados de libertad de esta suma que es n−G, que es la información obtenida directamente del programa, com veremos a continuación. La table total es la suma de estas varianzas que es la traza de W. A continuación tenemos los estadísticos H y CH para determinar el número de grupos. Ambos criterios conducen a cinco grupos en este ejemplo. Para ilustrar una salida estandar de un programa informatico, la tabla siguiente propro- ciona la salida del programa SSPS para 5 grupos. El programa proporciona los centros de los cinco grupos y la suma de cuadrados entre los grupos para cada variable dividida por sus grados de libertad, G − 1 = 4. Esta es la columna Cluster MS. En la tabla de Análisis de la varianza tenemos también las varianzas de cada variable dentro de los grupos, que están en la columna Error MS. Esta columna es la que se ha copiado redondeada en la tabla 15.1, que contiene la suma de las varianzas de las variables. Final Cluster Centers. Cluster EH EM MI TM TN 1 64.475 68.843 37.575 7.762 29.868 2 43.166 46.033 143.400 20.022 46.577 3 70.122 76.640 11.288 8.920 15.017 4 57.342 60.900 74.578 10.194 39.057 5 51.816 54.458 110.558 13.875 43.008 Analysis of Variance. Variable Cluster MS DF Error MS DF F Prob
  • 462. 462 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES EH 1805.3459 4 15.059 86.0 119.8792 .000 EM 2443.0903 4 16.022 86.0 152.4812 .000 MI 46595.0380 4 76.410 86.0 609.7986 .000 TM 289.2008 4 9.507 86.0 30.4191 .000 TN 3473.4156 4 34.840 86.0 99.6950 .000 Tabla Salida del Programa SPSS para 5 grupos con los datos de MUNDODES Ejercicio 15.1 Se observa en la tabla 15.1 que la variable mi tiene mucha más varianza que las demás, y, por tanto, va a tener un peso muy importante en la construcción de los grupos, que van a hacerse principalmente por los valores de esta variable. La tabla de las varianzas muestra que el número de grupos es cinco, ya que al aumentar a seis la disminución de las varianzas es muy pequeña. Para ilustrar el cálculo de los estadísticos para determinar el número de grupos, llamando MS(G) a la Þla de totales en la tabla 15.1, esta Þla será igual a tr(WG)/(n − G), y el estadistico se calcula como H = tr(WG) − tr(WG+1) tr(WG+1)/(n − G − 1) = (n − G)MS(G) − (n − G − 1)MS(G + 1) MS(G + 1) Ejemplo 15.2 donde n = 91 y G es el número de grupos indicado por columnas. Así se obtiene la Þla de H, y de acuerdo con el criterio de Hartigan escogeríamos cinco grupos. . Esta tabla incluye también la información para calcular el criterio (15.5). El numer- ador de esta expresión es la suma de los términos cluster MS para todas las variables y el denominador la suma de la columna Error MS. Para G=5 el criterio CH es CH = 1805.34 + .. + 3473.42 15.06 + ... + 34.84 = 54606 151.8 = 359.7 y la aplicación de este criterio lleva también a cinco grupos. Comparando las medias de la solución para cinco grupos, vemos que el grupo con menor mortalidad infantil es el tres, que incluye los paises de Europa menos Albania, y el de mayor mortalidad el dos con los países más pobres de Africa. La Þgura 15.1 presenta un histograma de la variable mi. Se observa que esta variable que va a tener un peso dominante en la formación de los grupos indica claramente la heterogeneidad de la muestra. Para ilustra el funcionamiento de distintos programas la tabla siguiente indica la salida del programa MINITAB para cinco grupos con las variables sin estandarizar, y estandarizadas A. Resultados de MUNDODES, variables sin estandarizar. MINITAB Number of Within cluster Average distance Maximum distance observations sum of squares from centroid from centroid Cluster1 21 10060.590 19.308 57.601 Cluster2 14 797.147 7.200 10.897
  • 463. 15.2. EL METODO DE K-MEDIAS PARA MEZCLAS 463 mortalidad infantil 180.0 170.0 160.0 150.0 140.0 130.0 120.0 110.0 100.0 90.0 80.0 70.0 60.0 50.0 40.0 30.0 20.0 10.0 0.0 30 20 10 0 Desv. típ. = 46.30 Media = 55.3 N = 91.00 Figura 15.1: Histograma de la variable mortalidad infantil indicando la presencia de entre cuatro y cinco grupos de paises Cluster3 28 829.039 5.005 10.008 Cluster4 9 826.444 8.724 15.306 Cluster5 19 2713.755 11.338 19.143 Cluster Centroids Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 tn 4.4762 2.7857 2.7143 3.3333 4.3684 tm 44.5381 22.8571 13.4429 34.1222 39.0579 mi 16.5095 6.4714 9.4250 9.1000 10.1947 eh 124.6333 23.5500 9.1143 45.7111 74.5789 em 48.1095 67.3643 70.7464 62.4333 57.3421 B: Resultados de MUNDODES, variables estandarizadas Number of Within cluster Average distance Maximum distance observations sum of squares from centroid from centroid Cluster1 20 14.440 0.817 1.275 Cluster2 10 9.932 0.736 2.703 Cluster3 29 20.771 0.792 1.535 Cluster4 22 32.443 1.134 2.132 Cluster5 10 6.679 0.727 1.621
  • 464. 464 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES Cluster Centroids Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 tn 0.6955 -1.7841 -0.1214 0.9070 -1.2501 tm 0.6007 -0.9921 -0.9665 1.2233 -0.0978 mi -0.3585 0.3087 -0.5867 1.3417 -0.8421 eh 0.3300 -0.7676 -0.9455 1.3758 -0.1771 em -0.2078 0.5478 0.9537 -1.4424 0.2754 Salida del programa MINITAB para 5 grupos con los datos de MUNDODES con y sin estandarizar. Ejemplo 15.3 Este programa nos da la suma de cuadrados dentro de los grupos por clusters (grupos) en lugar de por variables. Los resultados para datos sin estandarizar son parecido pero no idénticos, como puede verse comparando las medias de las variables en los grupos. Al estandarizar las variables los resultados cambian sustancialmente, al tener un peso mayor el resto de las variables. Los grupos son más homogéneos por continentes y en Europa se separan los paises occidentales y los orientales. 15.3 ESTIMACIÓN DE MEZCLAS DE NORMALES Un enfoque natural para realizar la subdivisión de la muestra en grupos o conglomerados es suponer que los datos se han generado como una mezcla de distribuciones normales multi- variantes y estimar conjuntamente los parámetros de las distribuciones que forman la mezcla y las probabilidades a posteriori de cada dato de pertenecer a cada una de los componentes de la mezcla. Vamos a presentar este enfoque. 15.3.1 Las ecuaciones de máxima verosimilitud para la mezcla Supongamos que los datos provienen de una mezcla de distribuciones f(x) = GX g=1 πgfg(x), la función de verosimilitud será l(θ|X) = nY i=1 ( GX g=1 πgfg(xi)) y puede escribirse como la suma de Gn términos correspondientes a todas las posibles clasi- Þcaciones de la n observaciones entre los G grupos. La función soporte de la muestra será L(θ|X) = nX i=1 log f(xi) = nX i=1 log GX g=1 πgfg(xi) (15.6)
  • 465. 15.3. ESTIMACIÓN DE MEZCLAS DE NORMALES 465 Supongamos que cada fg(x) es normal k-dimensional con vector de medias µg y matriz de covarianzas Vg, de manera que θ = (π1, ..., πG, µ1, ..., µG, V1, ..., VG). Sustituyendo estas densidades por su expresión, la verosimilitud será L(θ|X) = nX i=1 log( GX g=1 πg |Vg|−1/2 (2π)−p/2 exp(− 1 2 (xi − µg)0 V−1 g (xi − µg)). (15.7) Observemos que si hacemos en esta función bµg = xi, la estimación de Vg es cero y si πg 6= 0, el cociente πg |Vg|−1/2 tiende a inÞnito y también lo hará la función soporte. Por tanto, esta función tiene muchos máximos, ligados a soluciones donde cada densidad viene determinada exactamente por una observación. Para evitar estas singularidades supondremos que, como mínimo, hay p observaciones de cada modelo, y trataremos de encontrar un máximo local de esta función que proporcione un estimador consistente de los parámetros. Un problema adicional de esta función de verosimilitud es que las distribuciones normales no están identiÞcadas, ya que el orden 1, ..., G es arbitrario. Para resolver este problema podemos suponer que las distribuciones 1, ..., G corresponden a π1 ≥ π2 ≥ ... ≥ πG o deÞnir el orden de las distribuciones por una medida del tamaño de la media o la matriz de covarianzas. Para maximizar esta función con relación a las probabilidades πi hay que tener en cuenta que PG g=1 πg = 1. Introduciendo esta restricción con un multiplicador de Lagrange en (15.6), la función a maximizar es L(θ|X) = nX i=1 log GX g=1 πgfg(xi) − λ( GX g=1 πg − 1). (15.8) Derivando respecto a las probabilidades: ∂L(θ|X) ∂πg = nX i=1 fg(xi) PG g=1 πgfg(xi) − λ = 0 y multiplicando por πg, supuesto πg 6= 0 ya que en otro caso el modelo g es redundante, podemos escribir λπg = nX i=1 πig (15.9) donde hemos llamado πig a : πig = πgfg(xi) PG g=1 πgfg(xi) (15.10) Estos coeÞcientes representan la probabilidad de que una vez observado el dato xi haya sido generada por la normal fg(x). Estas probabilidades se denominan a posteriori y se calculan por el teorema de Bayes. Su interpretación es la siguiente. Antes de observar xi la probabilidad de que cualquier observación, y en particular la xi, venga de la clase g es πg. Sin
  • 466. 466 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES embargo, después de observar xi, esta probabilidad se modiÞca en función de lo compatible que sea este valor con el modelo g. Esta compatibilidad se mide por fg(xi) : si este valor es relativamente alto, aumentará la probabilidad de que venga del modelo g. Naturalmente para cada dato PG g=1 πig = 1. Para determinar el valor de λ, sumando (15.9) para todos los grupos λ = nX i=1 GX g=1 πig = n y sustituyendo en (15.9), las ecuaciones para estimar las probabilidades a priori son bπg = 1 n Pn i=1 πig. (15.11) que proporcionan las probabilidades a priori como promedio de las probabilidades a poste- riori. Vamos a calcular ahora las estimaciones de los parámetros de las distribuciones normales. Derivando la función soporte respecto a las medias: ∂L(θ|X) ∂µg = nX i=1 πgfg(x)V−1 g (xi − µg) PG g=1 πgfg(x) = 0 g = 1, ..., G que puede escribirse como cµg = Pn i=1 πigPn i=1 πig xi. (15.12) La media de cada distribución se estima como una media ponderada de todas las obser- vaciones con pesos ωi = πig/ Pn i=1 πig, donde ωig ≥ 0, y Pn i=1 ωig = 1. Los pesos, ωig, representan la probabilidad relativa de que la observación i pertenezca a la población g. Análogamente, derivando respecto a Vg y utilizando los resultados de la sección 10.2 obten- emos que: cVg = Pn i=1 πigPn i=1 πig (xi − cµg)(xi − cµg)0 (15.13) que tiene un interpretación similar, como promedio de desviaciones de los datos respecto a sus medias, con pesos proporcionales a las probabilidades a posteriori. Para resolver estas ecuaciones (15.11), (15.12) y (15.13) y obtener los estimadores nece- sitamos las probabilidades πig, y para calcular estas probabilidades con (15.10) necesitamos los parámetros del modelo. Intuitivamente podríamos iterar entre ambas etapas y esta es la solución que se obtiene con el algoritmo EM. 15.3.2 Resolución mediante el algoritmo EM Para aplicar el algoritmo EM transformemos el problema introduciendo un conjunto de variables vectoriales no observadas (z1, ..., zn), que tienen como función indicar de qué modelo
  • 467. 15.3. ESTIMACIÓN DE MEZCLAS DE NORMALES 467 proviene cada observación. Con este objetivo, zi será una variable binaria vectorial G × 1 que tendrá sólo un componente igual a uno, el correspondiente al grupo del que proviene el dato xi, y todos los demás igual a cero. Por ejemplo xi vendrá de la población 1 si zi1 = 1 y zi2 = zi2 = ... = ziG = 0. Se veriÞcará que PG g=1 zig = 1 y Pn i=1 PG g=1 zig = n. Con estas nuevas variables, la función de densidad de xi condicionada a zi puede escribirse f(xi/zi) = GY g=1 fg(xi)zig . (15.14) En efecto, en zi solo un componente zig es distinto de cero y ese componente deÞnirá cual es la función de densidad de las observaciones. Análogamente, la función de probabilidades de la variable zi será p(zi) = GY g=1 πg zig . (15.15) Por otro lado, la función de densidad conjunta es f(xi, zi) = f(xi/zi)p(zi), que, por (15.14) y (15.15), podemos escribir f(xi, zi) = GY g=1 (πgfg(xi))zig El soporte de la verosimilitud conjunta es LC(θ|X, Z) = nX i=1 log f(xi, zi) = nX i=1 GX g=1 zig log πg + nX i=1 GX g=1 zig log fg(xi) (15.16) Si las variables zig que deÞnen la población de la que proviene cada dato fueran conocidas, la estimación de los parámetros es inmediata, y la hemos comentado en el problema de análisis discriminante. La media de cada componente se estima como promedio de las observaciones generadas por el componente, que puede escribirse bµg = nX i=1 GX g=1 zigxi, y la matriz de covarianzas de cada grupo se calculará teniendo en cuenta sólo las observaciones de ese grupo mediante cVg = nX i=1 GX g=1 zig(xi − xg)(xi − xg)0 .
  • 468. 468 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES Sin embargo, el problema es que ahora las variables de clasiÞcación no son conocidas. La solución que proporciona el algoritmo EM es estimar las variables zig mediante las probabil- idades a posteriori, y después utilizar estas fórmulas. El algoritmo EM comienza con una estimación inicial bθ (0) . En el paso E calcularemos el valor esperado de las observaciones ausentes en la verosimilitud completa (15.16) condicio- nando a los parámetros iniciales y a los datos observados. Como la verosimilitud es lineal en zig, esto equivale a sustituir las variables ausentes por sus esperanzas. Las variables ausentes, zig, son variables binomiales con valores 0,1, y E(zig/X,bθ (0) ) = p(zig = 1/X,bθ (0) ) = p(zig = 1/xi, bθ (0) ) = bπ (0) ig donde bπ (0) ig es la probabilidad de que la observación xi venga del modelo j cuando ya se ha observado xi y los parámetros de los modelos son los dados por bθ (0) . Estas son las proba- bilidades a porteriori que se calculan por (15.10) utilizando como valores de los parámetros los especiÞcados en bθ (0) . Al sustituir las variables ausentes por sus esperanzas se obtiene L∗ C(θ|X) = nX i=1 GX g=1 bπ (0) ig log πg + nX i=1 GX g=1 π (0) ig log fg(xi) En la etapa M se maximiza esta función respecto a los parámetros θ. Observemos que los parámetros πg aparecen sólo en el primer término y los de las normales sólo en el segundo. Podemos pues obtenerlos independientemente. Comenzando por los πg, estos parámetros están sujetos a que su suma debe ser uno, por lo que la función a maximizar es nX i=1 GX g=1 bπ (0) ig log πg − λ( GX g=1 πg − 1) que conduce a (15.11) con los valores πig ahora Þjos a bπ (0) ig . Para obtener los estimadores de los parámetros de la normal, derivando el segundo término se obtienen las ecuaciones (15.12) y (15.13), donde ahora las probabilidades πig son iguales a bπ (0) ig . La resolución de estas ecuaciones conduce a un nuevo vector de parámetros, bθ (1) , y el algoritmo se itera hasta obtener convergencia. En resumen, el algoritmo es: 1. Partir de un valor bθ (0) y calcular bπ (0) ig con (15.10) 2. Resolver (15.11), (15.12) y (15.13) para obtener bθ = (bπ,bµ, bV) 3. Volver con este valor a 1 e iterar 1 y 2 hasta convergencia. 15.3.3 Aplicación al análisis de conglomerados Se han propuesta distintas implementaciones de las mezclas de normales para resolver proble- mas de conglomerados. En nuestra opinión el método más prometedor es debido a BanÞeld y
  • 469. 15.3. ESTIMACIÓN DE MEZCLAS DE NORMALES 469 Raftery (1993) y Dasgupta y Raftery (1988), que han diseñado un método basado en mezclas de distribuciones normales y un algoritmo, MCLUST, que funciona bien en la práctica. La bases del procedimiento son comenzar el algoritmo EM con una estimación inicial obtenida mediante análisis jerárquico y reparameterizar las matrices de covarianzas para que puedan tener partes comunes y partes especíÞcas. En síntesis el procedimiento consiste en : 1. Seleccionar un valor M para el máximo número de grupos y reparametrizar las distribuciones normales que forman los grupos. 2. Estimar los parámetros de la mezcla con el algoritmo EM para G = 1, ..., M. Las condiciones iniciales del algoritmo se establecen con un método jerárquico de los estudiados en el capítulo 9. 3. Seleccionar el número de grupos por el criterio BIC. Vamos a analizar cada una de estas etapas Reparametrizaciones Un inconveniente de la parametrización habitual de las mezclas de normales es que las matrices de covarianzas se suponen o bien iguales, resultando en p(p + 1)/2 parámetros, o bien desiguales, con Gp(p + 1)/2 parámetros. Si la dimensión del espacio es grande y podemos tener mucho grupos, suponer que todas las matrices son distintas puede implicar un número gigantesco de parámetros que puede hacer la estimación mediante el algoritmo EM muy lenta e incluso impracticable. Una solución propuesta por BanÞeld y Raftery (1993) es parametrizar las matrices de covarianza por su descomposición espectral como Vg = λgCgAgC0 g donde Cg es una matriz ortogonal con los vectores propios de Vg y λgAg es la matriz de valores propios, siendo el escalar λg el valor mayor propio de la matriz. Recordemos que los vectores propios de la matriz indican orientación, mientras que los valores propios indican tamaño, en el sentido de volumen ocupado en el espacio por el grupo. De esta forma podemos permitir que las orientaciones de ciertos grupos sean distintas, o que el tamaño de otros sea distinto. Por ejemplo, podemos suponer que el tamaño es el mismo pero las orientaciones son diferentes. Entonces Vg = λCgAC0 g . No entraremos en los detalles, que el lector puede consultar en Dasgupta y Raftery (1998) y las referencias que allí se indican. Número de Grupos El criterio para seleccionar el número de grupos es minimizar el BIC. Vimos en la sección 10.5.3 que el criterio de Schwartz aproxima las probabilidades a posteriori de cada modelo. Sustituyendo la expresión de la verosimilitud en el máximo de la mezcla de normales en la expresión del BIC y eliminando constantes, este criterio en este caso equivale a: BIC = min X ng log |Sg| + n (p, G) ln n donde n (p, G) es el número de parámetros en el modelo. Conviene indicar que, aunque este criterio parece funcionar bien en la práctica para escoger el número de grupos, las hipótesis
  • 470. 470 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES de regularidad que se efectúan para deducir el BIC como aproximación de la probabilidad a posteriori no se veriÞcan en el caso de las mezclas, por lo que este criterio puede aplicarse como una guía y no como una regla automática. El criterio AIC es AIC = min X ng log |Sg| + n (p, G) n 15.4 MÉTODOS BAYESIANOS 15.4.1 Estimación Bayesiana de Mezclas de Normales El enfoque bayesiano puede aplicarse a la estimación de mezclas de distribuciones. Hemos visto en la sección 15.3 que la verosimilitud de una mezcla contiene Gn términos, correspon- dientes a las posibles asignaciones de las n observaciones de la muestra a las G poblaciones posibles. Al multiplicar por la prior, p(θ), la posterior tendrá también Gn términos y salvo en el caso de n muy pequeño es inmanejable. La introducción de variables faltantes ha permitido resolver la estimación mediante el al- goritmo EM. Este mismo enfoque lleva a una solución rápida del problema mediante Muestreo de Gibbs. Introduciendo las variables no observadas, zi, tenemos que, conocida zi, la den- sidad de xi es normal multivariante, con parámetros determinados por la componente de zi igual a uno. Podemos escribir f(xi|ziθ) ∼ Np( GY g=1 µ zig i , GY g=1 V zig i ) por otra parte, la variable zi tiene una distribución multinomial con parámetros f(zi|θ) ∼ MG(1; πi1, ..., πiG). Estas dos funciones determinan la verosimilitud de la muestra `(θ|X, Z) = nY i=1 f(xi|ziθ)f(zi|θ) que será el producto de 2n términos: n distribuciones normales con parámetros determinados por las componentes de zi distintos de cero y n coeÞcientes πig, determinados también por los zi . Los problemas de singularidad indicados al estudiar la verosimilitud de distribuciones mezcladas se acentúan si tomamos distribuciones impropias, por lo que en la estimación de mezclas conviene tomar distribuciones propias. Eligiendo distribuciones conjugadas, tomare- mos una distribución de Dirichlet sobre las proporciones de la mezcla, una normal para la media dada la varianza, y una de Wishart para la precisión. Es decir, a priori p(π) ∼ D(α) p(µi|V−1 i ) ∼ Np(µi0, Vi/ni0)
  • 471. 15.4. MÉTODOS BAYESIANOS 471 p(V−1 i ) ∼ Wp(mi0, Mi/mi0) La posterior de los parámetros y las observaciones faltantes dados los datos será p(θ, Z|X) = f(X|θ, Z)f(Z|θ)p(θ) = `(θ|X, Z)p(θ) Podemos aplicar el Muestro de Gibbs para obtener muestras de esta distribución. La idea es muestrear iterando entre las dos distribuciones condicionadas p(θ|X, Z) y p(Z|X, θ). En la primera suponemos una asignación de las observaciones entre los grupos y obtenemos la estimación de los parámetros. Esta distribución es fácil de obtener como veremos, ya que cada observación queda identiÞcada dentro de un grupo. En la segunda suponemos un valor para los parámetros y calculamos la probabilidad de que cada observación venga de cada grupo. De nuevo esta distribución es fácil de obtener. Al Þnal, tendremos un conjunto de muestras de Monte Carlo de estas distribuciones, (θ(1) , Z(1) ), ...., (θ(N) , Z(N) ). Los valores (θ(1) , ...., θ(N) ) permitirán estimar la distribución a posteriori de los parámetros dados los datos, mientras que las secuencias (Z(1) , ...., Z(N) ) proporcionaran las probabilidad a posteriori de que cada observación pertenezca a cada grupo, dados los datos. Comencemos con el muestreo de p(θ|X, Z). Fijado Z = Z(h) , podemos, para cada grupo, obtener una muestra de valores de los parámetros como sigue: (1) Para cada media con p(µg|V−1 g , X, Z(h) ) ∼ Np(µgp, Vgp) donde la media a posteriori se calcula de la forma habitual, pero utilizando solo las observa- ciones que han sido clasiÞcadas en Z(g) como pertenecientes al grupo g : µgp = ng0µg0 + ng(Z(h) )¯xg(Z(h) ) ng0 + n(Z(h)) donde ng(Z(h) ) es el número de observaciones en el grupo g dado por ng(Z(h) ) = nX i=1 zig y ¯xg(Z(h) ) la media de estas observaciones, dada por ¯xg(Z(h) ) = Pn i=1 zigxi Pn i=1 zig . Análogamente, la varianza de la posterior será Vgp = Vg ng0 + ng(Z(h)) . (2) Para las matrices de precisión con p(V−1 g |X, Z(g) ) ∼ Wp(mgp, Mgp)
  • 472. 472 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES donde mgp = ng0 + mg0 y M−1 gp = mg0M−1 + ng(Z(h) )Sg+ ng(Z(h) )ng0 ng(Z(h)) + n0 (¯xg − µg0)(¯xg − µg0)0 , y la varianza muestral en cada grupo se estima con las observaciones de ese grupo por ng(Z(h) )Sg = nX i=1 zig(xi − x)(xi − x)0 . (3) Para las probabilidades con p(πg|X, Z(g) )∼ D(α1 + n1(Z(h) ), ..., αG + nG(Z(h) )). Una vez obtenido el vector de parámetros θ(g) obtendremos un nuevo valor de Z = Z(g+1) mediante: (4) Simular Z = (z1, ..., zn) de f(zi|X, θ(g) )∼MG(1; πi1(θ(g) ), ..., πiG(θ(g) )), donde las probabilidades a posteriori de las observaciones vienen dadas por: πig(θ(g) ) = πgfg(xi|θ(g) ) PG g=1 πgfg(xi|θ(g) ) . Un problema adicional en la estimación mediante muestreo de Gibbs es la falta de identi- Þcación de los componentes de la mezcla, que señalamos en la sección 15.3.3. Una posibilidad es introducir un orden entre las distribuciones, pero esta solución puede no ser siempre ade- cuada. Vease Stephens (2000) y Celeux y otros (2000) para discusiones recientes de este problema. 15.5 MÉTODOS DE PROYECCIÓN Una alternativa a los métodos anteriores es buscar direcciones de proyección de los datos donde puedan aparecer los distintos grupos y después buscar los grupos sobre estas direc- ciones univariantes. Alternativamente podemos proyectar sobre dos direcciones, un plano, y buscar grupos en el plano. La ventaja de este enfoque es que no necesitamos especiÞcar a priori el número de grupos, ni comparar soluciones con número de grupos muy distintos. Una intuición sobre las posible buenas direcciones de proyección nos lo proporciona el siguiente resultado: supongamos que tenemos una muestra donde cada dato puede venir de una de dos poblaciones normales que tienen la misma matriz de covarianzas, que es de- sconocida, y medias distintas, también desconocidas. La procedencia de cada observación
  • 473. 15.5. MÉTODOS DE PROYECCIÓN 473 es también desconocida. Se desea encontrar una dirección de proyección de las observa- ciones que nos proporcione, si es posible, la máxima separación entre las poblaciones. Puede demostrarse que aunque no conocemos la procedencia de cada obervación es posible clasiÞcar con la función lineal discriminante, que sabemos es óptima para clasiÞcar en este problema. Si suponemos que la probabilidad de que cada dato venga de cada una de las dos poblaciones es la misma, Peña y Prieto (2000) han demostrado que entonces la dirección que minimiza la kurtosis de la proyección es la función lineal discriminante de Fisher (véase el apéndice 15.3). Este resultado puede extenderse a varias poblaciones: las reglas óptimas de clasiÞcación de Fisher se obtiene minimizando la kurtosis de las proyecciones. Este resultado sugiere separar los grupos buscando las direcciones que nimimizan la kurtosis y proyectando los datos sobre estas direcciones. Como es posible que además de los grupos existan datos atípicos aislados, o grupos muy pequeños alejados del resto, y hemos visto en el capítulo 4 que estos atípicos se maniÞestan en las direcciones con máxima kurtosis, podemos pensar en un algortimo que incluya en la búsqueda también estas direcciones. Esto conduce al siguiente método propuesto por Peña y Prieto (2001b): (1) Comenzar proyectando los datos sobre las direcciones que maximizan el coeÞciente de kurtosis de los datos proyectados. A continuación proyectar los datos sobre el espacio ortogonal a la direccion encontrada y seleccionar ahora la dirección sobre ese subespacio donde se maximiza el coeÞciente de kurtosis. Repetir el proceso de proyección ortogonal a las direcciones ya encontradas y selección de una nueva dirección maximizando la kurtosis. De esta manera se obtienen p direcciones ortogonales de proyección. (2) Repetir el cálculo de direcciones de (1) pero ahora buscando direcciones que minimizan el coeÞciente kurtosis. (3) Explorar cada una de estas 2p direcciones para encontrar grupos y datos atípicos de la forma siguiente. Se obtienen los estadísticos ordenados de los datos proyectados y se consideran los saltos entre estadísticos ordenados. Si los datos proyectados provienen de una distribución unimodal, estos saltos deben tener una pauta conocida, con saltos grandes en los extremos y pequeños saltos en el centro de la distribución. Para decidir cuando se produce un salto sobre una dirección se utilizan las propiedades de los estadísticos de orden. Puede demostrarse que si tenemos una muestra de datos normales y los transformamos con su función de distribución, los estadísticos ordenados de los datos transformados tienen una distribución uniforme, y entonces puede estudiarse fácilmente la distribución de los espacios o saltos. Por esta razón el procedimiento estandariza los datos proyectados con la función de distribución inversa de la normal univariante antes de comenzar a buscar saltos en los datos proyectados. El algoritmo para explorar las direcciones es: 1. Para cada dirección dk, k = 1, . . . , 2p, se calcula la proyección de los datos sobre ella mediante uki = x0 idk. 2. Se estandarizan las observaciones , zki = (uki − mk)/sk, donde mk = P i uki/n es la media de las proyecciones y s2 k = P i(uki − mk)2 /(n − 1) su varianza. 3. Se ordenan las proyecciones zki para cada k, y se obtienen los estadísticos ordenados zk(i). A continuación estos estadísticos se transforman con la función de distribución inversa de la normal estandar ¯zki = Φ−1 (zk(i)).
  • 474. 474 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES 4. Se calculan los espacios, que son las diferencias entre valores consecutivos de los es- tadísticos de orden transformados γki = ¯zk,i+1 − ¯zki. 5. Se buscan valores altos de los espacios γki, que corresponderán a huecos en la distribu- ción de los datos. En efecto, si el estadístico de orden trece es 10 y el de orden catorce 20 el espacio es 20-10=10 y si este valor es mucho mayor que los otros espacios indica que hay un hueco sin datos entre estos valores, que puede corresponder a la sepación entre dos grupos de datos. Un valor alto del espacio indicará la presencia de más de un grupo de datos. Para determinar los valores altos de γki introducimos una constante, κ = 1 − 0.11/n /p10/(3n) , donde κ se calcula a partir de la distribución de los espacios (veáse Peña y Prieto para los detalles), y decidimos que comienza un nuevo grupo de datos cuando γkj > κ . En concreto, deÞnimos i0k = 0 y calculamos r = inf j {n > j > i0k : γkj > κ}. Si r < ∞, esto indica la presencia de varios grupos, en otro caso se pasa a analizar la dirección siguiente. 6. Marcar todas las observaciones l que veriÞcan ¯zkl ≤ ¯zkr como pertenecientes a grupos diferentes que las que veriÞcan ¯zkl > ¯zkr. Hacer i0k = r y volver a 5 para repetir la búsqueda de huecos en los datos. Despues de este análisis se realiza un paso Þnal para asignar las observaciones a los grupos identiÞcados, como sigue. 1. Sea G el número de grupos identiÞcados, se ordenan los grupos por número de obser- vaciones de manera que el grupo 1 es el mayor y el G el menor. Suponemos que las observaciones se han renumerado de manera que ahora las observaciones ig−1 + 1 to ig pertenecen al grupo g (i0 = 0 and iG = n). 2. Para cada grupo g = 1, . . . , G : (a) Se calcula la media y la matriz de covarianzas de las observaciones del grupo si hay la menos p + 1 datos. (b) Calcular las distancias de Mahalanobis para todas las observaciones que no están en el grupo g, D2 j = (xj − mg) 0 S−1 g (xj − mg), j ≤ ig−1, j > ig. (c) Asignar al grupo g las observaciones que satisfacen D2 j ≤ χ2 p,0.99. (d) Si ninguna observación se reclasiÞca ir al grupo g + 1. En otro caso, renumerar las observacione como en 1 y repetir el proceso para el mismo grupo g.
  • 475. 15.6. LECTURAS COMPLEMENTARIAS 475 15.6 Lecturas complementarias La literatura sobre los métodos aquí presentados es extensa. Anderberg (1973), Everitt (1993), Gordon (1981), Hartigan (1975), Mirkin (1996) , Spath y Bull (1980) y Spath (1985) están dedicados a métodos de agrupamiento y presentan los métodos clásicos. Las ideas de proyección y estimación de normales son más recientes y están descritos en artículos. BanÞeld and Raftery (1993) and Dasgupta and Raftery (1998) describen el algoritmo Mclust para estimar mezclas de normales. Para métodos de proyección véase Friedman (1987), Jones and Sibson (1987), Posse (1995), Nason (1995) y Peña y Prieto (2001). EJERCICIOS Ejercicio 15.2 Demostrar que el criterio de Hartigan para el algoritmo de k-medias equivale a continuar añadiendo grupos hasta que tr(WG) < tr(WG+1)(n − G + 9)/(n − G − 1) (Sugerencia utilizar que tr(W) = SCDG, e imponer la condición de que el valor de F sea mayor que 10) Ejercicio 15.3 Demostrar que para n grande el criterio de r Calinski y Harabasz para el algoritmo de k medias equivale aproximadamente a seleccionar el número de grupos G si tr(WG) < tr(WG+1)G/(G − 1) Ejercicio 15.4 Demostrar que en la estimación de mezclas de normales, si las distribuciones tienen Vg= σ2 gI, la estimación MV de σ2 g se obtiene con cσ2 g = Pn i=1 πigPn i=1 πig (xi − cµg)0 (xi − cµg). Ejercicio 15.5 Demostrar que si tenemos una mezcla de g poblaciones normales Ni(µi, V ) con distinta media pero la misma matriz de covarianzas y con probabilidades πi con P i πi = 1, si proyectamos las observaciones sobre una dirección u y llamamos z = u0 x a los datos proyectados, su media es E(z) = ¯m = u0 µ donde µ = P i πiµi y su varianza var(z) = u0 (V + B)u, donde B = P i πi(µi − µ)(µi − µ) 0 . Ejercicio 15.6 Demostrar que en el ejercicio anterior el cuarto momento de los datos proyectados es 3 (u0 (V + B)u)2 − 3 (u0 Bu)2 + P i πi(u0 Biu)2 . APÉNDICE 15.1 COMPARACIÓN DEL CRITERIO DE LA TRAZA Y EL DETERMINANTE Supongamos, para simpliÞcar dos grupos. Estudiemos, en primer lugar, cómo aumenta la variabilidad dentro del primer grupo al incluir un nuevo elemento del segundo. Supongamos que el primer grupo tiene n puntos (x1, ..., xn) con centro en m, y le añadimos un nuevo punto, x∗ . La nueva media al incluir ese elemento será, llamando d = (x∗ − m) m∗ = m+ 1 n + 1 d y el cambio en la matriz de suma de cuadrados W∗ = X (xi − m− 1 n + 1 d)(xi − m− 1 n + 1 d)0
  • 476. 476 CAPÍTULO 15. CLASIFICACIÓN MEDIANTE MEZCLAS DE DISTRIBUCIONES descomponiendo esta suma en la de los primeros n elementos originales del grupo más el último, tenemos que W∗ = W+ n (n + 1)2 dd0 + (x∗ − m∗ )(x∗ − m∗ )0 y como x∗ − m∗ = n n + 1 d sustituyendo, tenemos Þnalmente que: W∗ = W + n n + 1 dd0 (15.17) Con el criterio de la traza, el cambio en la matriz W es: tr(W∗ − W) = n n + 1 tr(dd0 ) = n n + 1 d0 d y el cambio será mínimo si incluimos el punto de mínima distancia euclídea respecto al centro de grupo. Por un razonamiento análogo, podemos analizar el problema simétrico de la disminución de variabilidad al eliminar un elemento de un grupo y concluir que el criterio de la traza lleva a minimizar las distancias euclídeas entre los puntos y sus medias de grupo. Analicemos el criterio del determinante. Suponiendo en (15.17), para simpliÞcar el ra- zonamiento, que n n + 1 es la unidad, tenemos que: |W∗ | − |W| = |W + dd0 | − |W| , (15.18) y como: |W + dd0 | = |W(I + W−1 dd0 )| = |W| |I + W−1 dd0 |, (15.19) y, por otro lado, al tener W−1 dd0 rango uno: |I + W−1 dd0 | = Π(1 + λi) = 1 + λ1 = 1 + tr(W−1 dd0 ) = 1 + tr(d0 W−1 d) = 1 + d0 W−1 d, con lo que concluimos con la relación |W + dd0 | = |W| + |W|d0 W−1 d. Sustituyendo ahora este valor en (15.18), resulta que minimizaremos el efecto de añadir un punto sobre el determinante si minimizamos: |W|d0 W−1 d, que equivale a minimizar la distancia de Mahalanobis entre el punto y el centro de los datos. Podemos concluir que, en general, el criterio de la traza minimiza distancias euclídeas, mientras que el del determinante minimiza distancias de Mahalanobis.
  • 477. Capítulo 16 CORRELACIÓN CANÓNICA 16.1 INTRODUCCIÓN El análisis de correlaciones canónicas es debido a Hotelling. Este investigador estudió en 1936 la relación entre resultados de test de capacidad intelectual y medidas físicas de un grupo de personas. Hotelling pretendía investigar las relaciones entre ambos conjuntos de variables y conocer cuantas dimensiones independientes tenía la relación existente entre ellas. En general, correlación canónica se utiliza cuando un conjunto de variables multivariantes puede dividirse en dos grupos homogéneos (por criterios económicos, demográÞcos, sociales, etc.), y se desea estudiar la relación entre ambos conjuntos de variables. En particular, los dos grupos pueden corresponder a las mismas variables medidas en dos momentos distintos en el tiempo, el espacio,..., etc. Supongamos que disponemos de un conjunto de datos de n individuos y k variables que pueden subdividirse en dos grupos: el primero incluye p variables y el segundo q, donde p+q = k. Por ejemplo, las primeras p variables representan las inversiones realizadas por una empresa y las restantes q variables representan distintas medidas de beneÞcios. Es posible que p = q. Por ejemplo, cuando medimos las p variables en el instante t y en el instante t+1. Llamaremos X en este capítulo a la matriz n × p que contienen los valores de las p primeras variables en los n elementos (individuos, países, empresas, etc...) e Y a la matriz (n × q) que contienen los valores de las q segundas variables medidas sobre esos mismos n elementos. Para medir la relación entre ambos conjuntos vamos a buscar una combinación lineal de las p primeras variables que tenga la máxima correlación con una combinación lineal de las q segundas variables. Es decir, llamando: x∗ = Xα = p X i=1 αixi a una combinación lineal de las variables del primer grupo, y: y∗ = Yβ = q X j=1 βjxj a una combinación lineal de las variables del segundo, se desea encontrar los vectores α y β tales que las nuevas variables x∗ e y∗ tengan máxima correlación. 477
  • 478. 478 CAPÍTULO 16. CORRELACIÓN CANÓNICA Es posible que una vez encontrada la primera relación entre estas dos variables indicado- ras no exista más relacion entre ambos conjuntos de variables y entonces decimos que toda la relación entre ambos conjuntos se resume en una dimensión. Para comprobarlo, podemos buscar una segunda variable indicadora del primer conjunto, que este incorrelada con la primera, y que tenga correlación máxima con otra variable indicadora del segundo conjun- to. Procediendo de esta manera, podemos obtener r = min(p, q) relaciones entre variables indicadoras de ambos grupos que pueden ordenarse por orden de importancia. Determinar el número de relaciones entre las variables (variables indicadoras incorreladas de un conjun- to relacionadas con el otro) permite juzgar cuantas dimensiones distintas tiene la relación. En el análisis de correlación canónica ambos conjuntos de variables se consideran simetri- camente, pero es posibles que queremos explicar el conjunto de variables dependientes Y mediante las independientes X. El procedimiento habitual (regresión múltiple) es construir un indicador de la variables dependientes y relacionarlo con las independientes mediante una regresión múltiple. Este procedimiento es razonable cuando exista sólo una dimensión en la relación, pero puede ser engañoso si existen varias. El análisis de correlación canónica permite determinar cuantas dimensiones relevantes tiene la relación entre ambos conjuntos de variables. 16.2 Construcción de las variables canónicas 16.2.1 La primera variable canónica Supondremos que x es un vector p × 1 con distribución Np(0, V11) e y un vector q × 1 con distribución Nq(0, V22), de manera que las variables están medidas en desviaciones a la media. Entonces, construyendo el vector (p+q)×1 con todas las variables, [x0 y0 ]0 , la matriz de covarianzas para el conjunto de todas las variables es: Vx,y = E µ· x y ¸ [x0 y0 ] ¶ = · V11 V12 V21 V22 ¸ . Queremos encontrar dos vectores, α y β, que deÞnan dos nuevas variables escalares, x∗ = α0 x , y∗ = β0 y, con máxima correlación. El coeÞciente de correlación entre x∗ e y∗ es: ρ(x∗ y∗ ) = E [α0 xy0 β] E [α0xx0α]1/2 [β0 yy0β] 1/2 que puede escribirse: ρ = α0 V12β (α0V11α)1/2(β0 V22β)1/2 . Como nos interesa la magnitud, y no el signo, de la correlación vamos a maximizar el cuadrado de la correlación entre (x∗ , y∗ ) respecto a α y β. Para ello, impondremos la condición de varianzas unitarias, es decir, V ar(x∗ ) = α0 V11α = 1 (16.1)
  • 479. 16.2. CONSTRUCCIÓN DE LAS VARIABLES CANÓNICAS 479 V ar(y∗ ) = β0 V22β = 1 (16.2) y la función objetivo es: Maximizar ρ2 = (α0 V12β)2 (α0V11α) (β0 V22β) (16.3) con las restricciones (16.1) y (16.2). Introduciendo estas restricciones mediante multipli- cadores de Lagrange, la función a maximizar es: M = (α0 V12β) 2 − λ (α0 V11α − 1) − µ (β0 V22β − 1) . Derivando, respecto a los vectores de coeÞcientes y escribiendo los resultados como vector columna, utilizando que V0 12 = V21: ∂M ∂α = 2V12β − 2λV11α, (16.4) ∂M ∂β = 2V21α − 2µV22β. (16.5) Igualando a cero estas ecuaciones, se obtiene: V12β = λV11α (16.6) V21α = µV22β. (16.7) Para resolver este sistema, multipliquemos la primera ecuación por α0 y la segunda por β0 y utilicemos las igualdades (16.1) y (16.2). Entonces: α0 V12β =λα0 V11α =λ, β0 V21α =µβ0 V22β =µ, y como λ = (α0 V12β) = (β0 V21α) = µ, concluimos con el sistema: V12β =λV11α, (16.8) V21α =λV22β. (16.9) Despejando β de la segunda ecuación, β = λ−1 V−1 22 V21α, y sustituyendo en la primera: V12 ¡ λ−1 V−1 22 V21 ¢ α = λV11α que conduce a: ¡ V−1 11 V12V−1 22 V21 ¢ α = λ2 α. (16.10)
  • 480. 480 CAPÍTULO 16. CORRELACIÓN CANÓNICA Por tanto, α es el vector propio ligado al valor propio λ2 de la matriz cuadrada de dimensión p: Ap×p = V−1 11 V12V−1 22 V21 (16.11) con valor propio λ2 . Análogamente, se obtiene que β debe ser el vector propio ligado al valor propio λ2 de la matriz Bq×q = V−1 22 V21V−1 11 V12. (16.12) Observemos que, por (16.3) y (16.10), λ2 = µ2 = ρ2 es el cuadrado del coeÞciente de correlación entre las variables canónicas x∗ , y∗ , por lo que tendremos que tomar el vector propio ligado al mayor valor propio. En resumen, la solución buscada requiere: 1. construir las dos matrices cuadradas de dimensiones p y q, A y B deÞnidas por (16.11) y (16.12). El vector propio asociado a su máximo valor propio (que es el mismo en ambas) proporciona las variables canónicas. 2. Este mayor valor propio de ambas matrices es el cuadrado del coeÞciente de correlación entre las variables canónicas. Observemos que de las ecuaciones (16.8) y (16.9) resulta: α = V−1 11 V12βλ−1 (16.13) β = V−1 22 V21αλ−1 (16.14) Por lo que sólo necesitamos obtener vectores propios de una de las matrices. Conocido el vector α podemos obtener el vector β con (16.14) y análogamente, conocido β obtenemos α con (16.13). Además de (16.10) obtenemos V12V−1 22 V21α = λ2 V11α y multiplicando por α0 e imponiendo la condición (16.1) tenemos que λ2 = α0 V12V−1 22 V21α (16.15) que indica que el coeÞciente de correlación canónica, λ2 ,es el cuadrado del coeÞciente de correlación múltiple entre la variable x∗ = α0 x y las variables y. En efecto, las covarianzas entre x∗ e y vienen dadas por el vector V21α y las correlaciones por D −1/2 22 V21α , donde D22 es una matriz diagonal que contiene las varianzas de las variables y. Entonces el coeÞciente de correlación múltiple es %2 = r12R−1 22 r12 = (α0 V12D −1/2 22 )(D22V−1 22 D22)(D −1/2 22 V21α) = λ2
  • 481. 16.3. LAS R VARIABLES CANÓNICAS 481 16.3 Las r variables canónicas El proceso descrito puede continuarse, buscando una segunda variable escalar canónica, x∗ 2, construida como combinación lineal de las originales x, ortogonal a la primera, y que tenga máxima correlación con otra variable escalar y∗ 2, combinación lineal de las y y que sea a su vez ortogonal a y∗ 1. Así podemos obtener 2r combinaciones lineales, ¡ x∗ 1, . . . x∗ q ¢ , ¡ y∗ 1, . . . , y∗ q ¢ donde r =mínimo (p, q), que llamaremos variables canónicas. Las matrices A y B dadas por (16.11) y (16.12) tienen un rango igual al mínimo de p, q, y si extraemos sus r valores propios no nulos y los vectores propios unidos a dichos valores propios, podemos formar r combinaciones lineales de las variables de ambos grupos que: (a) Tienen correlación máxima cuando provienen del mismo valor propio. (b) Están incorreladas dentro de cada grupo. (c) Están incorreladas si corresponden a distintos vectores propios. Vamos a demostrar este resultado. Para demostrar que las matrices A y B tienen valores propios reales no negativos, probaremos que A y B tienen los mismos valores propios que una matriz semideÞnida positiva. Lema: Las matrices R−1 Q y R−1/2 QR−1/2 tienen los mismos valores propios. Además si v es un vector propio de la primera, R1/2 v lo es de la segunda. Demostración: Sea λ un valor propio de R−1 Q y sea v su vector propio asociado. Entonces R−1 Qv = λv premultiplicando por R1/2 se obtiene R−1/2 Qv = λR1/2 v y escribiendo esta relación como: R1/2 QR−1/2 (R1/2 v) = λ(R1/2 v) y llamando h = R1/2 v, tenemos que R1/2 QR−1/2 h = λh Por tanto, λ es un valor propio de las matrices R−1 Q y R1/2 QR−1/2 , y su vector propio asociado es, respectivamente, v y R1/2 v. Corolario Las matrices A y HH0 donde A = V−1 11 V12V−1 22 V21 H = V −1/2 11 V12V −1/2 22
  • 482. 482 CAPÍTULO 16. CORRELACIÓN CANÓNICA H0 H = V −1/2 11 V12V−1 22 V21V −1/2 11 tienen los mismos valores propios. Este corolario es un caso particular del Lema tomando R = V11, Q = V12V−1 22 V21. La matriz A tiene los valores propios de HH0 y la B los de H0 H. Como estas matrices son semideÞnidas positivas, los valores propios de A y B son reales y no negativos. Vamos a ver las propiedades de los vectores propios. Vectores propios Sean αi, αj dos vectores propios de A correspondientes a raíces distintas. Los vec- tores propios correspondientes de HH0 para esas mismas raíces son, según el lema, V 1/2 11 αi y V 1/2 11 αj. Como los vectores propios de matrices simétricas son ortogonales, tendrá que veriÞcarse que ³ V −1/2 11 αi ´0 ³ V −1/2 11 αj ´ = α0 iV11αj = 0 lo que implica que las variables x∗ i = x0 αi y x∗ j = x0 αj correspondientes a distintos indi- cadores del mismo grupo están incorreladas, ya que, al tener varianza unidad, su correlación será: Cov(x∗ i , x∗ j ) = α0 iE [xx0 ] αj = α0 iV11αj = 0. Demostraremos ahora que las variables indicadoras de grupos distintos correspondientes a distintos vectores propios, x∗ i y y∗ j , también están incorreladas. Como Cov ¡ x∗ i , y∗ j ¢ = E £ α0 ixy0 βj ¤ = α0 iV12βj y utilizando (16.6) Cov ¡ x∗ i , y∗ j ¢ = α0 i (λjV11αj) = 0. con lo que hemos comprobado que las variables indicadores ligadas a distintos valores propios estan incorreladas dentro de cada grupo y entre grupos. 16.3.1 Propiedades de las variables y correlaciones canónicas El procedimiento que hemos expuesto proporciona r variables canónicas cuyas propiedades vamos a resumir brevemente. 1. Las variables canónicas son indicadores de los dos conjuntos de variables que se deÞnen por pares, con la condición de máxima correlacion. 2. Los coeÞcientes de las variables canónicas son los vectores propios ligados al mismo valor propio de las matrices V −1/2 ii VijV−1 jj Vji , para i = 1, 2 y i 6= j. 3. Si α0 ix es una variable canónica también lo es -α0 ix, y los signos de las variables canóni- cas suelen tomarse de manera que las correlaciones entre las variables canónicas α0 x y β0 y sean positivos.
  • 483. 16.4. ANÁLISIS MUESTRAL 483 4. Las correlaciones canónicas, λ2 i , son el cuadrado del coeÞciente de correlación entre las dos variables canónicas correspondientes. 5. Las correlaciones canónicas son invariantes ante transformaciones lineales de las vari- ables, son propiedades del conjunto de variables y no se modiÞcan si sustituimos las r variables de un conjunto por r combinaciones lineales de ellas linealmente independi- entes. (véase ejercicio 16.1) 6. La primera correlación canónica, λ2 1, es mayor o igual que el mayor coeÞciente de correlación simple al cuadrado entre una variable de cada conjunto. 7. El coeÞciente de correlación canónica λ2 i es el coeÞciente de determinación en una regresión multiple con respuesta la variable y∗ i = β0 iy, y variables explicativas las x. También es el coeÞciente de determinación entre la regresión múltiple entre x∗ i = α0 ix y el conjunto de las y. (ver ejercicio 16.3) Las variables canónicas son los predictores óptimos en el sentido siguiente: supongamos que se desea encontrar un conjunto de r = min(p, q) variables combinaciones lineales de las variables de cada grupo, x∗ = Γx, y y∗ = Θy, que estén incorreladas, ΓV11Γ0 = I y ΘV22Θ0 = I y de manera que x∗ e y∗ estén próximos. Si tomamos como criterio minimizar E(kx∗ − y∗ k2 ) se obtienen las variables canónicas. Este resultado es debido a Izenman(1975) y Yohai y Garcia Ben (1980). 16.4 ANÁLISIS MUESTRAL En la práctica, los valores poblacionales no son conocidos y tendremos que estimarlos a partir de la muestra. Supondremos que hemos restado las medias muestrales a cada variable para trabajar con variables de media cero. En la hipótesis de normalidad multivariante, como las variables canónicas son funciones de la matriz de covarianzas entre las variables y el estimador máximo verosimil de esta matriz es S, la matriz de covarianzas muestral, concluimos que los estimadores máximo verosímiles de las variables canónicas se obtienen al extraer los r = min(p, q) mayores valores propios, y sus vectores propios asociados, de las matrices ˆA = S−1 11 S12S−1 22 S21, y ˆB = S−1 22 S21S−1 11 S12, donde las Sij son las estimación MV de las matrices Vij, y se obtiene particionando conve- nientemente la matriz S de covarianzas entre las p + q variables (véase Anderson, cap 12 para un análisis más detallado). Estas matrices son los equivalentes muestrales de (16.11) y (16.12). En la práctica, suponiendo p ≥ q, basta obtener los valores propios de la matriz de dimensión menor, ˆB en este caso, y sus vectores propios asociados. Los vectores propios lig- ados a estos valores propios de la otra matriz, ˆA, se obtendrán transformando estos vectores
  • 484. 484 CAPÍTULO 16. CORRELACIÓN CANÓNICA de la forma S−1 ii Sij para llevarlos a la dimensión adecuada. Por ejemplo, supongamos que v es un vector propio de ˆB, y veriÞca S−1 22 S21S−1 11 S12v = λ2 v, entonces, multiplicando por S−1 11 S12 tenemos que S−1 11 S12S−1 22 S21(S−1 11 S12v) = λ2 (S −1 11 S12v) y comprobamos que S−1 11 S12v es el vector propio de ˆA ligado al valor propio λ2 . A continuación vamos a comprobar que las correlaciones conónicas son invariantes a transformaciones lineales de las variables.. Invarianza del Análisis Si estandarizamos las variables y trabajamos con las matrices de correlación las correla- ciones canónicas no varían. Al estandarizar la matriz bA se convertirá en: R1 = R−1 11 R12R−1 22 R21, donde las matrices Rij son las matrices de correlación deÞnidas Rij = D −1/2 i SijD −1/2 j ,(i, j = 1, 2), siendo Di y Dj matrices diagonales que contienen las varianzas de las variables. Vamos a comprobar que las matrices bA y R1 tienen los mismos valores propios. Utilizando la relación Rij = D −1/2 i SijD −1/2 j , tenemos que: R1 = D 1/2 1 S−1 11 S12S−1 22 S21D −1/2 1 = D 1/2 1 bAD −1/2 1 , (16.16) y la ecuación para obtener los valores propios de R1 : |R1 − λI| = 0 puede escribirse como |D1/2 || bA − λI||D−1/2 | = 0 y las ecuaciones |R1 −λI| = 0 y |bA−λI| = 0 tienen las mismas soluciones, y las matrices R1 y bA tendrán los mismos valores propios. Por tanto, las correlaciones canónicas son idénticas. Los vectores propios de R1 pueden obtenerse a partir de los de bA, ya que si v es un vector propio de R1: R1v = λ2 v entonces, por (16.16): D 1/2 1 bAD −1/2 1 v = λ2 v, es decir bA(D −1/2 1 v) = λ2 (D −1/2 1 v). y (D −1/2 1 v) es un vector propio de bA ligado al mismo valor propio. Por tanto, la variable canónica ligada a λ2 se obtiene con variables estandarizadas multiplicando la matriz de variables estandarizadas ³ X D −1/2 1 ´ por el vector propio de R1, v, mientras que partiendo de las variables originales multiplicamos la matriz X por el vector propio de bA, D −1/2 1 v, con lo que las dos variables obtenidas son idénticas.
  • 485. 16.4. ANÁLISIS MUESTRAL 485 Ejemplo 16.1 Como ejemplo consideramos los datos de los hogares españoles. Tomaremos como variables X los gastos en alimentación, bebidas y tabaco (x1), en vestido y calzado (x2), en menaje (x3), en transportes y comunicación (x4) y en esparcimiento y enseñanza (x5). La matriz de correlaciones entre estas variables es, redondeada a la segunda cifra decimal R11 =       1 .29 1 .13 .25 1 .23 .23 .35 1 .33 .32 .22 .36 1       Como variables Y incluiremos el número de personas en la unidad de gastos (y1), el número de personas mayores de 14 años (y2), el nivel educativo del sustentador principal (y3) y el número de perceptores con ingresos (y4). La matriz de correlación es: R22 =     1 .55 1 .11 .04 1 .53 −.11 .00 1     La matriz de correlaciones cruzadas entre ambos grupos de características es: R12 =       .46 .03 .22 .40 .34 .18 .32 .14 .05 −.02 .51 −.02 .33 .13 .26 .25 .29 .17 .23 .17       Esta matriz proporciona por Þlas las correlaciones de cada variable del grupo x con las y. La suma de los valores absolutos de las Þlas es una medida descriptiva global de la dependen- cia. La variable x más correlada con las y es la primera, ya que la suma de las correlaciones (0, 46 + 0, 03 + 0, 22 + 0, 40 = 1, 11), mientras que para las demás estos números son 0, 98, 0, 60, 0, 97 y 0, 86. Por columnas las sumas son 1, 47, 0, 53, 1, 54, 0, 98. Las variables 1, 2 y 4 del primer grupo y 1, 3 del segundo parecen ser las correlacionadas entre los bloques, por lo que esperamos que estas variables tengan mayor peso en la primera variable canónica. Los valores y vectores propios de la matriz A = R−1 11 R12R22R21 se encuentran en la tabla 16.1
  • 486. 486 CAPÍTULO 16. CORRELACIÓN CANÓNICA λ2 .44 .21 .05 .01 α .76 .41 .63 −.11 .43 −.05 −.45 −.71 .31 −.87 .34 .08 .38 .27 −.24 .65 .04 −.03 −.48 .22 β −.78 −.51 −.28 −.65 .27 .10 .96 .38 −.56 .80 .01 .11 −.07 −.31 .08 .65 Tabla 16.1. Valores y vectores propios para las variables de los hogares Como vemos la máxima correlación entre una combinación de las variables del primer grupo y otra del segundo se da entre la combinacion que incluye las variables (1, 2, 3, 4) del primer grupo y (1, 3) del segundo. Esta máxima correlación entre las variables de gasto y de estructura de la familia, explica un 44/(44+21+5+1)=62% de la variabilidad y corresponde a la relación entre el indicador de gasto: x∗ 1 = .76x1 + .43x2 + .31x3 + .38x4 + .04x5 que es un promedio de los gastos dando mayor peso a la alimentación, con la variable y∗ 1 = .78y1 − .27y2 + .56y3 + .07y4 donde hemos cambiado el signo del vector propio para facilitar la interpretación. Esta variable pondera principalmente el tamaño de la familia (y1) y el nivel de educación del sustentador principal (y3). La interpretación de este resultado es que cuanto mayor sea el indicador y∗ mayor será el indicador de gasto. Ambas variables son medidas de ”tamaño” global de las variables en ambos conjuntos. Las segundas variables canónicas explican un 21/71=29,58% y son indicativas de la forma de los datos. El indicador de las variables de gastos contrapone los gastos en alimentación y transporte a los de menaje y encuentra que este indicador está especialmente relacionado un indicador de la diferencia entre el nivel de educación y el tamaño familiar. El gráÞco muestra la relación entre las variables x∗ 2, y∗ 2. Se observa que aquellas familiar con bajo gasto en menaje (x∗ 2 alto) tienen pocos miembros en la unidad familiar (y1 bajo) y alto nivel de educación (y3 alto). Los otros dos componentes explican muy poco de la relación. Si realizamos este mismo análisis para las variables en logaritmos se obtiene la tabla 8.2. Se observa que ahora el primer componente explica el 50% de la variabilidad y tiene una interpretación similar al caso anterior.
  • 487. 16.5. INTERPRETACIÓN GEOMÉTRICA 487 λ2 .50 .06 .01 .001 −.80 .10 .68 −.24 .18 .38 −.56 −.21 αr −.07 .28 .18 −.65 .55 .39 .14 .68 .11 −.78 .57 −.05 −.88 −.49 −.53 .43 β .38 .23 .60 .52 −.27 .84 .04 −.11 .08 −.00 .60 −.73 Tabla 16.2. Valores y vectores propios para las variables en logaritmos 16.5 INTERPRETACIÓN GEOMÉTRICA Vamos a comprobar que las correlaciones canónicas representan relaciones de dependencia entre los subespacios generados por los dos conjuntos de variables. Esta propiedad justiÞca que el análisis de correlaciones canónicas sea invariante ante reparametrizaciones. Supong- amos que disponemos en cada conjunto de variables distintas (no relacionadas linealmente) de manera que las matrices X, de dimensiones n × p, e Y, de dimensiones n × q, son de rango completo, es decir rg(X) = p, rg(Y) = q y p + q < n, y las p columnas de X generan un subespacio de dimensión p y las q columnas de Y otro de dimensión q. Supongamos que estamos interesados en encontrar dos vectores, uno en cada subespacio, que estén tan próximos como sea posible. El primer vector, x∗ , por pertenecer al espacio S(X) generado por las columnas de X, será de la forma x∗ = Xα y el segundo, y∗ , por pertenecer al sube- spacio S(Y) generado por las columnas de Y, será y∗ = Yβ. Los vectores x∗ e y∗ estarán lo más cerca posible (ver Þgura 16.1), si x∗ es colineal con la proyección de y∗ sobre S(X) y viceversa. Para formular esta propiedad, llamemos P1 y P2 a las matrices proyección sobre los espacios S(X) y S(Y) que vendrán dadas por: P1 = X(X0 X)−1 X0 (16.17) P2 = Y(Y0 Y)−1 Y0 . (16.18) entonces la condición exigida es: P1y∗ = λx∗ P2x∗ = µy∗ que equivale a: £ X(X0 X)−1 X0 ¤ Yβ =λXα
  • 488. 488 CAPÍTULO 16. CORRELACIÓN CANÓNICA £ Y(Y0 Y)−1 Y0 ¤ Xα =µYβ y multiplicando por 1/nX0 la primera y 1/nY0 la segunda, resulta S12β = λS11α y S21α = µS22β. De la primera deducimos que S−1 11 S12β = λα y de la segunda S−1 22 S21α = µβ. Sustituyendo el valor de β en la primera ecuación obtenemos S−1 11 S12S−1 22 S21α = µλα que muestra que α es un vector propio de la matriz A encontrada en (16.11). Las primeras variables canónicas representan los vectores de S(X) y S(Y) más próximos. Una medida de la distancia entre los subespacios generados por las columnas de X y las Y es el coseno del ángulo entre ambos subespacios, que se calcula por: Cos θ = (α0 X0 )(Yβ) (α0X0Xα)1/2 (β0 Y0Yβ)1/2 , de donde resulta: Cos θ2 = δ2 = (α0 S12β)2 (α0S11α)(β0 S22β) , que permite concluir que la máxima correlación canónica es el coseno del ángulo que forman los subespacios generados por X y por Y. P1 P2 x* y* Figura 16.1: Representación de las primeras variables canónicas de los espacios P1 y P2 16.6 CONTRASTES Podemos construir un contraste de que los dos conjuntos de variables están incorrelados, es decir, V12 = 0, bajo la hipótesis de que los vectores x son Np(0, V11) y los y son Nq(0, V22).
  • 489. 16.6. CONTRASTES 489 El contraste de que ambos vectores están incorrelados es equivalente al contraste de que todas las correlaciones canónicas son nulas. Lo estableceremos como: H0 : V12 = 0 H1 : V12 6= 0 Bajo H0 la verosimilitud conjunta, f(x1, ..., xn, y1, ..., yn), se descompone en f(x1, ..., xn) f(y1, ..., yn). El ratio de las verosimilitudes máximas entre las dos hipótesis es: f(H1) f(H0) = (2π)−n(p+q) |S|−n/2 e−n(p+q)/2 (2π)−np |S11|−n/2 e−np/2(2π)−nq |S22|−n/2 e−nq/2 donde S es la estimación de la matriz de varianzas y covarianzas conjunta y S11 y S22 las estimaciones correspondientes a cada bloque. El contraste de razón de verosimilitudes será: λ = 2(log(H1) − log(H0)) = −n log |S| |S11| |S22| . (16.19) Como |S| = |S11||S22 − S21S−1 11 S12| = |S11||S22||I − S−1 22 S21S−1 11 S12|, tenemos que λ = −n log(|I − S−1 22 S21S−1 11 S12|) = −n log à rY j=1 ¡ 1 − λ2 j ¢ ! donde r = min(p, q) y λ2 j son los valores propios de S−1 22 S21S−1 11 S12, es decir, los coeÞcientes de correlación canónica al cuadrado. Finalmente el contraste es: λ = −n rX j=1 log(1 − λ2 j ) (16.20) que sigue asintóticamente una distribución χ2 con grados de libertad igual al número de términos de V12 que son pq. La aproximación mejora si tomamos en lugar de n, la corrección de Bartlett n − 1/2(p + q + 3), con lo que el test resulta: x2 = − µ n − 1 2 (p + q + 3) ¶ rX j=1 log(1 − λ2 i ) (16.21) que llevaremos a las tablas de las χ2 con pq grados de libertad. Rechazaremos H0 cuando este estadístico sea grande, lo que ocurrirá cuando los coeÞcientes de correlación canónica λ2 j sean grandes. Este contraste puede extenderse para contrastar que los primeros s coeÞcientes de cor- relación canónica son distintos de cero y los restantes r − s son iguales a cero. La hipótesis nula será que la dependencia entre las variables puede expresarse mediante s variables indi- cadoras, mientras que la alternativa supone que no hay reducción de la dimensión posible y que describir la dependencia require las r dimensiones. El test es entonces: H0 : λi > 0 i = 1, . . . , s; λS+1 = . . . = λr = 0 H1 : λi > 0 i = 1, . . . , s; al menos uno λj > 0, j = s + 1, . . . , r
  • 490. 490 CAPÍTULO 16. CORRELACIÓN CANÓNICA y el contraste de la razón de verosimilitudes conduce, como en el caso anterior, a comparar los determinantes de la matriz de covarianzas estimadas bajo H0 y H1. Bajo H1 esta esti- mación es S y |S| = |S11| |S22| Qr j=1 ¡ 1 − λ2 j ¢ , mientras que bajo H0 el determinante estimado debe ser |S11| |S22| Qs j=1 ¡ 1 − λ2 j ¢ . Por tanto, el estadístico para el contraste de la razón de verosimilitudes es: λ = − µ n − 1 2 (p + q + 3) ¶ rX j=s+1 log(1 − λ2 j ) (16.22) que se distribuye como una χ2 con (p − s) (q − s) grados de libertad. De nuevo rechazamos H0 cuando el estadístico (16.22) sea grande. Ejemplo 16.2 El contraste de que dos conjuntos de variables son independientes para los datos de los hogares del ejemplo 16.1 será, como 75 − (5 + 4 + 3) /2 = 69, x2 = −69 (log (1 − .44) + log (1 − .21) + log (1 − .05) + log (1 − .01)) = 60, 5 El p valor de 60,5 en una distribución χ2 con 20 grados de libertad es menor de 0,0001, con lo que rechazamos H0. Aceptando que la primera es distinta de cero, el contraste es x2 = −69 (log (1 − .21) + log (1 − .05) + log (1 − .01)) = 20.498 y corresponde a una χ2 con (5 − 1)(4 − 1) = 12 grados de libertad. El p valor es aproxi- madamente .05, y rechazaremos H0. Sin embargo, para las dos raíces restantes: x2 = −69 (log (1 − .05) + log (1 − .01)) = 4.23 y si la hipótesis de que las dos raíces son cero corresponde a una χ2 con 6 grados de libertad. Como el p valor de 4.23 en esta distribución aceptaremos H0 y concluiremos que sólo hay dos dimensiones en la relación entre las variables. 16.7 EXTENSIONES A MÁS DE DOS GRUPOS Supongamos que tenemos 3 conjuntos de variables X1 (n × p1), X2 (n × p2), X3 (n × p3). Podemos buscar tres variables x∗ i = Xiαi (i = 1, 2, 3), una en cada grupo, de manera que la matriz R (3 × 3) de correlaciones entre estas tres variables resultante sea ”grande”. Según como deÞnamos el tamaño de esta matriz tenemos distintos métodos. Podemos:
  • 491. 16.8. RELACIÓN CON OTRAS TÉCNICAS ESTUDIADAS 491 (1) Maximizar la suma de las correlaciones al cuadrado, es decir max ³X r2 ij ´ (16.23) donde rij = Corr ¡ x∗ i , x∗ j ¢ . (2) Maximizar el mayor valor propio de R. (3) Minimizar el determinante de R. En el caso de dos grupos los tres criterios conducen a los coeÞcientes de correlación canónica. Para varios grupos estos tres criterios no llevan necesariamente a los mismos resultados. Para comprobarlo, en el caso de grupos de variables la matriz de correlación de las dos variables canónicas es: R = · 1 r r 1 ¸ supuesto r > 0 el primer criterio conduce a maximizar r, el segundo también, ya que el mayor valor propio de R es 1+r. En el tercer caso el determinante es |1 − r2 | y minimizar el determinante equivale a maximizar r, con lo que en los tres casos maximizamos la correlación entre las combinaciones lineales. El cálculo de las correlaciones canónicas para varios conjuntos requiere en general cálculos iterativos. El lector interesado puede acudir a Kettenring (1971) y Gnanadesikan (1977). 16.8 RELACIÓN CON OTRAS TÉCNICAS ESTU- DIADAS Además de su interés propio, el análisis de correlaciones canónicas cubre como casos par- ticulares las técnicas de regresión y, por extensión, las de análisis discriminante. En efecto, supongamos primero el caso más simple en que cada uno de los conjuntos tiene únicamente una variable.La correlación canónica entre x e y es el coeÞciente de correlación al cuadrado. En efecto, en este caso p = q = 1 y R11 = R22 = 1 y R12 = R21 = rxy. Entonces: R−1 11 R12R−1 22 R21 = r2 xy = λ2 Si el conjunto x tiene varias variables p = 1 y q ≥ 1. La correlación canónica entre la variable endógena o respuesta y el conjunto de las exógenas o regresores es el cuadrado del coeÞciente de correlación múltiple. En efecto, ahora R11 = 1, y llamando r12 al vector de correlaciones entre la endógena y las exógenas y R22 a la matriz de correlaciones entre las variables exógenas: λ2 = R−1 11 R12R−1 22 R21 = r0 12R−1 22 r21 = R2 1.2
  • 492. 492 CAPÍTULO 16. CORRELACIÓN CANÓNICA Se obtiene el mismo resultado a partir de las matrices de covarianzas: Entonces S11 = s2 y; bβ = S−1 22 S21 λ2 = Sx0y bβ s2 y = V E V T = R2 El análisis discriminante puede también abordarse desde correlación canónica. Si deÞni- mos G − 1 variables explicativas y mediante: yi = 1 si la observación pertenece al grupo 1, i = 1, ..., G − 1 0 en otro caso Podemos disponer estas G − 1 variables binarias en una matriz Y, n × (G − 1). Por otro lado tendremos la matriz X, n × p de las p variables explicativas. La correlación canónica entre las matrices de datos Y y X es análoga al análisis factorial discriminante. Puede demostrarse que, llamando S a la matriz cuadrada p + G − 1 de covarianzas entre las variables Y y X, y utilizando la notación del capítulo 13, nS11 = T y nS12S−1 22 S21 = B. Las correlaciones canónicas obtenidas con la matriz S−1 11 S12S−1 22 S21 serán las obtenidas con la matriz T−1 B. Para ver la relación entre estas correlaciones canónicas y las obtenidas en análisis dicriminante con la matriz W−1 B, observemos que si llamamos ai a los vectores que deÞenen las variables canónicas y λ a las correlaciones conónicas: T−1 Bai = λiai entonces (W + B)−1 Bai = λiai que puede escribirse (I + W−1 B) −1 W−1 Bai = λiai, es decir W−1 Bai = λiai + λiW−1 Bai, que equivale a W−1 Bai = [λi/(1 − λi)]ai con lo que, llamando αj a los valores propios que deÞnen las variables canónicas discrimi- nantes vemos que estas variables son idénticas a las obtenidas por correlaciones conónicas y los valores propios que deÞenen estas variables están relacionados por: αj = λi 1 − λi 16.9 ANÁLISIS CANÓNICO ASIMÉTRICO El análisis de correlaciones canónicas es simétrico en las variables: si intercambiamos X por Y, el número de variables canónicas no se modiÞca, las correlaciones entre las variables canónicas son idénticas y los vectores que deÞnen las variables canónicas se intercambian.
  • 493. 16.9. ANÁLISIS CANÓNICO ASIMÉTRICO 493 Existen situaciones donde esta simetría no es deseable. Puede ocurrir que las X sean variables exógenas que queremos utilizar para prever las endógenas Y, y queremos un pro- cedimiento que tenga en cuenta esta asimetría, es decir que maximice la explicación de las variables Y. El análisis de correlaciones canónicas no resuelve el problema. Podemos tener una alta correlación entre β0 Y y α0 X y una baja correlación entre cada variable del con- junto Y y α0 X. Por ejemplo, supongamos que en todas las observación se da la relación aproximada : y1 + . . . + yq ' α0 x entonces podemos tener un coeÞciente próximo a la unidad entre las dos combinaciones lineales (1, . . . , 1) y y α0 x, pudiendo ser, sin embargo, la correlación entre α0 x y cada una de las variables yi baja. Si el objetivo es prever cada uno de los componentes podríamos hacer regresiones entre cada uno de ellos y las variables x. Si las variables están estandarizadas eso supone construir ecuaciones de regresión byi = x0 bβi para cada una de las q variables y donde los coeÞcientes de cada regresión vienen dados por bβi = R−1 x r1x. Sin embargo, de esta manera obtendríamos q ecuaciones distintas, una para cada variable y. Vamos a ver como obtener una ecuación única, α0 x, que tenga buenas propiedades para prever el conjunto de las y. Para medir la capacidad predictiva de un conjunto de variables respecto al otro se intro- ducen los coeÞcientes de redundancia, que deÞnimos a continuación. 16.9.1 CoeÞcientes de redundancia Supongamos para simpliÞcar que las variables originales están estandarizadas (media cero y varianza unidad) y que las combinaciones lineales Xαi se obtienen con la condición de varianza unitaria, es decir 1 n α0 iX0 Xαi= α0 iRxxαi= 1. La correlación entre la variable y1 y una variable indicadora x0 α, construida como com- binación lineal de las variables x, será: E [y1x0 α] = r0 1xα donde r0 1x = (r11, ..., r1p) es el vector de correlaciones entre la variable y1 y las p variables x. La correlación de las q variables y con la variable α0 x será E [yx0 α] = Ryxα donde Ryxα es la matriz (q × p) de correlaciones entre las q variables y y las variables x. Se deÞne el coeÞciente de redundancia para explicar el conjunto de las variables y con la variable x0 α, como el valor promedio del cuadrado de las correlaciones entre las y y la variable indicadora α0 x, es decir: CR ¡ y|x0 α ¢ = 1 q α0 Ryx Rxy α (16.24)
  • 494. 494 CAPÍTULO 16. CORRELACIÓN CANÓNICA Si tenemos r = min (p, q) combinaciones lineales x 0 α1, . . . , x 0 αr, la redundancia total para explicar el conjunto de las variables y con el conjunto de las variables x a través de estas combinaciones lineales es: R (y|x) = rX i=1 CR ¡ y|x0 αi ¢ , (16.25) y es una medida de la correlación. Análogamente podríamos construir R (x|y) que es, en general, distinta de R (y|x) . Las expresiones del coeÞciente de redundancia y de la redundancia total se deÞnen entre las variables y y ciertas combinaciones lineales x αi. En el caso en que los coeÞcientes α se obtengan por correlación canónica, puede demostrarse que R (y|x) = tr (RyxR−1 xx Rxy) tr (Ryy) (16.26) que puede escribirse como: R (y|x) = rX j=1 1 q R2 j (16.27) donde R2 j es el coeÞciente de correlación múltiple al cuadrado en una regresión entre la variable yj y el conjunto de las variables X. En efecto, el numerador de (16.26) es la suma de los términos diagonales de la matriz, que tienen la forma r0 yjx R−1 xx ryjx, que es la expresión del cuadrado del coeÞciente de correlación múltiple entre una variable yj y un vector de variables x, ambas estandarizadas, y el denominador tr (Ryy) = q, por estar las variables estandarizadas. 16.9.2 Análisis canónico asimétrico Supongamos que se desea encontrar la combinación x0 α con máxima correlación con cada variable yi individualmente, de manera que la suma de las correlaciones al cuadrado entre x0 α y las variables y sea máxima. Esto supone maximizar α0 RxyRyxα con la restricción α0 Rxxα = 1, lo que conduce a la ecuación RxyRyxα =γRxxα y vemos que α debe ser un vector propio de la matriz H = R−1 xx RxyRyx. Análogamente a correlación canónica podríamos preguntarnos por una segunda variable x0 α2, ortogonal a la primera, que tenga máxima correlación con el vector de variables endó- genas. Este problema lleva a tomar el segundo vector propio de la matriz H. De la misma forma, las restantes variables x0 α3, . . . , x0 αq (suponemos p > q) se obtendrán como vectores propios de la matriz H. Este mismo análisis puede aplicarse para explicar las variables X con las Y, pero aho- ra el problema no es simétrico, ya que los vectores propios de las matrices R−1 xx RxyRyx y R−1 yy RyxRxy no serán en general iguales, ni estas matrices tendrán vectores propios ortogo- nales. Este tipo de análisis ha sido desarrollado por Stewart y Love (1968) y Gudmundsson (1977).
  • 495. 16.10. LECTURAS COMPLEMENTARIAS 495 16.10 Lecturas complementarias El análisis de correlaciones canónicas se presenta en la mayoría de los textos generales de análisis multivariante. Buenas exposiciones del análisis de correlaciones canónicas se encuen- tran en Rechner (1998) y Anderson (1984). El lector interesado en un estudio más detallado de las distribuciones de los estadísticos puede acudir a Muirhead (1982). El análisis canóni- co se ha utilizado mucho en series temporales para determinar la dimensión de una serie temporal. Algunas de estas aplicaciones pueden encontrarse en Peña, Tiao and Tsay (2001). EJERCICIOS 16.1 Demostrar que si transformamos las variables con yn = Fy + a y xn = Gx + a, donde F y G son matrices no singulares las correlaciones canónicas obtenidas con las matrices de varianzas y covarianzas de estas nuevas variables son idénticas a las de las variables originales (sugerencia, calcular la matriz An (16.11) para estas nuevas variables y comprobar que An se escribe como An = (G0 )−1 AnG0 ) 16.2 Comprobar que si transformamos las variables como en el ejercicio anterior las variables canónicas si se modiÞcan 16.3 Demostrar que el coeÞciente de correlación canónica λ2 i es el coeÞciente de determi- nación en una regresión multiple con respuesta la variable y∗ i = β0 iy, y variables explicativas las x. (Sugerencia, comprobar que la correlación entre y∗ i y x es β0 iV21 y utilizar la expresión del coeÞciente de correlación múltiple como ryxR−1 x ryx y la expresión (16.15)). B I B L I O G R A F I A Aitchinson,J. (1986), The Statistical Analysis of Compositional Data, Chapman and Hall, London. Aluja, T. y Morineau, A. (1999), Aprender de los datos : El análisis de componentes principales, EUB, Barcelona. Anderson, T.W. (1984), An Introduction to Multivariate Statistical Analysis, (2 ed), New York, Wiley. Anderberg, G.M.R. (1973), Cluster Analysis for Applications, New York, Academic Press. Arnold, S.F. (1981), The Theory of Linear Models and Multivariate Observations, New York, Wiley. Barnett, V. (1981), Interpreting Multivariate Data, New York, Wiley. Bartholomew, D. J. y Knott, M. (1999), Latent Variable Models and Factor Analysis, Arnold. Basilewsky, A. (1983), Applied Matrix Algebra, in the Statistical Science, North-Holland. Batista, J.M. y Martínez, M.R. (1989), Análisis Multivariante, ESADE.
  • 496. 496 CAPÍTULO 16. CORRELACIÓN CANÓNICA Benzecri, J. (1976), L’analyse des données, Dunod. Bernstein I. H. (1987), Applied Multivarite Analysis, Springer - Verlag. Bertir, P. y Bouroche, J.M. (1975), Analysis des données multidimensionelles, Press Univ. France. Bolche, B. y Huang, C. (1974), Multivariate Statistical Methods for Business and Eco- nomics, Prentice Hall. Bollen, K. A. (1989) Structural Equations with Latent Variables, Wiley Breiman, L. et al (1984) ClassiÞcation and Regression Trees, Wadsworth. Cuadras, C.M. (1991), Métodos de Análisis Multivariante, Editorial Universitaria de Barcelona (2 edición). Coxon A.P.M.(1982),The User’s guide to Multidimensional Scaling, Exeter,NH: Heinemann Educational Books. Cherkassky, V. y Mulier, F. (1998), Learning from Data, Wiley Davidson M. L. (1983), Multidimensional Scaling, Wiley. Dempster, A.P., (1969), Elements of continuous multivariante analysis, Addison-Wesley. Dillon, W., Goldstein, M. (1984), Multivariate Analysis, New York, Wiley. Drosbeke, J.J., Fichet, B. et Tassi P. (1992), Modeles por l’analyse des donnees multidi- mensionnelle, Economica. Eaton, M.L. (1983), Multivariate Statistics, New York, Wiley. EscoÞer, B. et Pagés, J. (1992), Análisis factoriales simples y múltiples, Universidad del País Vasco. Escudero, L. F. (1977), Reconocimiento de patrones, Paraninfo. Everitt, B.S. (1978), Graphical Techniques for Multivariate Data, New York, North-Holland. Everitt, B.S. (1984), An Introduction to Latent variable models, Chapman and Hall. Everitt, B.S. (1993), Cluster Analysis , Oxford University Press. Finn, J. D. (1974), A General Model for Multivariate Analysis, Holt, Rinehart and Win- ston. Fox, J. (1984). Linear Statistical Models and related methods with applications to social research, Wiley. Flury, B. (1997), A First Course in Multivariate Statistics, Springer.
  • 497. 16.10. LECTURAS COMPLEMENTARIAS 497 Flury, B. (1988), Common Principal Components and Related Multivariate Methods, Wiley. Flury, B. y Riedwyl, H. (1988), Multivariate Statistics, Chapman and Hall. Fakunaga, K. (1990), Introduction to Statistical Pattern Recognition (2a edición), Academic Press. GiÞ, A. (1990), Nonlinear Multivariate Analysis, Wiley. Giri, C.C. (1977), Multivariate Statistical Inference, New York, Academic Press. Gnanadesikan, R. (1997), Methods for Statistical Data Analysis of Multivariate Observa- tions, New York, Wiley (2a edición). Goldstein, M. y Dillon, W.R. (1978), Discrete Discriminant Analysis, New York, Wiley. Gordon A. D. (1981), ClassiÞcation, Chapman and Hall. Gower, J and Hand D. (1996), Biplots, Chapman and Hall Green, P. E. (1978) Mathematical tools for applied multivariate analysis, Academic Press Green, P, E, Carmone, F, J, y Smith S, M, (1989), Multidimensional Scaling: Methods and Applications, Boston: Allyn y Bacon. Greenacre, M.J. (1984), Theory and Applications of correspondence analysis, Academic Press. Greenacre, M.J. (1993), Correspondence Analysis in Practice, Academic Press. Greenacre, M.J.and Blasius (1994), Correspondance Analysis in the Social Science, Acad- emic Press. Hair, J. F. et al (1995), Multivariate Data Analysis with Readings, Prentice Hall. Hand, D. J. (1997) Construction and Assessment of ClassiÞcation Rules, Wiley Harman, H.H. (1980), Análisis Factorial Moderno, Saltés, Madrid. Hartigan, J.A. (1975), Clustering Algorithms, New-York, Wiley. Huberty,C. (1994) Applied Discriminant Analyisis, Wiley Jackson, J.E. (1991), A User’s guide to principal components, Wiley. Jambu, M. (1991), Exploratory and Multivariate Data Analysis, Academic Press. Johnson, N.L. y Kotz, (1972), Distributions in Statistics: Continuos Multivariate Distrib- utions, New York, Wiley. Joliffe, I. T. (1986), Principal Components Analysis, Springer-Verlag.
  • 498. 498 CAPÍTULO 16. CORRELACIÓN CANÓNICA Johnson, R.A. y Wichern, D.W. (1998), Applied Multivariate Statistical Analysis, (Fourth edition), Prentice Hall Jöreskog, K,G, (1963) Statistical estimation in Factor Analysis, Almqvist and Wicksell. Jöreskog, K.G. y Sörbon, D. (1979), Advances in Factor Analysis and Structural Equation Models, Cambridge, MA:ABT. Kachigan, S.K. (1982), Multivariate Statistical Analysis, New York, Radins Press. Karson, M.J. (1982), Multivariate Statistical Methods, The Iowa State, University Press. Kendall, M.G. y Stuart, A. (1967), The Advaced Theory of Statistics, Vol. 2, New York Harper. Kendall, M. (1975), Multivariate Analysis, Charles Griffin, Londres. Kruskal, J.B. y Wish, M. (1978), Multidimensional Scaling, Murray Hill, N.J. Bell Labora- tories. Krzanowski, W.J. (1988), Principles of Multivariate Analysis: A. User’s Perspective, Ox- ford University Press, Oxford. Krzanowski, W.J.and Marriot, F. H. C. (1994), Multivariate Analysis: Part I, Edward Arnold, London. Krzanowski, W.J.and Marriot, F. H. C. (1995), Multivariate Analysis: Part II, Edward Arnold, London. Lachenbruch, P.A. (1975), Discriminant Analysis, New York, Hafner Press. Lawley, D.N. y Maxwell, A.E. (1971), Factor Analysis as a Statistical Method, New York, American Elsevier. Lebart, L. y Fenelon, J.P. (1973), Statistique et Informatique Appliquees, París, Dunod. Lebart, L., Morineau, A. y Fenelon, J.P. (1985), Tratamiento estadístico de datos, Marcom- bo. Lebart, L., Morineau, A. y Warwick, K.M. (1984). Multivariate Descriptive Analysis, New York, Wiley. Lebart, L., Morineau, A. y Piron, M. (1997), Statistique exploratoire multidimensionnelle, Dunod. Lebart, L., Salem, A. y Bécue M. (2000), Análisis estadístico de textos, Milenio. Lefebre, J. (1976), Introduction aux Analyses Statistiques Multidimensionnelles, Masson, Paris. McLachan, G. J. y Basford, K. (1988) Mixture Models, Marcel Dekker.
  • 499. 16.10. LECTURAS COMPLEMENTARIAS 499 McLachan, G. J. (1992) Discriminant Analysis and Statistical Pattern Recognition, Wiley Mardia, K.V., Kent, J.T. y Bibby, J.M. (1979), Multivariate Analysis, New York, Academic Press. Maxwell, A.E. (1977). Multivariate Analysis in Behavioural Research, Chapman and Hall McQuarrie, A. D. R. y Tsai, C. L.(1998): Regression and time series model selection, Singapore: World ScientiÞc. Miller, A. J. (1990): Subset Selection in Regression, Chapman and Hall Mirkin, B. (1996), Mathematical ClassiÞcation and Clustering, Kluwer Academic Publishers Morrison, B.F. (1976), Multivariate Statistical Methods, (2 ed.), New York, Academic Press. Muirhead, R.J. (1982), Aspect of Multivariate Analysis, New York, Wiley. Press, S.J. (1972), Applied Multivariate Analysis, Holt, Rinehart. Rao, C.R. (1973), Linear Statistical Inference and its Applications, New York, Wiley. Rechner, A. C. (1995) Methods of Multivariate Analysis, Wiley Rechner, A. C. (1998) Multivariate Inference and its Applications, Wiley Sánchez Carrión, J.J. (1984). Introducción a las técnicas de Análisis Multivariante aplicados a las Ciencias Sociales, CIS. Saporta, G. (1990). Probabilités Analyse de données et statistique, Tecnip. Schafer, J. L. (1997), Analysis of Incomplete Multivariate Data, Chapman and Hall. Schiffman, S.S., Reynolds, M.L. y Young, F.W. (1981). Introduction to Multidimensional Scaling, New York, Academic Press. Seber, G.A.F. (1984), Multivariate Observations, New York, Wiley. Spath, H. y Bull, U. (1980), Cluster Analysis of Algorithms for Data Reduction and Clas- siÞcations of Objects, New York, Wiley. Spath, H. (1985), Cluster Dissection and Analysis, Chichester: Ellis Horwood. Srivastava, M.S. y Carter, E.M., (1983), An Introduction to Applied Multivariate Statistics, New York, North Holland. Srivastava, M.S. y Khatri, C.G. (1979), An Introduction to Multivariate Statistics, New York, North Holland. Stevens, J. (1986). Applied Multivariate Analysis for the Social Sciences.
  • 500. 500 CAPÍTULO 16. CORRELACIÓN CANÓNICA Tabachnik, B. G. y Fidell, L. S. (1996) Using Multivariate Statistics, HarperCollins. Tastsuoka, M (1971). Multivariate Analysis, Monterrey CA, Brooks/Cok. Tatsuoka, M. (1988). Multivariate thecniques, Macmillan Publ. Torrens-Ibern, J. (1972), Modèles et methodes de l’analyse factorielle, Dunod. Vapnik, V. V. (2000) The Nature of Statistical Learning (2a edición), Springer Whittaker, J. (1990), Graphical Models in Applied Multivariate Statistics, Wiley. Young, F.W. (1987), Multidimensional Scaling: History, Theory and Applications, (R.M. Hamer, ed.) HillsdaleNJ: Lawrence Erlbaum Associates. Otras referencias Anderson, T.W. (1963). Asymptotic Theory for Principal Componentes. Annals of Statistics, 34, 122-148. Anderson, T.W. (1996). R.A. Fisher and Multivariate Analysis. Statistical Science, 11,1 20-34. Anderson, T.W., and Bahadur, R.R. (1962), “ClassiÞcation into two multivariate normal distributions with different covariance matrices,” Annals of Mathematical Statistics, 33, 420- 431. Aitchinson,J. y Dunsmore, I.R. (1975), Statistical Prediction Analysis, Cambridge Uni- versity Press. Atkinson, A.C. (1994), “Fast Very Robust Methods for the Detection of Multiple Out- liers”, Journal of the American Statistical Association, 89, 1329—1339. BanÞeld, J.D., and Raftery, A. (1993), “Model-Based Gaussian and Non-Gaussian Clus- tering,” Biometrics, 49, 803-821. Bartlett, M. S. (1954), ”A note on multiplying factors for various chi-squared approxi- mations,” J. Royal Statistical Society B, 16,296-298. Barnett, V., and Lewis, T. (1978) Outliers in Statistical Data. Wiley. Bartholomew, D. J. (1995). Spearman and the origin and development of factor analysis. British Journal of Statistical and Mathematical Psycology, 48, 211-220 Bensmail, H., and Celeux, G. (1997), “Inference in Model- Based cluster analysis,” Sta- tistics and Computing, 7, 1-10. Bernardo J. M. y Smith, A. F. M. (1994): Bayesian Theory. Wiley. Bibby ,J. y Toutenberg, H. (1977) Prediction and improved estimation in linear models. Wiley. Binder, D. A. (1978), “Bayesian Cluster Analysis,” Biometrika, 65, 31-38. Box, G. E. P. (1949) “A general distribution theory for a class of likelihood criteria”, Biometrika, 36, 317-346. Box, G. E. P. y Tiao, G. C. (1968) “A Bayesian Approach to Some Outlier Problems”, Biometrika, 55, 119—129.
  • 501. 16.10. LECTURAS COMPLEMENTARIAS 501 Box, G. E. P. y Tiao, G. C. (1973): Bayesian Inference in Statistical Analysis. Addison- Wesley. Boser, B. Guyon, I. and Vapnik. V. (1992). A training algorithem for optimal margin classiÞers. Proceedings of COLT II, Philadelphia. Breiman, L. et al. (1984). ClassiÞcation and Regression Trees. Wadsworth. Caballero, B. y Peña, D.(1987) Un estudio estadístico de la Investigación cientíÞca en los países de la OCDE”. Estadística Española. 29, 114, 151-178. Carlin Casella, G. y Berger, R. L.(1990). Statistical Inference. Thomson. Cuadras,C. (1993). Interpreting an Inequality in Multiple Regression. The American Statistician , 47, 256-258. Celeux, G., Hurn, M., and Robert, C. P. (2000). “Computational and Inferencial Difficul- ties with mixture posterior distributions,” Journal of the American Statistical Association, 95, 957-970. Cook, D., Buja, A., Cabrera, J., and Hurley, C. (1995), “Grand Tour and Projection Pursuit,” Journal of Computational and Graphical Statistics, 4, 155-172. Cherkassky, V. y Mulier, F. (1998), Learning from Data, Wiley. Chow, G. (1981) A Comparison of the Information and Posterior Probability Criteria for model Selection. Journal of Econometrics, 16,21-33. Dasgupta, A., and Raftery, A. E. (1998) ” Detecting Features in Spatial Point Processes With Clutter via Model-Based Clustering, ” Journal of the American Statistical Association, 93, 294-302. David, H.A. (1998),” Statistics in U.S. Universities in 1933 and the establishment of the statistical laboratory at Iowa State,” Statistical Science, 13, 66-74. Donoho, D.L. (1982), “Breakdown Properties of Multivariate Location Estimators”. Ph.D. qualifying paper, Harvard University, Dept. of Statistics. Efron, B. (1982). The Jackknife, the Bootstrap and other resampling plans. SIAM. Philadelphia. Efron (1975) demostró que cuando los datos so Efron, B. y Tibshirani, J. (1993). An introduction to the Bootstrap. Chapman and Hall. Friedman, J.H. (1987), “Exploratory Projection Pursuit,” Journal of the American Sta- tistical Association, 82, 249-266. Friedman, H.P., and Rubin, J. (1967), “On some Invariant Criteria for Grouping Data,” Journal of the American Statistical Association, 62, 1159-1178. Friedman, J.H., and Tukey, J.W. (1974), “A Projection Pursuit Algorithm for Explorato- ry Data Analysis,” IEEE Transactions on Computers, C-23, 881-889. Gill, P.E., Murray, W., and Wright, M.H. (1981), Practical Optimization. Academic Press. Fox, J. (1984). Linear Statistical Models and related Methods. Wiley. Gamerman, D. (1997). Markov Chain Monte Carlo. Chapman and Hall. Gelman, A., Carlin, J., Stern, H. y Rubin, D. B. (1997). Bayesian Data Analysis. Chap- man and Hall. Graybill, F. A. (1976): Theory and Application of the Linear Model. Wadsworth Publ. Com.
  • 502. 502 CAPÍTULO 16. CORRELACIÓN CANÓNICA Graybill (1983) Gudmundsson, G. (1977). ”Multivariate Analysis of Economic Variables”, Applied Sta- tistics, 26, 1, 48-59. Hample, F. R. y otros (1986): Robust Statistics. Wiley. Hand, D. J. at al (2000) Data mining for fun and proÞt. Statistical Science, 15,111-131. Hardy, A. (1996), “On the Number of Clusters,” Computational Statistics and Data Analysis, 23, 83-96. Hartigan, J.A. (1975), Clustering Algorithms. New York: Wiley. Hartigan, J.A., and Wong, M.A. (1979), “A k-means clustering algorithm,” Applied Sta- tistics, 28, 100-108. Huber, P.J. (1985), “Projection Pursuit,” The Annals of Statistics, 13, 435-475. Hastie , T. y Simard, P. Y. (1988) Metrics and Models for Handwritten character recog- nition. Statistical Science, 13, 54-65. Hastie, T., Tibshirani R. y Buja A. (1994) Flexible discriminant analysis for optimal scoring. Journal of American Statistical Association, 428, 1255-1270. Hernández y Velilla, 2001 Izenman A. J. (1975), Reduced Rank Regression for the multivariate linear model. J. Multivariate Analysis, 5, 248-264. Jeffreys, H. (1961), Theory of Probability. Oxford Clarendon Press. Jones, M.C., and Sibson, R. (1987), What Is Projection Pursuit?, Journal of the Royal Statistical Society, Series A, 150, 1-18. Jöreskog, K.G. (1973), A general method for estimating a structural equation model. En A.S. Goldberg and O.D.Ducan, eds, Structural Equation Models in the Social Sciences. Academic Press, pp 85-112. Juan, J. y Prieto, F. J. (2001),” Using Angles to identify concentrated multivariate outliers,” Technometrics, 3, 311-322. Justel, A. y Peña, D. (1996),” Gibbs Sampling Will Fail in Outlier Problems with Strong Masking,”. Journal of Computational and Graphical Statistics, 5,2, 176-189. Justel A., Peña, D. y Zamar,R. (1997),”A Multivariate Kolmogorov Smirnov goodness of Þt test,” Statistics and Probability Letters, 35, 251-259. Kettenring, J. R. (1971),” Canonical analysis of several sets of variables,” Biometrika, 58, 33-451. Lanterman, A. D. (2001),” Schwarz, Wallace and Rissanen: intertwining themes in the- ories of model selection,” International Statistical Review, 69, 185-212. Little R. J .A. y Rubin, D. (1987), Statistical analysis con missing Data. Wiley Lee, P. M. (1997), Bayesian Statistics. Oxford University Press. MacQueen J. B.(1967) Some methods for classiÞcation and analysis of multivariate obser- vations. Proceedings of the 5th Berkely Simposium in Mathematical Statistics and Probability, pp 281-297. University of California Press Maronna, R., and Jacovkis, P.M. (1974), “Multivariate Clustering Procedures with Vari- able Metrics,” Biometrics, 30, 499-505. Maronna, R.A. (1976), “Robust M-Estimators of Multivariate Location and Scatter,” The Annals of Statistics, 4, 51—67.
  • 503. 16.10. LECTURAS COMPLEMENTARIAS 503 Maronna, R.A. and Yohai, V.J. (1995), “The Behavior of the Stahel-Donoho Robust Multivariate Estimator,” Journal of the American Statistical Association, 90, 330—341. Nason, G. (1995), “Three-Dimensional Projection Pursuit,” Applied Statistics, 44, 411- 430. O’Hagan, A. (1994). Bayesian Inference. Edward Arnold. Peña, D. (2001). Fundamentos de Estadística. Alianza Editorial Peña, D. (2002). Regresión y Diseño de Experimentos. Alianza Editorial Peña, D. y Guttman, I. (1993) Peña, D. y Prieto,F. J (2000),” The Kurtosis Coefficient and the Linear Discriminant Function ” Statistic and Probability Letters, 49, 257-261. Peña, D. y Prieto,F. J. (2001a) ”Robust covariance matrix estimation and multivariate outlier detection,” (con discusión), Technometrics, 3, 286-310, Peña, D. y Prieto,F. J (2001b) ” Cluster IdentiÞcation using Projections,” The Journal of American Statistical Association, 96, December 2001 Peña D. y Rodriguez, J. (2002) ” A powerful portmanteau test for time series,” The Journal of American Statistical Association, June 2002, (en prensa) Peña, D., Tiao, G. C. y Tsay, R. S. (2001), A Course in Time Series, Wiley Posse, C. (1995), “Tools for Two-Dimensional Exploratory Projection Pursuit,” Journal of Computational and Graphical Statistics, 4, 83-100. Pollock D. S. G. (1993) The Algebra of Econometrics. Wiley Press, S. J. (1989): Bayesian Statistics. Wiley. Robsert, C. P. (1994). The Bayesian Choice. Springer. Robert, C. P. y Casella, G. (1999). Montecarlo Statistical Methods. Springer-Verlag. Rocke, D.M. and Woodruff, D.L. (1996), “IdentiÞcation of Outliers in Multivariate Data,” Journal of the American Statistical Association, 91, 1047—1061. Ruspini, E.H. (1970), “Numerical Methods for Fuzzy Clustering,” Information Science, 2, 319-350. Rousseeuw, P.J. and van Zomeren, B.C. (1990), “Unmasking Multivariate Outliers and Leverage Points,” Journal of the American Statistical Association, 85, 633—639. Spearman C. (1904) General intelligence, objectively determined and measured, Ameri- can Journal of Psycology, 15, 201-293. Stahel, W.A. (1981), “Robuste Schatzungen: InÞnitesimale Optimalitat und Schatzungen von Kovarianzmatrizen,” Ph.D. Thesis, ETH Zurich. Stewart, D. y Love, W. (1968). ”A General Canonical Correlation Index”, Psychological Bulletin, 70, 160-163. Titterington, D. M., Smith, A. F. M. y Makov, U.E. (1987). Statistical Analysis of Þnite mixture distributions. Wiley. Velilla (1993) Wolfe, J. H. (1970) Pattern Clustering by multivarite mixture analysis. Multivariate Behavioral Research, 5, 329-350. Vapnik, V. (1996) The nature of Statistical Learning. Springer-Verlag.
  • 504. 504 CAPÍTULO 16. CORRELACIÓN CANÓNICA Yohai, V. y Garcia Ben, M. (1980), ” Canonical variables as optimal predictors,” Annals of Statistics, 8, 865-869. Zellner, A. (editor) (1980): Bayesian Analysis in Econometrics and Statistics. North Holland.
  • 505. Apéndice A Datos En este capítulo Þguran las tablas de datos y una breve descripción de las variables de todos los conjuntos de datos analizados en el libro. La siguiente tabla muestra asociado al nombre de cada conjunto las técnicas multivari- antes que se le han aplicado. EUROALI EUROSEC EPF INVEST MEDIFIS MUNDODES Comp. Principales F F Anál. Factorial F F Correlaciones Cano. F Cordenadas Prin. F F Anál. Discriminante F Anál. de Congl. Regre. Logist. Descriptiva Anál. de corres. 505
  • 506. 506 APÉNDICE A. DATOS EUROALI CR CB H L P C F N FV Albania 10.1 1.4 0.5 8.9 0.2 42.3 0.6 5.5 1.7 Austria 8.9 14 4.3 19.9 2.1 28 3.6 1.3 4.3 Bélgica 13.5 9.3 4.1 17.5 4.5 26.6 5.7 2.1 4 Bulgaria 7.8 6 1.6 8.3 1.2 56.7 1.1 3.7 4.2 Checoslova. 9.7 11.4 2.8 12.5 2 34.3 5 1.1 4 Dinamarca 10.6 10.8 3.7 25 9.9 21.9 4.8 0.7 2.4 Alemania-E. 8.4 11.6 3.7 11.1 5.4 24.6 6.5 0.8 3.6 Finlandia 9.5 4.9 2.7 33.7 5.8 26.3 5.1 1 1.4 Francia 18 9.9 3.3 19.5 5.7 28.1 4.8 2.4 6.5 Grecia 10.2 3 2.8 17.6 5.9 41.7 2.2 7.8 6.5 Hungria 5.3 12.4 2.9 9.7 0.3 40.1 4 5.4 4.2 Irlanda 13.9 10 4.7 25.8 2.2 24 6.2 1.6 2.9 Italia 9 5.1 2.9 13.7 3.4 36.8 2.1 4.3 6.7 Países Bajos 9.5 13.6 3.6 23.4 2.5 22.4 4.2 1.8 3.7 Noruega 9.4 4.7 2.7 23.3 9.7 23 4.6 1.6 2.7 Polonia 6.9 10.2 2.7 19.3 3 36.1 5.9 2 6.6 Portugal 6.2 3.7 1.1 4.9 14.2 27 5.9 4.7 7.9 Rumania 6.2 6.3 1.5 11.1 1 49.6 3.1 5.3 2.8 España 7.1 3.4 3.1 8.6 7 29.2 5.7 5.9 7.2 Suecia 9.9 7.8 3.5 24.7 7.5 19.5 3.7 1.4 2 Suiza 13.1 10.1 3.1 23.8 2.3 25.6 2.8 2.4 4.9 Reino Unido 17.4 5.7 4.7 20.6 4.3 24.3 4.7 3.4 3.3 URSS 9.3 4.6 2.1 16.6 3 43.6 6.4 3.4 2.9 Alemania-O. 11.4 12.5 4.1 18.8 3.4 18.6 5.2 1.5 3.8 Yugoslavia 4.4 5 1.2 9.5 0.6 55.9 3 5.7 3.2 Tabla A.1: Datos EUROALI EUROALI Este conjunto de datos está constituido por 25 observaciones y 9 variables. Las obsrvaciones corresponden a países Europeos, y las variables al porcentaje de consumo de proteínas que cada tipo de alimento proporciona. Las variables son: Carnes rojas (CR), Carnes blancas (CB), Huevos (H), Leche (L), Pescado (P), Cereales (C), Fecula (F), Nueces (N), Fruta y verdura (FV). Datos : Tabla A.1 Fuente: Eurostat, 1999 EUROSEC El número de observaciones es 26 y el de variables 9. Las observaciones corresponden a países Europeos. Las variables miden el porcentaje de empleo en los distintos sectores económicos.
  • 507. 507 EUROSEC Agr Min Man PS Con SI Fin SPS TC Bélgica 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2 Dinamarca 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1 Francia 10.8 0.8 27.5 0.9 8.9 16.8 6 22.6 5.7 Alemania-E 6.7 1.3 35.8 0.9 7.3 14.4 5 22.3 6.1 Irlanda 23.2 1 20.7 1.3 7.5 16.8 2.8 20.8 6.1 Italia 15.9 0.6 27.6 0.5 10 18.1 1.6 20.1 5.7 Luxenburgo 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2 Paises Bajos 6.3 0.1 22.5 1 9.9 18 6.8 28.5 6.8 Reino Unido 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4 Austria 12.7 1.1 30.2 1.4 9 16.8 4.9 16.8 7 Finlandia 13 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6 Grecia 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11 6.7 Noruega 9 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4 Portugal 27.8 0.3 24.5 0.6 8.4 13.3 2.7 16.7 5.7 España 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5 Suecia 6.1 0.4 25.9 0.8 7.2 14.4 6 32.4 6.8 Suiza 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7 Turkia 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2 Bulgaria 23.6 1.9 32.3 0.6 7.9 8 0.7 18.2 6.7 Checos. 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7 Alemania-O 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4 Hungria 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8 Polonia 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9 Rumanía 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5 URSS 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3 Yugoslavia 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4 Tabla A.2: Datos EUROSEC Los sectores son: Agricultura, Minería, Industria, Energía, Construcción, Servicios In- dustriales, Finanzas, Servicios, Transportes y Comunicaciones. Datos: Tabla A.2 Fuente: Euromonitor (1979, pp. 76-77).
  • 508. 508 APÉNDICE A. DATOS ENCUESTA DE PRESUPUESTOS FAMILIARES X1 X2 X3 X4 X5 X6 X7 X8 X9 Almería 618957 295452 522128 167067 58288 280035 129219 307967 107334 Cádiz 683940 203619 426690 124162 60657 285888 127792 313238 83523 Córdoba 590770 265604 487143 113386 37131 237320 116764 247536 79924 Granada 547353 238822 458338 119540 40340 236694 103901 272308 72813 Huelva 649225 245722 570631 99250 61953 253286 123244 238880 83070 Jaén 556210 183295 332662 86364 37160 136992 57607 189811 57311 Málaga 617778 201348 508252 121010 63518 256973 128336 323632 93971 Sevilla 621570 208156 549399 137408 45101 298000 118269 308524 84514 Huesca 577107 249310 412907 107976 39602 335334 90547 227266 92103 Teruel 545238 199788 343919 122154 42281 224286 90291 237747 77938 Zaragoza 556737 266468 496989 132517 54106 235188 118931 282369 79718 Asturias 624941 280273 530828 132066 57679 340013 149265 315478 120856 Baleares 564220 226816 602397 144005 86803 358290 150551 351555 131802 Las Palmas 632640 201704 522846 153775 84148 327988 173031 305628 114627 Tenerife 523476 171072 467424 118857 65247 303598 142620 283563 80959 Cantabria 604083 287943 654929 119269 63320 302277 116752 276663 105421 Ávila 543595 242609 388063 92808 47035 254563 74522 250853 82061 Burgos 602307 255567 600121 162166 51308 280023 132161 301813 111224 León 623047 245240 500414 136030 41667 333066 119657 267506 146434 Palencia 589710 206048 449113 113714 34787 248620 115825 294068 109264 Salamanca 488784 167814 400049 78217 24476 195065 69846 193056 54442 Segovia 528040 184840 455368 103446 46337 217156 91436 259705 116303 Soria 679722 232673 503695 129768 55000 272249 117587 300014 120803 Valladolid 567361 223201 566433 140573 46111 254216 149041 327774 98430 Zamora 544527 178835 402354 99953 32143 227163 70283 231577 125332 Albacete 535939 199559 425598 137799 55967 232209 104866 291708 91735 Ciudad Real 545912 227255 487651 125740 44001 230820 88650 230213 90886 Cuenca 506814 194156 420488 109533 50961 220678 78673 270038 103288 Guadalajara 546909 179824 477446 115585 40129 299174 94923 287703 87720 Toledo 583325 255527 411896 130747 65345 282127 105872 241749 122189 Barcelona 702920 257429 702315 168696 97595 365255 239187 379319 99929 Gerona 684186 285047 566149 149308 77553 259839 191400 329089 134786 Lérida 696542 283134 508906 146773 90828 402073 180652 353124 152924 Tarragona 586122 283112 557653 150464 62853 331848 185713 381485 114876 Alicante 579355 205685 490235 134254 68141 297939 117710 316675 111756 Castellón 496559 201606 411972 107739 42939 212051 84610 241795 77370 Valencia 539570 228072 464127 138419 62471 285948 134751 384939 96564 Badajoz 430442 204529 332948 91831 41112 187500 77481 203808 61478 Cáceres 569808 222756 403547 119078 47904 248571 100282 285880 89736 EPF (continúa)
  • 509. 509 X1 X2 X3 X4 X5 X6 X7 X8 X9 La Coruña 692445 249121 506616 141805 56114 277401 142246 289111 108489 Lugo 719078 286277 414893 142629 62779 301867 101889 216693 119398 Orense 598669 182378 370866 106873 31779 221028 114728 205921 90184 Pontevedra 736441 263479 468984 136204 50815 344289 129685 309349 100255 Madrid 670577 253928 864553 148014 86601 393664 232387 440275 130290 Murcia 610718 210169 470859 128627 46866 318508 102978 311262 114457 Navarra 669082 324877 704572 221954 81180 415313 185493 411027 156493 Alava 664450 234132 631137 189169 58406 313033 164730 355280 98942 Guipuzcua 643141 254653 668435 151454 61985 302491 169527 405259 109995 Vizcaya 635929 283160 677817 156612 67899 337253 176222 423122 132572 La Rioja 634839 209753 542656 127615 54684 269843 126717 322845 121844 Ceuta y Melilla. 678733 192344 362317 81673 27191 138705 81979 226279 65135 Tabla A.3: EPF EPF Estos datos corresponden a 51 observaciones y 9 variables. Las observaciones son las provincias españolas más Ceuta yMelilla, que aparecen unidas como una única provincia, y las variables los nueve epígrafes en los que se desglosa la Encuesta de Presupuestos Familiares en España. Las variables son: X1= alimentación, X2= vestido y calzado, X3= vivienda, X4= movil- iario doméstico, X5= gastos sanitarios, X6= transporte, X7= enseñanza y cultura, X8= turismo y ocio, X9= otros gastos. Datos tabla A.3 Fuente: Encuesta de Presupuestos Familiares del año 1990/91
  • 510. 510 APÉNDICE A. DATOS PUBLICACIONES CIENTIFICAS DE LOS PAISES DE LA OCDE INTER.A INTER.F AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FÍSICA EE.UU 815.319 379.851 88.663 58.104 255.864 440.134 111.015 162.288 UK 162.103 90.332 35.158 29.802 59.63 92.725 6.409 34.349 JP 105.856 78.811 13.978 16.758 55.634 308.926 32.039 40.538 F 118.935 76.186 13.818 11.253 49.938 120.065 9.984 35.792 G 91.099 85.037 11.74 20.337 41.233 66.087 11.304 22.093 C 72.722 49.459 14.041 16.722 23.139 101.9 12.034 14.645 I 42.905 29.734 7.904 13.444 31.078 36.322 5.833 11.351 A 36.121 22.236 12.419 9.863 12.186 19.641 4.898 6.299 H 29.912 18.036 6.563 7.548 13.721 23.029 3.798 6.775 S 28.568 16.19 3.985 9.502 14.852 18.341 2.387 3.549 CH 26.495 14.518 3.378 3.636 11.096 19.304 2.556 5.784 E 16.425 11.818 3.089 3.981 7.196 15.493 1.258 2.692 B 17.311 11.791 3.24 4.011 8.098 11.964 1.772 3.417 D 14.677 555 2.635 5.667 8.368 14.266 1.197 1.999 AU 10.957 13.154 1.433 2.372 5.928 6.713 1.318 2.278 FI 11.012 6.457 2.028 4.756 5.731 6.647 1.001 1.669 N 9.075 5.432 1.803 3.299 4.801 5.326 912 853 Y 4.686 2.957 2.031 1.194 1.806 7.046 801 1.861 GR 3.72 2.749 692 1.293 1.518 2.415 896 1.366 IR 6.786 214 432 1.119 1.355 98 522 941 P 1.221 1.929 388 386 564 12 493 413 Tabla A.4: Datos INVEST INVEST Este conjunto de datos presenta 21 observaciones de 8 variables. Las observa- ciones corrsponden a los países de la OCDE y las variables son el número de publicaciones cientíÞcas recogidas en el trienio 1982-84 en ocho bases de datos de producción cientíÞca. Las variables se han llamado según la orientación de la base de datos: InterA(por interdis- ciplinaria), Inter F (por interdisciplinaria), Agric., Biolo., Medic., Quimic., Ingen. y Física. Datos: tabla A.4 Fuente: Caballero y Peña (1987).
  • 511. 511 MEDIDAS FÍSICAS Obs. sexo est pes pie lbr aes dcr lrt 1 0 159 49 36 68 42 57 40 2 1 164 62 39 73 44 55 44 3 0 172 65 38 75 48 58 44 4 0 167 52 37 73 41.5 58 44 5 0 164 51 36 71 44.5 54 40 6 0 161 67 38 71 44 56 42 7 0 168 48 39 72.5 41 54.5 43 8 1 181 74 43 74 50 60 47 9 1 183 74 41 79 47.5 59.5 47 10 0 158 50 36 68.5 44 57 41 11 0 156 65 36 68 46 58 41 12 1 173 64 40 79 48 56.5 47 13 0 158 43 36 68 43 55 39 14 1 178 74 42 75 50 59 45 15 1 181 76 43 83 51 57 43 16 1 182 91 41 83 53 59 43 17 1 176 73 42 78 48 58 45 18 0 162 68 39 72 44 59 42 19 0 156 52 36 67 36 56 41 20 0 152 45 34 66 40 55 38 21 1 181 80 43 76 49 57 46 22 1 173 69 41 74 48 56 44 23 0 155 53 36 67 43 56 38 24 1 189 87 45 82 53 61 52 25 0 170 70 38 73 45 56 43 26 1 170 67 40 77 46.5 58 44.5 27 0 168 56 37.5 70.5 48 60 40 Tabla A.5: Datos MEDIFIS MEDIFIS Este conjunto de datos contiene 28 observaciones de 8 variables. Las observa- ciones cooresponde a estudiantes españoles y las variables a sus características físicas. Las variables son: género (0 mujer, 1 hombre), estatura (en cm), peso (en Kgr), longitud de pie (en cm.), longitud de brazo (en cm.), anchura de la espalda (en cm.), diámetro del cráneo (en cm.), longitud entre la rodilla y el tobillo (en cm.). Datos: tabla A.5 Fuente:Elaboración propia
  • 512. 512 APÉNDICE A. DATOS DESARROLLO EN EL MUNDO Tasa Nat. Tasa Mort. Mort.Inf Esp.Hom Esp.Muj. PNB Albania 24,7 5,7 30,8 69,6 75,5 600 Bulgaria 12,5 11,9 14,4 68,3 74,7 2250 Checos. 13,4 11,7 11,3 71,8 77,7 2980 Hungria 11,6 13,4 14,8 65,4 73,8 2780 Polonia 14,3 10,2 16 67,2 75,7 1690 Rumania 13,6 10,7 26,9 66,5 72,4 1640 URSS 17,7 10 23 64,6 74 2242 Bielorrusia 15,2 9,5 13,1 66,4 75,9 1880 Ucrania 13,4 11,6 13 66,4 74,8 1320 Argentina 20,7 8,4 25,7 65,5 72,7 2370 Bolivia 46,6 18 111 51 55,4 630 Brasil 28,6 7,9 63 62,3 67,6 2680 Chile 23,4 5,8 17,1 68,1 75,1 1940 Colombia 27,4 6,1 40 63,4 69,2 1260 Ecuador 32,9 7,4 63 63,4 67,6 980 Guayana 28,3 7,3 56 60,4 66,1 330 Paraguay 34,8 6,6 42 64,4 68,5 1110 Perú 32,9 8,3 109,9 56,8 66,5 1160 Uruguay 18 9,6 21,9 68,4 74,9 2560 Venezuela 27,5 4,4 23,3 66,7 72,8 2560 Mexico 29 23,2 43 62,1 66 2490 Bélgica 12 10,6 7,9 70 76,8 15540 Finlandia 13,2 10,1 5,8 70,7 78,7 26040 Dinamarca 12,4 11,9 7,5 71,8 77,7 22080 Francia 13,6 9,4 7,4 72,3 80,5 19490 Alemania 11,4 11,2 7,4 71,8 78,4 22320 Grecia 10,1 9,2 11 65,4 74 5990 Irlanda 15,1 9,1 7,5 71 76,7 9550 Italia 9,7 9,1 8,8 72 78,6 16830 Paises Bajos 13,2 8,6 7,1 73,3 79,9 17320 Noruega 14,3 10,7 7,8 67,2 75,7 23120 Portugal 11,9 9,5 13,1 66,5 72,4 7600 España 10,7 8,2 8,1 72,5 78,6 11020 Suecia 14,5 11,1 5,6 74,2 80 23660 Suiza 12,5 9,5 7,1 73,9 80 34064 Reino Unido 13,6 11,5 8,4 72,2 77,9 16100 Austria 14,9 7,4 8 73,3 79,6 17000 Japon 9,9 6,7 4,5 75,9 81,8 25430 Canada 14,5 7,3 7,2 73 79,8 20470 MUNDODES (continúa)
  • 513. 513 Tasa Nat Tasa Mort Mort.Inf Esp.Hom Esp.Muj. PNB EEUU 16,7 8,1 9,1 71,5 78,3 21790 Afganistan 40,4 18,7 181,6 41 42 168 Bahrein 28,4 3,8 16 66,8 69,4 6340 Iran 42,5 11,5 108,1 55,8 55 2490 Irak 42,6 7,8 69 63 64,8 3020 Israel 22,3 6,3 9,7 73,9 77,4 10920 Jordania 38,9 6,4 44 64,2 67,8 1240 Kuwait 26,8 2,2 15,6 71,2 75,4 16150 Oman 45,6 7,8 40 62,2 65,8 5220 Arabia Saudi 42,1 7,6 71 61,7 65,2 7050 Turkia 29,2 8,4 76 62,5 65,8 1630 Emiratos Arabes 22,8 3,8 26 68,6 72,9 19860 Bangladesh 42,2 15,5 119 56,9 56 210 China 21,2 6,7 32 68 70,9 380 Hong Kong 11,7 4,9 6,1 74,3 80,1 14210 India 30,5 10,2 91 52,5 52,1 350 Indonesia 28,6 9,4 75 58,5 62 570 Malasia 31,6 5,6 24 67,5 71,6 2320 Mongolia 36,1 8,8 68 60 62,5 110 Nepal 39,6 14,8 128 50,9 48,1 170 Pakistan 30,3 8,1 107,7 59 59,2 380 Filipinas 33,2 7,7 45 62,5 66,1 730 Singapur 17,8 5,2 7,5 68,7 74 11160 Srilanka 21,3 6,2 19,4 67,8 71,7 470 Tailandia 22,3 7,7 28 63,8 68,9 1420 Argelia 35,5 8,3 74 61,6 63,3 2060 Angola 47,2 20,2 137 42,9 46,1 610 Botswana 48,5 11,6 67 52,3 59,7 2040 Congo 46,1 14,6 73 50,1 55,3 1010 Egipto 38,8 9,5 49,4 57,8 60,3 600 Etiopia 48,6 20,7 137 42,4 45,6 120 Gabon 39,4 16,8 103 49,9 53,2 390 Gambia 47,4 21,4 143 41,4 44,6 260 Ghana 44,4 13,1 90 52,2 55,8 390 Kenya 47 11,3 72 56,5 60,5 370 Libia 44 9,4 82 59,1 62,6 5310 Malawi 48,3 25 130 38,1 41,2 200 Marruecos 35,5 9,8 82 59,1 62,5 960 MUNDODES (continúa)
  • 514. 514 APÉNDICE A. DATOS Tasa Nat. Tasa Mort Mort.Inf Esp.Hom Esp.Muj. PNB Mozambique 45 18,5 141 44,9 48,1 80 Namibia 44 12,1 135 55 57,5 1030 Nigeria 48,5 15,6 105 48,8 52,2 360 Sierra Leona 48,2 23,4 154 39,4 42,6 240 Somalia 50,1 20,2 132 43,4 46,6 120 Surafrica 32,1 9,9 72 57,5 63,5 2530 Sudan 44,6 15,8 108 48,6 51 480 Swaziland 46,8 12,5 118 42,9 49,5 810 Tunez 31,1 7,3 52 64,9 66,4 1440 Uganda 52,2 15,6 103 49,9 52,7 220 Tanzania 50,5 14 106 51,3 54,7 110 Zaire 45,6 14,2 83 50,3 53,7 220 Zambia 51,1 13,7 80 50,4 52,5 420 Zimbabwe 41,7 10,3 66 56,5 60,1 640 Tabla A.6: MUNDODES) MUNDODES Este conjunto de datos consta de 91observaciones y 6 variables. Las ob- servaciones corresponden a 91 países. Las variables son indicadores de desarrollo. Las seis variables son : Tasa Nat.: Ratio de natalidad por 1000 habitantes Tasa Mort: Ratio de mortalidad por 1000 habitantes Mort.Inf: Mortalidad infantil (por debajo de un año) Esp.Hom: Esperanza de vida en hombres Esp.Muj.: Esperanza de vida en mujeres PNB: Producto Nacional Bruto per cápita Datos: tabla A.6 Fuente: ”UNESCO 1990 Demographic Year Book” y de ”The Annual Register 1992”.
  • 515. 515 ACCIONES DE LA BOLSA DE MADRID Obs. X1 X2 X3 1 3.4 89.7 30.2 2 5.1 55.7 9.9 3 4.5 52.3 11.5 4 3.5 47.0 11.2 5 5.9 42.7 7.0 6 5.1 30.6 6.9 7 4.6 64.4 11.8 8 5.0 51.0 9.6 9 3.2 54.4 14.7 10 3.4 45.7 13.2 11 6.5 39.9 5.2 12 4.4 40.3 13.7 13 5.1 52.4 11.0 14 5.8 43.9 8.0 15 4.6 52.8 14.4 16 7.2 65.8 7.8 17 7.2 58.1 7.7 Obs. X1 X2 X3 18 4.4 58.5 12.1 19 7.8 84.3 11.0 20 16.0 96.5 6.0 21 16.7 100.0 6.8 22 15.2 92.3 5.2 23 17.5 99.9 6.8 24 16.2 93.5 6.1 25 14.7 100.0 6.6 26 15.3 99.9 5.9 27 15.8 100.0 6.9 28 18.3 96.3 5.7 29 15.9 100.0 6.1 30 16.1 92.5 6.1 31 9.7 87.6 7.7 32 6.9 53.6 6.6 33 14.4 87.8 5.2 34 14.9 34.5 4.69 Tabla A.7: ACCIONES ACCIONES Este conjunto de datos presenta 34 observaciones y 3 variables. Las obser- vaciones corresponden a distintas acciones que cotizan en el mercado continuo español y las variables a tres medidas de rentabilidad de estas acciones durante un período de tiempo. Las variables son : X1 es la rentabilidad efectiva por dividendos, X2 es la proporción de beneÞcios que va a dividendos y X3 el ratio entre precio por acción y beneÞcios. Datos : Tabla A.7 Fuente: Elaboración propia