SlideShare una empresa de Scribd logo
Econometría básica Aplicada con Gretl

                            ISBN: 978-84-692-4355-8


               Mª Victoria Esteban González
                         M. Paz Moral Zuazo
                    Susan Orbe Mandaluniz
                      Marta Regúlez Castillo
                      Ainhoa Zarraga Alonso
                      Marian Zubia Zubiaurre


                                          08-09
Econometr´ B´sica Aplicada con Gretl
              ıa a




 Autores:
            M. Victoria Esteban
            M. Paz Moral
            Susan Orbe
            Marta Reg´lez
                      u
            Ainhoa Zarraga
            Marian Zubia



Departamento de Econom´ Aplicada III. Econometr´ y Estad´
                        ıa                        ıa    ıstica
Facultad de Ciencias Econ´micas y Empresariales
                         o
Universidad del Pa´ Vasco/Euskal Herriko Unibertsitatea
                  ıs
2
Contenido

1. Gretl y la Econometr´
                       ıa                                                                            1
  1.1. Introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                 o                                                                                    1
  1.2. ¿Qu´ es la Econometr´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
          e                ıa?                                                                        1
       1.2.1. ¿Para qu´ sirve la Econometr´
                      e                   ıa? . . . . . . . . . . . . . . . . . . . . . . .           3
  1.3. Un estudio econom´trico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                        e                                                                             5
  1.4. Los datos y su manejo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .        6
       1.4.1. Fuentes de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .        7
       1.4.2. El software econom´trico . . . . . . . . . . . . . . . . . . . . . . . . . . .
                                e                                                                     8
  1.5. Introducci´n a Gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                 o                                                                                   10
       1.5.1. An´lisis descriptivo de una variable . . . . . . . . . . . . . . . . . . . . . .
                a                                                                                    13
       1.5.2. Relaciones entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . .       18
  1.6. Ejercicio para practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .      21


2. Modelo de Regresi´n Lineal Simple
                    o                                                                                23
  2.1. Introducci´n. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                 o                                                                                   23
  2.2. Elementos del modelo de regresi´n simple . . . . . . . . . . . . . . . . . . . . . .
                                      o                                                              25
  2.3. Hip´tesis b´sicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
          o       a                                                                                  26
       2.3.1. Resumen: modelo de regresi´n lineal simple con hip´tesis b´sicas . . . . .
                                        o                       o       a                            30
  2.4. Estimaci´n por M´
               o       ınimos Cuadrados Ordinarios . . . . . . . . . . . . . . . . . . .             30
       2.4.1. El criterio de estimaci´n m´
                                     o   ınimo-cuadr´tico . . . . . . . . . . . . . . . . .
                                                    a                                                32
       2.4.2. Propiedades de los estimadores MCO           . . . . . . . . . . . . . . . . . . . .   33
       2.4.3. La estimaci´n MCO en Gretl . . . . . . . . . . . . . . . . . . . . . . . . .
                         o                                                                           34
       2.4.4. Propiedades de la recta m´
                                       ınimo-cuadr´tica . . . . . . . . . . . . . . . . .
                                                  a                                                  36
       2.4.5. La precisi´n de la estimaci´n y la bondad del ajuste . . . . . . . . . . . .
                        o                o                                                           38
  2.5. Contrastes de hip´tesis e intervalos de confianza . . . . . . . . . . . . . . . . . .
                        o                                                                            41
       2.5.1. Contrastes de hip´tesis sobre β . . . . . . . . . . . . . . . . . . . . . . . .
                               o                                                                     41

                                                 i
SARRIKO-ON 8/09                                             Econometr´ B´sica Aplicada con Gretl
                                                                     ıa a


        2.5.2. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . .       44
   2.6. Resumen. Presentaci´n de los resultados . . . . . . . . . . . . . . . . . . . . . . .
                           o                                                                          45
   2.7. Ejercicios para practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     45

3. Modelo de Regresi´n Lineal M´ ltiple
                    o          u                                                                      49
   3.1. Introducci´n. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                  o                                                                                   49
   3.2. Estimaci´n de M´
                o      ınimos Cuadrados Ordinarios utilizando Gretl . . . . . . . . . .               51
   3.3. An´lisis de los resultados mostrados . . . . . . . . . . . . . . . . . . . . . . . . .
          a                                                                                           52
        3.3.1. Coeficientes estimados . . . . . . . . . . . . . . . . . . . . . . . . . . . . .        55
        3.3.2. Desviaciones t´
                             ıpicas e intervalos de confianza . . . . . . . . . . . . . . . .          58
        3.3.3. Significatividad individual y conjunta . . . . . . . . . . . . . . . . . . . .          61
   3.4. Bondad de ajuste y selecci´n de modelos . . . . . . . . . . . . . . . . . . . . . . .
                                  o                                                                   65
   3.5. Ejercicios para practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     70

4. Contrastes de restricciones lineales y predicci´n
                                                  o                                                   73
   4.1. Contrastes de restricciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . .      73
   4.2. Contrastes utilizando Gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .       75
   4.3. Estimaci´n bajo restricciones lineales . . . . . . . . . . . . . . . . . . . . . . . . .
                o                                                                                     82
   4.4. Estad´
             ısticos equivalentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     84
   4.5. Predicci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                o                                                                                     86
   4.6. Ejercicios para practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     89

5. Errores de especificaci´n en la elecci´n de los regresores
                         o              o                                                             95
   5.1. Introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                  o                                                                                   95
   5.2. Efectos de omisi´n de variables relevantes . . . . . . . . . . . . . . . . . . . . . .
                        o                                                                             96
   5.3. Efectos de inclusi´n de variables irrelevantes . . . . . . . . . . . . . . . . . . . . . 101
                          o
   5.4. Ejercicios para practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

6. Multicolinealidad                                                                                 109
   6.1. Multicolinealidad perfecta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
   6.2. Multicolinealidad de grado alto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
   6.3. Ejercicios para practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

7. Variables Cualitativas                                                                            123
   7.1. Introducci´n. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
                  o
   7.2. Modelo con una variable cualitativa       . . . . . . . . . . . . . . . . . . . . . . . . . 123
        7.2.1.   Incorporaci´n de variables cuantitativas . . . . . . . . . . . . . . . . . . . 128
                            o

                                                  ii
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                   SARRIKO-ON 8/09


   7.3. Modelo con dos o m´s variables cualitativas . . . . . . . . . . . . . . . . . . . . . 132
                          a
        7.3.1. Varias categor´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
                             ıas
        7.3.2. Varios conjuntos de variables ficticias      . . . . . . . . . . . . . . . . . . . . 134
   7.4. Contraste de cambio estructural . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
        7.4.1. Cambio estructural utilizando variables ficticias . . . . . . . . . . . . . . . 138
   7.5. Ejercicios para practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

Ap´ndice A
  e                                                                                              145
   A.1. Repaso de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
        A.1.1. Una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
        A.1.2. Dos o m´s variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . 149
                      a
        A.1.3. Algunas distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . . 152
   A.2. Repaso de inferencia estad´
                                  ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
        A.2.1. Estimaci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
                       o
        A.2.2. Contraste de hip´tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
                               o

Ap´ndice B
  e                                                                                              167
   B.1. Otros recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

Bibliograf´
          ıa                                                                                     171




                                                 iii
SARRIKO-ON 8/09        Econometr´ B´sica Aplicada con Gretl
                                ıa a




                  iv
Figuras

 1.1. Diagrama de dispersi´n superficie-precio de pisos . . . . . . . . . . . . . . . . . .
                          o                                                                       3
 1.2. Pantalla inicial de Gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   10
 1.3. A˜adir datos: hoja de c´lculo de Gretl . . . . . . . . . . . . . . . . . . . . . . . .
       n                     a                                                                    10
 1.4. Fin de carga de datos con hoja de c´lculo . . . . . . . . . . . . . . . . . . . . . .
                                         a                                                        11
 1.5. Fichero con datos de tres variables . . . . . . . . . . . . . . . . . . . . . . . . . .     12
 1.6. Cuadro de descripci´n de variables . . . . . . . . . . . . . . . . . . . . . . . . . .
                         o                                                                        12
 1.7. Fichero con descripci´n de variables . . . . . . . . . . . . . . . . . . . . . . . . .
                           o                                                                      13
 1.8. Histograma de frecuencias relativas . . . . . . . . . . . . . . . . . . . . . . . . . .     14
 1.9. Iconos de la sesi´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                       o                                                                          14
 1.10. Tipos de asimetr´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                       ıa                                                                         17
 1.11. Diagrama de dispersi´n superficie-precios (2) . . . . . . . . . . . . . . . . . . . .
                           o                                                                      19
 1.12. Diagramas de dispersi´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                            o                                                                     20

 2.1. Selecci´n de un fichero de muestra . . . . . . . . . . . . . . . . . . . . . . . . . .
             o                                                                                    23
 2.2. Diagrama de dispersi´n precio-superficie de viviendas . . . . . . . . . . . . . . . .
                          o                                                                       24
 2.3. Precio de los pisos de Bilbao versus superficie habitable . . . . . . . . . . . . . .        27
                                        2
 2.4. Modelo Yi = α + β × 5 + ui , con SX = 0 . . . . . . . . . . . . . . . . . . . . . .         28
 2.5. Ejemplos de realizaciones de u . . . . . . . . . . . . . . . . . . . . . . . . . . . .      29
 2.6. Ejemplos de distribuci´n de Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                            o                                                                     29
 2.7. Modelo de regresi´n simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                       o                                                                          31
 2.8. Funci´n de regresi´n poblacional y funci´n de regresi´n muestral . . . . . . . . .
           o            o                     o            o                                      32
 2.9. Ventana de especificaci´n del modelo lineal . . . . . . . . . . . . . . . . . . . . .
                            o                                                                     34
 2.10. Ventana de resultados de estimaci´n MCO . . . . . . . . . . . . . . . . . . . . . .
                                        o                                                         34
 2.11. Ventana de iconos: recuperar resultados estimaci´n . . . . . . . . . . . . . . . . .
                                                       o                                          35
 2.12. Gr´ficos de resultados de regresi´n MCO . . . . . . . . . . . . . . . . . . . . . . .
         a                             o                                                          36
 2.13. Residuos MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     37
 2.14. Criterio de decisi´n del contraste de significatividad individual . . . . . . . . . .
                         o                                                                        42

                                                v
SARRIKO-ON 8/09                                         Econometr´ B´sica Aplicada con Gretl
                                                                 ıa a


  3.1. Gr´fico de residuos por n´mero de observaci´n . . . . . . . . . . . . . . . . . . .
         a                     u                 o                                              53
  3.2. Gr´fico de residuos contra la variable F2 . . . . . . . . . . . . . . . . . . . . . . .
         a                                                                                      54
  3.3. Gr´fico de la variable estimada y observada por n´mero de observaci´n . . . . .
         a                                             u                 o                      54
  3.4. Gr´fico de la variable estimada y observada contra F2 . . . . . . . . . . . . . . .
         a                                                                                      55

  5.1. Gr´fico de los residuos del Modelo (5.2) por observaci´n . . . . . . . . . . . . . .
         a                                                  o                                   99
  5.2. Gr´fico de los residuos del Modelo (5.2) sobre F2 . . . . . . . . . . . . . . . . . . 100
         a
  5.3. Gr´ficos de los residuos del Modelo (5.1) sobre observaci´n y sobre F2 . . . . . . 102
         a                                                     o

  7.1. Cambio en ordenada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
  7.2. Cambio en ordenada y en pendiente . . . . . . . . . . . . . . . . . . . . . . . . . 131

  A.3. La funci´n de densidad normal y el histograma . . . . . . . . . . . . . . . . . . . 146
               o
  A.4. Ejemplos de distribuci´n normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
                             o
  A.5. Simulaci´n 1: histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
               o
  A.6. Distribuci´n normal bivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
                 o
  A.7. Funci´n de densidad de la distribuci´n Chi-cuadrado . . . . . . . . . . . . . . . . 152
            o                              o
  A.8. Funci´n de densidad de la distribuci´n F-Snedecor . . . . . . . . . . . . . . . . . 153
            o                              o
  A.9. Funci´n de densidad de la distribuci´n t-Student . . . . . . . . . . . . . . . . . . 153
            o                              o
  A.10.Sesgo y varianza de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
  A.11.Ejemplos de distribuci´n de estimadores . . . . . . . . . . . . . . . . . . . . . . . 157
                             o
  A.12.Ejemplo 1: Resultado y distribuci´n del estad´
                                        o           ıstico bajo H0 . . . . . . . . . . . . 160
  A.13.Ejemplo 2: Resultado y distribuci´n del estad´
                                        o           ıstico bajo H0 . . . . . . . . . . . . 163
  A.14.Ejemplo 3: Resultado y distribuci´n del estad´
                                        o           ıstico bajo H0 . . . . . . . . . . . . 165




                                               vi
Tablas

 1.1. Datos sobre precio de vivienda ocupada . . . . . . . . . . . . . . . . . . . . . . .         2
 1.2. Distribuci´n de frecuencias del precio de 50 pisos . . . . . . . . . . . . . . . . . .
                o                                                                                  15
 1.3. Estad´
           ısticos descriptivos del precio de 50 pisos     . . . . . . . . . . . . . . . . . . .   15
 1.4. Estad´
           ısticos descriptivos del conjunto de datos . . . . . . . . . . . . . . . . . . .        18
 1.5. Matriz de coeficientes de correlaci´n . . . . . . . . . . . . . . . . . . . . . . . . .
                                        o                                                          21

 2.1. Conjunto de datos incluidos en data3.1 House prices and sqft . . . . . . . . . . .           24
 2.2. Residuos de la regresi´n MCO. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                            o                                                                      36
 2.3. Estad´
           ısticos descriptivos de variables de la FRM . . . . . . . . . . . . . . . . . .         37
 2.4. Matriz de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    38
              o                               ˆ ˆ
 2.5. Estimaci´n de varianzas y covarianza de α y β. . . . . . . . . . . . . . . . . . . .         40
 2.6. Estimaci´n por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
              o                                                                                    44

 3.1. Modelo (3.1). Datos de caracter´
                                     ısticas de viviendas . . . . . . . . . . . . . . . . .        52
                            o                                 ˆ
 3.2. Modelo (3.1). Estimaci´n de la matriz de covarianzas de β . . . . . . . . . . . . .          59
 3.3. Modelo (3.1): Estimaci´n por intervalo de los coeficientes. . . . . . . . . . . . . .
                            o                                                                      60

 4.1. Datos para el estudio de la Funci´n de Inversi´n . . . . . . . . . . . . . . . . . .
                                       o            o                                              79
 4.2. Datos en t´rminos reales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
                e                                                                                  79
 4.3. Resultados de estimaci´n obtenidos para los distintos modelos. . . . . . . . . . .
                            o                                                                      90

 5.1. Modelos (5.1) y (5.2) estimados para el precio de la vivienda . . . . . . . . . . .          98
 5.2. Modelos estimados para el precio de la vivienda. . . . . . . . . . . . . . . . . . . 103
 5.3. Modelos estimados para el Consumo de Gasolina en Estados Unidos . . . . . . . 106

 6.1. Modelos estimados para el Consumo de Gasolina en Estados Unidos . . . . . . . 120




                                                0
Tema 1

Gretl y la Econometr´
                    ıa

1.1.    Introducci´n
                  o

Estas notas se dirigen a aquellas personas interesadas en aprender a interpretar informaci´no
estad´ıstica sobre la realidad econ´mica. La herramienta b´sica es un modelo econom´trico que
                                   o                      a                         e
conjuga los esquemas te´ricos sobre el funcionamiento de la Econom´ con las t´cnicas estad´
                          o                                         ıa        e           ısti-
cas de an´lisis de datos. Un modelo puede tener una estructura muy compleja, pero nos cen-
           a
tramos en el modelo m´s sencillo, y que da nombre a la asignatura, el modelo de regresi´n
                         a                                                                  o
lineal general. Este modelo explica el comportamiento de una unica variable econ´mica o de
                                                                 ´                 o
otra ´
     ındole m´s general.
               a
Por otro lado, este curso tiene un car´cter totalmente aplicado, en el que los ejemplos pr´cti-
                                         a                                                       a
cos sirven para introducir los conceptos estad´   ıstico-econom´tricos. As´ una parte importante
                                                                e           ı,
del curso se dedica a estudiar casos pr´cticos, en los que el estudiante aprender´ a manejar un
                                         a                                           a
software econom´trico y a interpretar adecuadamente los resultados obtenidos. El paquete eco-
                 e
nom´trico a utilizar es Gretl; se trata de software de libre uso, f´cil de manejar y que tiene acceso
     e                                                             a
a las bases de datos que se estudian en muchos libros de introducci´n al an´lisis econom´trico.
                                                                         o      a             e
Este primer tema se organiza de la siguiente forma: la secci´n 2 presenta la disciplina que nos
                                                               o
ocupa, la Econometr´ La secci´n 3 describe un ejemplo de estudio econom´trico, destacando
                      ıa.          o                                           e
cu´les son los elementos que integran un modelo econom´trico. La secci´n 4 se ocupa de los datos
   a                                                       e            o
econ´micos, sus caracter´
     o                    ısticas, las principales fuentes de obtenci´n de datos y los programas
                                                                     o
inform´ticos que sirven para almacenar y procesar los datos. El software Gretl se introduce en
       a
el apartado 5, en el que se incluye el esquema de una primera sesi´n pr´ctica de uso de Gretl.
                                                                     o    a



1.2.    ¿Qu´ es la Econometr´
           e                ıa?

En la toma de decisiones de car´cter econ´mico suele ser muy util disponer de informaci´n
                                  a         o                      ´                           o
en forma de datos cuantitativos. Por ejemplo, a la hora de elegir unos estudios universitarios
podemos guiarnos por nuestras preferencias personales, pero tambi´n por factores como las
                                                                      e
expectativas de salario en la rama elegida o la facilidad con la que esperamos conseguir un
empleo. Si se trata de la compra-venta de un piso, nos interesa conocer la situaci´n del mercado
                                                                                  o
inmobiliario. Para ello podemos recopilar datos de precios y de algunas caracter´   ısticas de los
pisos que puedan influir en el precio como, por ejemplo, su tama˜o o si es una vivienda usada
                                                                  n
que necesita reforma. Supongamos que en la secci´n de anuncios de un peri´dico local aparecen
                                                  o                          o

                                                 1
SARRIKO-ON 8/09                                         Econometr´ B´sica Aplicada con Gretl
                                                                 ıa a


 Indicador   Tama˜o
                 n      Precio    A reformar    Indicador   Tama˜o
                                                                n          Precio   A reformar
     1          55      210,354       no           26         110        476,600       no
     2          59      309,520       no           27         110        456,769       no
     3          60      366,617       no           28         115        500,643       no
     4          60      299,304       si           29         125        619,000       no
     5          60      369,650       no           30         135        645,253       no
     6          65      273,460       si           31         135        625,000       no
     7          65      155,000       si           32         140        522,800       si
     8          70      228,384       no           33         150        390,660       no
     9          70      246,415       no           34         150        504,850       si
    10          70      255,000       si           35         150        715,204       no
    11          75      150,253       si           36         150        570,000       si
    12          77      352,800       no           37         160        751,265       no
    13          80      366,000       si           38         180        583,000       si
    14          80      298,000       si           39         180        738,000       no
    15          80      312,530       no           40         180        552,931       si
    16          83      240,400       no           41         190        691,200       no
    17          85      278,569       si           42         195        811,400       no
    18          91      390,658       no           43         200        691,000       si
    19          92      216,364       si           44         200       1110,000       no
    20         100      402,600       no           45         230        961,620       no
    21         100      272,300       si           46         230        661,000       no
    22         100      360,607       no           47         240        841,417       no
    23         100      570,000       no           48         240        588,992       si
    24         100      480,809       no           49         245        841,400       si
    25         100      186,314       si           50         250       1051,000       no

                      Tabla 1.1: Datos sobre precio de vivienda ocupada


los siguientes datos sobre 50 pisos en venta en el centro de una ciudad:

   • Precio del piso, en miles de euros.

   • Tama˜o del piso, en metros cuadrados h´biles.
         n                                 a

   • Estado del piso: si necesita reforma o est´ para entrar a vivir.
                                               a

Estos datos aparecen en la Tabla 1.1. En base a esta informaci´n, si nos ofrecen un piso de 100
                                                                 o
m 2 reformado a un precio de 525000e, dir´ ıamos que el piso parece caro ya que su precio supera
el promedio de precios de los pisos de estas caracter´
                                                     ısticas incluidos en la muestra:

                  402, 6 + 360, 607 + 570 + 480, 809
                                                     = 453, 504 miles de euros
                                   4

Sin embargo, ¿qu´ podemos decir si se tratara de un piso de 90 m2 a reformar? ¿O de un piso
                  e
de 50 m  2 reformado? No tenemos datos para replicar el procedimiento anterior. Un econ´metra
                                                                                         o
podr´ ayudar a dar respuesta a estas cuestiones. En el Gr´fico 1.1, que representa conjuntamente
     ıa                                                   a
el precio y el tama˜o de cada piso, se ve un patr´n o relaci´n estable entre tama˜o de un piso y
                   n                             o          o                    n
su precio. Esta relaci´n se puede trasladar a un modelo util para responder a las preguntas que
                      o                                  ´
planteamos. Las t´cnicas econom´tricas nos permiten cuantificar, a partir del modelo y los datos,
                  e              e

                                               2
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                                SARRIKO-ON 8/09


la influencia que tiene el tama˜o del piso o su estado en el precio del mismo. La respuesta podr´
                              n                                                                ıa
ser, por ejemplo: La estimaci´n del precio medio de un piso a reformar de 90 m2 es de 297350
                             o
euros, aunque el precio puede oscilar entre 152711 y 441989 euros a un nivel de confianza del
90 %. Adem´s, si se trata de un piso reformado, la estimaci´n del precio medio se incrementa
            a                                                  o
en m´s de 100000 euros, siendo factibles precios entre 210521 y 556639 euros.
      a

                                             1200

                                             1100

                                             1000

                                             900

                                             800
                      precio (miles euros)




                                             700

                                             600

                                             500

                                             400

                                             300

                                             200

                                             100
                                                    50   100       150           200   250
                                                               Superficie (m2)



                 Gr´fico 1.1: Diagrama de dispersi´n superficie-precio de pisos
                   a                             o

La Econometr´ es una rama de la Econom´ que utiliza la estad´
                ıa                           ıa                    ıstica para medir o cuantificar
las relaciones existentes entre variables econ´micas. Es una materia interdisciplinar que utiliza
                                              o
la teor´ econ´mica, la matem´tica, la estad´
       ıa      o                a             ıstica y los m´todos computacionales. En palabras
                                                            e
de Ramanathan (2002):

     En t´rminos sencillos, la econometr´ se ocupa de la aplicaci´n de m´todos es-
          e                                 ıa                            o       e
     tad´
        ısticos a la econom´ A diferencia de la estad´
                             ıa.                          ıstica econ´mica, que es princi-
                                                                       o
     palmente datos estad´ısticos, la econometr´ se distingue por la unificaci´n de teor´
                                               ıa                               o       ıa
     econ´mica, instrumentos matem´ticos y metodolog´ estad´
          o                             a                ıa        ıstica. En t´rminos m´s
                                                                               e        a
     generales, la econometr´ se ocupa de (1) estimar relaciones econ´micas, (2) con-
                              ıa                                            o
     frontar la teor´ econ´mica con los datos y contrastar hip´tesis relativas al compor-
                    ıa     o                                     o
     tamiento econ´mico, y (3) predecir el comportamiento de variables econ´micas.
                    o                                                           o


1.2.1.   ¿Para qu´ sirve la Econometr´
                 e                   ıa?

El objetivo de un estudio econom´trico es comprender mejor un fen´meno econ´mico y, como
                                   e                                   o         o
resultado, poder realizar predicciones de la evoluci´n futura del fen´meno de inter´s. El instru-
                                                    o                o             e
mento b´sico es el modelo, que ayuda a entender las relaciones entre variables econ´micas y
         a                                                                             o
sirve para evaluar los efectos de distintas medidas o pol´
                                                         ıticas econ´micas. Algunos ejemplos en
                                                                    o
los que la Econometr´ puede ser de utilidad son los siguientes:
                      ıa

   • Un analista del mercado de activos puede estar interesado en analizar y cuantificar la
     relaci´n entre el precio de un activo y distintas caracter´
           o                                                   ısticas de la empresa que ofrece ese
     activo as´ como del estado general de la econom´
              ı                                         ıa.

   • Los directivos de una empresa el´ctrica pueden estar interesados en analizar los factores
                                     e
     que afectan a la demanda de electricidad.

                                                                3
SARRIKO-ON 8/09                                          Econometr´ B´sica Aplicada con Gretl
                                                                  ıa a


   • El grupo de grandes superficies comerciales puede estar interesado en cuantificar el efecto
     de distintos niveles de publicidad sobre sus ventas y sus beneficios.

   • El servicio de estudios del Ministerio de Econom´ y del Banco de Espa˜a o del Banco
                                                       ıa                       n
     Central Europeo quiere analizar el impacto de las pol´ıticas monetarias y fiscales sobre el
     desempleo, la inflaci´n, las exportaciones e importaciones, los tipos de inter´s, etc.
                         o                                                        e

   • Si un organismo quiere implementar pol´  ıticas para corregir, por ejemplo, la discriminaci´n
                                                                                                o
     salarial por sexo, en primer lugar debe conocer cu´les son los principales factores determi-
                                                         a
     nantes del problema y, en segundo lugar, analizar las posibles medidas a tomar, estudiando
     cu´les pueden ser los efectos de dichas medidas.
        a

   • Un gobierno regional puede necesitar previsiones sobre la evoluci´n de la poblaci´n para
                                                                         o               o
     planificar la necesidad de servicios sociales y las necesidades de financiaci´n que conllevan.
                                                                                o
     Tambi´n debe tener informaci´n precisa sobre su capacidad de financiaci´n, por lo que le
            e                       o                                            o
     interesa disponer de predicciones relativas a la recaudaci´n impositiva.
                                                                o

   • Si una persona quiere contratar un pr´stamo, le interesa conocer cu´l va a ser la evoluci´n
                                          e                             a                     o
     de los tipos de inter´s.
                          e

En los ultimos a˜os hemos asistido a una mayor difusi´n y utilizaci´n de los m´todos econom´tri-
       ´         n                                    o            o            e            e
cos gracias, entre otras razones, a la mayor disponibilidad y calidad de los datos y al desarrollo
de los m´todos de computaci´n. Adem´s, la aplicaci´n de la Econometr´ no se restringe al
         e                     o         a              o                    ıa
a
´mbito estrictamente econ´mico, sino que proporciona procedimientos de estudio de datos que
                            o
pueden aplicarse al campo de las Ciencias Sociales. Por ejemplo, para:

   • Analizar si el endurecimiento de las penas, como la introducci´n de la pena de muerte,
                                                                    o
     tiene como consecuencia la disminuci´n de la tasa de criminalidad.
                                          o

   • Analizar la efectividad de las medidas de seguridad vial, como el carnet por puntos, en la
     reducci´n del n´mero de muertes en accidentes de tr´fico.
            o        u                                    a

   • Predecir los resultados de una competici´n deportiva como, por ejemplo, el n´mero de
                                               o                                 u
     goles que marcar´ la selecci´n de Inglaterra en un mundial de f´tbol.
                      a          o                                  u

   • Analizar cu´l puede ser el efecto sobre los votantes en las pr´ximas elecciones de una deter-
                a                                                  o
     minada medida, por ejemplo, prohibir fumar en lugares p´blicos, legalizar los matrimonios
                                                                 u
     entre personas del mismo sexo, etc.

   • Estudiar si hay diferencias en el voto dependiendo de si se trata de elecciones locales,
     regionales o europeas.

   • Analizar si las medidas restrictivas sobre la publicidad de tabaco y alcohol reducen el
     consumo de estos productos.

Los comienzos de la Econometr´ pueden situarse en la d´cada de los treinta del siglo pasado.
                                ıa                        e
Su coincidencia en el tiempo con la Gran Depresi´n no es casual: como consecuencia de ´sta,
                                                   o                                         e
los economistas de la ´poca estaban interesados en poder predecir los ciclos econ´micos que
                       e                                                             o
observaban. Entre ellos destaca Keynes, que defend´ la intervenci´n del gobierno en la actividad
                                                   ıa            o
econ´mica para mitigar estas crisis. As´ los primeros econ´metras se ocuparon de dar respuesta
     o                                 ı,                 o
a problemas macroecon´micos con objeto de asesorar a los gobiernos en la implantaci´n de
                         o                                                                 o
pol´
   ıticas econ´micas.
              o

                                                4
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                    SARRIKO-ON 8/09


En un comienzo, se aplicaron a los datos econ´micos m´todos estad´
                                              o         e            ısticos que ya hab´ sido uti-
                                                                                       ıan
lizados en ciencias naturales. Sin embargo, estos m´todos no pod´ reproducirse mim´ticamente
                                                   e              ıan                   e
en el ´mbito econ´mico, sino que hab´ que adaptarlos o desarrollar nuevos m´todos de acuerdo
      a            o                  ıa                                          e
a las caracter´
              ısticas propias que poseen las variables socioecon´micas. As´ en la econometr´ se
                                                                o            ı,              ıa
han desarrollado dos grandes ´reas: la econometr´ te´rica, cuyo objetivo es desarrollar m´todos
                                a                 ıa o                                     e
de estudio y an´lisis de datos y determinar sus propiedades, y la econometr´ aplicada, que se
                 a                                                               ıa
ocupa de utilizar estos m´todos para responder a los problemas de inter´s en la pr´ctica. En
                           e                                                   e         a
estas notas ponemos mayor ´nfasis en la parte aplicada. Se trata de proporcionar al alumno las
                              e
herramientas necesarias para que sea capaz de llevar a cabo un proyecto aplicado. Para ello, es
indispensable dedicar tiempo al conocimiento de los m´todos e instrumentos b´sicos del an´lisis
                                                        e                          a         a
econom´trico, ya que son el requisito previo para una buena aplicaci´n pr´ctica.
        e                                                               o      a


1.3.     Un estudio econom´trico
                          e

Uno de nuestros objetivos espec´ ıficos es que, al final del curso, el estudiante debe ser capaz de
estructurar y desarrollar un trabajo de investigaci´n. Hoy d´ una persona que disponga de un
                                                   o         ıa,
ordenador en su casa puede llevar a cabo un peque˜o proyecto econom´trico. As´ un estudio
                                                      n                    e        ı,
econom´trico consta de las siguientes etapas, Heij , de Boer, Franses, Kloer y Dijk (2004):
       e

   • Formulaci´n del problema. Se trata de determinar la cuesti´n de inter´s. Debemos plantear
                o                                               o         e
     de forma precisa las preguntas que nos interesa responder. Por ejemplo, si se trata de cono-
     cer la situaci´n del mercado inmobiliario en una ciudad, podemos plantearnos la siguiente
                   o
     pregunta: ¿cu´l es el precio de los pisos en esa ciudad y qu´ factores lo determinan? La
                    a                                             e
     teor´ econ´mica puede ayudarnos a enfocar el problema, a determinar qu´ variables est´n
         ıa      o                                                              e              a
     involucradas y cu´l puede ser la relaci´n entre ellas.
                       a                    o

   • Recolecci´n de datos estad´
              o                  ısticos relevantes para el an´lisis. En el ejemplo anterior, es f´cil
                                                               a                                  a
     recolectar datos sobre el precio de pisos, su tama˜o y otras caracter´
                                                            n                    ısticas que pueden
     influir en su precio (ver Tabla 1.1). Los resultados del an´lisis van a depender en gran
                                                                      a
     medida de la calidad de los datos. Sin embargo, no siempre es sencillo obtener los datos
     relevantes para el an´lisis. Podemos encontrar problemas como la ausencia de alg´n dato,
                          a                                                                 u
     cambios en la definici´n de una variable, fallos en el m´todo de recogida, tener una cantidad
                          o                                   e
     insuficiente de datos o no disponer de informaci´n relativa a una variable.
                                                        o

   • Formulaci´n y estimaci´n del modelo. De la uni´n de las teor´ y cuestiones planteadas
               o           o                        o             ıas
     en la primera etapa con los datos se llega a un modelo econom´trico. Por ejemplo,
                                                                       e
     podemos plantear que, en media, el precio de un piso, Y , depende de su tama˜o, X. Un
                                                                                 n
     posible modelo econom´trico que recoge esta teor´ es:
                           e                         ıa

                                          Y |X ∼ N (α + βX, σ 2 )

       Es decir, el precio de los pisos dado un tama˜o, por ejemplo 100 m2 , se distribuye alrededor
                                                    n
       de su media α + β100 seg´n una normal de varianza σ 2 . Al formular el modelo hemos
                                     u
       elegido la forma funcional de la relaci´n entre las variables y la naturaleza estoc´stica de
                                                o                                          a
       la variable de inter´s o end´gena, Y . El objetivo es obtener un modelo relevante y util
                            e         o                                                          ´
       para dar respuesta a nuestros objetivos.
       El siguiente paso es la estimaci´n de los par´metros desconocidos de la distribuci´n y que
                                         o            a                                        o
       son de inter´s para el an´lisis. En el ejemplo del precio de los pisos, interesan los par´metros
                   e            a                                                               a

                                                   5
SARRIKO-ON 8/09                                           Econometr´ B´sica Aplicada con Gretl
                                                                   ıa a


       de su media, α y β. La estimaci´n consiste en utilizar los datos y toda la informaci´n
                                         o                                                   o
       relevante para aprender algo sobre los par´metros desconocidos. En la interpretaci´n de
                                                 a                                        o
       los resultados de estimaci´n es importante tener en cuenta que no conocemos el valor de
                                 o
       los par´metros, por lo que unicamente vamos a hacer afirmaciones del tipo “con un 95 % de
              a                   ´
       confianza, el aumento del impuesto sobre carburantes no afecta al consumo de gasolina”.
       Existen muchos m´todos de estimaci´n. La elecci´n entre uno u otro depende de las pro-
                         e                  o            o
       piedades del modelo econom´trico seleccionado. Es decir, una mala selecci´n del modelo
                                    e                                             o
       tambi´n influye en la validez de las estimaciones. Un curso introductorio de Econometr´
             e                                                                               ıa,
       como este, se suele centrar en el estudio del modelo de regresi´n lineal y su estimaci´n
                                                                       o                     o
       mediante m´ınimos cuadrados ordinarios, que son instrumentos sencillos y muy utiles en la
                                                                                     ´
       pr´ctica.
         a

   • An´lisis del modelo. Se trata de estudiar si el modelo elegido es adecuado para recoger el
        a
     comportamiento de los datos. Por ejemplo, si es correcto asumir que el tama˜o del piso
                                                                                        n
     influye en su precio, si la relaci´n lineal entre ambas variables es correcta, etc. Consiste en
                                       o
     una serie de contrastes diagn´sticos que valoran si el modelo est´ correctamente especifi-
                                     o                                    a
     cado, es decir, si los supuestos realizados son v´lidos. Si es necesario, se modifica el modelo
                                                      a
     en base a los resultados obtenidos en los contrastes.

   • Aplicaci´n del modelo. Una vez obtenido un modelo correcto, se utiliza para responder a
             o
     las cuestiones de inter´s.
                            e


Dado que para la realizaci´n de un proyecto econom´trico es necesario conocer d´nde obtener
                          o                         e                          o
los datos y manejar un software espec´ıfico de an´lisis econom´trico, vamos a extendernos un
                                                a            e
poco en estos dos puntos.



1.4.     Los datos y su manejo

¿C´mo se obtienen datos econ´micos? No proceden de experimentos controlados sino que los
   o                              o
economistas, al igual que otros investigadores del campo de las Ciencias Sociales, obtienen los
datos de la observaci´n de la realidad. En un experimento controlado, como los realizados en
                       o
laboratorios, el investigador tiene control sobre las condiciones del estudio. Por ejemplo, para
analizar el efecto de un fertilizante, podemos aplicar distintas dosis de fertilizante sobre un con-
junto de sembrados, controlando tambi´n el grado de humedad o la luz que recibe cada planta.
                                          e
Adem´s, se puede repetir el experimento, manteniendo las mismas condiciones o alterando al-
      a
gunas como las dosis o el grado de humedad. Obviamente, aunque las cantidades elegidas sean
exactamente las mismas, no esperamos que el resultado, por ejemplo, el crecimiento de las plan-
tas, sea id´ntico entre experimentos porque las semillas utilizadas son distintas o porque hay
           e
peque˜os errores de medida. Estas diferencias naturales en los resultados de los experimentos se
      n
conocen como variaciones muestrales.
Los datos obtenidos de experimentos controlados son t´  ıpicos de las Ciencias Naturales y se co-
nocen como datos experimentales. Los datos que son resultado de un proceso que tiene lugar
en la sociedad, y que no es controlable por una o varias personas, se conocen como datos no
experimentales. Esta caracter´
                             ıstica ha sido un factor importante en el desarrollo de las t´cnicas
                                                                                          e
econom´tricas y debemos tenerlo en cuenta en la interpretaci´n de los resultados.
        e                                                      o


                                                 6
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                SARRIKO-ON 8/09


Clasificaci´n de los datos econ´micos. Los datos econ´micos pueden ser de diferentes tipos,
           o                       o                        o
lo que va a determinar el an´lisis que realicemos. Una primera clasificaci´n distingue entre datos
                              a                                             o
cuantitativos, aqu´llos que toman valores num´ricos dentro de un rango de valores, como precio
                   e                            e
o tama˜o de un piso, y datos cualitativos, que aparecen como categor´ o atributos, como por
       n                                                                  ıas
ejemplo el sexo, la profesi´n o el estado de un piso. Los seis primeros temas de este curso se
                            o
centran en el an´lisis de datos cuantitativos. El tema siete considera situaciones en las que alg´n
                 a                                                                               u
factor explicativo es cualitativo.
Una segunda clasificaci´n distingue entre datos de series temporales y datos de secci´n cruzada.
                        o                                                             o
Los primeros se refieren a observaciones recogidas en sucesivos momentos de tiempo, normal-
mente regulares, como a˜os, trimestres o meses. Ejemplos de datos temporales son el Producto
                          n
Interior Bruto (PIB) de la Contabilidad Nacional trimestral, el n´mero mensual de afiliacio-
                                                                     u
nes a la Seguridad Social o el valor diario del IBEX35. Los segundos se refieren a valores que
toman diferentes agentes en un momento del tiempo, por ejemplo, la poblaci´n desempleada
                                                                                o
en el a˜o 2005 en cada uno de los pa´
        n                              ıses de la Uni´n Europea (UE), el salario medio en cada
                                                     o
sector industrial en el 2006 o el gasto realizado en libros de texto por un conjunto de familias
en septiembre pasado. Tambi´n es posible tener una combinaci´n de datos de secci´n cruzada y
                              e                                 o                   o
series temporales, por ejemplo, las puntuaciones obtenidas por los estudiantes de Econometr´   ıa
en los cursos 2004-05, 2005-06 y 2006-07. Cuando se encuesta a los mismos individuos a lo largo
del tiempo, como la tasa de paro y el crecimiento del PIB desde 1990 hasta 2006 para los 25
pa´ de la UE, se conocen con el nombre de datos de panel o datos longitudinales. En este curso
   ıses
nos centraremos en el an´lisis de datos de secci´n cruzada. Las t´cnicas que utilicemos tambi´n
                          a                      o                e                           e
se pueden aplicar en series temporales, aunque en ocasiones su estudio es m´s complejo.
                                                                             a
Una tercera clasificaci´n se establece en funci´n del nivel de agregaci´n. Se conocen como datos
                       o                      o                       o
microecon´micos o microdatos los referidos al comportamiento de agentes econ´micos como
          o                                                                        o
individuos, familias o empresas. Un ejemplo es la Encuesta de Poblaci´n Activa, elaborada por
                                                                        o
el INE y publicada en http://www.ine.es/prodyser/micro epa.htm. Los datos macroecon´micos
                                                                                        o
o macrodatos son los datos referidos a ciudades, regiones o naciones que son resultantes de
la agregaci´n sobre agentes individuales, como son los resultados de la Contabilidad Nacional.
           o
Por ejemplo, la Contabilidad Nacional Trimestral de Espa˜a, elaborada tambi´n por el INE y
                                                            n                   e
publicada en http://www.ine.es/inebmenu/mnu cuentas.htm.


1.4.1.   Fuentes de datos

Encontrar y recopilar datos no es siempre sencillo. En ocasiones es muy costoso coleccionar los
datos adecuados a la situaci´n y manejarlos. Sin embargo, esta tarea se ha visto favorecida en
                            o
los ultimos a˜os por la mejora en la recogida de datos y el hecho de que muchos organismos
    ´        n
permiten acceder a sus bases de datos en la World Wide Web. Algunos organismos que publican
datos macroecon´micos son:
                o

   • Instituto Vasco de Estad´
                             ıstica (EUSTAT): http://www.eustat.es.

   • Banco de Espa˜a: http://www.bde.es → Estad´
                  n                              ısticas. Tambi´n publica el Bolet´ es-
                                                               e                  ın
     tad´
        ıstico mensual y el Bolet´ de coyuntura mensual.
                                 ın

   • Instituto Nacional de Estad´ıstica (INE): http://www.ine.es → Inebase o Banco tempus.
     Est´n disponibles, por ejemplo, los resultados de la encuesta de poblaci´n activa, la Con-
        a                                                                    o
     tabilidad Nacional o el bolet´ estad´
                                  ın         ıstico mensual. Adem´s, en enlaces se encuentran
                                                                   a
     otras p´ginas web de servicios estad´
            a                             ısticos.

                                                7
SARRIKO-ON 8/09                                         Econometr´ B´sica Aplicada con Gretl
                                                                 ıa a


   • EUROSTAT: Es la Oficina Estad´      ıstica de la Uni´n Europea, se encarga de verificar y
                                                        o
     analizar los datos nacionales recogidos por los Estados Miembros. El papel de Eurostat
     es consolidar los datos y asegurarse de que son comparables utilizando una metodolog´    ıa
     homog´nea. La informaci´n en t´rminos de tablas estad´
            e                  o       e                      ısticas, boletines estad´
                                                                                      ısticos e
     informativos, incluso documentos de trabajo papers se puede encontrar en la direcci´n: o
     http://europa.eu.int/comm/eurostat.

   • Organizaci´n para la Cooperaci´n y Desarrollo Econ´mico (OCDE): http://www.oecd.org,
                 o                     o                   o
     Statistical portal, statistics. Est´n disponibles algunas series de las publicaciones Main
                                        a
     Economic Indicators (mensual) o Comercio internacional.

   • Fondo Monetario Internacional (FMI): http://www.imf.org. Para obtener datos sobre un
     amplio conjunto de pa´
                          ıses tambi´n se puede consultar su publicaci´n Estad´
                                    e                                 o       ısticas Fi-
     nancieras Internacionales (mensual y anual).

Muchos manuales de Econometr´ incluyen una base de datos que se analizan en el texto co-
                               ıa
mo ilustraci´n a la materia. En este curso utilizaremos principalmente los datos incluidos en
            o
Ramanathan (2002), que est´n accesibles como archivos de muestra en Gretl.
                            a


1.4.2.   El software econom´trico
                           e

El desarrollo de los ordenadores ha permitido almacenar una gran cantidad de datos, a la vez
que ha facilitado su manejo. Existen en la actualidad un amplio conjunto de paquetes para
el an´lisis econom´trico que realizan complejas operaciones mediante unas instrucciones muy
     a              e
sencillas. Si los datos est´n disponibles en papel, las hojas de c´lculo, como EXCEL, son un
                           a                                      a
instrumento sencillo para introducir y preparar los datos y realizar operaciones sencillas. Sin
embargo, en general es conveniente utilizar programas econom´tricos espec´
                                                               e            ıficos. Algunos de los
m´s populares en los cursos de Econometr´ son:
  a                                        ıa

   • EViews, desarrollado por Quantitative Micro Software, contiene una amplia gama de
     t´cnicas de an´lisis econom´trico. Muchos manuales de Econometr´ contienen un CD
      e            a            e                                    ıa
     con ejemplos pr´cticos en Eviews. Su p´gina web con la informaci´n del programa es
                     a                      a                         o
     http : //www.eviews.com.

   • SHAZAM, elaborado en la Universidad British of Columbia (Canad´), incluye t´cnicas
                                                                         a         e
     para estimar muchos tipos de modelos econom´tricos. M´s informaci´n se puede obtener
                                                  e          a          o
     en http : //shazam.econ.ubc.ca, donde se puede ejecutar el programa remotamente.

   • Gretl, acr´nimo de Gnu Regression, Econometric and Time Series (Biblioteca Gnu de
                o
     Regresi´n Econometr´ y Series Temporales), elaborado por Allin Cottrell (Universidad
            o             ıa
     Wake Forest). Es software libre, muy f´cil de utilizar. Tambi´n da acceso a bases de datos
                                             a                    e
     muy amplias, tanto de organismos p´blicos, como el Banco de Espa˜a, como de ejemplos
                                           u                              n
     recogidos en textos de Econometr´ ıa.

   • RATS, acr´nimo de Regression Analysis of Time Series. Contiene una amplia gama de
                 o
     t´cnicas de an´lisis econom´trico con especial dedicaci´n al An´lisis de Series Temporales.
      e            a            e                           o       a
     Su web es: http : //www.estima.com

   • R, software libre para c´mputo estad´
                             o           ıstico y gr´ficos. Consiste en un lenguaje, un entorno
                                                    a
     de ejecuci´n, un debugger y la habilidad de correr programas guardados en archivos de
               o

                                               8
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                 SARRIKO-ON 8/09


      tipo script. Su dise˜o fue influenciado por dos lenguajes existentes: S y Scheme. P´gina
                          n                                                             a
      web: http : //www.r − project.org

Un objetivo de este curso es que el estudiante se familiarice con el uso de programas econom´tri-
                                                                                                e
cos. Por su sencillez y accesibilidad, en este curso introductorio se utiliza el programa Gretl para
estudiar casos pr´cticos. En la p´gina
                  a                a

                       http : //gretl.sourcef orge.net/gretl− espanol.html

se encuentra toda la informaci´n en castellano relativa a la instalaci´n y manejo del programa.
                              o                                       o
El manual, en ingl´s, se encuentra en la carpeta en/.
                  e
Junto con el programa se pueden cargar los datos utilizados como ejemplos de aplicaciones eco-
nom´tricas en los siguientes libros de texto Davidson y Mackinnon (2004), Greene (2008), Gu-
    e
jarati (1997), Ramanathan (2002), Stock y Watson (2003), Verbeek (2004), Wooldridge (2003).
Al instalar Gretl autom´ticamente se cargan los datos utilizados en Ramanathan (2002) y Greene
                       a
(2008). El resto se pueden descargar de la p´gina:
                                            a


                         http : //gretl.sourcef orge.net/gretl− data.html

en la opci´n textbook datasets. Este curso se estructura sobre casos pr´cticos presentados en
          o                                                            a
Ramanathan (2002) y en Wooldridge (2003) y ejercicios a resolver con ayuda de Gretl. La uni´n
                                                                                           o
de teor´ y pr´ctica permiten al alumno un autoaprendizaje tanto de los contenidos b´sicos del
       ıa    a                                                                      a
curso de Econometr´ B´sica como de la utilizaci´n del software Gretl.
                    ıa a                         o




                                                 9
SARRIKO-ON 8/09                                           Econometr´ B´sica Aplicada con Gretl
                                                                   ıa a


1.5.    Introducci´n a Gretl
                  o

La primera sesi´n con el programa Gretl consiste en una pr´ctica guiada en la que se aprender´ a
               o                                           a                                 a
crear un fichero, introducir los datos de la Tabla 1.1 y realizar un an´lisis descriptivo.
                                                                      a
Preparaci´n del fichero. Al ejecutar Gretl, aparece la siguiente ventana principal:
         o




                             Gr´fico 1.2: Pantalla inicial de Gretl
                                a
Como todav´ no se ha cargado ning´n fichero, varias opciones del men´ principal, en gris claro,
             ıa                    u                                 u
no est´n disponibles. Los datos a analizar no est´n incluidos en la base de Gretl, por lo que
      a                                          a
vamos a la opci´n Archivo → Nuevo conjunto de datos Control+N. Completamos la informaci´n
                o                                                                          o
que va solicitando el programa:
 •   n´mero de observaciones, en la Tabla 1.1 se incluyen 50 pisos. Pinchar en Aceptar.
      u
 •   El tipo de datos que utilizamos. En este caso, marcamos de secci´n cruzada y Adelante.
                                                                        o
 •   Si el paso anterior se ha realizado correctamente, confirmamos la estructura del conjunto
     de datos pinchando en Aceptar. Al pinchar en Atr´s se recupera s´lo la ventana de tipo de
                                                       a               o
     datos, por lo que esta opci´n no permite corregir un error en el n´mero de observaciones.
                                 o                                     u
 •   En la ultima ventana marcaremos S´ queremos empezar a introducir los datos.
            ´                              ı
 •   En la siguiente ventana escribimos el Nombre de la primera variable, por ejemplo m2.
     No se pueden utilizar la letra n, acentos ni m´s de 15 caracteres para nombrar a las
                                       ˜              a
     variables. Tras Aceptar, se abre una hoja de c´lculo, de modo que en la pantalla aparece:
                                                   a




                        Gr´fico 1.3: A˜adir datos: hoja de c´lculo de Gretl
                           a           n                      a
Para incluir los datos de la variable m2, vamos a la celda correspondiente, por ejemplo la primera,
y pinchamos sobre ella con la tecla izquierda del rat´n; tras teclear la cifra, 55, damos a la tecla
                                                       o

                                                10
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                               SARRIKO-ON 8/09


Entrar. Si por error no tecleamos alg´n dato, por ejemplo, la segunda observaci´n de 59 m2 , nos
                                     u                                         o
situaremos en la fila posterior, en este caso en el primer dato de 60 m2 , y vamos a observaci´n
                                                                                              o
→insertar obs. Se crea una nueva fila en blanco por encima de la anterior. Para guardar las
modificaciones en la sesi´n de trabajo hay que pinchar en Aplicar.
                         o
Podemos a˜adir m´s variables con la opci´n Variable →A˜adir del men´ de la hoja de c´lculo.
           n       a                      o              n               u                a
Por ejemplo, creamos una nueva variable que denominamos Reforma. Esta variable es cualitativa,
por lo que asociamos a la situaci´n a reformar = s´ el valor 0 y a la otra opci´n, a reformar =
                                 o                ı                            o
no el valor 1. Una vez que se han incluido todos los datos, vamos a Aplicar y Cerrar la hoja
de c´lculo. Si no hab´
    a                ıamos guardado los ultimos cambios realizados, al cerrar la hoja de c´lculo
                                         ´                                                 a
aparece un cuadro que nos pide confirmar los cambios. Las series creadas deben aparecer as´ enı
la pantalla:


                                   ¡OJO!




                    Gr´fico 1.4: Fin de carga de datos con hoja de c´lculo
                      a                                            a

Es recomendable guardar los datos ya incorporados en un fichero de datos Gretl mediante
la opci´n del men´ principal Archivo →Guardar datos. En el siguiente cuadro a˜adimos el
       o           u                                                               n
directorio y el nombre del fichero de datos, por ejemplo, pisos. Por defecto, grabar´ los datos
                                                                                   a
con la extensi´n gdt. Para usar estos datos en una sesi´n posterior, s´lo hay que pinchar dos
               o                                       o              o
veces sobre el fichero.
Con frecuencia, los datos est´n almacenados en otra hoja de c´lculo, como EXCEL. Por ejemplo,
                             a                               a
en el fichero EXCEL pisos.xls se encuentran las variables m2 y precio de la Tabla 1.1. A˜adir
                                                                                           n
los datos de precio al fichero de Gretl es muy sencillo. Una vez abierto el fichero pisos.gdt, hay
que:

   • Utilizar la opci´n del men´ principal Archivo →A˜adir datos →EXCEL . . . .
                     o         u                     n

   • Dar el nombre y ubicaci´n del fichero EXCEL, pisos.xls.
                            o

   • Dar la celda a partir de la cual hay que empezar a importar los datos. En este caso la
     variable precio empieza en la celda B1, donde est´ su nombre, e importaremos los datos
                                                      a
     desde columna 2, fila 1. Para a˜adir las dos variables, m2 y precio, comenzar´
                                      n                                            ıamos a
     importar datos en columna 1, fila 1. Finalmente, hay que pinchar en Aceptar.

Para comprobar si no hay errores en los datos vamos a Datos →seleccionar todos y luego
activamos la hoja de c´lculo mediante Datos →Editar valores o bien mostramos los datos en
                      a
pantalla con Datos →Mostrar valores →Todas las variables. Debe aparecer la siguiente ventana:
                                            11
SARRIKO-ON 8/09                                         Econometr´ B´sica Aplicada con Gretl
                                                                 ıa a



                               ¡OJO! * = LOS CAMBIOS NO SE HAN GUARDADO




                        Gr´fico 1.5: Fichero con datos de tres variables
                          a


Una vez que los datos se han cargado correctamente, los almacenamos en el mismo fichero pi-
sos.gdt pinchando en Archivo →Guardar datos. Una vez guardadas las modificaciones, en la
pantalla de Gretl aparece el nombre del fichero sin el asterisco *.


Notas explicativas. Al crear un fichero, nos interesa incluir notas explicativas del trabajo ya
realizado. En Gretl es posible a˜adir esta informaci´n en dos apartados, uno general y otro
                                  n                    o
espec´ıfico de cada variable. Es posible a˜adir una breve descripci´n de cada variable y que
                                           n                        o
aparezca como etiqueta descriptiva junto con el nombre de la variable. Por ejemplo, a˜adiremos
                                                                                     n
la nota informativa sobre la interpretaci´n de la variable Reforma:
                                         o
                 Valor 0 si el piso est´ para reformar, valor 1 si est´ reformado
                                       a                              a
Marcamos con el rat´n la variable y vamos a Variable→editar atributos. El cuadro siguiente en
                     o
el apartado descripci´n escribimos el texto y pinchamos en Aceptar (ver Gr´fico 1.6).
                     o                                                        a




                        Gr´fico 1.6: Cuadro de descripci´n de variables
                          a                            o


Las etiquetas descriptivas son utiles para saber la fuente de datos o las unidades de medida. Por
                               ´
ejemplo, para la variable precio y m2 a˜adiremos las siguientes etiquetas descriptivas:
                                         n

                                               12
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                          SARRIKO-ON 8/09


         Variable     Etiqueta descriptiva                          Nombre a mostrar en gr´ficos
                                                                                          a
         precio       Precio de pisos en miles de euros             Precio (miles euros)
         m2           Tama˜o de pisos en metros cuadrados
                           n                                        Superficie (m2)

La opci´n Datos →Editar informaci´n da lugar a un cuadro que permite a˜adir texto informa-
        o                        o                                    n
tivo, por ejemplo,
                    Datos utilizados en el tema 1 de An´lisis de regresi´n con Gretl
                                                       a                o
Finalmente, la opci´n Datos →Ver descripci´n permite visualizar la informaci´n de la estructura
                   o                        o                                   o
del conjunto de datos junto con las notas explicativas a˜adidas. Si todo el proceso se ha realizado
                                                        n
correctamente, en pantalla debe aparecer el siguiente cuadro:



                                   LOS ÚLTIMOS CAMBIOS SE HAN GUARDADO




                           Gr´fico 1.7: Fichero con descripci´n de variables
                             a                              o



1.5.1.     An´lisis descriptivo de una variable
             a

Una vez incorporados los datos, vamos a obtener una visi´n general de los mismos. El objetivo del
                                                            o
an´lisis descriptivo es resumir un conjunto de datos, extrayendo las caracter´
   a                                                                           ısticas e informaci´n
                                                                                                   o
m´s relevante para el estudio. En primer lugar, sintetizaremos la informaci´n de cada una de
  a                                                                              o
las variables y en una segunda etapa, obtendremos una primera idea de las relaciones existentes
entre las variables. Para ello se utilizan gr´ficos y n´meros-resumen conocidos como estad´
                                              a        u                                      ısticos
descriptivos 1 . El an´lisis descriptivo de una unica variable que proporciona Gretl se encuentra en
                      a                         ´
la opci´n variable del men´ principal; un resumen de este an´lisis se obtiene en el men´ auxiliar
       o                      u                                  a                         u
que aparece al pinchar con la tecla derecha del rat´n sobre la variable.
                                                       o
El gr´fico m´s utilizado para resumir datos de secci´n cruzada de una unica variable econ´mica
      a      a                                        o                  ´                   o
es el histograma, que aparece con la opci´n del men´ auxiliar Gr´fico de frecuencias. Se trata
                                             o          u            a
de un diagrama de barras que en el eje horizontal o abscisa representa los valores de la variable
divididos en intervalos. Sobre cada intervalo se dibuja una barra, cuya superficie refleja el n´mero
                                                                                             u
de observaciones que pertenecen a dicho intervalo. Si, por ejemplo, pinchamos con la tecla derecha
del rat´n sobre la variable precios y vamos a Gr´fico de frecuencias, aparece el cuadro de opciones
        o                                        a
del histograma en la que fijamos:
   1
    Este apartado es un resumen de los conceptos m´
                                                  ınimos relevantes. Explicaciones m´s detalladas se encuentran
                                                                                    a
en manuales como Pe˜ a y Romo (1997).
                     n


                                                      13
SARRIKO-ON 8/09                                                                               Econometr´ B´sica Aplicada con Gretl
                                                                                                       ıa a


 •   N´mero de intervalos: Por defecto aparecen 7 intervalos, que es un n´mero entero pr´xi-
       u √                                                                  u               o
     mo a N , siendo N el n´mero de observaciones, en este caso 50.
                               u
 •   Valor m´ ınimo intervalo izquierdo y grosor del intervalo: todos los intervalos deben tener
     la misma amplitud. Por defecto, se eligen de manera que el punto central o marca de clase
     de los intervalos primero y ultimo sean, respectivamente, los valores m´
                                  ´                                             ınimo y m´ximo
                                                                                          a
     que toma la variable en el conjunto de datos.

                                                       0.3



                                                      0.25

                                Frecuencia relativa

                                                       0.2



                                                      0.15



                                                       0.1



                                                      0.05



                                                        0
                                                             0   200   400    600       800    1000   1200
                                                                               precio




                        Gr´fico 1.8: Histograma de frecuencias relativas
                          a

Usando las opciones est´ndar de Gretl obtenemos el Gr´fico 1.8. Si pinchamos sobre el gr´fico,
                        a                                a                                a
se despliega un men´ auxiliar que permite hacer cambios en el gr´fico (editar ) o guardarlo en
                     u                                              a
diversos formatos (portapapeles, postcript, etc). La opci´n guardar a sesi´n como icono guarda
                                                         o                o
el gr´fico a lo largo de la sesi´n de Gretl. Es decir, una vez cerrada la ventana del gr´fico, se
     a                         o                                                       a
recupera pinchando en el cuarto s´ ımbolo de la barra de herramientas situada en parte inferior
derecha de la ventana principal (vista iconos de sesi´n) y, a continuaci´n, pinchando dos veces
                                                     o                  o
en el icono gr´fico 1.
              a




                                                                       BARRA DE HERRAMIENTAS
                                                      Gr´fico 1.9: Iconos de la sesi´n
                                                        a                          o
Para ver la tabla con la distribuci´n de frecuencias representada en el histograma, hay que
                                    o
marcar la variable correspondiente e ir a la opci´n Variable →Distribuci´n de frecuencias. Por
                                                 o                         o
ejemplo, la tabla de distribuci´n de frecuencias de la variable precio es:
                               o




                                                                             14
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                  SARRIKO-ON 8/09

Distribuci´n de frecuencias para precio, observaciones 1-50 n´mero
          o                                                  u
de cajas = 7, media = 489,858, desv.t´p.=237,416
                                     ı

      intervalo     punto medio           frecuencia rel           acum.
          < 230,23      150,25                6     12,00%        12,00%   ****
    230,23 - 390,19     310,21               15     30,00%        42,00%   **********
    390,19 - 550,15     470,17                9     18,00%        60,00%   ******
    550,15 - 710,11     630,13               11     22,00%        82,00%   *******
    710,11 - 870,06     790,08                6     12,00%        94,00%   ****
    870,06 - 1030,0     950,04                1      2,00%        96,00%
          >= 1030,0     1110,0                2      4,00%       100,00%   *


                  Tabla 1.2: Distribuci´n de frecuencias del precio de 50 pisos
                                       o


En la primera columna aparecen los intervalos en que se han dividido los valores que toma la
variable precio y la segunda incluye el punto medio o marca de clase del intervalo. La columna
frecuencia es lo que se conoce como frecuencia absoluta de un intervalo, es decir, el n´merou
de pisos con precio en ese intervalo. Por ejemplo, en la Tabla 1.1 hay 15 pisos cuyo precio se
encuentra entre 230232e y 390190e. La columna, rel, contiene la frecuencia relativa de cada
intervalo, es decir, la fracci´n de observaciones que hay en cada tramo. Con estas frecuencias
                              o
se ha construido el histograma anterior. Por ejemplo, los 15 pisos con precio en el intervalo
[230,232; 390,190) constituyen el 30 % del total de los 50 pisos. Y, como todos los intervalos
son de igual amplitud, la altura de la segunda barra del histograma es la frecuencia relativa
asociada en tanto por uno, es decir, 0,3. Si a la frecuencia relativa de un intervalo se le suman
las frecuencias relativas de los anteriores se obtiene la frecuencia relativa acumulada hasta
cada intervalo, que aparece en la columna acum. Por ejemplo, en el conjunto de pisos que
estudiamos, un 42 % de ellos tiene un precio inferior a 390190e.
La descripci´n num´rica de una variable se encuentra en la opci´n del mismo men´ auxiliar
              o       e                                             o                    u
Estad´ısticos descriptivos o en el men´ principal, Variable →Estad´
                                      u                           ısticos principales. El resultado
para la variable precio es la Tabla 1.3:

            Estad´sticos principales, usando las observaciones 1 - 50
                 ı
              para la variable ’precio’ (50 observaciones v´lidas)
                                                           a

       Media                 489,86            Desviaci´n t´pica
                                                        o  ı               237,42
       Mediana               466,68            C.V.                          0,48466
       M´nimo
        ı                    150,25            Asimetr´a
                                                      ı                      0,68052
       M´ximo
        a                   1110,0             Exc. de curtosis             -0,19251


                   Tabla 1.3: Estad´
                                   ısticos descriptivos del precio de 50 pisos


Esta ventana tiene un nuevo men´. La opci´n Copiar permite importar la tabla a un fichero
                                 u           o
MS Word, Latex o simplemente, como aparece en pantalla (Texto plano). Estos estad´       ısticos
descriptivos reflejan algunas caracter´
                                     ısticas de la distribuci´n recogidas en el histograma. La
                                                             o
media y la mediana son medidas de posici´n, la desviaci´n t´
                                           o              o ıpica y el coeficiente de variaci´no
son medidas de dispersi´n, mientras que la asimetr´ y exceso de curtosis son medidas de forma
                        o                          ıa
de la distribuci´n.
                o

                                                15
SARRIKO-ON 8/09                                                     Econometr´ B´sica Aplicada con Gretl
                                                                             ıa a


Las medidas de posici´n dan una idea de la situaci´n o centro del conjunto de puntos. La
                        o                            o
media es el valor promedio. Si disponemos de N datos de una variable x1 , x2 , . . . , xN , la media,
o tambi´n momento muestral de primer orden, se define como:
       e

                                                                         N
                                  x1 + x2 + . . . + xN   1
                               x=
                               ¯                       =                      xi
                                          N              N
                                                                        i=1


La media es un estad´ıstico poco robusto frente a la presencia de valores extremos: observaciones
an´malas van a tener una gran influencia en el valor que tome. Por ejemplo, si el piso n´mero
  o                                                                                        u
50 tuviera un precio muy alto, por ejemplo, 1350 miles de euros en lugar de 1051, entonces el
precio medio aumentar´ en casi 6000 euros, situ´ndose en 495,84 miles de euros.
                        ıa                        a
En general, interesan estad´ ısticos cuyo valor no var´ mucho ante cambios en los valores de unas
                                                      ıe
pocas observaciones, por muy grandes que sean esas variaciones. La mediana, que es el valor cen-
tral de la distribuci´n, posee esta propiedad. As´ la mediana del precio es 466, 68 miles de euros.
                     o                            ı,
Las medidas de posici´n proporcionan un valor representativo del conjunto de datos que debe
                       o
complementarse con una medida del error asociado. Para valorar la representatividad de este
unico valor se utilizan las medidas de dispersi´n, que informan de si las observaciones est´n
´                                               o                                            a
poco concentradas (o muy dispersas) alrededor de su centro. Una medida sencilla es la diferencia
entre los valores m´ximo y m´
                     a        ınimo que toman los datos en la muestra, lo que se conoce como
recorrido. Es decir,
                              Recorrido = M´ximo - M´
                                              a            ınimo
En el ejemplo, tenemos que el recorrido de los precios es 1110-150,25 = 959,75 miles de euros.
Esta medida s´lo tiene en cuenta dos valores, los extremos. Otras medidas se elaboran con todos
              o
los datos, por ejemplo, la desviaci´n t´
                                   o ıpica, que es la ra´ cuadrada positiva de la varianza. La
                                                           ız
varianza de un conjunto de datos se define como un promedio de los cuadrados de las desviaciones
de los datos a la media. Gretl calcula la varianza, S ∗2 o Sx , como:
                                                              ∗2


                                                                                   N
               ∗2    (x1 − x)2 + (x2 − x)2 + . . . + (xN − x)2
                           ¯           ¯                   ¯       1
              Sx =                                             =                         (xi − x)2
                                                                                               ¯
                                      N −1                       N −1
                                                                                   i=1


Por tanto, la desviaci´n t´     ∗
                      o ıpica, Sx , se calcula seg´n:
                                                  u

                                                            N
                                    ∗              1
                                   Sx   =+                        (xi − x)2
                                                                        ¯
                                                 N −1
                                                            i=1


Varianza y desviaci´n t´
                    o ıpica son medidas de la dispersi´n de los datos alrededor de la media.
                                                          o
Tiene el valor m´
                ınimo cero cuando todos los datos de la variable toman el mismo valor. La ventaja
de la desviaci´n t´
              o ıpica es que tiene las mismas unidades de medida que la variable original. En
                  a    o                e ∗ a
general, cuanto m´s pr´xima a cero est´ Sx , m´s concentrados estar´n los datos alrededor de la
                                                                      a
media y ´sta ser´ m´s representativa del conjunto de observaciones. Sin embargo, al depender Sx
         e      a a                                                                             ∗

de las unidades de medida, no es f´cil comparar su representatividad en dos conjuntos de datos.
                                  a
Para solucionar este problema se utiliza el coeficiente de variaci´n, C.V., que es una medida
                                                                    o
adimensional de la dispersi´n, y se define como:
                            o

                                                 Sx∗
                                        C.V. =               si x = 0
                                                                ¯
                                                 |¯|
                                                  x

                                                       16
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                                                                          SARRIKO-ON 8/09


En el ejemplo de precios tenemos que C.V. = 0, 485 < 1, la dispersi´n de los datos es peque˜a
                                                                   o                       n
en relaci´n a su nivel, por lo que consideramos que la media s´ es bastante representativa del
         o                                                    ı
conjunto de datos.
Media y desviaci´n t´
                  o ıpica son los estad´  ısticos-resumen m´s conocidos. Se acompa˜an de las
                                                             a                       n
medidas de forma, que reflejan otras caracter´       ısticas del histograma. La asimetr´ de una
                                                                                      ıa
distribuci´n se refiere a si los datos se distribuyen de forma sim´trica alrededor de la media o
          o                                                         e
no. El coeficiente de asimetr´ se define como:
                              ıa
                                                                       N                           3          1     N
                                                                 1           xi − x
                                                                                  ¯                           N     i=1 (xi            − x)3
                                                                                                                                         ¯
                     Coeficiente de asimetr´ =
                                          ıa                                                           =                 3
                                                                 N             Sx                                     Sx
                                                                       i=1


con Sx = (N − 1)/N × Sx =   ∗                ¯2
                                     i (xi − x) /N . El coeficiente de asimetr´ es cero cuando los
                                                                             ıa
datos se distribuyen sim´tricamente alrededor de la media, es positivo cuando la cola derecha
                         e
(asociada a valores por encima de la media) es m´s larga que la izquierda siendo negativo en
                                                     a
caso contrario. En el ejemplo de los precios de los pisos, observamos que la asimetr´ es positiva,
                                                                                    ıa
lo que se corresponde con una media mayor que la mediana, es decir, x > M ediana(X).
                                                                         ¯
          0.25



                                                                                    0.2
           0.2
                                                                                   0.18


                                                                                   0.16

          0.15                                                                     0.14


                                                                                   0.12


                                                                                    0.1
           0.1

                                                                                   0.08


                                                                                   0.06
          0.05
                                                                                   0.04


                                                                                   0.02

            0                                                                        0
                 0      5     10                  15       20     25                          -2         -1       0                1     2     3
                                   Asimetra positiva                                                               Asimetra negativa




                                                 Gr´fico 1.10: Tipos de asimetr´
                                                   a                          ıa

El coeficiente de curtosis es una medida del apuntamiento de la distribuci´n y se define:
                                                                         o
                                                           N                 4            1            N
                                                       1         xi − x
                                                                      ¯                   N            i=1 (xi    − x)4
                                                                                                                    ¯
                            Curtosis =                                           =                          4
                                                       N           Sx                                    Sx
                                                           i=1

Este coeficiente mide la cantidad de observaciones que se encuentran en las colas en relaci´n con
                                                                                              o
las situadas alrededor de la media. El nivel de referencia es tres, que es el valor de la curtosis de
la distribuci´n normal. As´ se define el exceso de curtosis como:
             o             ı,
                                                                        1        N
                                                                        N        i=1 (xi           − x)4
                                                                                                     ¯
                                    Exc. de curtosis =                                4
                                                                                                              −3                                   (1.1)
                                                                                   Sx

Un exceso de curtosis positivo indica mayor peso de observaciones en la cola y mayor apuntamien-
to que la distribuci´n normal, mientras que si es negativo indica menor n´mero de observaciones
                    o                                                     u
en la cola y menor apuntamiento.
Cuando tenemos un conjunto de variables, Gretl permite recoger en una unica tabla los estad´
                                                                      ´                    ısti-
cos descriptivos de todas las variables. El proceso es el siguiente:

  1. Seleccionar las variables de inter´s pinchando simult´neamente la tecla izquierda del rat´n
                                       e                  a                                   o
     y la tecla Control.

                                                                       17
SARRIKO-ON 8/09                                            Econometr´ B´sica Aplicada con Gretl
                                                                    ıa a


  2. Ir a Ver →Estad´ısticos principales o utilizar Estad´
                                                         ısticos descriptivos en el men´ auxiliar
                                                                                       u
     que aparece al pinchar la tecla derecha del rat´n sobre las variables seleccionadas.
                                                     o

As´ con los datos de la Tabla 1.1 se obtiene la siguiente tabla de estad´
  ı,                                                                    ısticos descriptivos:
            Estad´sticos principales, usando las observaciones 1 - 50
                 ı

Variable            MEDIA          MEDIANA              MIN         MAX
 m2                127,34          105,00              55,000      250,00
 Reforma             0,62000         1,0000             0,00000      1,0000
 precio            489,86          466,68             150,25      1110,0

Variable           D.T.              C.V.                  ´
                                                    ASIMETRIA      EXC.CURTOSIS
m2                59,048            0,46370         0,67091         -0,77954
Reforma            0,49031          0,79083        -0,49445         -1,7555
precio           237,42             0,48466         0,68052           -0,19251


                    Tabla 1.4: Estad´
                                    ısticos descriptivos del conjunto de datos

donde D.T. indica desviaci´n t´
                            o ıpica, MIN es m´   ınimo y MAX denota el m´ximo. Al interpretar
                                                                            a
estos resultados, hay que tener en cuenta que la variable Reforma no es una variable cuantitativa
continua, sino una variable cualitativa discreta, que s´lo toma valores 1 ´ 0.
                                                       o                  o


1.5.2.   Relaciones entre variables

Cuando el conjunto de datos contiene, por ejemplo, dos variables cuantitativas nos interesa
estudiar la relaci´n o asociaci´n que existe entre ellas. En general, al analizar dos (o m´s)
                  o              o                                                              a
variables, podemos establecer una relaci´n de causalidad entre ellas. Por ejemplo, podemos
                                            o
pensar que el precio de un piso puede ser consecuencia del tama˜o de la vivienda, pero no al rev´s.
                                                               n                                e
Se llama variable independiente o ex´gena, x, a la que causa el efecto y variable dependiente o
                                      o
end´gena, y, a la que lo recibe. La relaci´n entre estas variables puede estudiarse con gr´ficos
    o                                      o                                                 a
o expresarse num´ricamente mediante, por ejemplo, el coeficiente de correlaci´n. Todos estos
                   e                                                              o
elementos del an´lisis descriptivo de un conjunto de variables se realiza con el men´ que se
                  a                                                                      u
despliega en la opci´n Ver de Gretl.
                     o


Representaci´n gr´fica. El diagrama de dispersi´n o scatterplot da una primera idea de la
              o     a                               o
relaci´n entre dos variables. Es el gr´fico que representa cada punto (xi , yi ), i = 1, . . . N en el
      o                               a
plano: la variable x aparece en el eje de abscisas y la variable y en el eje de ordenadas. Por
ejemplo, para obtener con Gretl el Gr´fico 1.11, precio sobre superficie, podemos seguir uno de
                                        a
los siguientes pasos:

   • Ver →Gr´ficos →Gr´fico X-Y (scatter) y en el cuadro Definir el gr´fico marcar:
            a        a                                             a
      Variable de eje X Elegir −> m2
      Variables de eje Y A˜adir −> precio
                          n

   • O bien seleccionar las variables precio y m2 pinchando simult´neamente la tecla izquierda
                                                                    a
     del rat´n y la tecla Control e ir al men´ auxiliar, Gr´fico de dos variables XY. En el
            o                                   u               a
     siguiente cuadro, se selecciona la variable de la abscisa, m2.

                                                 18
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                                                                         SARRIKO-ON 8/09


Al pinchar en Aceptar aparece el Gr´fico 1.11 que, adem´s de la nube de puntos, incluye una
                                         a                   a
recta-s´
       ıntesis de la relaci´n, la recta de regresi´n m´
                           o                      o   ınimo cuadr´tica que veremos m´s adelante.
                                                                 a                  a

                                                                            Precio con respecto a Superficie (con ajuste mco)
                                             1200
                                                         Y = 44,9 + 3,49X
                                             1100

                                             1000

                                             900

                                             800
                      Precio (miles euros)




                                             700

                                             600

                                             500

                                             400

                                             300

                                             200

                                             100
                                                    50                  100                     150                      200    250
                                                                                            Superficie (m2)


                  Gr´fico 1.11: Diagrama de dispersi´n superficie-precios (2)
                    a                              o

Al pinchar sobre el gr´fico aparece un men´ auxiliar que sirve para:
                      a                  u

   • Exportar el gr´fico a ficheros en diferentes formatos en Guardar como Windows metafile
                    a
     (EMF). . . , PNG. . . , postscript (EPS). . . , PDF. . . .

   • Copiar/exportar el gr´fico a otros ficheros con Copiar al portapapeles.
                          a

   • Guardar el fichero en la sesi´n de Gretl en Guardar la sesi´n como icono.
                                 o                             o

   • Realizar cambios en el fichero con Editar. En la pesta˜a Principal se controla el t´
                                                                n                               ıtulo
     del gr´fico, el tama˜o y tipo de letra, el color de las l´
           a              n                                    ıneas/puntos, el dibujo del marco
     completo, la situaci´n de texto explicativo de las variables representadas (posici´n de la
                          o                                                                 o
     clave) o la eliminaci´n de la recta-resumen. La escala y la explicaci´n de los ejes se modifica
                          o                                               o
     en Eje X y Eje Y. En l´   ıneas se controla la representaci´n de los datos, tipo de l´
                                                                  o                           ınea o
     punto, y el texto explicativo de las variables. Etiquetas permite a˜adir texto en el gr´fico
                                                                          n                     a
     y salida a fichero incluye varios formatos para guardar el gr´fico.
                                                                    a

El gr´fico de dispersi´n permite distinguir la posible relaci´n, lineal o no, que existe entre las
     a                o                                     o
variables. Se dice que hay una relaci´n lineal positiva entre ambas variables cuando al
                                       o
aumentar x, aumenta en promedio el valor de y (figura b en el Gr´fico 1.12). Diremos que hay
                                                                    a
una relaci´n lineal negativa entre ambas variables cuando observamos que al aumentar x,
           o
disminuye en promedio el valor de y (figura c). En el ejemplo, se observa una clara relaci´n lineal
                                                                                         o
positiva entre precio y tama˜o del piso.
                            n




                                                                                             19
SARRIKO-ON 8/09                                                                   Econometr´ B´sica Aplicada con Gretl
                                                                                           ıa a


                    3                                                     4
                              (a) Sin relación lineal                                (b) Relacion lineal positiva
                                                                          3
                    2
                                                                          2
                    1
                                                                          1
               Y1




                                                                     Y2
                    0                                                     0

                                                                          -1
                    -1
                                                                          -2
                    -2
                                                                          -3

                    -3                                                    -4
                      -1.6 -1.2 -0.8 -0.4 0.0 0.4 0.8 1.2 1.6               -1.6 -1.2 -0.8 -0.4 0.0 0.4 0.8 1.2 1.6
                                                         X1                                                    X2

                    3                                                     6
                            (c) Relación lineal negativa                               (d) Relación no lineal
                                                                          5
                    2
                                                                          4
                    1
                                                                          3
               Y3




                                                                     Y4


                    0                                                     2

                                                                          1
                    -1
                                                                          0
                    -2
                                                                          -1

                    -3                                                    -2
                      -1.6 -1.2 -0.8 -0.4 0.0 0.4 0.8 1.2 1.6               -1.6 -1.2 -0.8 -0.4 0.0 0.4 0.8 1.2 1.6
                                                         X3                                                    X4
                                      Gr´fico 1.12: Diagramas de dispersi´n
                                        a                               o

Covarianza y correlaci´n. La covarianza es una medida del grado de asociaci´n lineal entre
                         o                                                                o
dos variables. Si se tienen N pares de datos de dos variables, (x1 , y1 ) . . . (xN , yN ), la covarianza
se denota por Sxy y se define:
                                                                           N
                                                                1
                                  Sxy = cov(x, y) =                             (xi − x)(yi − y )
                                                                                      ¯       ¯
                                                                N
                                                                          i=1


siendo x e y las medias aritm´ticas de las variables. La covarianza depende de las unidades de
       ¯ ¯                     e
medida de las variables, lo que no permite comparar la relaci´n entre distintos pares de variables
                                                             o
medidas en unidades diferentes. En estos casos se utiliza el coeficiente de correlaci´n lineal
                                                                                        o
entre x e y, que se define:
                                                                                 N
                                                    Sxy                          i=1 (xi   − x)(yi − y )
                                                                                             ¯       ¯
                rxy = corr(x, y) =                       =
                                                   Sx Sy                   N                        N
                                                                           i=1 (xi   − x)2
                                                                                       ¯            i=1 (yi   − y )2
                                                                                                                ¯

El coeficiente de correlaci´n lineal y la covarianza tienen el mismo signo: son positivos si existe
                           o
relaci´n lineal directa o positiva (figura b en el Gr´fico 1.12), son negativos si existe relaci´n
      o                                               a                                        o
lineal inversa o negativa (figura c) y toma valor cero si x e y son independientes (figura a) o
cuando la relaci´n, si existe, es no lineal (figura d). Adem´s, su valor no depende del orden en
                 o                                          a
que se consideren las variables, es decir, Sxy = Syx y rxy = ryx . A diferencia de la covarianza,
el coeficiente de correlaci´n es una medida adimensional de la relaci´n que toma valores entre
                          o                                           o
-1 y 1, −1 ≤ rxy ≤ 1: un coeficiente de correlaci´n igual a uno en valor absoluto indica que las
                                                  o
variables est´n relacionadas linealmente de forma exacta y los datos se sit´an sobre una l´
             a                                                              u               ınea.

                                                                20
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                          SARRIKO-ON 8/09


En Gretl, si se marcan las variables que interesan y se va a Ver →Matriz de correlaci´n se obtiene
                                                                                     o
una tabla (matriz) con los coeficientes de correlaci´n para cada par de variables consideradas.
                                                      o
El resultado para los datos de precios, tama˜o y reforma de los pisos es:
                                               n
           Coeficientes de correlaci´n, usando las observaciones 1 - 50
                                    o
              valor cr´tico al 5% (a dos colas) = 0,2787 para n = 50
                      ı
               m2       Reforma        precio
           1,0000        0,0440        0,8690 m2
                         1,0000        0,2983 Reforma
                                       1,0000 precio


                            Tabla 1.5: Matriz de coeficientes de correlaci´n
                                                                         o

Por ejemplo, el coeficiente de correlaci´n entre el precio y el tama˜o de los pisos se encuentra
                                       o                            n
en la primera fila, columna tercera, (precio-m2). Es decir, rprecio,m2 = 0, 869, lo que indica
que hay una fuerte relaci´n lineal positiva entre estas variables. Hay que tener en cuenta que
                         o
este coeficiente se define para variables cuantitativas, por lo que no lo aplicamos a la variable
Reforma.


1.6.      Ejercicio para practicar

Se dispone de una base de datos para 51 observaciones en el Estado de Washington sobre el gasto
en sanidad, exphlth, y la renta disponible, income, correspondientes al a˜o 19932 . Las variables
                                                                         n
que se consideran son:

       exphlth Gasto personal en sanidad, en billones de d´lares,
                                                          o
               (Rango 0,998 - 94,178).
        income Renta personal disponible, en billones de d´lares,
                                                          o
               (Rango 9,3 - 64,1).

   1. Describe los datos.

   2. Haz el gr´fico de frecuencias de la variable exphlth. Interpr´talo.
               a                                                  e

   3. Haz el gr´fico de frecuencias de la variable income. Interpr´talo.
               a                                                 e

   4. Escribe la tabla de estad´
                               ısticos descriptivos de las variables exphlth e income. Interpreta
      los resultados.

   5. Busca el coeficiente de correlaci´n entre las variables. Interpr´talo.
                                      o                              e

   6. Realiza un an´lisis gr´fico de las relaci´n existente entre las variables. Interpreta el resul-
                   a        a                 o
      tado.




   2
    Fichero data3-2.gdt. Fuente: Statistical Abstract of U.S. (1995), recogida en Ramanathan, R. (2002), Intro-
ductory econometrics with applications, 5th. Ed., South-Western.


                                                      21
SARRIKO-ON 8/09        Econometr´ B´sica Aplicada con Gretl
                                ıa a




                  22
Tema 2

Modelo de Regresi´n Lineal Simple
                 o

2.1.    Introducci´n. Un ejemplo
                  o

Supongamos que nos interesa conocer la relaci´n que hay entre el precio de una vivienda y
                                                o
su superficie. Se trata de cuantificar la influencia que tiene el tama˜o de una vivienda en la
                                                                       n
determinaci´n de su precio de venta mediante un modelo de regresi´n lineal simple. En este
            o                                                          o
cap´ıtulo vamos a especificar, estimar y analizar el modelo de regresi´n lineal simple. La
                                                                         o
teor´ necesaria para este fin ser´ ilustrada mediante el estudio simult´neo del conjunto de datos
     ıa                         a                                     a
data3-1 disponible en Gretl dentro del conjunto de datos correspondiente a Ramanathan. Este
fichero contiene el precio de venta y la superficie de 14 viviendas vendidas en el ´rea de San
                                                                                    a
Diego. Vamos a comenzar realizando un an´lisis gr´fico.
                                            a        a

  1. Accedemos a este conjunto de datos en Archivo → Abrir datos →Archivo de muestra y en
     la carpeta de datos de Ramanathan seleccionamos data3-1 House prices and sqft:




                        Gr´fico 2.1: Selecci´n de un fichero de muestra
                          a                o




                                              23
SARRIKO-ON 8/09                                                                                     Econometr´ B´sica Aplicada con Gretl
                                                                                                             ıa a


    Se abre un fichero que contiene tres variables, const, price y sqft. La Tabla 2.1 muestra los
    valores disponibles para cada variable.

                                        i       Pi               F2                             i       P                  F2

                                    1       199,9               1065                      8         365,0             1870
                                    2       228,0               1254                      9         295,0             1935
                                    3       235,0               1300                     10         290,0             1948
                                    4       285,0               1577                     11         385,0             2254
                                    5       239,0               1600                     12         505,0             2600
                                    6       293,0               1750                     13         425,0             2800
                                    7       285,0               1800                     14         415,0             3000


          Tabla 2.1: Conjunto de datos incluidos en data3.1 House prices and sqft

  2. En Datos →Leer informaci´n aparece la siguiente descripci´n del conjunto de datos:
                             o                                o
    DATA3-1: Precio de venta y superficie h´bil de viviendas
                                            a
     unifamiliares en la comunidad universitaria de San Diego
     en 1990.
     price = Precio de venta en miles de d´lares (Rango 199.9 - 505)
                                          o
     sqft = Pies cuadrados de ´rea habitable (Rango 1065 - 3000)
                               a

  3. Seguidamente en Variable →Editar atributos cambiamos los nombres a las variables (P y
     F2 ), la descripci´n (Precio de venta en miles de d´lares y Pies cuadrados h´biles) y el
                       o                                o                        a
     nombre a mostrar (Precio, P y Superficie, F2 )

  4. Guardamos los cambios en un fichero llamado datos-cap3.gdt con Archivo →Guardar datos.

  5. Abrimos el diagrama de dispersi´n entre las dos variables (ver el Gr´fico 2.2). En ´l ob-
                                      o                                  a             e
     servamos una relaci´n lineal positiva entre P y F 2.
                        o

                                                   Precio, P con respecto a Superficie, F2 (con ajuste mnimo-cuadrÆtico)
                                  550
                                            Y = 52,4 + 0,139X

                                  500


                                  450


                                  400
                      Precio, P




                                  350


                                  300


                                  250


                                  200


                                  150
                                                          1500                   2000                     2500                  3000
                                                                               Superficie, F2




             Gr´fico 2.2: Diagrama de dispersi´n precio-superficie de viviendas
               a                             o




                                                                               24
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                              SARRIKO-ON 8/09


Un modelo sencillo que recoge una relaci´n lineal causa-efecto entre superficie y precio es Pi =
                                           o
α + βF 2i . Esto quiere decir que el precio de una vivienda depende unicamente de su superficie
                                                                     ´
y, por lo tanto, dos viviendas de igual tama˜o deben tener exactamente el mismo precio. Esta
                                              n
hip´tesis es poco realista porque diferencias en otras caracter´
    o                                                          ısticas, como la orientaci´n de la
                                                                                         o
casa o su estado de conservaci´n, tambi´n influyen en su precio. Este modelo que recoge una
                                o          e
relaci´n lineal entre unicamente dos variables se denomina modelo de regresi´n lineal simple.
      o               ´                                                       o


2.2.      Elementos del modelo de regresi´n simple
                                         o

El modelo simple relaciona dos variables de forma lineal,

                                  Yi = α + βXi + ui          i = 1, . . . , N                                 (2.1)

donde:

    - Y es la variable a explicar, variable dependiente o end´gena, es decir, la variable
                                                             o
      que estamos interesados en explicar.

    - X es la variable explicativa, variable independiente o ex´gena.
                                                               o

    - La ordenada α y la pendiente β del modelo son los coeficientes de la regresi´n. Si
                                                                                 o
      definimos K como el n´mero de coeficientes desconocidos a estimar, en el modelo de
                             u
      regresi´n simple tenemos K = 2 coeficientes a estimar.
             o

    - u es el t´rmino de error, variable aleatoria o perturbaci´n.
               e                                               o

    - El sub´
            ındice i denota observaci´n. En general, el sub´
                                       o                      ındice i ser´ empleado cuando la
                                                                          a
      muestra contenga datos de secci´n cruzada y el sub´
                                     o                  ındice t cuando tengamos observaciones
      correspondientes a series temporales, aunque esto no es de especial relevancia.

    - N es el tama˜ o muestral, n´mero de observaciones disponibles de las variables de estudio
                  n              u
      (Y, X). Cuando tratemos con datos temporales T denotar´ el tama˜o muestral1 .
                                                             a         n

El error ui se introduce por varias razones, entre las cuales tenemos:
    • Efectos impredecibles, originados por las caracter´ısticas de la situaci´n econ´mica o del
                                                                              o      o
      contexto de an´lisis, y efectos no cuantificables derivados de las preferencias y los gustos
                     a
      de los individuos o entidades econ´micas.
                                         o

    • Errores de medida producidos a la hora de obtener datos sobre las variables de inter´s.
                                                                                          e

    • Errores de especificaci´n ocasionados por la omisi´n de alguna variable explicativa o bien,
                             o                            o
      por las posibles no linealidades en la relaci´n entre X e Y .
                                                   o

Modelo para la relaci´n precio-tama˜o del piso. En este caso planteamos el siguiente modelo
                     o             n
de regresi´n lineal:
          o

                                Pi = α + β F 2i + ui           i = 1, . . . , N                               (2.2)

donde
  1
    En este cap´
               ıtulo y los siguientes, por simplicidad, no reservaremos la letra may´scula para variables aleatorias
                                                                                    u
X y las min´sculas para realizaciones (x) sino que utilizaremos may´sculas tanto para una variable aleatoria
             u                                                           u
como para su realizaci´n, es decir, para los datos.
                       o


                                                        25
SARRIKO-ON 8/09                                             Econometr´ B´sica Aplicada con Gretl
                                                                     ıa a


   - Pi es la observaci´n i de la variable dependiente (end´gena o a explicar) precio de venta
                       o                                   o
     de un piso en miles de d´lares.
                              o

   - F 2i es la observaci´n i de la variable independiente (ex´gena o explicativa) ´rea habitable
                         o                                    o                    a
     del piso en pies cuadrados.

   - Los dos coeficientes a estimar son α y β, y sospechamos que al menos β tiene valor positivo
     ya que a mayor superficie habitable de la vivienda su precio l´gicamente se esperar´ sea
                                                                   o                     a
     mayor.

   - En este modelo el t´rmino de error o perturbaci´n ui recoger´ caracter´
                          e                             o             ıa           ısticas espec´
                                                                                                ıficas de
     los pisos: lugar en el que se sit´a, orientaci´n de la casa, vistas, etc., es decir, caracter´
                                      u            o                                              ısticas
     que diferencian el precio de los pisos que tienen la misma superficie habitable.

Un primer objetivo del an´lisis econom´trico es conocer α y β, que son los par´metros de la
                           a             e                                         a
relaci´n entre P y F 2. Del total de viviendas del ´rea objeto de estudio, tenemos una muestra
      o                                            a
con datos de N= 14 pisos. Por tanto, el objetivo del estudio es inferir, a partir de la muestra,
la relaci´n precio-tama˜o de una vivienda en la poblaci´n. Para llevar a cabo esta inferencia es
         o             n                                o
necesario determinar la naturaleza aleatoria de las variables que intervienen en el estudio.


2.3.     Hip´tesis b´sicas
            o       a

El modelo (2.1) debe completarse con la especificaci´n de las propiedades estoc´sticas de la
                                                        o                            a
variable de inter´s Y . A partir de las propiedades de Y es posible conocer las propiedades de
                  e
los distintos m´todos de estimaci´n, elegir el mejor estimador en el modelo, realizar contrastes,
               e                   o
etc. Las condiciones bajo las cuales vamos a trabajar en un principio se denominan hip´tesis
                                                                                          o
b´sicas. Bajo estas hip´tesis estimaremos y analizaremos el modelo para, finalmente, predecir
  a                      o
Y . En una segunda etapa, podemos considerar otras situaciones, relajando algunas de estas
hip´tesis, analizando si los procedimientos de estimaci´n y contraste anteriores siguen siendo
    o                                                     o
v´lidos. Las hip´tesis b´sicas se refieren a los distintos elementos de la regresi´n.
 a               o      a                                                        o


• Sobre la forma funcional

  1. El modelo es lineal en los coeficientes. Los modelos a estimar que consideramos son linea-
     les en los coeficientes, Yi = α + βXi + ui . Sin embargo, podemos permitir no linealidades
     en las variables explicativas como puede ser la especificaci´n:
                                                                o

                                          Pi = α + β (F 2i )2 + ui

       en la que la superficie habitable de los pisos no influye de forma lineal sobre el precio, sino
       de forma cuadr´tica.
                       a


• Sobre los coeficientes

  2. Los coeficientes α y β se mantienen constantes a lo largo de la muestra. Vamos a conside-
     rar que la influencia de las variables explicativas es estable a lo largo de la muestra. Su-
     pongamos que estamos interesados en analizar, en t´rminos medios, el precio de los pisos
                                                          e

                                                  26
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                SARRIKO-ON 8/09


      de Bilbao (P ) en funci´n de la superficie habitable en metros cuadrados (F 2). En este caso
                             o
      interesar´ estimar la recta central representada en el caso 1 del Gr´fico 2.3.
               ıa                                                         a
      No obstante, supongamos que algunos de estos pisos est´n localizados en el centro de
                                                                 a
      Bilbao (representados en azul) y que otros est´n localizados en la periferia (en rojo). El
                                                       a
      caso 2 del Gr´fico 2.3 muestra esta hipot´tica situaci´n: en general, para una determinada
                     a                          e          o
      superficie, los pisos del centro tienen mayor precio. As´ en el gr´fico es posible distinguir
                                                              ı,       a
      dos nubes de puntos, cada una asociada a pisos de una determinada zona. Si este fuera el
      caso, estar´ıamos dispuestos a creer que existen (y debemos estimar) dos rectas centrales
      (la azul y la roja) permitiendo que tanto la ordenada como la pendiente cambien a lo largo
      de la muestra, dependiendo de la zona en la que se localice el piso.


Caso 1: Sin discriminar por localizaci´n
                                      o               Caso 2: Discriminando por localizaci´n
                                                                                          o
  P6                                            P 6
                                                                           E(Pi /C) = α1 + β1 F 2i
                           E(Pi ) = α + βF 2i
                                                                           E(Pi ) = α + βF 2i
                                                                        ∗
                                                             ∗∗ ∗∗ ∗ ∗    E(Pi /P ) = α2 + β2 F 2i
                                                      ∗ ∗ ∗             ∗ ∗
                                                                      ∗   ∗
                                                            ∗ ∗ ∗ ∗∗ ∗ ∗
                                                     ∗ ∗∗ ∗
                                   -                                             -
                                   F2                                              F2
              Gr´fico 2.3: Precio de los pisos de Bilbao versus superficie habitable
                a

• Sobre la variable end´gena
                       o

   3. La variable end´gena es cuantitativa. A lo largo de este curso b´sico vamos a suponer
                      o                                                   a
      que la variable a explicar es cuantitativa. Lo contrario, una variable end´gena cualitativa,
                                                                                o
      requiere m´todos de estimaci´n alternativos al m´todo que se analiza en este curso.
                 e                   o                   e

• Sobre la variable explicativa
                                                           2
   4. La variable explicativa X tiene varianza muestral SX no nula y adem´s N ≥ K = 2. Es-
                                                                             a
      tas hip´tesis son necesarias para poder identificar los coeficientes (ordenada y pendiente).
             o
      En primer lugar, si el n´mero de coeficientes a estimar fuera mayor que el n´mero de ob-
                              u                                                    u
      servaciones disponibles en la muestra, no tenemos suficiente informaci´n para poder llevar
                                                                             o
      a cabo la estimaci´n. M´s adelante veremos que esta condici´n debe hacerse m´s estricta,
                         o     a                                   o                 a
      N > 2, si adem´s de estimar los dos par´metros α y β que determinan el valor medio de
                       a                        a
      Y , nos interesa estimar su variabilidad.
                                                                                      2
      Por otra parte, si la variable explicativa tuviera varianza muestral nula (SX = 0), es
      decir, si la variable explicativa tomase un valor constante, por ejemplo, Xi = 5 ∀i, la
      pendiente y la ordenada no podr´ ser identificadas. Esto se debe a que la variable X es
                                        ıan
      una combinaci´n lineal del t´rmino constante, X = 5 × t´rmino constante = 5 × 1 = 5. De
                     o             e                            e
      hecho, tal y como se puede observar en el Gr´fico 2.4, una situaci´n de estas caracter´
                                                   a                   o                   ısticas
      no puede explicar las variaciones de la variable de inter´s Y .
                                                               e
   5. La variable ex´gena X es fija, no estoc´stica. Las observaciones del regresor X1 , . . . XN
                    o                       a
      son valores fijos en muestras repetidas, es decir, suponemos que trabajamos en un con-
      texto de experimento controlado. Esta condici´n implica que la variable explicativa X no
                                                   o

                                                27
SARRIKO-ON 8/09                                          Econometr´ B´sica Aplicada con Gretl
                                                                  ıa a


                      Yi 6




                                                               -
                                     Xi = 5
                                                              Xi

                                                                  2
                    Gr´fico 2.4: Modelo Yi = α + β × 5 + ui , con SX = 0
                      a

     podr´ estar medida con error. En el caso pr´ctico que estamos considerando, esto significa
          a                                      a
     que los metros cuadrados habitables est´n medidos con exactitud. En muchos casos es un
                                              a
     supuesto poco realista, pero lo utilizamos como punto de partida. El contexto en el que
     la variable explicativa X tiene car´cter aleatorio se estudia en textos m´s avanzados, por
                                        a                                     a
     ejemplo, Wooldridge (2003) o Alonso et al. (2005).

  6. El modelo est´ bien especificado. En general, esta hip´tesis requiere que en el modelo no
                   a                                         o
     se incluyan variables irrelevantes ni que se omitan variables relevantes para explicar Y . En
     el contexto del modelo de regresi´n simple, esto significa que la variable explicativa X es
                                        o
     la unica variable relevante para explicar y predecir la variable de inter´s Y .
        ´                                                                     e

• Sobre la perturbaci´n
                     o
El t´rmino de error recoge aquellos elementos que afectan a la variable de inter´s y que no obser-
    e                                                                           e
vamos. Podemos hacer conjeturas sobre los valores que puede tomar, cu´les son m´s probables
                                                                          a           a
y cu´les menos. As´ consideramos que ui es aleatorio y tiene las siguientes propiedades.
     a             ı,

  7. La perturbaci´n tiene media cero. El error impredecible, la parte aleatoria del modelo,
                   o
     tiene media cero. Esto implica que la parte sistem´tica del modelo (α + βXi ) puede ser
                                                       a
     interpretada como el comportamiento medio a analizar, es decir, E(Yi ) = α + βXi .

  8. La perturbaci´n tiene varianza constante. Suponemos que la variabilidad del error se man-
                   o
     tiene constante, var(ui ) = σ 2 , ∀i (ver caso 1 del Gr´fico 2.5). De este modo, como puede
                                                            a
     verse en la distribuci´n de la figura izquierda del Gr´fico 2.6, dados unos valores espec´
                           o                                a                                ıfi-
     cos de la variable explicativa, el rango de posibles valores que puede tomar la variable
     end´gena tiene la misma amplitud y la probabilidad de observar elementos alejados de la
         o
     media no depende del valor que tome la variable explicativa X.
     En el caso contrario, estar´ ıamos hablando de perturbaciones heteroced´sticas, cuya dis-
                                                                              a
     persi´n puede variar a lo largo de la muestra (ver caso 2 del Gr´fico 2.5). En el caso de
          o                                                            a
     los pisos, significar´ por ejemplo, que el rango de los precios de los pisos con menor su-
                         ıa,
     perficie es m´s peque˜o que el de los pisos con mayor superficie habitable (ver la figura
                   a         n
     derecha en el Gr´fico 2.6). En otras palabras, los pisos peque˜os y con la misma superficie
                       a                                          n
     tienen los precios bastante parecidos. Sin embargo, a medida que aumenta la superficie,
     la holgura crece y podemos encontrar pisos grandes de igual tama˜o a diversos precios; es
                                                                        n
     decir, var(ui ) es una funci´n creciente en X.
                                 o

                                               28
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                           SARRIKO-ON 8/09



               Caso 1: varianza constante                             Caso 2: varianza creciente con Xi
          ui                                                     ui
               6                                                      6




           0                             -                       0                               -
                                           Xi                                                        Xi



               ?                                                      ?

                              Gr´fico 2.5: Ejemplos de realizaciones de u
                                a



                   Varianza constante                                     Varianza no constante
                                                          f(u)




                                                                                             Y




                                                                 X1
                                                                            X2

                                                                                         X



                              Gr´fico 2.6: Ejemplos de distribuci´n de Y
                                a                               o



   9. La perturbaci´n no est´ autocorrelacionada. Por el momento vamos a suponer que la corre-
                      o         a
      laci´n entre dos observaciones distintas cualesquiera de la perturbaci´n es cero, corr(ui , uj ) =
           o                                                                o
      rui ,uj = 0; ∀i = j. Esto implica que las covarianzas entre dos perturbaciones tambi´n ese
      cero: cov(ui , uj ) = 0, ∀i = j.



 10. La perturbaci´n sigue una distribuci´n normal. Este ultimo supuesto, como veremos m´s
                   o                     o               ´                                  a
     adelante, no se necesita para la estimaci´n ni para la obtenci´n de propiedades del es-
                                              o                    o
     timador2 . Sin embargo es necesario para poder realizar contraste de hip´tesis o calcular
                                                                             o
     intervalos de confianza.


   2
     Esto es as´ porque el m´todo de estimaci´n que se va a derivar es el de M´
               ı            e                o                                ınimos Cuadrados Ordinarios. Sin
embargo, si se estimase por m´xima verosimilitud el supuesto de normalidad sobre la distribuci´n de Y s´ es
                               a                                                                o          ı
necesario para la obtenci´n del estimador.
                          o


                                                     29
SARRIKO-ON 8/09                                           Econometr´ B´sica Aplicada con Gretl
                                                                   ıa a


2.3.1.    Resumen: modelo de regresi´n lineal simple con hip´tesis b´sicas
                                    o                       o       a

Abreviadamente, el modelo con las hip´tesis b´sicas mencionadas se escribe:
                                     o       a

                       Yi = α + βXi + ui ,    Xi fija y ui ∼ N ID(0, σ 2 ) ∀i

Es decir, Yi ∼ N ID(α + βXi , σ 2 ), siendo α, β y σ 2 par´metros desconocidos. En particular, nos
                                                          a
interesamos por los par´metros de la media y su interpretaci´n en este modelo es:
                       a                                       o

   • α = E(Yi |Xi = 0): valor medio o esperado de la variable end´gena cuando el valor que
                                                                 o
     toma la variable ex´gena es cero.
                        o


           ∆E(Yi )     ∂E(Yi )
   • β=             =          : un aumento unitario en la variable explicativa conlleva un aumen-
             ∆Xi        ∂Xi
       to medio de β unidades en la variable end´gena. La pendiente mide el efecto de un aumento
                                                o
       marginal en la variable explicativa sobre E(Yi ).

→ As´ volviendo a nuestro ejemplo tenemos que:
    ı,
α = E(Pi |F 2i = 0) es el precio medio de venta en miles de d´lares cuando el piso dispone de
                                                              o
una superficie de cero pies habitables, que tambi´n puede ser considerado como precio m´
                                                  e                                     ınimo
de partida. En este caso, esperar´
                                 ıamos un coeficiente nulo dado que no tiene sentido hablar de
un piso sin superficie h´bil o bien un precio de partida positivo. No obstante, aunque en este
                       a
contexto la ordenada no tiene en principio mucho sentido, no debemos de eliminarla a la ligera
en aras de obtener resultados f´ciles de interpretar.
                               a
     ∆E(Pi )
β =           indica que, cuando un piso aumenta su superficie h´bil en un pie cuadrado, su
                                                               a
       ∆F 2i
precio medio aumenta en β miles $.


2.4.     Estimaci´n por M´
                 o       ınimos Cuadrados Ordinarios

Una vez descrito el ´mbito en el que nos vamos a mover, vamos a obtener un estimador adecuado
                    a
de los coeficientes del modelo de regresi´n simple: el estimador de m´
                                        o                           ınimos cuadrados ordinarios.
En primer lugar, obtendremos el estimador y, a continuaci´n, justificaremos su uso en base a
                                                             o
sus propiedades. El modelo simple (2.1) nos indica que cada observaci´n Yi es una realizaci´n
                                                                        o                    o
de una variable que tiene dos componentes: uno que depende del valor del regresor Xi , cuyo
valor observamos, y un componente residual que no observamos. Esto significa que tenemos N
igualdades con una misma estructura:




                                      Y1 = α + βX1 + u1
                                       .
                                       .
                                       .
                                      Yi = α + βXi + ui
                                       .
                                       .
                                       .
                                     YN      = α + βXN + uN

                                                 30
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                      SARRIKO-ON 8/09


El Gr´fico 2.7 representa gr´ficamente una posible muestra. Los puntos (Yi , Xi ) se sit´an o
       a                       a                                                           u
distribuyen alrededor de la recta α + βXi . La desviaci´n de cada punto respecto a esta recta
                                                         o
central viene dada por el valor que tome el t´rmino de error no observable ui . Por ejemplo, en el
                                             e
Gr´fico 2.7, la perturbaci´n es positiva para la primera observaci´n, de modo que Y1 se encuentra
   a                       o                                     o
por encima de la recta central. Por otro lado, el punto (Y2 , X2 ) se encuentra por debajo de la
recta central, es decir, u2 toma un valor negativo.


                         Yi 6
                                               (Y1 , X1 )
                                                6
                                                  u1
                                                            E(Yi ) = α + βXi + E(ui )
                                                ?
                                                                                   =0


                        α           6u2
                                    ?
                                   (Y2 ,X2 )

                                                                         -
                                                                        Xi

                                Gr´fico 2.7: Modelo de regresi´n simple
                                  a                          o

As´ la recta central ser´ aquella recta que se obtiene cuando el valor de la perturbaci´n es cero.
   ı,                            ıa                                                             o
Teniendo en cuenta que suponemos que la perturbaci´n tiene media cero, es decir, que no tiene
                                                                o
efectos sistem´ticos sobre Y , la recta central recoge el comportamiento medio de la variable de
                  a
inter´s. La estimaci´n de un modelo de regresi´n pretende obtener una aproximaci´n a esta
      e                       o                            o                                     o
recta central no observable. En t´rminos econom´tricos, queremos calcular el comportamiento
                                            e              e
medio de la variable de inter´s, α + βXi , a partir de observaciones provenientes de una muestra
                                       e
(Y1 , X1 ), (Y2 , X2 ), . . . , (YN , XN ). Gr´ficamente, la estimaci´n consiste en calcular la pendiente y
                                              a                     o
la ordenada que mejor se ajusta a la nube de puntos.
Antes de proceder a la estimaci´n del modelo es preciso definir algunos nuevos conceptos. La
                                 o
recta central objeto de estimaci´n se denomina Funci´n de Regresi´n Poblacional (FRP)
                                o                    o               o
y depende de los coeficientes poblacionales desconocidos α y β. Se trata de la parte sistem´tica
                                                                                          a
o predecible del modelo y corresponde al comportamiento medio o esperado de la variable a
explicar:
                    E(Yi ) = E(α + βXi + ui ) = α + βXi + E(ui ) = α + βXi
                                                                   =0

La perturbaci´n del modelo recoge todo aquello que no ha sido explicado por la parte sis-
               o
tem´tica del modelo y se obtiene como la diferencia entre la variable a explicar y la recta de
    a
regresi´n poblacional:
       o
                                           ui = Yi − α − βXi

El resultado final obtenido a partir de la informaci´n que ofrece una muestra dada se define
                                                   o
como la Funci´n de Regresi´n Muestral (FRM). Se obtiene una vez que los coeficientes
                o              o
             o                        α, ˆ
de la regresi´n hayan sido estimados (ˆ β) y tambi´n se conoce como modelo estimado:
                                                  e

                                          ˆ             ˆ ˆ
                                          Yi = E(Yi ) = α + βXi

                                                    31
SARRIKO-ON 8/09                                                    Econometr´ B´sica Aplicada con Gretl
                                                                            ıa a


El residuo mide el error cometido al estimar la variable end´gena y se define como la diferencia
                                                               o
entre la variable a explicar y la recta de regresi´n muestral:
                                                  o

                            ˆ         ˆ ˆ                      ˆ ˆ
                  ui = Yi − Yi = Yi − α − βXi = α + βXi + ui − α − βXi
                  ˆ                                                                                (2.3)
                                      ˆ
                     = (α − α) + (β − β)Xi + ui
                            ˆ

Este error proviene de dos fuentes: la primera, por el hecho de no poder obtener los valores de la
perturbaci´n (ui ) y la segunda se debe a que la estimaci´n de los coeficientes desconocidos (α, β)
           o                                             o
introduce un error adicional. Es importante, por tanto, diferenciar y no confundir el residuo con
la perturbaci´n.
             o

                              Yi 6
                                                                             ˆ    ˆ ˆ
                                                                             Yi = α + βXi
                                                      (Y1 , X1 )
                             Y1
                                    6                     6
                                     u1
                                     ˆ
              ˆ ˆ       ˆ
              α + βX1 = Y1          ?                                           E(Yi ) = α + βXi
                                                          ?u1
                                                          6 α + βX1
                               α
                                    β
                                        ˆ
                                        β
                              α
                              ˆ
                                                          ?                     -
                                                                                    Xi
                                                          X1

         Gr´fico 2.8: Funci´n de regresi´n poblacional y funci´n de regresi´n muestral
           a              o            o                     o            o

En el Gr´fico 2.8 la funci´n de regresi´n poblacional est´ trazada en color negro as´ como los
         a                o           o                    a                       ı
coeficientes poblacionales, la ordenada (α) y la pendiente (β). Podemos ver que el valor Yi se
obtiene como la suma del valor que toma la parte sistem´tica α + βXi (situada sobre la FRP)
                                                           a
y del valor que toma la perturbaci´n ui , esto es, Yi = α + βXi + ui .
                                  o
        o            o                                        α ˆ
La funci´n de regresi´n muestral y los coeficientes estimados (ˆ y β) est´n representados en color
                                                                         a
rojo. La diferencia entre la FRP y la FRM se debe a los errores que se cometen en la estimaci´n
                                                                                              o
                                o α         ˆ
de los coeficientes de la regresi´n (ˆ = α, β = β). Bas´ndonos en la FRM podemos obtener el
                                                        a
                                                                            ˆ    ˆ ˆ
valor del punto Yi como la suma del valor estimado de la parte sistem´tica Yi = α + βXi (situado
                                                                      a
                                                ˆ                 ˆ
sobre la FRM) y del valor que toma el residuo ui , esto es, Yi = Yi + ui .
                                                                       ˆ


2.4.1.   El criterio de estimaci´n m´
                                o   ınimo-cuadr´tico
                                               a

Dados el modelo y una muestra, debemos decidir c´mo obtener la funci´n de regresi´n muestral,
                                                    o                    o           o
           o                             ˆ ˆ
es decir, c´mo calcular las estimaciones α y β a partir de los datos. Un m´todo muy utilizado por
                                                                          e
su sencillez y buenas propiedades es el m´todo de m´
                                         e           ınimos cuadrados ordinarios. El estimador de
M´ ınimos Cuadrados Ordinarios, o MCO, de los par´metros α y β se obtiene de minimizar
                                                            a
la suma de los residuos al cuadrado:
                       N                N                          N
                 m´
                  ın        u2 = m´
                            ˆi    ın               ˆ
                                             (Yi − Yi )2 = m´
                                                            ın               ˆ ˆ
                                                                       (Yi − α − βXi )2            (2.4)
                  ˆ ˆ
                  α,β i=1          ˆ ˆ
                                   α,β i=1                 ˆ ˆ
                                                           α,β i=1


Las expresiones del estimador de α y β se obtienen de las condiciones de primer orden, para lo

                                                     32
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                        SARRIKO-ON 8/09


cual igualamos las primeras derivadas a cero:
                             N
                        ∂        ˆ2
                             i=1 ui
                                         = −2         N
                                                      i=1 (Yi     ˆ ˆ
                                                                − α − βXi ) = 0
                            ∂α
                             ˆ
                             N
                        ∂        ˆ2
                             i=1 ui
                                        = −2      N
                                                  i=1 (Yi      ˆ ˆ
                                                             − α − βXi )Xi = 0
                             ˆ
                            ∂β

As´ obtenemos un sistema de ecuaciones, llamadas ecuaciones normales, que vienen dadas por:
  ı,
                                        N
                                                  ˆ ˆ
                                            (Yi − α − βXi ) = 0                                 (2.5)
                                      i=1
                                                      ui
                                  N
                                              ˆ ˆ
                                        (Yi − α − βXi )Xi = 0                                   (2.6)
                                  i=1
                                                 ui Xi

Las expresiones de los estimadores MCO para los coeficientes poblacionales α y β se obtienen
                                ˆ ˆ
de resolver las ecuaciones para α y β:
                                            N           ¯          ¯
                            ˆ               i=1 (Xi − X)(Yi −      Y)       SXY
                            β =                                         =     2                 (2.7)
                                                 N         ¯ 2               SX
                                                 i=1 (Xi − X)

                                ¯   ˆ¯
                            α = Y − βX
                            ˆ                                                                   (2.8)


2.4.2.   Propiedades de los estimadores MCO

Necesitamos saber cu´les son las propiedades que justifican el uso de los estimadores MCO en
                           a
el modelo de regresi´n simple bajo las hip´tesis b´sicas. Los estimadores α y β son lineales en
                         o                     o     a
la perturbaci´n, es decir, pueden expresarse como una combinaci´n lineal de las perturbaciones
                   o                                               o
u1 , . . . , uN . En segundo lugar, los estimadores MCO son variables aleatorias cuya distribuci´n
                                                                                                o
est´ centrada alrededor del valor poblacional, esto es
    a
                                  E(ˆ ) = α
                                    α                             ˆ
                                                                E(β) = β
y, por tanto, son estimadores insesgados. Y en cuanto a la precisi´n, el Teorema de Gauss-
                                                                      o
Markov prueba que los estimadores MCO tienen m´      ınima varianza dentro del conjunto de los
estimadores lineales (en u) e insesgados. Las varianzas y covarianza para los estimadores son las
siguientes:
                                                 N    2                            ¯
                                                                                   X2
                                                 i=1 Xi                       1
                   var(ˆ ) = σ 2
                       α                                               = σ2     +    2          (2.9)
                                        N      N             ¯
                                                           − X)2              N   N SX
                                               i=1 (Xi


                       ˆ                         1                     σ2 1
                   var(β) = σ 2                                    =      2                    (2.10)
                                            N           ¯
                                                      − X)2            N SX
                                            i=1 (Xi

                                                     ¯
                                                     X                         ¯
                                                                            σ2 X
                     α ˆ
                 cov(ˆ , β) = σ 2       −                           = −         2              (2.11)
                                              N              ¯
                                                           − X)2            N SX
                                              i=1 (Xi

Ambas varianzas dependen de la dispersi´n de la perturbaci´n var(ui ) = σ 2 , del tama˜o muestral
                                        o                  o                          n
y de la dispersi´n del regresor X. En ambos casos, cuanto mayor sea N o la variabilidad de X,
                o
  2
Sx , menor es la varianza de los estimadores MCO. En cuanto a la covarianza ser´ no nula a no
                                                                                    a
ser que la media muestral de la variable explicativa sea cero.

                                                      33
SARRIKO-ON 8/09                                        Econometr´ B´sica Aplicada con Gretl
                                                                ıa a


2.4.3.   La estimaci´n MCO en Gretl
                    o

→ Como ejemplo, calcularemos las estimaciones MCO del modelo para el precio de la vivienda,
Pi = α + βF 2i + ui , con la muestra del fichero datos-cap3.gdt. Una forma sencilla de obtener la
FRM m´  ınimo-cuadr´tica es realizar el diagrama de dispersi´n en el cual la recta de regresi´n
                     a                                       o                               o
aparece en la parte superior izquierda. En el ejemplo que nos ocupa tenemos que α = 52, 4 y
                                                                                     ˆ
ˆ
β = 0, 139, como se puede ver en el Gr´fico 2.2.
                                        a
Vamos a ver c´mo podemos obtener una tabla de resultados detallados. Una vez iniciada la
               o
sesi´n de Gretl y abierto el fichero datos-cap3.gdt, vamos a
    o
                         Modelo →M´  ınimos cuadrados ordinarios...
Aparece la ventana donde se especifica la parte sistem´tica del modelo:
                                                     a




                   Gr´fico 2.9: Ventana de especificaci´n del modelo lineal
                     a                               o

 •   Escogemos la variable dependiente, el precio de venta: en el cuadro izquierdo pinchamos
     sobre P y luego Elegir − >.
 •   Elegimos la variable independiente, el tama˜o: en el cuadro izquierdo pinchamos sobre
                                                n
     F 2 y luego A˜adir − >. La ventana de especificaci´n aparece en el Gr´fico 2.9.
                  n                                     o                  a
Tras pinchar en Aceptar aparece la ventana de resultados del modelo (ver el Gr´fico 2.10).
                                                                              a


                                                     MENÚ DEL MODELO




                   Gr´fico 2.10: Ventana de resultados de estimaci´n MCO
                     a                                           o

En esta ventana aparecen los resultados b´sicos para el an´lisis del modelo y que se explican
                                         a                a

                                              34
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                   SARRIKO-ON 8/09


detalladamente a lo largo del curso. La primera columna muestra las variables explicativas que
se han incluido en el modelo, la constante (const) y la superficie que posee la vivienda (F 2). En
la segunda columna tenemos los coeficientes estimados por MCO correspondientes a cada una
de las variables. Como ya vimos, la estimaci´n de la ordenada es igual a α= 52,35 miles de
                                               o
d´lares y la estimaci´n de la pendiente es β = 0, 138750 miles $ por pie cuadrado. As´ la funci´n
  o                  o                                                                ı        o
de regresi´n muestral es:
          o

                                  Pi = 52, 3509 + 0,138750 F 2i                                (2.12)

Es decir, cuando la superficie de la vivienda aumenta en un pie cuadrado, el precio medio de
venta estimado aumenta en β × 1000 = 138, 750 d´lares. Observar que esta interpretaci´n
                                                       o                                 o
corresponde a la estimaci´n del coeficiente, no al par´metro poblacional β.
                         o                           a
Esta ventana de resultados del modelo tiene un men´ con siete opciones, Archivo, Editar, Con-
                                                    u
trastes, Guardar, Gr´ficos, An´lisis y Latex, que sirven para mostrar otro tipo de resultados de
                    a         a
estimaci´n o guardarlos. Veamos algunas de estas utilidades.
         o




                                               ICONO DEL MODELO
                                                   ESTIMADO




                           Vista de iconos




               Gr´fico 2.11: Ventana de iconos: recuperar resultados estimaci´n
                 a                                                          o

Guardar resultados. Si en el men´ de resultados del modelo vamos a Archivo →Guardar a
                                     u
sesi´n como icono, el modelo queda guardado dentro de la carpeta USER. As´ podemos recupe-
    o                                                                        ı,
rarlo siempre que queramos; basta con pinchar sobre el bot´n iconos de sesi´n, cuarto por la
                                                              o                 o
izquierda de la barra de herramientas (ver el Gr´fico 2.11), y en la ventana que aparece, pinchar
                                                 a
dos veces sobre el icono llamado Modelo 1. Si posteriormente estim´ramos otro modelo y lo
                                                                       a
guard´ramos como icono, Gretl lo denominar´ Modelo 2.
      a                                       ıa
Algunos gr´ficos de inter´s. La opci´n Gr´ficos de la ventana de resultados del modelo
              a                e           o     a
incluye distintas representaciones gr´ficas tanto de la variable end´gena de inter´s, como de su
                                      a                             o             e
ajuste y de los errores de su ajuste. Veamos algunos de los m´s utilizados en regresi´n con datos
                                                             a                       o
de secci´n cruzada.
        o

   • En Gr´ficos → Gr´fico de variable estimada y observada →contra F2 obtenemos el gr´fico
            a           a                                                                    a
     de dispersi´n de las observaciones reales Pi frente a la variable explicativa F 2i junto con
                o
     la funci´n de regresi´n muestral (2.12). El resultado es la figura izquierda del Gr´fico 2.12.
             o            o                                                             a

   • Si seleccionamos Gr´ficos →Gr´fico de residuos →contra F2, se representan los errores de
                           a                 a
     ajuste ui sobre la variable explicativa F 2i , es decir, el diagrama de dispersi´n de los pares
             ˆ                                                                          o
     de puntos (F 21 , u1 ), . . . , (F 214 , u14 ), como aparece en la figura derecha del Gr´fico 2.12.
                       ˆ                      ˆ                                             a
     Podemos apreciar que los residuos se distribuyen alrededor del valor cero (u      ¯ = 0) y que la

                                                 35
SARRIKO-ON 8/09                                                                                       Econometr´ B´sica Aplicada con Gretl
                                                                                                                           ıa a

                                         Precio, P observada y estimada                                                 Residuos de la regresin (= P observada - estimada)
            550                                                                                            100
                     actual
                  estimada
            500                                                                                            80


            450                                                                                            60


            400                                                                                            40
Precio, P




                                                                                                 residuo
            350                                                                                            20


            300                                                                                             0


            250                                                                                            -20


            200                                                                                            -40


            150                                                                                            -60
                                  1500             2000                   2500     3000                                1500                 2000                     2500           3000
                                                 Superficie, F2                                                                           Superficie, F2


                                                  Gr´fico 2.12: Gr´ficos de resultados de regresi´n MCO
                                                    a            a                             o


                      variaci´n con respecto a esta media crece a medida que aumenta el tama˜o de los pisos.
                             o                                                                 n
                      Este ultimo resultado podr´ indicar que la hip´tesis b´sica de varianza constante quiz´s
                           ´                     ıa                 o       a                               a
                      no sea aceptable.

                                                                                              ˆ
            Variables asociadas a la regresi´n. Para ver los valores que toman los ajustes Yi y los resi-
                                                o
            duos ui , debemos seleccionar An´lisis →Mostrar variable observada, estimada, residuos.
                  ˆ                         a
            El resultado que obtenemos es la tabla 2.2. Podemos guardar cualquiera de estos valores selec-
            cionando la opci´n Guardar del men´ del modelo, tal como muestra el Gr´fico 2.13.
                            o                    u                                   a
            Rango de estimaci´n del modelo: 1--14
                             o
            Desviaci´n t´pica de los residuos = 39,023
                    o   ı


                  Observaciones                  P                estimada       residuos        Observaciones                  P             estimada                       residuos
                              1                199,9                200,1          −0,2                          8            365,0             311,8                          53,2
                              2                228,0                226,3           1,7                          9            295,0             320,8                         −25,8
                              3                235,0                232,7           2,3                          10           290,0             322,6                         −32,6
                              4                285,0                271,2          13,8                          11           385,0             365,1                          19,9
                              5                239,0                274,4         −35,5                          12           505,0             413,1                          91,9
                              6                293,0                295,2          −2,2                          13           425,0             440,9                         −15,9
                              7                285,0                302,1         −17,1                          14           415,0             468,6                         −53,6
                                                                  Tabla 2.2: Residuos de la regresi´n MCO.
                                                                                                   o

                              ˆ
            Para almacenar Pi hay que elegir Guardar →Valores estimados. Sale una ventanilla en la que, por
            defecto, el valor ajustado o estimado de la variable end´gena se llama yhat1 y en la descripci´n
                                                                     o                                    o
            aparece valores estimados mediante el modelo 1. Dado que nuestra variable dependiente es el
            precio de venta P , cambiamos de nombre a la variable y la renombramos como phat1. Si repetimos
            los pasos anteriores pero escogemos Guardar →Residuos, en la ventanilla correspondiente se
            nombra a los residuos como uhat1 y la descripci´n es residuos del modelo 1. Una vez guardadas
                                                             o
            estas dos series, las encontramos en la ventana principal junto a la variable independiente P y
            la variable explicativa F 2.


            2.4.4.            Propiedades de la recta m´
                                                       ınimo-cuadr´tica
                                                                  a

            Vamos a realizar un peque˜o an´lisis de las variables que intervienen en la regresi´n m´
                                      n     a                                                  o    ınimo-
            cuadr´tica, con objeto de estudiar las similitudes y relaciones que pueden existir entre ellas.
                 a

                                                                                            36
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                SARRIKO-ON 8/09




                                  Gr´fico 2.13: Residuos MCO
                                    a



              Estad´sticos principales, usando las observaciones 1 - 14
                   ı
           Variable       Media          Mediana        M´nimo
                                                         ı                M´ximo
                                                                           a
           P               317, 493        291, 500      199, 900         505, 000
           F2              1910, 93        1835, 00      1065, 00         3000, 00
           phat1           317, 493        306, 958      200, 120         468, 602
           uhat1          0, 000000        −1, 1919     −53, 601          91, 8983

           Variable    Desv. T´p.
                               ı           C.V.        Asimetr´a
                                                               ı    Exc. de curtosis
           precio         88, 4982         0, 278741    0, 653457      −0, 529833
           F2             577, 757         0, 302344    0, 485258      −0, 672125
           phat1          80, 1640         0, 252491    0, 485258      −0, 672125
           uhat1          37, 4921    6, 15597e+15       1, 02687       0, 817927


                   Tabla 2.3: Estad´
                                   ısticos descriptivos de variables de la FRM




Finalmente, generalizaremos estos resultados, comprobando que estas propiedades se cumplen
en cualquier regresi´n lineal m´
                    o          ınimo-cuadr´tica.
                                          a
Comenzaremos obteniendo los estad´ ısticos descriptivos del regresor F 2, la variable end´gena P ,
                                                                                         o
          ˆ y su residuo u en Ver →Estad´
su ajuste P              ˆ                 ısticos principales de la ventana inicial de Gretl:
Analizando esta tabla-resumen de los datos comprobamos que:
                                                ¯
  i) La media de los residuos (uhat1 ) es cero, u = 0.
                                                ˆ
                                                                                   ¯   ¯
  ii)   Las medias de la variable dependiente Pi y la estimada (phat1 ) coinciden, P = P .
 iii)   Los coeficientes de asimetr´ y curtosis de la variable dependiente ajustada Pi coinciden
                                   ıa
        con las de la variable independiente F 2i .
A continuaci´n, vamos a analizar las relaciones lineales existentes entre estas variables. Mediante
            o
Ver →Matriz de correlaci´n obtenemos la siguiente matriz de correlaciones:
                         o
Podemos ver que:

                                                37
SARRIKO-ON 8/09                                               Econometr´ B´sica Aplicada con Gretl
                                                                       ıa a

             Coeficientes de correlaci´n, usando las observaciones 1 - 14
                                        o
               valor cr´tico al 5% (a dos colas) = 0,5324 para n = 14
                        ı
                              P      F2    uhat1    phat1
                        1, 0000 0, 9058   0, 4236  0, 9058 P
                                1, 0000 −0, 0000   1, 0000 F2
                                          1, 0000 −0, 0000 uhat1
                                                   1, 0000 phat1

                                     Tabla 2.4: Matriz de correlaciones

 iv)     Los valores ajustados Pi y el regresor F 2i est´n perfectamente correlacionados,
                                                        a
         rP F 2 = 1.
  v)     La correlaci´n entre los valores observados Pi con los valores ajustados Pi y la va-
                      o
         riable explicativa F 2i es la misma, rP P = rP F 2 .
 vi)     Los residuos ui y la variable explicativa F 2i est´n incorrelacionados, ruF 2 = 0.
                                                           a
 vii)    Los residuos ui y la variable ajustada Pi est´n incorrelacionados, ruP = 0.
                                                      a
Justificaci´n de estos resultados: La propiedad i) se deriva de la primera ecuaci´n normal
            o                                                                         o
                                                                             ¯ = 0. Notar que la
(2.5), que nos indica que la suma de los residuos ha de ser cero, por lo que u
                                                                             ˆ
primera ecuaci´n normal existe s´lo si el modelo tiene t´rmino independiente y no en otro caso.
               o                  o                     e
Por lo tanto, los resultados que se obtienen derivados de ella solo se cumplen en el caso de que
                                     ¯             ¯    ¯ ¯
                                                        ˆ ˆ
el t´rmino independiente exista. De u = 0 y como Y = Y + u, se obtiene la propiedad ii).
    e                                ˆ
Las propiedades iii), iv) y v) se deben a que los valores de P se obtienen de un cambio de
                                        ˆ ˆ
origen y escala de la variable F 2, P = α + βF 2. Esta relaci´n implica que sus distribuciones de
                                                              o
frecuencias tienen las mismas las medidas de forma, est´n perfectamente correlacionadas entre
                                                          a
s´ y tienen la misma correlaci´n lineal frente a terceras variables.
 ı                             o
                                                                                 ¯
La propiedad vi) se deriva de las ecuaciones normales (2.5), que indica que u = 0, y (2.6),
                                                                                 ˆ
que implica que los residuos son ortogonales a la variable explicativa X, i Xi ui = 0. Como
                                                                                   ˆ
consecuencia, la covarianza muestral entre residuo y variable explicativa es cero:

                                 N                            N
                             1               ¯ u     ¯    1                 ¯¯
                    SX u
                       ˆ   =           (Xi − X)(ˆi − u) =
                                                     ˆ              Xi ui − X u = 0
                                                                       ˆ      ˆ
                             N                            N
                                 i=1                          i=1

y, por tanto, la correlaci´n entre ambas variables es: ruX = SuX /Su SX = 0. Esto nos viene a
                          o                               ˆ      ˆ      ˆ
decir que en la parte del modelo que queda sin explicar, el residuo u, ya no queda nada que la
                                                                      ˆ
variable ex´gena X pueda explicar o aportar en t´rminos lineales. Finalmente, bas´ndonos en
           o                                        e                                a
       ˆ
                                ˆ
que ruX = 0 y que el ajuste Y es una transformaci´n lineal de X, se demuestra la propiedad
                                                      o
                               o                   ˆ
vii), ruY = 0. De esta condici´n y dado que Yi = Yi + ui , se deriva una ultima propiedad:
                                                        ˆ                 ´
viii) La varianza muestral de Y puede descomponerse en dos t´rminos: la varianza explicada
                                                            e
por X y la varianza residual, es decir,

                                                2    2    2
                                               SY = SY + Su
                                                     ˆ    ˆ



2.4.5.     La precisi´n de la estimaci´n y la bondad del ajuste
                     o                o

Una vez realizada las estimaciones de los coeficientes del modelo, la siguiente etapa del an´lisis
                                                                                           a
consiste en el an´lisis y evaluaci´n de los resultados. Por ejemplo nos interesa,
                 a                o

                                                    38
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                                   SARRIKO-ON 8/09


  1. Obtener una medida de la precisi´n en la estimaci´n de α y β.
                                     o                o

  2. Evaluar la calidad del ajuste a los datos, es decir, si la funci´n de regresi´n muestral,
                                                                     o            o
     ˆ    ˆ ˆ
     Yi = α + βXi , resume bien el comportamiento observado de la variable end´gena.
                                                                                o

  3. Evaluar si el modelo propuesto es correcto o si hay alg´n error en la especificaci´n del
                                                            u                         o
     modelo, en las hip´tesis planteadas.
                       o

Este apartado desarrolla los puntos 1 y 2. La respuesta al punto 3 es m´s compleja, de modo
                                                                         a
que el siguiente apartado introduce algunos aspectos de la evaluaci´n del modelo.
                                                                   o


La precisi´n de la estimaci´n
          o                o

La desviaci´n t´
             o ıpica de la distribuci´n muestral de los estimadores es un buen indicador de
                                     o
la precisi´n. Sin embargo, habitualmente la desviaci´n t´
          o                                           o ıpica de los estimadores tiene alg´n   u
elemento desconocido. Esto sucede en este caso, como puede comprobarse en la expresi´n de las
                                                                                          o
varianzas (2.9) y (2.10), que dependen de la varianza de la perturbaci´n var(ui ) = σ 2 . Podemos
                                                                      o
obtener una estimaci´n de la desviaci´n t´
                      o               o ıpica sustituyendo el par´metro poblacional σ por un
                                                                    a
estimador insesgado, σ. El resultado se conoce como errores t´   ıpicos de los coeficientes de
la regresi´n, es decir,
            o

                                                                       σ
                                                                       ˆ                  ¯
                                                                                          X2
                     Error t´
                            ıpico (ˆ )
                                   α        =      des(ˆ )
                                                       α         =    √          1+         2
                                                                       N                 N SX

                                   ˆ                   ˆ               σ 1
                                                                       ˆ
                     Error t´
                            ıpico (β)       =      des(β)        =    √
                                                                       N SX

Un estimador insesgado de la varianza σ 2 es:
                                             N                       N
                                2 1                         1                    ˆ
                            σ =
                            ˆ                      u2
                                                   ˆi   =                  (Yi − Yi )2
                                N −2                      N −2
                                             i=1                     i=1

donde i u2 es la suma de cuadrados residual, (o SCR), y N − 2 son los grados de liber-
           ˆi
tad que tenemos tras estimar α y β. Su ra´ cuadrada σ se conoce como error t´
                                           ız          ˆ                           ıpico de los
perturbaciones o error t´ıpico de la regresi´n. Por tanto, la precisi´n de las estimaciones de
                                            o                        o
los coeficientes aumenta con el n´mero de observaciones N y la dispersi´n del regresor SX y
                                 u                                       o
disminuye cuando crece el error t´
                                 ıpico σ .
                                       ˆ
De forma similar, se construye el siguiente estimador insesgado de la matriz de las varianzas y
la covarianza de los estimadores MCO:

                                                                                                              
                                                                 1               ¯
                                                                                 X2                 −X ¯
                                                                   +
         α            var(ˆ )
                          α             α ˆ
                                    cov(ˆ , β)          
                                                                N                   ¯ 2
                                                                             i (Xi − X)
                                                                                                         ¯ 2
                                                                                                 i (Xi − X)
                                                                                                               
                                                                                                               
    V          =                                   = σ2 
                                                     ˆ                                                         
         β                α ˆ
                      cov(ˆ , β)          ˆ
                                      var(β)                                                        1         
                                                                                                         ¯
                                                                                                   (Xi − X)2
                                                                                                 i




→ Errores t´ ıpicos de estimaci´n y estimaci´n de las varianzas en Gretl. En los resultados
                               o             o
de estimaci´n del caso pr´ctico aparecen los siguientes valores relacionados con la precisi´n:
           o              a                                                                o

                                                        39
SARRIKO-ON 8/09                                           Econometr´ B´sica Aplicada con Gretl
                                                                   ıa a


Modelo 1: estimaciones MCO utilizando las 14 observaciones 1-14
Variable dependiente: P

VARIABLE        COEFICIENTE               ´
                                    DESV.TIP.          ESTAD T          VALOR P
const            52,3509            37,2855            1,404           0,18565
F2                0,138750           0,0187329         7,407          <0,00001***

Suma de cuadrados de los residuos = 18273,6

Desviaci´n t´pica del os residuos = 39,023
        o   ı



La columna encabezada por DESV. T´ proporciona los errores t´
                                       IP.                          ıpicos de estimaci´n, es decir,
                                                                                      o
     α        ˆ
des(ˆ ) y des(β). Se observa que es m´s precisa la estimaci´n del efecto marginal de la superficie
                                      a                    o
del piso β que la de la ordenada α ya que su varianza estimada es menor. La desviaci´n t´o ıpica
                             ıpico σ y Suma de cuadrados de los residuos es SCR = i u2 .
de los residuos es el error t´     ˆ                                                       ˆi
En esta tabla no aparece la estimaci´n de la varianza de la perturbaci´n, pero se puede calcular:
                                    o                                 o

                 o                 o ıpica de los residuos: σ 2 = 39, 02302 = 1522, 8.
   • De su relaci´n con la desviaci´n t´                    ˆ

   • Dividiendo la suma de cuadrados de los residuos entre los grados de libertad N − 2, as´
                                                                                           ı

                                               18273, 6
                                        σ2 =
                                        ˆ               = 1522, 8
                                                14 − 2

Tambi´n es posible obtener la estimaci´n de la matriz de varianzas y covarianzas de los coefi-
       e                                o
cientes de regresi´n seleccionando en el men´ del modelo An´lisis →Matriz de covarianzas de
                  o                           u               a
los coeficientes. El resultado para el conjunto de 14 observaciones es:
         Matriz de covarianzas de los coeficientes de regresi´n
                                                             o
                 const          sqft
                1390,21     -0,670583     const
                             3,50920e-04 sqft

                                                                      ˆ ˆ
                   Tabla 2.5: Estimaci´n de varianzas y covarianza de α y β.
                                      o

                                  ˆ                         α ˆ
es decir, var(ˆ ) = 1390, 21, var(β) = 3, 5092 × 10−4 y cov(ˆ , β) = −0, 670583.
              α


Los errores t´ıpicos de estimaci´n y de la regresi´n dependen de las unidades de medida, es
                                o                 o
decir, las podemos reducir o agrandar cuanto queramos con s´lo cambiar de escala las variables
                                                             o
dependiente e independiente. Por otro lado, interesa tener una medida que nos indique, en la
medida de lo posible, si estamos ante unos buenos resultados de ajuste a los datos de la funci´n
                                                                                              o
de regresi´n muestral.
           o


Bondad del ajuste

La medida de la bondad del ajuste que vamos a utilizar es el coeficiente de determinaci´n,  o
 2 ´ R-cuadrado. Este coeficiente tiene la siguiente expresi´n en el modelo de regresi´n lineal
R o                                                        o                         o

                                                 40
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                     SARRIKO-ON 8/09


simple:
                                                                           ¯
                                                                           ˆ
                                                                      ˆ − Yi )2
                                                   ˆ2
                                                 i ui              i (Yi
                        R2 = rXY = 1 −
                              2
                                                       ¯      =            ¯ 2               (2.13)
                                             i (Yi   − Y )2        i (Yi − Y )

Este coeficiente mide la ganancia obtenida al pasar de un modelo sin variable explicativa X:

                                                     Yi = α + ui

a otro en el que se incluye esta variable:      Yi = α + βXi + ui
Por tanto el R-cuadrado mide la proporci´n de la variabilidad observada de la variable depen-
                                           o
diente Y que se ha podido explicar por incluir de forma lineal en el modelo la variable explicativa
X. Normalmente se interpreta en porcentajes, por ejemplo, se dice que la regresi´n explica el
                                                                                     o
100 × R 2 por ciento de la variaci´n observada en Y . Es f´cil comprobar que:
                                  o                        a
 -                 ınimo-cuadr´tico equivale a maximizar R2 .
      El criterio m´          a
 -    R2 = rY Y , mide la correlaci´n entre el valor observado y el valor predicho o ajustado
              2
                ˆ                  o
      con la regresi´n. Como 0 ≤ rY Y ≤ 1, si R2 0 diremos que el ajuste es pobre y, por el
                    o               2
                                      ˆ
      contrario, ser´ un buen ajuste cuando este estad´
                    a                                  ıstico est´ pr´ximo a la unidad.
                                                                 e o
      Esta propiedad no se cumple en modelos sin t´rmino independiente, es decir, Yi =
                                                        e
      βXi + ui .

→ Si analizamos el caso pr´ctico, vemos que el coeficiente de determinaci´n aparece en la tabla
                           a                                             o
de resultados de estimaci´n, R-cuadrado = 0,820522. Podemos decir que este ajuste es bueno,
                         o
ya que la variabilidad muestral de la superficie de la vivienda (F 2) ha explicado el 82 % de la
variabilidad muestral de los precios de venta de dichas viviendas (P ).


2.5.      Contrastes de hip´tesis e intervalos de confianza
                           o

Al proponer un modelo para el precio de los pisos hemos asumido que el tama˜o del piso es el
                                                                                   n
factor m´s relevante en la fijaci´n de su precio. Las conclusiones que obtengamos de la estima-
        a                       o
ci´n y predicci´n depender´n del cumplimiento de esta hip´tesis. Por tanto, conviene valorar si
  o            o           a                                 o
este supuesto es sensato. Para ello vamos a utilizar los contrastes de hip´tesis y los intervalos de
                                                                          o
confianza sobre la distribuci´n de los estimadores. El planteamiento es el siguiente:
                             o

     • Si el precio de un piso no se ve afectado por su superficie, entonces su efecto marginal es
       cero, luego β = 0, y diremos que la variable explicativa no es significativa o relevante para
       explicar Y . Si esto es cierto, el modelo propuesto no tiene sentido y debemos reformularlo.
     • Por el contrario, si el precio est´ relacionado con la superficie del piso, entonces β = 0 y
                                         a
       decimos que el regresor X es significativo o relevante para explicar (y predecir) Y .


2.5.1.    Contrastes de hip´tesis sobre β
                           o

 Contraste de significatividad individual de X. Para verificar si la variable independiente
F 2 es significativa para determinar el precio medio de la vivienda, podemos realizar un contraste.
Planteamos las siguientes hip´tesis a contrastar:
                              o

                 H0 : β = 0     (X no es significativa o relevante para explicar Y )
                 Ha : β = 0     (X es significativa o relevante para explicar Y )

                                                     41
SARRIKO-ON 8/09                                                  Econometr´ B´sica Aplicada con Gretl
                                                                          ıa a


Para obtener un estad´
                     ıstico de contraste partimos de la siguiente variable aleatoria:

                                          β−β
                                                   ∼ t(N −K)                                   (2.14)
                                          des(β)

El estad´
        ıstico del contraste se obtiene sustituyendo en esta variable el valor recogido en H0 :

                                            β−0     H0
                                      t=            ∼ t(N −K)
                                           des(β)

Es un contraste bilateral, como se observa en el siguiente gr´fico de la distribuci´n del estad´
                                                             a                    o           ıstico
bajo H0 :




          Gr´fico 2.14: Criterio de decisi´n del contraste de significatividad individual
            a                            o


la regla de decisi´n es la siguiente: fijado un nivel de significaci´n α,
                  o                                               o
 -   Rechazamos H0 si el valor muestral del estad´ıstico tm pertenece a la regi´n cr´
                                                                               o    ıtica, es
     decir, si es menor que −c = −t(N −K)α/2 o bien mayor que c = t(N −K)α/2 y concluimos
     que la variable explicativa es relevante.
 -   No rechazamos H0 en otro caso, es decir, si el valor muestral tm se sit´a en el intervalo
                                                                            u
     [−c, c] con c = t(N −K)α/2 . Concluimos que la variable X no es relevante o significativa
     para explicar la variable dependiente Y .

→ Veamos si la superficie de la vivienda es un factor relevante para determinar su precio:

                             H0 : β = 0                   β      H0
                                               t=                ∼ t(14−2)
                             Ha : β = 0                 des(β)

                           ıstico tm se incluye en los resultados de estimaci´n, es la cuarta
El valor muestral del estad´                                                 o
columna, encabezada por ESTAD T. Es decir,
                                            columna COEF ICIEN T E    0, 13875
            EST AD T = tm = 7, 4068 =                              =
                                               columna DESV.T IP.    0, 0187329

El valor cr´
           ıtico del contraste para el nivel de significaci´n del 5 % es c = t(14−2)0,05/2 = 2, 179.
                                                          o
Como resultado tenemos que 7, 4068 > 2, 179, por lo que tm pertenece a la regi´n cr´  o    ıtica y,
en consecuencia, rechazamos H0 a un nivel de significaci´n del 5 %. Podemos concluir que la
                                                            o
variable F 2 es significativa o relevante para determinar el precio medio de la vivienda. En el

                                                   42
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                        SARRIKO-ON 8/09


tema siguiente, veremos c´mo la columna VALOR P de la tabla de resultados de Gretl informa
                          o
sobre la conclusi´n del contraste.
                 o
Otros contrastes sobre β. Como hay evidencia estad´     ıstica de que β es distinto de cero y, por
lo tanto, la variable explicativa X es significativa, nos puede interesar saber qu´ valor puede
                                                                                    e
tomar. Vamos a generalizar el procedimiento de contraste anterior. Veamos dos ejemplos.

→ Ejemplo 1. Ante un aumento de la superficie de la vivienda de un pie cuadrado, ¿podr´ el
                                                                                       ıa
precio medio de venta de la vivienda aumentar en 100 d´lares? Planteamos el contraste:
                                                      o

                                              H0 : β = 0, 1
                                              Ha : β = 0, 1

Sustituyendo en la variable (2.14) el valor bajo H0 , obtenemos el estad´
                                                                        ıstico de contraste:

                                            β − 0, 1    H0
                                       t=               ∼ t(N −K)
                                             des(β)

Hay que tener en cuenta que la columna ESTAD T de los resultados de estimaci´n de Gretl,
                                                                                    o
corresponde al valor muestral del estad´ıstico para H0: β = 0. Por tanto, tenemos que calcular el
valor muestral del estad´
                        ıstico de contraste, que en este caso es:

                                           0, 138750 − 0, 1
                                    tm =                    = 2, 068
                                              0, 0187329

El valor cr´
           ıtico para α = 5 % es c = t(14−2)0,05/2 = 2, 179. Como el valor calculado cae fuera de
la regi´n cr´
       o    ıtica, −2, 179 < 2, 068 < 2, 179, no rechazamos la H0 a un nivel de significaci´n del
                                                                                           o
5 %. Por tanto, es posible un incremento de 100 d´lares en el precio medio de la vivienda ante
                                                    o
un aumento unitario en la superficie.



→ Ejemplo 2. Ante el mismo aumento unitario en la superficie, ¿podr´ el precio medio de
                                                                         ıa
venta de la vivienda aumentar en 150 d´lares? Planteamos el contraste y, al igual que en el caso
                                         o
anterior, llegamos al estad´
                           ıstico de contraste:

                           H0 : β = 0, 15                    β − 0, 15   H0
                                                        t=               ∼ t(N −K)
                           Ha : β = 0, 15                     des(β)

El estad´
        ıstico de contraste en este caso toma el valor

                  0, 138750 − 0, 15
           tm =                     = −0, 6005 ⇒ −c = −2, 179 < −0, 6005 < 2, 179 = c
                      0, 0187329

con c = t(12)0,025 . As´ no rechazamos H0 a un nivel de significaci´n del 5 % y tambi´n es posible
                       ı,                                         o                 e
que si ∆F 2 = 1, entonces el precio medio de la vivienda aumente en 150$.


Si observamos los contrastes anteriores, siempre y cuando el valor del estad´         ıstico calculado tm
est´ fuera de la regi´n cr´
   e                 o    ıtica, es decir, en el intervalo [−2, 179; 2, 179] no rechazaremos la hip´tesis
                                                                                                    o
nula propuesta.

                                                   43
SARRIKO-ON 8/09                                            Econometr´ B´sica Aplicada con Gretl
                                                                    ıa a


2.5.2.    Intervalos de confianza

Un intervalo de confianza est´ definido por dos valores entre los cuales se encuentra el valor del
                              a
par´metro con un determinado nivel de confianza que se denota (1−α). Para obtener el intervalo
   a
de confianza del coeficiente β, definimos el intervalo de valores que tiene una probabilidad (1−α)
en la distribuci´n (2.14) asociada al estimador. As´
                o                                  ı


                                            β−β
                      P rob −t(N −2)α/2 ≤            ≤ t(N −2)α/2   = 1−α
                                            des(β)

Reordenamos en funci´n del par´metro desconocido β:
                    o         a

              P rob β − t(N −2)α/2 des(β) ≤ β ≤ β + t(N −2)α/2 des(β)    = 1−α

y obtenemos el intervalo de confianza (1−α) para el par´metro β. Observamos que est´ centrado
                                                         a                            a
en la estimaci´n puntual y que se desv´ en una cantidad que est´ dada por t(N −K)α/2 veces su
               o                         ıa                       a
error t´
       ıpico de estimaci´n, des(β). Si estimamos con muy poca precisi´n, este intervalo ser´ am-
                        o                                             o                    a
plio. Esto quiere decir que la variabilidad muestral del estimador acota a β en un intervalo m´s
                                                                                              a
amplio. En lo que sigue del curso emplearemos la siguiente notaci´n para expresar el intervalo
                                                                    o
de confianza:

                                       ˆ                  ˆ
                            IC(β)1−α = β ± t(N −2)α/2 des(β)

El correspondiente intervalo de confianza para α se obtiene de forma similar:

                             IC(α)1−α = α ± t(N −2)α/2 des(ˆ )
                                        ˆ                  α

→ Continuando con la pr´ctica, vamos a obtener los intervalos de confianza para los dos coefi-
                          a
cientes de regresi´n. Para ello, vamos a An´lisis →Intervalos de confianza para los coeficientes.
                  o                        a
El resultado es:

t(12, .025) = 2,179

         VARIABLE       COEFICIENTE           INTERVALO DE CONFIANZA 95%
              const          52,3509             (-28,8872, 133,589)
                 F2           0,138750           (0,0979349, 0,179566)

                              Tabla 2.6: Estimaci´n por intervalo
                                                 o


En esta tabla de resultados, la segunda columna ofrece las estimaciones por punto, esto es,
α = 52, 3509 y β = 0, 138750. La tercera indica los l´
                                                     ımites de los intervalos a una confianza del
95 %, esto es:
                               IC(α)0,95 = [−28, 887 ; 133, 587]
                              IC(β)0,95 = [0, 0979349 ; 0, 179566]

Por tanto, podemos afirmar con un nivel de confianza del 95 % que, ante un aumento de la
superficie de la vivienda de un pie cuadrado, el precio medio de venta de dicha vivienda aumen-
tar´ entre 97,9349 y 179,566 d´lares.
   a                          o

                                               44
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                                SARRIKO-ON 8/09


2.6.    Resumen. Presentaci´n de los resultados
                           o

Los resultados de la estimaci´n de un modelo se suelen presentar de forma resumida, incluyendo
                             o
tanto la recta de regresi´n como un conjunto de estad´
                         o                             ısticos utiles para evaluar los resultados.
                                                               ´
Una forma habitual de presentar la estimaci´n es la siguiente:
                                           o

                                      P = 52, 3509 + 0, 138750 F 2
                                     (des)       (37,285)        (0,018733)
                                                   2
                                 N = 14          R = 0, 82             σ = 39, 023
                                                                       ˆ

Bajo cada coeficiente estimado aparece su error t´  ıpico de estimaci´n. Otra opci´n es incluir los
                                                                    o            o
     ısticos tm de significatividad individual o los grados de libertad. Por ejemplo,
estad´

                                      P         = 52, 3509 + 0, 138750 F 2
                                   (estad. t)      (1,404)           (7,407)
                                                             2
                         Grados libertad = 12               R = 0, 82          σ = 39, 023
                                                                               ˆ




2.7.    Ejercicios para practicar

Ejercicio 1:
Se quiere analizar los costes acumulados de reparaci´n de los coches Toyota (cost) en funci´n
                                                       o                                        o
de la edad del coche (age). Para realizar este ejercicio deb´is utilizar los datos contenidos en el
                                                            e
archivo de muestra en Gretl data3-7 de Ramanathan, Toyota station wage repairs:

  1. Con los datos del fichero, rellena los valores del cuadro siguiente:


                 i           1         2           3             4         5           ...   N
                 costi                                                               ...
                 agei                                                                ...


  2. ¿Los datos son de secci´n cruzada o series temporales? ¿Cu´l es el tama˜o muestral?
                            o                                  a            n

  3. ¿Cu´l es el coste de reparaci´n del cuarto coche? ¿Cu´ntos a˜os tiene?
        a                         o                       a      n

  4. Obt´n los estad´
        e           ısticos principales de las variables cost y age. Com´ntalos.
                                                                        e

  5. ¿Cu´l es la edad media muestral de los coches?
        a

  6. Especifica un modelo para analizar los costes de reparaci´n de los coches.
                                                             o

  7. ¿Cu´l es la variable end´gena? ¿Y la explicativa? ¿Qu´ elementos de este modelo son
         a                   o                            e
     aleatorios?

  8. Escribe la funci´n objetivo a minimizar para estimar este modelo por M´
                     o                                                     ınimos Cuadrados
     Ordinarios.

  9. Escribe la Funci´n de Regresi´n Muestral.
                     o            o

                                                        45
SARRIKO-ON 8/09                                                 Econometr´ B´sica Aplicada con Gretl
                                                                         ıa a


 10. ¿Cu´l es el coste estimado para el primer coche de la muestra? ¿Y el residuo?
        a

 11. Interpreta los coeficientes estimados. ¿Tienen los signos esperados?

 12. El coche A tiene un a˜o m´s que el coche B (52 semanas). ¿Cu´l es la diferencia estimada
                           n    a                                a
     en el coste de reparacion de uno y otro?

 13. Si la edad de un coche aumenta un mes (4 semanas), ¿en cu´nto se espera que incremente
                                                              a
     su coste acumulado estimado?

 14. ¿Cu´l es la expresi´n del coeficiente de determinaci´n? Interpreta el valor obtenido.
        a               o                               o

 15. Estima la varianza de las perturbaciones.

 16. Estima la matriz de varianzas y convarianzas de los estimadores MCO de los coeficientes
     del modelo.

 17. Calcula el intervalo de confianza del 95 % para el coeficiente de la variable age.

 18. Contrasta la significatividad de la variable age.

 19. ¿Crees que de una semana a la siguiente el coste medio acumulado de reparaci´n de un
                                                                                 o
     Toyota puede aumentar 10 d´lares?
                               o

 20. Obt´n los siguientes gr´ficos y com´ntalos:
        e                   a          e

         a) Los residuos a lo largo de la muestra.
         b) La variable end´gena y la estimada a lo largo de la muestra.
                           o

Ejercicio 2:
Se dispone de una base de datos para 51 estados de E.E.U.U. sobre el gasto agregado en trans-
porte urbano (EXP T RAV ) y la renta disponible agregada (IN COM E) correspondientes al
a˜o 19933 . Las variables que se consideran son:
 n

       EXPTRAV     Gasto agregado en transporte urbano, en billones
                   de d´lares, (Rango 0,708 - 42,48).
                       o
       INCOME      Renta disponible agregada, en billones de d´lares,
                                                              o
                    (Rango 9,3 - 683,5).
           POP     Poblaci´n, en millones,
                          o
                    (Rango 0,47 - 31,217).

   1. Especifica un modelo para analizar si la renta disponible agregada explica el gasto agregado
      en transporte urbano. Interpreta sus coeficientes.

   2. Estima el modelo por M´ ınimos Cuadrados Ordinarios. Comenta los resultados obtenidos
      en t´rminos de bondad de ajuste, significatividad y signos de los coeficientes estimados.
          e
      Razona si te parecen adecuados los resultados.

   3. Obt´n e interpreta los siguientes gr´ficos:
         e                                a
   3
    Fichero data8-2.gdt. Fuente: Statistical Abstract of U.S. (1995), recogida en Ramanathan, R. (2002), Intro-
ductory econometrics with applications, 5th. Ed., South-Western.


                                                      46
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                          SARRIKO-ON 8/09


       • Gr´fico de la serie de residuos MCO.
           a
       • Gr´fico de residuos MCO sobre la variable P OP .
           a

  4. ¿Podr´ un aumento de un mill´n de d´lares en la renta disponible agregada producir un
          ıa                        o      o
     aumento, en media, de un bill´n de d´lares en el gasto en transporte urbano agregado?
                                  o      o

  5. Define e indica que miden las siguientes variables:
                          EXP T RAV                                    IN COM E
              EXP OP =                            y       IN CP OP =            .
                            P OP                                         P OP

  6. Regresa la variable EXP OP sobre la variable IN CP OP y un t´rmino independiente.
                                                                 e

      a) Interpreta los coeficientes estimados.
      b) Contrasta la significatividad de la variable IN CP OP .
      c) Compara los resultados de ambos modelos, ¿cu´l te parece m´s razonable?
                                                     a             a




                                             47
SARRIKO-ON 8/09        Econometr´ B´sica Aplicada con Gretl
                                ıa a




                  48
Tema 3

Modelo de Regresi´n Lineal M´ltiple
                 o          u

3.1.      Introducci´n. Un ejemplo
                    o

En este tema consideramos introducir en el modelo de regresi´n, adem´s del t´rmino constante,
                                                             o       a       e
m´s de una variable explicativa por lo que pasamos del llamado modelo de regresi´n lineal simple
  a                                                                             o
al modelo de regresi´n lineal m´ltiple.
                    o           u
Comenzamos con el ejemplo que se ha seguido en el tema sobre el Modelo de Regresi´n Lineal
                                                                                       o
Simple. El precio de una casa, en miles de d´lares, (P) era la variable dependiente y la variable
                                            o
explicativa era el tama˜o de la casa o el n´mero de pies cuadrados del ´rea habitable (F2).
                       n                    u                               a
Ampliaremos el modelo incluyendo dos variables explicativas m´s, el n´mero de habitaciones
                                                                  a       u
(BEDRMS) y el n´mero de ba˜os (BATHS) siendo el modelo de regresi´n lineal m´ltiple1
                   u           n                                          o         u

             Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui                               i = 1, 2, . . . , N   (3.1)

El modelo de regresi´n lineal general (MRLG), con K variables explicativas
                    o

                        Yi = β1 + β2 X2i + . . . + βK XKi + ui                  i = 1, 2, . . . , N.               (3.2)

se puede escribir en notaci´n matricial:
                           o

                                         Y      =      X      β    +     u
                                       (N ×1)       (N ×K) (K×1)       (N ×1)


donde cada uno de los elementos se definen:
                                                                                                     
               Y1            1 X21 · · · XK1                                        β1                 u1
             Y2           1 X22 · · · XK2                                      β2               u2   
                                                                                                     
        Y = .  X= .             .   ..   .                       β=             .    u=          .   
             . 
                .           ..    .
                                   .      . .
                                            .                                      .
                                                                                     .                .
                                                                                                        .   
               YN            1 X2N · · · XKN                                        βK                 uN

Por el momento, seguimos suponiendo las mismas hip´tesis b´sicas sobre el t´rmino de pertur-
                                                        o        a         e
baci´n y sobre las variables explicativas o regresores, a saber:
    o

   i) E(ui ) = 0 ∀ i,        E(u2 ) = σ 2
                                i               ∀ i,       E(ui uj ) = 0 ∀i = j.
   1
    Dado que seguimos con los mismos datos de secci´n cruzada utilizamos el sub´
                                                          o                    ındice i = 1, . . . , N . La notaci´n
                                                                                                                  o
para datos de series temporales suele ser t = 1, . . . , T .


                                                            49
SARRIKO-ON 8/09                                                     Econometr´ B´sica Aplicada con Gretl
                                                                             ıa a


  ii) La perturbaci´n sigue una distribuci´n normal.
                   o                      o

 iii) Las variables X2 a Xk no son estoc´sticas, son fijas. Esto quiere decir que en muestras
                                           a
      repetidas de N observaciones de Yi , X2i , . . . , Xki , las variables X2i , . . . , Xki , i = 1, . . . , N
      tomar´ siempre los mismos valores. Este supuesto, junto a E(ui ) = 0, implica que los
            ıan
      regresores y el t´rmino de perturbaci´n est´n incorrelacionados.
                       e                   o         a

 iv) Los regresores son linealmente independientes, esto quiere decir que el rango de la ma-
     triz de datos de los regresores X es K tal que no tiene columnas repetidas ni unas son
     combinaciones lineales de otras.

  v) Adem´s se supone que se dispone de un n´mero suficiente de observaciones para estimar
           a                                        u
     los par´metros βj , j = 1, . . . , K, esto es K < N .
            a

Interpretaci´n de cada uno de los coeficientes de regresi´n:
            o                                           o

   • Los par´metros βj , j = 2, . . . , K:
            a
     Manteniendo constante el valor del resto de variables explicativas, si Xji cambia
     en una unidad, Yi se espera que cambie en media βj unidades.

   • El par´metro β1 que acompa˜a al t´rmino constante recoge el valor esperado de la variable
           a                     n     e
     dependiente cuando el resto de variables explicativas o regresores incluidos toman el valor
     cero.

Siguiendo con el ejemplo, el modelo (3.1) se puede escribir en notaci´n matricial:
                                                                     o

                                          Y       = X      β +      u
                                         (N ×1)    (N ×4) (4×1)   (N ×1)


donde cada uno de los elementos se definen:

                                                                                             
             P1               1   F 21     BEDRM S1            BAT HS1           β1         u1
            P2             1   F 22     BEDRM S2            BAT HS2         β2       u2      
                                                                                               
    Y =      .
              .    X=       .
                              .     .
                                    .         .
                                              .                   .
                                                                  .         β=    
                                                                                β3  u =  .       
             .             .     .         .                   .                       ..      
             PN               1 F 2N       BEDRM SN            BAT HSN           β4         uN


Interpretaci´n de los coeficientes:
            o

   • El coeficiente β1 es el valor medio esperado de aquellas viviendas que no tienen ning´n pie
                                                                                         u
     cuadrado de ´rea habitable, ni habitaciones ni ba˜os.
                  a                                    n

   • El coeficiente β2 :
     Considerando dos casas con el mismo n´mero de habitaciones y de ba˜os, para aquella
                                             u                            n
     casa que tenga un pie cuadrado m´s de ´rea habitable se espera que cambie en media su
                                       a     a
     precio de venta en β2 miles de d´lares.
                                     o

   • El coeficiente β3 :
     Considerando dos casas con el mismo n´mero de pies cuadrados de ´rea habitable y n´mero
                                           u                         a                 u
     de ba˜os, para aquella casa que tenga una habitaci´n m´s se espera que cambie en media
          n                                            o   a
     su precio de venta en β3 miles de d´lares.
                                        o

                                                          50
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                 SARRIKO-ON 8/09


   • El coeficiente β4 :
       Considerando dos casas con el mismo n´mero de pies cuadrados de ´rea habitable y n´mero
                                             u                         a                 u
       de habitaciones, para aquella casa que tenga un ba˜o m´s se espera que cambie en media
                                                         n   a
       su precio de venta en β4 miles de d´lares.
                                          o

El an´lisis de regresi´n m´ltiple nos permite examinar el efecto marginal de una variable
       a               o     u
explicativa en particular, una vez hemos controlado por otras caracter´  ısticas recogidas en el
resto de variables explicativas que mantenemos constantes. Por eso a veces al resto de regresores
se les llama variables de control. Veremos m´s adelante cu´ndo es importante controlar por otras
                                            a             a
variables y qu´ problemas tendremos si las omitimos.
               e


3.2.     Estimaci´n de M´
                 o      ınimos Cuadrados Ordinarios utilizando Gretl

Se dispone de una base de datos sobre el precio de venta de una vivienda y distintas caracter´
                                                                                             ısti-
cas de 14 viviendas vendidas en la comunidad universitaria de San Diego en 1990. Son datos de
secci´n cruzada y las variables que se consideran son:
     o
   P:             Precio de venta en miles de d´lares (Rango 199.9 - 505)
                                               o
   F2:            Pies cuadrados de ´rea habitable (Rango 1065 - 3000)
                                    a
   BEDRMS:        N´mero de habitaciones (Rango 3 - 4)
                   u
   BATHS:         N´mero de ba˜os (Rango 1,75 - 3)
                   u            n
Los datos para P y F2 son los mismos que los utilizados en el ejemplo del Tema 2 sobre el modelo
de regresi´n lineal simple. Adem´s tenemos informaci´n sobre dos nuevas variables que vamos
          o                      a                     o
a considerar incluir como explicativas en el modelo para el precio de la vivienda.
Comenzamos una sesi´n en Gretl para estimar este modelo con la muestra de 14 viviendas:
                   o

              Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui         i = 1, . . . , 14

En la parte de arriba de la ventana principal de Gretl tenemos distintas opciones. Si posicionamos
el cursor podemos ir eligiendo dentro de ellas.

  1. Leemos los datos que est´n disponibles en Gretl como archivo de muestra:
                             a

                            Archivo → Abrir datos → Archivo de muestra

       Elegir de Ramanathan el fichero data4-1 proporcionados en el cuarto cap´
                                                                             ıtulo del libro de
       Ramanathan (2002). Abrir.

  2. Podemos ver los datos de todas las variables, que aparecen en la Tabla 3.1. Las dos primeras
     columnas coinciden con los datos utilizados en el Tema 2.

  3. Estimaci´n por M´
             o       ınimos Cuadrados Ordinarios (MCO).

                              Modelo → M´
                                        ınimos Cuadrados Ordinarios

       Se abre una nueva ventana. Utilizando el cursor, seleccionar de la lista de variables de la
       izquierda:

         • La variable dependiente (P) y pulsar elegir.

                                                51
SARRIKO-ON 8/09                                                 Econometr´ B´sica Aplicada con Gretl
                                                                         ıa a

                             P        F2 BEDRMS        BATHS
                           199.9      1065   3         1.75
                           228.0      1254   3         2.00
                           235.0      1300   3         2.00
                           285.0      1577   4         2.50
                           239.0      1600   3         2.00
                           293.0      1750   4         2.00
                           285.0      1800   4         2.75
                           365.0      1870   4         2.00
                           295.0      1935   4         2.50
                           290.0      1948   4         2.00
                           385.0      2254   4         3.00
                           505.0      2600   3         2.50
                           425.0      2800   4         3.00
                           415.0      3000   4         3.00


                   Tabla 3.1: Modelo (3.1). Datos de caracter´
                                                             ısticas de viviendas


         • Las variables independientes o regresores de esta especificaci´n y pulsar a˜adir cada
                                                                           o             n
           vez. La variable Const es el t´rmino constante o variable que toma siempre valor uno.
                                         e
           Por defecto ya est´ incluida pero si no se quisiera poner se podr´ excluir. Simplemente
                             a                                              ıa
           habr´ que seleccionarla con el cursor y dar a Quitar.
                ıa

       Pinchar en Aceptar.
       Aparece una nueva ventana con los resultados de la estimaci´n2 . Iremos comentando los
                                                                    o
       resultados mostrados. Situando el cursor en la parte de arriba de esta ventana podremos
       ver que hay distintos men´s cuyas funciones estar´n asociadas a esta regresi´n.
                                u                       a                          o

   4. Hay varios formatos para guardar los resultados, como por ejemplo un formato compatible
      con Microsoft Word mediante:

                                     Editar → Copiar → RTF(Ms Word)

       Abrir un documento con Microsoft Word. Elegir Edici´n → Pegar. Se pegar´n todos los
                                                             o                     a
       resultados de la ventana anterior. Guardar el documento y minimizar si se quiere volver a
       utilizar m´s tarde para pegar y guardar otros resultados.
                 a


3.3.     An´lisis de los resultados mostrados
           a

En esta secci´n vamos a ir comentando los resultados que nos muestra el programa cuando
              o
utilizamos la opci´n de estimaci´n por M´
                  o             o        ınimos Cuadrados Ordinarios. Algunos de estos resul-
tados ya han sido comentados en el Tema 2 sobre el modelo de regresi´n lineal simple, pero
                                                                        o
nos servir´ tambi´n de repaso. Una vez especificado el modelo, el programa Gretl muestra en la
          a      e
ventana gretl:modelo1 la siguiente informaci´n sobre la estimaci´n MCO del modelo con los
                                              o                   o
datos del fichero elegido:
   2
     Recordar que esta ventana puede ser minimizada para su posible utilizaci´n posterior o el modelo puede
                                                                                o
guardarse en la sesi´n como icono. Si la cerramos tendr´
                    o                                  ıamos que volver a hacer lo mismo para obtener de nuevo
esta ventana y poder elegir dentro de las opciones asociadas a esta regresi´n.
                                                                           o


                                                     52
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                                                     SARRIKO-ON 8/09


              Modelo 1: estimaciones MCO utilizando las 14 observaciones 1–14
                                  Variable dependiente: P

Variable            Coeficiente                            Desv. t´
                                                                 ıpica                                   Estad´
                                                                                                              ıstico t     valor p
const                 129,062                                     88,3033                                    1,4616        0,1746
F2                      0,154800                                   0,0319404                                 4,8465        0,0007
BEDRMS                −21,587                                     27,0293                                   −0,7987        0,4430
BATHS                 −12,192                                     43,2500                                   −0,2819        0,7838

            Media de la var. dependiente                                                                   317,493
            D.T. de la variable dependiente                                                                 88,4982
            Suma de cuadrados de los residuos                                                            16700,1
            Desviaci´n t´
                      o ıpica de los residuos (ˆ )
                                               σ                                                            40,8657
            R2                                                                                               0,835976
            ¯
            R2 corregido                                                                                     0,786769
            F (3, 10)                                                                                       16,9889
            valor p para F ()                                                                                0,000298587
            Log-verosimilitud                                                                             −69,453
            Criterio de informaci´n de Akaike
                                 o                                                                         146,908
            Criterio de informaci´n Bayesiano de Schwarz
                                 o                                                                         149,464
            Criterio de Hannan–Quinn                                                                       146,671

Algunos Gr´ficos
              a
En la ventana de resultados de estimaci´n, Gretl nos ofrece la posibilidad de analizar el gr´fico
                                         o                                                  a
de residuos as´ como el gr´fico de la variable observada y estimada tanto por observaci´n como
               ı           a                                                            o
sobre las distintas variables que hay en la especificaci´n del modelo. Por ejemplo elegimos
                                                       o

                Gr´ficos → Gr´fico de residuos → Por n´mero de observaci´n
                  a         a                       u                 o

y obtenemos el gr´fico de los residuos del modelo estimado para el precio de la vivienda a lo largo
                 a
de las 14 observaciones de la muestra En el gr´fico 3.1 se observa que los residuos se disponen
                                               a

                                          Residuos de la regresión (= price observada − estimada)
                                 80



                                 60



                                 40



                                 20
                      residuo




                                  0



                                −20



                                −40



                                −60
                                      2    4              6             8             10            12       14




                  Gr´fico 3.1: Gr´fico de residuos por n´mero de observaci´n
                    a           a                     u                 o

alrededor del valor cero ya que esta es su media muestral. La dispersi´n de estos residuos es
                                                                      o
mayor para las ultimas viviendas en la muestra. Si elegimos
               ´

                                                                53
SARRIKO-ON 8/09                                                                             Econometr´ B´sica Aplicada con Gretl
                                                                                                     ıa a


                                 Gr´ficos → Gr´fico de residuos → Contra F2
                                   a         a

obtenemos el gr´fico de los residuos sobre la variable F2. Este gr´fico muestra que la dispersi´n
                a                                                 a                          o
de los residuos alrededor de su media muestral, que es cero, aumenta a mayor valor de F2.
Esto sugiere que la hip´tesis b´sica sobre la varianza de la perturbaci´n constante pueda no ser
                       o       a                                       o
adecuada.
                                                   Residuos de la regresión (= price observada − estimada)
                                80



                                60



                                40



                                20
                     residuo




                                 0



                               −20



                               −40



                               −60
                                                   1500                   2000                       2500         3000
                                                                            F2



                     Gr´fico 3.2: Gr´fico de residuos contra la variable F2
                       a           a

Otro gr´fico que ilustra la bondad del ajuste de nuestro modelo relativamente a los datos obser-
        a
vados, es el gr´fico de la variable estimada y observada por n´mero de observaci´n. Para obtener
               a                                             u                 o
este gr´fico elegimos
       a

     Gr´ficos → Gr´fico de variable estimada y observada → por n´mero de observaci´n
       a         a                                            u                 o

De esta forma obtenemos el siguiente gr´fico
                                       a

                                                                  price observada y estimada
                                1100
                                        estimada
                                       observada
                                1000


                                 900


                                 800
                     price




                                 700


                                 600


                                 500


                                 400


                                 300
                                            2         4             6             8             10           12    14
                                                                         observación



     Gr´fico 3.3: Gr´fico de la variable estimada y observada por n´mero de observaci´n
       a           a                                             u                 o

En este gr´fico se puede observar el valor estimado del precio de las viviendas en la muestra,
           a
dados los valores observados de las variables explicativas y el modelo estimado, en relaci´n al
                                                                                            o
precio observado. El ajuste parece empeorar para las ultimas viviendas en la muestra. Si hacemos
                                                     ´

                                                                         54
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                                                             SARRIKO-ON 8/09


el gr´fico de la variable estimada y observada contra la variable F2 que recoge el tama˜o de las
     a                                                                                n
viviendas

              Gr´ficos → Gr´fico de variable estimada y observada → Contra F2
                a         a


                                                      price con respecto a sqft, observada y estimada
                               550
                                      estimada
                                     observada
                               500


                               450


                               400
                      price




                               350


                               300


                               250


                               200


                               150
                                                   1500                  2000                     2500             3000
                                                                           F2



              Gr´fico 3.4: Gr´fico de la variable estimada y observada contra F2
                a           a

En el gr´fico 3.4 se observa que el modelo se ajusta mejor a las observaciones asociadas a las
        a
viviendas de menor tama˜o, ya que los valores estimados est´n m´s concentrados alrededor
                         n                                   a     a
de los observados para esas viviendas. El ajuste es peor para viviendas de m´s de 2000 pies
                                                                             a
cuadrados.


3.3.1.   Coeficientes estimados

Las estimaciones obtenidas de los coeficientes que se muestran en la segunda columna est´n        a
asociados a cada una de las variables explicativas que figuran al lado en la primera columna.
Dadas las realizaciones muestrales de la variable dependiente Yi ≡ Pi , y explicativas, X2i ≡
F 2i , X3i ≡ BEDRM Si , X4i ≡ BAT HSi , las estimaciones se obtienen de minimizar la suma
                                                                                ˆ ˆ ˆ ˆ
de cuadrados de los residuos con respecto a los coeficientes desconocidos β1 , β2 , β3 , β4 . Estos
coeficientes estimados se han obtenido de utilizar el siguiente criterio de estimaci´n por el m´todo
                                                                                   o          e
de M´  ınimos Cuadrados Ordinarios
                                            N
                               m´
                                ın                     ˆ    ˆ        ˆ        ˆ
                                                 (Yi − β1 − β2 X2i − β3 X3i − β4 X4i )2
                      ˆ ˆ ˆ ˆ
                      β1 ,β2 ,β3 ,β4 i=1


Las condiciones de primer orden de este problema resultan en cuatro ecuaciones con cuatro
inc´gnitas.
   o
                              Yi     =       ˆ    ˆ
                                           N β1 + β2                 ˆ
                                                               X2i + β3                     ˆ
                                                                                      X3i + β4             X4i

                    Yi X2i           =     ˆ
                                           β1            ˆ
                                                   X2i + β2              2    ˆ
                                                                        X2i + β3                         ˆ
                                                                                               X3i X2i + β4          X4i X2i

                    Yi X3i           =     ˆ
                                           β1            ˆ
                                                   X3i + β2                       ˆ
                                                                        X2i X3i + β3                     2    ˆ
                                                                                                        X3i + β4     X4i X3i

                    Yi X4i           =     ˆ
                                           β1            ˆ
                                                   X4i + β2                       ˆ
                                                                        X2i X4i + β3                              ˆ
                                                                                                        X3i X4i + β4       2
                                                                                                                          X4i


                                                                       55
SARRIKO-ON 8/09                                                            Econometr´ B´sica Aplicada con Gretl
                                                                                    ıa a


Estas ecuaciones se conocen con el nombre de Ecuaciones Normales. Al igual que en el modelo
de regresi´n lineal simple, la primera ecuaci´n o primera condici´n asociada al t´rmino constante
          o                                  o                   o               e
implica que la suma de los residuos debe de ser cero. El resto de ecuaciones implican que los
residuos tienen que ser ortogonales a cada una de las variables explicativas. En conjunto, estas
condiciones implican que los residuos de la estimaci´n MCO est´n incorrelacionados con los
                                                       o            a
regresores. En t´rminos matriciales se pueden escribir como:
                 e
                                ˆ
                     X Y = (X X)β            ⇔              ˆ
                                                   X (Y − X β) = 0                 ⇔       Xu=0
                                                                                            ˆ

Si las cuatro ecuaciones son linealmente independientes, el rango de (X X) es igual a K = 4, y
por lo tanto existe una unica soluci´n a este sistema de ecuaciones. La soluci´n ser´ el estimador
                        ´           o                                         o     a
MCO del vector de par´metros β.
                        a
                                          ˆ
                                          βM CO = (X X)−1 X Y

Sustituyendo los valores muestrales del fichero data4-1 para Y y X dar´ lugar a las estima-
                                                                     ıan
ciones obtenidas de los coeficientes.
Para el modelo especificado en la ecuaci´n (3.1), la relaci´n estimada es
                                       o                  o

                Pi = 129, 062 + 0, 1548 SQFTi − 21, 588 BEDRMSi − 12, 193 BATHSi                                (3.3)

Aunque hemos utilizado los mismos datos para P y F2 que en el Tema 2, el incluir las dos nuevas
variables explicativas en el modelo ha hecho que las estimaciones de los coeficientes asociados al
t´rmino constante y a F2 hayan cambiado3 .
 e
Esto ocurre porque las nuevas variables BEDRMS y BATHS est´n correlacionadas con la ya
                                                          a
incluida F2 y su media es distinta de cero4.

Si esto no ocurriera y  X3i =                X4i =       X2i X3i =               X2i X4i = 0, las ecuaciones normales
quedar´ de la siguiente forma
       ıan
                         Yi       ˆ    ˆ
                              = N β1 + β2        X2i                   ⇔              ˆ    ˆ
                                                                                (Yi − β1 − β2 X2i ) = 0

                     Yi X2i     ˆ
                              = β1            ˆ
                                        X2i + β2        2
                                                       X2i             ⇔              ˆ    ˆ
                                                                                (Yi − β1 − β2 X2i )X2i = 0

                     Yi X3i     ˆ
                              = β3       2    ˆ
                                        X3i + β4       X4i X3i

                     Yi X4i     ˆ
                              = β3                ˆ
                                        X3i X4i + β4           2
                                                              X4i
  3
      En el caso de considerar un MRLS solamente con F2 adem´s de la constante se obten´
                                                            a                          ıa


                                             P = 52, 3509 + 0, 138750 F2
                                                   (37,285)        (0,018733)

                              T = 14   ¯
                                       R2 = 0, 8056     F (1, 12) = 54, 861          σ = 39, 023
                                                                                     ˆ
                                       (Desviaciones t´
                                                      ıpicas entre par´ntesis)
                                                                      e

  4
      Usando las observaciones 1 - 14, la matriz de correlaciones entre BEDRMS, BATHS y F 2 es
                                        F2    BEDRMS            BATHS
                                   1, 0000      0, 4647          0, 7873        F2
                                                1, 0000          0, 5323        BEDRMS
                                                                 1, 0000        BATHS

                                                              Variable          Media
y las medias muestrales de BEDRMS y BATHS son:                BEDRMS            3, 64286
                                                              BATHS             2, 35714


                                                              56
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                               SARRIKO-ON 8/09

                                                                    ˆ       ˆ
 Dadas esas condiciones, las dos ultimas ecuaciones no dependen de β1 ni de β2 y las dos primeras
                                 ´
ecuaciones normales coinciden con las que se obten´ en el Tema 2 para el modelo de regresi´n
                                                    ıan                                        o
lineal simple. Por lo tanto, en ese caso se obtendr´ la misma soluci´n para β
                                                    ıa                o        ˆ1 y β2 que en el
                                                                                     ˆ
MRLS inlcuyendo solamente el t´rmino constante y F 2 ≡ X2 y entonces las mismas estimaciones
                                 e
de esos coeficientes. Por lo tanto, en general no da lo mismo incluir o no otras variables en el
modelo a la hora de estimar el efecto de una variable sobre la variable dependiente.
Interpretaci´n de los coeficientes estimados.
              o
El coeficiente estimado que acompa˜a a la variable F2, variable que recoge el tama˜o total de la
                                      n                                             n
vivienda, es positivo y parece ser el signo adecuado. Si consideramos dos viviendas con el mismo
n´mero de ba˜os y habitaciones, parece razonable pensar que aquella con mayor ´rea habitable
 u            n                                                                   a
tenga un precio mayor. Esto indica que las habitaciones ser´n m´s grandes.
                                                              a   a
Los signos de los coeficientes asociados a BEDRMS y BATHS son negativos. Podemos pensar
que si aumenta el n´mero de habitaciones o el n´mero de ba˜os, esto indicar´ una vivenda m´s
                    u                           u            n               ıa               a
lujosa y por lo tanto deber´ de aumentar el valor de la vivienda. Pero hay que tener en cuenta
                           ıa
que a la hora de interpretar un coeficiente de regresi´n asociado a uno de los regresores estamos
                                                     o
manteniendo constante el resto de variables explicativas.
Si la misma superficie habitable se tiene que dividir para poder incluir una nueva habitaci´n, el
                                                                                           o
resultado ser´ que cada habitaci´n ser´ m´s peque˜a. El signo del coeficiente estimado indica que
             a                  o     a a         n
un comprador medio valora negativamente tener m´s habitaciones a costa de un menor tama˜o
                                                    a                                         n
de ´stas. Lo mismo se puede interpretar en el caso del coeficiente que acompa˜a a BATHS.
    e                                                                          n
Interpretaci´n de los coeficientes estimados:
            o

                            ˆ
   • El coeficiente estimado β1 = 129, 062 indica el precio medio estimado en miles de euros, de
     aquellas viviendas que no tienen ning´n pie cuadrado de ´rea habitable, ni habitaciones
                                           u                    a
     ni ba˜os.
          n

                            ˆ
   • El coeficiente estimado β2 = 0, 154800:
     Considerando dos casas con el mismo n´mero de habitaciones y de ba˜os, para aquella
                                             u                           n
     casa que tenga un pie cuadrado m´s de ´rea habitable se estima que en media su precio
                                       a     a
     de venta se incremente en 154.800 d´lares.
                                         o

                            ˆ
   • El coeficiente estimado β3 = −21, 5875:
     Si aumenta el n´mero de habitaciones, manteniendo constante el tama˜o de la vivienda y
                    u                                                     n
     el n´mero de ba˜os, el precio medio se estima disminuir´ en 21.588 d´lares.
         u          n                                       a            o

                   ˆ
   • El coeficiente β4 = −12, 1928:
     Manteniendo el tama˜o de la vivienda y el n´mero de habitaciones constante, a˜adir un
                          n                     u                                  n
     ba˜o completo m´s significa tener habitaciones m´s peque˜as, por lo que el precio medio
        n             a                             a       n
     se estima disminuir´ en 12.193 d´lares.
                        a            o

¿Se mantendr´ el signo del coeficiente que acompa˜ a a BEDRMS si no incluimos
                ıa                                       n
la variable F2 ni BATHS?
Pues seguramente no, porque en ese caso no estamos controlando por esa variable en la regre-
si´n, y como hemos visto F2 y BEDRMS est´n correlacionados. Por lo tanto m´s habitaciones
  o                                         a                                a
implicar´ mayor superficie de piso, y por lo tanto m´s precio en media. Lo mismo ocurrir´ si
         ıa                                        a                                    ıa
solamente incluimos BATHS. Ahora bien, ¿qu´ ocurrir´ si excluimos solamente F2 y dejamos
                                              e      ıa

                                               57
SARRIKO-ON 8/09                                         Econometr´ B´sica Aplicada con Gretl
                                                                 ıa a


las otras dos variables explicativas? Veremos las implicaciones que tiene omitir o no controlar
por variables relevantes en un tema posterior.
Estimaci´n del incremento medio en el precio de la vivienda ante cambios en las
          o
variables explicativas.
Utilizando los resultados (3.3) de la estimaci´n del modelo (3.1), si manteniendo el n´mero de
                                              o                                       u
ba˜os tenemos dos habitaciones m´s y aumenta el ´rea habitable en 500 pies cuadrados, el
  n                                  a                a
cambio en el precio medio estimado de una vivienda ser´ de 34.224 d´lares, esto es
                                                        a             o

                              Pi = 0, 1548    F2i − 21, 588   BEDRMSi =
                 (0, 1548 × 500) − (21, 588 × 2) = 34, 224 miles de d´lares
                                                                     o


3.3.2.   Desviaciones t´
                       ıpicas e intervalos de confianza

Por el momento nos hemos centrado en la interpretaci´n de las estimaciones puntuales. Pero
                                                        o
tambi´n tenemos que tener en cuenta que estas estimaciones son realizaciones muestrales de
      e
un estimador, que es una variable aleatoria. Por lo tanto, pueden estar sujetas a variaci´n  o
muestral ya que distintas muestras puedan dar lugar a distintas realizaciones muestrales. Estas
estimaciones de un mismo vector de par´metros β estar´n distribuidas con mayor o menor
                                          a                a
variaci´n alrededor de su valor poblacional siguiendo cierta distribuci´n de probabilidad.
       o                                                               o
Bajo las hip´tesis b´sicas que hemos enumerado al principio de este tema, el valor poblacional
             o       a
                  a                                    o         ˆ
del vector de par´metros β es la media de la distribuci´n ya que βM CO es un estimador insesgado.
Su distribuci´n es una Normal y la matriz de varianzas y covarianzas viene dada por la expresi´n
             o                                                                                 o
   ˆM CO ) = σ 2 (X X)−1 . Esto se suele denotar como
V (β

                                  ˆ
                                  βM CO ∼ N (β, σ 2 (X X)−1 )                               (3.4)

La varianza de las perturbaciones, σ 2 , es un par´metro desconocido. Un estimador insesgado de
                                                  a
la misma bajo las hip´tesis b´sicas es
                      o      a

                                               uu
                                               ˆˆ
                                       σ2 =
                                       ˆ
                                              N −K
                  ˆ
donde u = Y −X βM CO es el vector de residuos. El programa, en la ventana gretl:modelo1 muestra
       ˆ
las realizaciones muestrales de la suma de cuadrados de los residuos (SCR), u u = 16700, 1 y de
                                     √                                       ˆˆ
           o ıpica de los residuos σ 2 = 40, 8657.
la desviaci´n t´                       ˆ
Un estimador insesgado, bajo las hip´tesis b´sicas, de la matriz de varianzas y covarianzas de
                                    o       a
ˆM CO es
β

                                  ˆ ˆ
                                  V (βM CO ) = σ 2 (X X)−1
                                               ˆ

En la ventana de resultados de la estimaci´n del modelo por MCO, gretl:modelo1, podemos
                                            o
                    o                             ˆ ˆ
obtener la realizaci´n muestral de este estimador V (βM CO ) = σ 2 (X X)−1 eligiendo:
                                                               ˆ

                     An´lisis → Matriz de covarianzas de los coeficientes
                       a

Se abre una nueva ventana, gretl:covarianzas de los coeficientes, donde se muestra la es-
timaci´n de las varianzas (elementos de la diagonal principal) y covarianzas (elementos fuera
      o
                                                       o ˆ
de la diagonal principal) de los coeficientes de regresi´n β, como se muestra en la Tabla 3.2.
Dado que es una matriz sim´trica, solamente aparecen los valores por encima de la diagonal
                             e

                                               58
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                               SARRIKO-ON 8/09

                           Matriz de covarianzas de los coeficientes
                 const           F2      BEDRMS         BATHS
                7797, 47      0, 670891    −1677, 1      −1209, 3     const
                           0, 00102019 −0, 0754606 −0, 995066         F2
                                            730, 585     −356, 40     BEDRMS
                                                          1870, 56    BATHS


                                                                                ˆ
             Tabla 3.2: Modelo (3.1). Estimaci´n de la matriz de covarianzas de β
                                              o


principal. La ra´ cuadrada de los elementos de la diagonal principal son los mismos valores que
                ız
los mostrados en la tercera columna de la ventana gretl:modelo1. Por ejemplo, la varianza
                         ˆ                         ˆ
estimada del coeficiente β2 asociado a F2 es var(β2 ) = 0, 00102019 y su ra´ cuadrada es su
                                                                              ız
desviaci´n t´                  ˆ
        o ıpica estimada des(β2 ) = 0, 0319404.
Tambi´n podemos obtener estimaciones de las covarianzas entre los coeficientes estimados. Por
       e
                                                      ˆ                  ˆ
ejemplo, la covarianza estimada entre los coeficientes β2 asociado a F2 y β4 asociado a BAT HS
            ˆ ˆ ˆ
es igual a cov(β2 , β4 ) = −0, 995066.
Intervalos de confianza:
Seguidamente vamos a ver c´mo podemos obtener intervalos de confianza para cada coeficiente
                            o
individual. ¿Qu´ nos indican estos intervalos? ¿Cu´l es su utilidad?
               e                                  a
Bajo las hip´tesis b´sicas, se puede demostrar que la variable aleatoria
            o       a
                                     ˆ
                                     βj − βj
                                              ∼ t(N − K)                                    (3.5)
                                         ˆ
                                     des(βj )

           ˆ
donde des(βj ) es la desviaci´n t´                          ˆ
                             o ıpica estimada del estimador βj y t(N −K) denota la distribuci´n
                                                                                             o
t de Student de (N − K) grados de libertad. Esto es v´lido para cualquiera de los coeficientes
                                                        a
βj , j = 1, . . . , K.
Denotamos por c = t(N −K)α/2 la ordenada de la distribuci´n t de Student con N − K grados
                                                          o
de libertad, tal que deja a la derecha una probabilidad de α/2, esto es P (t > c) = α/2. Esto
implica que:

                                           ˆ
                                           βj − βj
                                P r −c ≤            ≤c    =
                                               ˆ
                                           des(βj )

                           ˆ          ˆ           ˆ          ˆ
                     P rob βj − c des(βj ) ≤ βj ≤ βj + c des(βj ) = 1 − α                   (3.6)

Por lo tanto, un intervalo de confianza del (1 − α) por ciento para un coeficiente cualquiera βj
viene dado por

                                            ˆ          ˆ
                               IC(βj )1−α = βj ± c des(βj )

El c´lculo de los intervalos de confianza para los coeficientes de regresi´n del modelo se conoce
     a                                                                  o
con el nombre de estimaci´n por intervalo. Un intervalo de confianza nos dice que, con
                              o
probabilidad (1 − α) se estima que el par´metro βj estar´ dentro de ese rango de valores. Este
                                          a              a
intervalo puede ser demasiado amplio, y esto depender´ de la precisi´n con la que estimemos los
                                                      a             o
                              ˆ
par´metros recogido en des(βj ). Es importante tener en cuenta que la validez de estos intervalos
    a
de confianza depende de que se satisfagan las hip´tesis b´sicas.
                                                  o      a

                                               59
SARRIKO-ON 8/09                                                    Econometr´ B´sica Aplicada con Gretl
                                                                            ıa a


Siguiendo con el ejemplo del modelo (3.1) para el precio de la vivienda, Gretl nos permite obtener
directamente los intervalos de confianza del 95 por ciento para los coeficientes. El resultado
mostrado en la Tabla 3.3 se obtiene eligiendo en la ventana gretl:modelo1

                        An´lisis → Intervalos de confianza para los coeficientes
                          a


                    Variable        Coeficiente             Intervalo de confianza 95 %
                                                              bajo              alto
                     const              129,062             −67,690           325,814
                       F2                 0,154800             0,0836321         0,225968
                  BEDRMS                −21,587             −81,812            38,6376
                   BATHS                −12,192            −108,56             84,1742


                Tabla 3.3: Modelo (3.1): Estimaci´n por intervalo de los coeficientes.
                                                 o


A su vez, utilizando los resultados mostrados en la ventana gretl:modelo1

                  Modelo 1: estimaciones MCO utilizando las 14 observaciones 1–14
                                      Variable dependiente: P

       Variable             Coeficiente               Desv. t´
                                                            ıpica            Estad´
                                                                                  ıstico t        valor p
       const                 129,062                     88,3033                  1,4616           0,1746
       F2                      0,154800                   0,0319404               4,8465           0,0007∗∗∗
       BEDRMS                −21,587                     27,0293                 −0,7987           0,4430
       BATHS                 −12,192                     43,2500                 −0,2819           0,7838

podemos obtener intervalos de confianza para cada uno de los coeficientes, dado un nivel de
confianza (1 − α), por ejemplo del 95 por ciento5 . Los intervalos de confianza obtenidos son:

                                 β1 :    129, 0620 ±     (2, 228 × 88, 3033)
                                 β2 :      0, 1548 ±     (2, 228 × 0, 0319404)
                                 β3 :    −21, 5875 ±     (2, 228 × 27, 0293)
                                 β4 :    −12, 1928 ±     (2, 228 × 43, 2500)



El intervalo de confianza adem´s se puede utilizar para contrastar la hip´tesis de que el par´metro
                               a                                         o                  a
βj tome determinado valor. Si el valor del par´metro bajo la hip´tesis nula est´ dentro del
                                                  a                    o              a
intervalo de confianza, no podemos rechazar esa hip´tesis al nivel de significaci´n α. Dada la
                                                       o                            o
muestra y nuestra especificaci´n del modelo, no podemos rechazar con una confianza del 95 por
                               o
ciento, excepto para el par´metro asociado a F2, que el coeficiente asociado a cada una de estas
                            a
variables sea igual a cero ya que este valor est´ dentro del intervalo de confianza. ¿Quiere decir
                                                a
entonces que el valor poblacional de cada uno de esos par´metros es cero? La respuesta es NO,
                                                            a
ya que por esa misma regla de tres el par´metro βj deber´ de tomar cada uno de los valores en
                                          a                ıa
el intervalo.
   5
    Al 95 por ciento de confianza, (α/2 = 0, 025), el valor en las tablas de la distribuci´n t de Student con 10
                                                                                           o
grados de libertad es c = t(10)0,025 = 2, 228. Recordar que Gretl permite acceder a algunos valores tabulados
de distintas distribuciones, Normal, t-Student, Chi-cuadrado, F de Snedecor. En la ventana principal gretl en
Herramientas → Tablas estad´  ısticas. En el caso de la t de Student hay que introducir los grados de libertad (gl).
Los valores mostrados corresponden a los valores de α/2 de 0,10-0,05-0,025-0,01-0,001.


                                                        60
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                   SARRIKO-ON 8/09


3.3.3.   Significatividad individual y conjunta

Contrastes de significatividad individual

Uno de los principales objetivos de un primer an´lisis de regresi´n es la de contrastar si son
                                                  a               o
o no estad´ısticamente relevantes los factores que hemos considerado como explicativos de la
variable dependiente en cuesti´n, dada la especificaci´n de nuestro modelo. Podemos considerar
                              o                      o
individualmente cada regresor y contrastar:
                                             H0 : βj = 0
                                             Ha : βj = 0
donde la hip´tesis nula implica que, dada la especificaci´n del modelo una vez se ha controlado
             o                                          o
por el resto de factores incluidos como variables explicativas, el efecto marginal de la variable
Xj sobre el valor medio de la variable dependiente es cero.
Dado que en la hip´tesis alternativa se contempla la posibilidad de que el coeficiente, de ser
                     o
distinto de cero, pueda ser indistintamente negativo o positivo, el contraste es a dos colas.
Normalmente en estos contrastes, conocidos con el nombre de contrastes de significatividad
individual, se considera esta alternativa.
El estad´
        ıstico de contraste y su distribuci´n bajo la hip´tesis nula es:
                                           o             o
                                              ˆ
                                             βj      H0
                                    tj =             ∼ t(N − K)                                 (3.7)
                                           des(βˆj )

                                            ıstico, tm , ¿c´mo decidimos si rechazar o no la
Una vez obtenido el valor muestral del estad´        j     o
hip´tesis nula?
   o

   • Se elige un nivel de significaci´n α que indicar´ nuestra elecci´n de la probabilidad de
                                      o                ıa                o
     error de tipo I (rechazar la hip´tesis nula cuando esta fuera cierta) o tama˜o del contraste.
                                     o                                           n
     Obtenemos el valor cr´ ıtico o umbral c = t(N −K)α/2 tal que P r(tj > c) = α/2.

   • Rechazamos la hip´tesis nula a un nivel de significaci´n α, si en valor absoluto la realizaci´n
                       o                                  o                                      o
     muestral del estad´                              ıtico |tm | > c. No rechazamos la hip´tesis
                       ıstico es mayor que el valor cr´       j                               o
     nula en caso contrario.

Si no se rechaza la hip´tesis nula, en el lenguaje econom´trico se dice que la variable que
                          o                                    e
acompa˜a al coeficiente en cuesti´n no es significativa o que el coeficiente no es significativamente
        n                         o
distinto de cero al α por ciento de significaci´n. Si por el contrario se rechaza la hip´tesis nula,
                                              o                                        o
se dice que la variable es significativa o que el coeficiente es significativamente distinto de cero.
Otra forma de llevar a cabo el contraste es utilizar el valor-p. Este valor es una probabilidad e
indica cu´l ser´ el menor nivel de significaci´n que se tendr´ que elegir para rechazar la hip´tesis
         a     ıa                            o                ıa                                o
nula, dada la realizaci´n muestral del estad´
                       o                     ıstico. Si el contraste es a dos colas, el valor-p es dos
veces el ´rea a la derecha de la realizaci´n muestral del estad´
         a                                  o                        ıstico en valor absoluto, en la
distribuci´n de ´ste bajo la hip´tesis nula, esto es
          o      e              o

                                  valor-p = 2 Pr(tj > tm |H0 )
                                                       j

Si el contraste es a una cola, el valor-p ser´ el ´rea a la derecha de la realizaci´n muestral del
                                             ıa a                                  o
estad´ıstico en valor absoluto, en la distribuci´n de ´ste bajo la hip´tesis nula, esto es P r(tj >
                                                o     e               o
tm |H0 ). A mayor valor-p, mayor ser´ la probabilidad de error de tipo I si elegimos rechazar la
 j                                    ıa

                                                  61
SARRIKO-ON 8/09                                            Econometr´ B´sica Aplicada con Gretl
                                                                    ıa a


hip´tesis nula. Luego a mayor valor-p menor evidencia contra la hip´tesis nula y por el contrario
   o                                                               o
a menor valor-p mayor evidencia contra la hip´tesis nula.
                                              o
¿Cu´l ser´ la regla de decisi´n del contraste mirando al valor-p?
   a     a                   o
Rechazar la hip´tesis nula si el valor-p es menor que el nivel de significaci´n elegido y no
                o                                                           o
rechazarla en caso contrario.
Esta es exactamente la misma regla de decisi´n que antes. Elegido un nivel de significaci´n, si
                                               o                                             o
el valor muestral es mayor en valor absoluto que el valor cr´ıtico c, querr´ decir que dos veces la
                                                                           a
probabilidad que deja a la derecha el valor muestral es m´s peque˜o que ese nivel de significaci´n.
                                                         a         n                           o
Siguiendo con nuestro ejemplo, vamos a comentar qu´ nos indican la cuarta y quinta columna
                                                  e
que aparec´ en la ventana de resultados de la estimaci´n por MCO del modelo (3.1) gre-
          ıan                                          o
tl:modelo1.

                 Modelo 1: estimaciones MCO utilizando las 14 observaciones 1–14
                                     Variable dependiente: P

      Variable           Coeficiente            Desv. t´
                                                      ıpica           Estad´
                                                                           ıstico t   valor p
      const               129,062                 88,3033                 1,4616      0,1746
      F2                    0,154800               0,0319404              4,8465      0,0007∗∗∗
      BEDRMS              −21,587                 27,0293                −0,7987      0,4430
      BATHS               −12,192                 43,2500                −0,2819      0,7838

Los valores obtenidos en la cuarta columna se obtienen de dividir los correspondientes valores
de la segunda y tercera columnas esto es, la estimaci´n del coeficiente dividida por su desviaci´n
                                                     o                                           o
t´
 ıpica estimada. Esta ser´ la realizaci´n muestral del estad´
                         ıa            o                    ıstico tj bajo la hip´tesis nula de que
                                                                                 o
el valor poblacional del par´metro βj asociado a esa variable es igual a cero.
                            a
La quinta columna es el valor-p asociado a cada coeficiente, siendo el contraste de significatividad
individual a dos colas. Habitualmente se eligen como niveles de significaci´n el 1 %, 5 % y 10 %
                                                                            o
siendo el 5 % el m´s utilizado. Gretl indica con uno, dos o tres asteriscos cuando se rechaza la
                   a
hip´tesis nula al 10 %, al 5 %, o al 1 % respectivamente.
   o
En este caso solamente es significativa la variable F2 al 1 % y se indica con tres asteriscos. El
valor-p asociado a esta variable es m´s peque˜o que 0,01 y por lo tanto que 0,05 y que 0,1.
                                     a       n
Para el resto de coeficientes no se rechazar´ la hip´tesis nula. Los coeficientes asociados al
                                              ıa      o
t´rmino constante, BEDRMS y BATHS no ser´ significativamente distintos de cero ni siquiera
 e                                             ıan
al 10 %. El valor-p asociado es mayor que 0,1. Estos valores oscilan entre 0,175 y 0,784 por lo
que, si rechaz´semos la hip´tesis nula de que cada uno de estos coeficientes es cero, habr´ desde
              a            o                                                             ıa
un 17,5 a un 78,4 por ciento de probabilidad de cometer el error de rechazar esa hip´tesis siendo
                                                                                     o
cierta.
Si miramos a los valores cr´
                           ıticos en cada uno de estos niveles de significaci´n tenemos que:
                                                                            o

                                   α = 0, 01    t(10)0,005 = 3, 169
                                   α = 0, 05    t(10)0,025 = 2, 228
                                   α = 0, 1     t(10)0,05 = 1, 812

                                                                    ısticos tm en valor absoluto
Excepto en el caso de la variable F2, el valor muestral de los estad´        j
es m´s peque˜o que cualquiera de estos valores cr´
     a        n                                    ıticos. Por lo tanto solamente se rechaza la
hip´tesis nula de que el coeficiente asociado a la variable SQFT sea igual a cero. Esto parece
   o

                                                 62
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                          SARRIKO-ON 8/09


indicar que dado que el n´mero de habitaciones y de ba˜os est´ ya recogido en el tama˜o de la
                          u                              n     a                       n
vivienda, una vez incluimos esta variable el tener m´s o menos habitaciones o ba˜os no tiene un
                                                    a                            n
efecto marginal significativo en el precio medio de ´sta. Lo normal es tener una vivienda con un
                                                   e
n´mero de habitaciones y ba˜os proporcional a su tama˜o.
 u                           n                           n
Esto mismo concluimos mirando a los intervalos de confianza, aunque en ese caso el nivel de
significaci´n elegido s´lo fue del 5 por ciento.
          o           o


Contraste de significaci´n conjunta
                       o

Otro estad´ ıstico que se muestra en la ventana de resultados de la estimaci´n es el valor del
                                                                                 o
estad´
     ıstico F (3, 10) = 16,9889 con valor-p = 0, 000299. ¿Qu´ hip´tesis nula se est´ contrastando?
                                                            e    o                 a
¿C´mo se calcula este estad´
   o                         ıstico?
La hip´tesis nula que se est´ contrastando es que conjuntamente todos lo coeficientes, excepto
       o                    a
el asociado al t´rmino constante, sean cero. En nuestro ejemplo en concreto
                e
                             H0 : β2 = β3 = β4 = 0
                             Ha : alguna de las igualdades no se cumple
Este estad´ıstico se puede considerar como un contraste general de bondad de ajuste del modelo.
Si la hip´tesis nula no se rechaza podemos concluir que ninguna de las variables en conjunto
         o
puede explicar la variaci´n en el precio de la vivienda. Esto significa que es un modelo muy
                           o
pobre y que debiera de ser reformulado.
Estamos excluyendo de la hip´tesis nula el par´metro que acompa˜a al t´rmino constante. El
                              o                a                 n      e
modelo bajo la hip´tesis nula, al que llamaremos Modelo Restringido es:
                  o

                   Modelo Restringido           Pi = β1 + ui             i = 1, 2, . . . , N      (3.8)

Este modelo incluye solamente un t´rmino constante como regresor y le compararemos con el
                                   e
Modelo No Restringido (3.1). El estimador MCO del par´metro β1 en el modelo restringido es
                                                     a
aqu´l que
   e
                                               N
                                         m´
                                          ın               ˆ
                                                     (Yi − β1 )2
                                         ˆ
                                         β1    i=1

En este caso tenemos solamente un par´metro a estimar por lo que s´lo hay una ecuaci´n normal,
                                     a                            o                 o
                                                            ˆ
                                                     Yi = N β1                                    (3.9)
                                                i

cuya soluci´n es
           o

                                      ˆ      1                   ¯
                                      β1,R =                Yi = Y
                                             N
                                                       i

El coeficiente estimado que acompa˜a al t´rmino constante nos recoge simplemente la me-
                                     n      e
dia muestral de la variable dependiente. El residuo correspondiente al modelo restringido es
             ˆ            ¯
ui,R = Yi − β1,R = Yi − Y , por lo que la suma de cuadrados residual coincide con la suma
ˆ
de cuadrados total o variaci´n total de la variable dependiente. Esto implica que la suma de
                            o
cuadrados explicada o variaci´n explicada con la estimaci´n de este modelo (3.8) es nula
                             o                           o

             SCRR =          u2 =
                             ˆi,R        (Yi − Y )2 = SCT            ⇒      SCER = 0
                         i           i

                                                       63
SARRIKO-ON 8/09                                                        Econometr´ B´sica Aplicada con Gretl
                                                                                ıa a


Por ultimo, y teniendo en cuenta como se define el coeficiente de determinaci´n R2
    ´                                                                      o

                                                                  ˆ2
                                                                i ui
                                        R2 = 1 −                  ¯
                                                        i (Yi   − Y )2

para este modelo el coeficiente de determinaci´n es igual a cero6 . Dado que en el modelo solamen-
                                             o
te incluimos un regresor que no var´ ´ste no puede explicar variaci´n o varianza de la variable
                                   ıa, e                              o
dependiente. Si estimamos con Gretl el modelo (3.8) obtenemos los siguientes resultados:

                 Modelo 2: estimaciones MCO utilizando las 14 observaciones 1–14
                                     Variable dependiente: P

Variable              Coeficiente                   Desv. t´
                                                          ıpica               Estad´
                                                                                   ıstico t           valor p
const                   317,493                       23,6521                     13,4234              0,0000

                  Media de la var. dependiente                                    317,493
                  D.T. de la variable dependiente                                  88,4982
                  Suma de cuadrados de los residuos                            101815,
                  Desviaci´n t´
                           o ıpica de los residuos (ˆ )
                                                    σ                              88,4982
                  R2                                                                0,000000
                  ¯
                  R2 corregido                                                      0,000000
                  Grados de libertad                                               13
                  Log-verosimilitud                                              −82,108
                  Criterio de informaci´n de Akaike
                                       o                                          166,216
                  Criterio de informaci´n Bayesiano de Schwarz
                                       o                                          166,855
                  Criterio de Hannan–Quinn                                        166,157

Podemos comprobar que la estimaci´n del coeficiente que acompa˜a al t´rmino constante coin-
                                      o                             n      e
cide con la media muestral de la variable dependiente (P ¯ = 317, 493). La desviaci´n t´
                                                                                   o ıpica de los
residuos coincide con la desviaci´n t´
                                 o ıpica de la variable dependiente, ya que la suma de cuadrados
residual coincide con la suma de cuadrados total, SCRR = i u2 = i (Yi − Y )2 = 101815, y
                                                                 ˆi,R
tambi´n los grados de libertad de ambas, T − K = T − 1 = 13. Por lo tanto,
      e

                                        ˆ2
                                      i ui,R                − Y )2
                                                        i (Yi
                                               =                   = 88, 4982
                                      13                   13

Por ultimo, el coeficiente de determinaci´n R2 es igual a cero.
    ´                                   o
Un estad´ıstico general de contraste de restricciones lineales es aqu´l que compara las sumas
                                                                     e
de cuadrados de residuos de la estimaci´n del modelo restringido y del modelo no restringi-
                                         o
do, teniendo en cuenta los grados de libertad en la estimaci´n de cada modelo,(glR ) y (glN R )
                                                              o
respectivamente 7
                              (SCRR − SCRN R )/q H0
                         F =                          ∼ F(q, N − K)                     (3.10)
                                SCRN R /(N − K)
donde q = (glR − glN R ) es el n´mero de restricciones bajo la hip´tesis nula y N − K = glN R .
                                u                                 o
Si dividimos numerador y denominador por la suma de cuadrados total SCT y utilizamos los
siguientes resultados:
                                                                         2
   6                                         ¯                      i ui,R
                                                                      ˆ
      Esto es as´ dado que i u2 = i (Yi − Y )2 ⇒ RR = 1 −
                ı            ˆi,R                     2
                                                                         ¯ 2 = 1 − 1 = 0.
                                                                 i (Yi −Y )
    7
      En temas posteriores veremos la utilizaci´n de este estad´
                                               o               ıstico para contrastar otro tipo de restricciones
lineales.


                                                        64
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                    SARRIKO-ON 8/09


  a) 1 − R2 = SCRN R / SCT y en este caso 1 − RR = 1 − 0 = 1.
                                               2


  b) glR − glN R = (N − 1) − (N − K) = K − 1 que es el n´mero de restricciones bajo la hip´tesis
                                                        u                                 o
     nula.

el estad´
        ıstico general (3.10) nos queda para este contraste en concreto igual a

                       R2 /(K − 1)        R2    (N − K) H0
              F =         2          =       2 (K − 1) ∼ F(K − 1, N − K)                         (3.11)
                    (1 − R )/(N − K)   (1 − R )

En nuestro ejemplo sobre el precio de la vivienda, K − 1 = 3 que es el n´mero de restricciones
                                                                               u
bajo la hip´tesis nula y N − K = 14 − 4 = 10. Dado el resultado mostrado F (3, 10) = 16, 9889
           o
(valor p = 0, 000299), si consideramos el valor-p se rechazar´ la hip´tesis nula a cualquier nivel
                                                                  ıa      o
de significaci´n razonable, en particular al α = 0, 05 ya que este valor es mayor que el valor-p
             o
obtenido. Si utilizamos el valor cr´ ıtico F(3,10)0,05 = 3, 71 obtenemos el mismo resultado ya que
el valor muestral del estad´ıstico es mayor que el valor cr´  ıtico. Esto indica que al menos uno de
los coeficientes, aparte del asociado al t´rmino constante, es distinto de cero.
                                           e
Aunque hemos utilizado en esta secci´n el coeficiente de determinaci´n en relaci´n al estad´
                                    o                               o           o          ıstico
de significaci´n conjunta, en la siguiente secci´n vamos a hablar de su utilizaci´n junto con
             o                                 o                                  o
el coeficiente de determinaci´n corregido y otros estad´
                            o                          ısticos para la selecci´n entre distintos
                                                                              o
modelos.


3.4.     Bondad de ajuste y selecci´n de modelos
                                   o

En los temas anteriores se ha presentado el coeficiente de determinaci´n como una medida de
                                                                         o
bondad de ajuste que es invariante a unidades de medida8 . Este coeficiente se define como la
proporci´n de variaci´n explicada por la regresi´n del total de variaci´n a explicar en la muestra
         o           o                          o                      o
de la variable dependiente. Si hay t´rmino constante en el modelo,
                                    e

                             ˆ − Y )2
                                  ¯                   ˆ2
                          i (Yi                     i ui
                 R2 =             ¯ 2 =1−               ¯ 2          0 ≤ R2 ≤ 1
                          i (Yi − Y )           i (Yi − Y )

Este indicador tiene que ser considerado como uno m´s a tener en cuenta a la hora de valorar
                                                      a
si un modelo es adecuado, pero no debemos darle m´s importancia de la que tiene. Obtener
                                                      a
un valor del R 2 cercano a 1 no indica que nuestros resultados puedan ser fiables. Por ejemplo,

podemos tener problemas de no satisfacerse alguna hip´tesis b´sica y nuestra inferencia no ser
                                                        o      a
v´lida.
 a
Por otro lado, obtener un valor m´s o menos alto del coeficiente de determinaci´n puede estar
                                   a                                             o
influido por el tipo de datos que estemos analizando. Normalmente con datos de series tempora-
les, donde las variables pueden presentar tendencias similares en el tiempo, es f´cil obtener R2
                                                                                 a
altos, mientras que con datos de secci´n cruzada eso no suele ocurrir ya que normalmente las
                                      o
variables presentan mayor dispersi´n.
                                   o
Por otro lado, si queremos utilizar el R2 para comparar distintos modelos, estos deben de tener
la misma variable dependiente ya que as´ tendr´n igual suma de cuadrados total. A´n as´ esta
                                          ı     a                                   u    ı,
medida adolece del problema de aumentar su valor al a˜adir una nueva variable explicativa, sea
                                                      n
  8
    Esto no ocurre con otras medidas como puede ser la desviaci´n t´
                                                                 o ıpica de los residuos, σ = SCR/N − K)
                                                                                           ˆ
ya que la suma de cuadrados de los residuos no es invariante a un cambio de escala en las variables.


                                                  65
SARRIKO-ON 8/09                                                             Econometr´ B´sica Aplicada con Gretl
                                                                                     ıa a


cual sea su aportaci´n al modelo. Adem´s no tiene en cuenta que hay que estimar un nuevo
                    o                 a
par´metro con el mismo n´mero de observaciones.
   a                      u
Para tener en cuenta este problema se suele utilizar el R2 corregido por grados de libertad. Esta
medida tiene en cuenta los grados de libertad tanto de la suma de cuadrados residual, (N − K),
como de la suma de cuadrados total, (N − 1). Se define como

                               u2 /(N − K)
                               ˆi                                N −1
         ¯
         R2 = 1 −                                         =1−         (1 − R2 )             ¯
                                                                                      − ∞ < R2 ≤ R2
                                  ¯     2
                            (Yi − Y ) /(N − 1)                   N −K

     ¯
El R2 puede disminuir si el incluir una nueva variable no compensa la p´rdida de grados de
                                                                         e
libertad al tener que estimar un nuevo par´metro9 . El coeficiente de determinaci´n corregido
                                          a                                     o
R¯ 2 no tomar´ valores mayores que el R2 pero s´ puede tomar valores negativos. Esto ultimo
              a                                ı                                      ´
indicar´ que el modelo no describe adecuadamente el proceso que ha generado los datos.
        ıa
Hasta el momento hemos ido comentado los resultados que normalmente se muestran en la
estimaci´n de un modelo. Una forma de presentarlos es la siguiente:
        o

                 P         = 129, 062 + 0, 154800 F2 − 21, 5875 BEDRMS − 12, 1928 BATHS
              (estad. t)      (1,462)           (4,847)          (−0,799)              (−0,282)
                                            2               ¯2
                           N = 14 R = 0, 8359 R = 0, 7868 F (3, 10) = 16, 989

Una alternativa a presentar los estad´
                                     ısticos t de significatividad individual, aunque suele ser lo
m´s habitual, es mostrar las desviaciones t´
  a                                          ıpicas estimadas de los coeficientes o los valores p
correspondientes.
Otros criterios de selecci´n de modelos que muestra Gretl son los criterios de informaci´n de
                          o                                                                o
Akaike (AIC), Bayesiano de Schwarz (BIC) y de Hannan-Quinn (HQC). Estos criterios se calcu-
lan en funci´n de la suma de cuadrados residual y de alg´n factor que penalice por la p´rdida de
            o                                              u                            e
grados de libertad. Un modelo m´s complejo, con m´s variables explicativas, reducir´ la suma
                                    a                    a                             a
de cuadrados residual pero aumentar´ el factor de penalizaci´n. Utilizando estos criterios se
                                        a                         o
escoger´ aquel modelo con un menor valor de AIC, BIC o HQC. Normalmente no suelen dar
        ıa
la misma elecci´n, siendo el criterio AIC el que elige un modelo con mayor n´mero de par´metros.
               o                                                            u            a


Selecci´n de un modelo para el precio de la vivienda.
       o

Vamos a continuar con nuestro ejemplo sobre el precio de la vivienda y comparar distintas es-
pecificaciones, para seleccionar una especificaci´n entre varias propuestas. Para ello, utilizamos
                                               o
distintos indicadores que hemos visto hasta ahora, significatividad individual, conjunta, coefi-
cientes de determinaci´n y criterios de informaci´n. Podemos considerar que estos indicadores
                       o                         o
nos ayudan a valorar la especificaci´n en t´rminos de la contribuci´n de las variables explicativas
                                   o      e                       o
incluidas en el modelo 10 .

Vamos a estimar las siguientes especificaciones o modelos alternativos para explicar el precio de
la vivienda:
   9
      Se puede demostrar que si el valor absoluto del estad´   ıstico t de significatividad individual asociado a una
                                                                                      ¯
variable es menor que la unidad, eliminar esta variable del modelo aumentar´ el R2 mientras que si es mayor que
                                                                                 a
la unidad lo reducir´.a
   10
      Estos no son los unicos indicadores. Por ejemplo, analizar el gr´fico de residuos o utilizar diversos contrastes de
                       ´                                              a
algunas de las hip´tesis b´sicas son elementos importantes a la hora de evaluar los resultados de la especificaci´n
                    o       a                                                                                         o
y estimaci´n de un modelo.
            o


                                                                 66
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                SARRIKO-ON 8/09


             Modelo 1        Pi = β1 + β2 F 2i + ui
             Modelo 2        Pi = β1 + β2 F 2i + β3 BEDRM Si + ui
             Modelo 3        Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui
             Modelo 4        Pi = β1 + β3 BEDRM Si + β4 BAT HSi + ui

Estos cuatro modelos difieren en las variables explicativas incluidas. El Modelo 3 es el m´s     a
general e incluye al resto de modelos. Esto quiere decir que cada uno de los restantes se obtiene
imponiendo una o m´s restricciones sobre los coeficientes de este modelo. En este caso son
                       a
restricciones de exclusi´n, es decir que alg´n coeficiente o coeficientes son iguales a cero. A este
                        o                   u
tipo de modelos se les llama modelos anidados. Los resultados de la estimaci´n del Modelo 3
                                                                               o
con Gretl son los siguientes:

              Modelo 3: estimaciones MCO utilizando las 14 observaciones 1–14
                                  Variable dependiente: P

Variable            Coeficiente               Desv. t´
                                                    ıpica           Estad´
                                                                         ıstico t        valor p
const                 129,062                   88,3033                 1,4616            0,1746
F2                      0,154800                 0,0319404              4,8465            0,0007
BEDRMS                −21,587                   27,0293                −0,7987            0,4430
BATH                  −12,192                   43,2500                −0,2819            0,7838

            Media de la var. dependiente                              317,493
            D.T. de la variable dependiente                            88,4982
            Suma de cuadrados de los residuos                       16700,1
            Desviaci´n t´
                      o ıpica de los residuos (ˆ )
                                               σ                       40,8657
            R2                                                          0,835976
            ¯
            R2 corregido                                                0,786769
            F (3, 10)                                                  16,9889
            valor p para F ()                                           0,000298587
            Log-verosimilitud                                        −69,453
            Criterio de informaci´n de Akaike
                                 o                                    146,908
            Criterio de informaci´n Bayesiano de Schwarz
                                 o                                    149,464
            Criterio de Hannan–Quinn                                  146,671

El Modelo 1 es el m´s reducido y tambi´n est´ incluido en los modelos 2 y 3, no as´ en el 4.
                      a                    e a                                    ı
Estos son los resultados de su estimaci´n:
                                       o




                                               67
SARRIKO-ON 8/09                                         Econometr´ B´sica Aplicada con Gretl
                                                                 ıa a


             Modelo 1: estimaciones MCO utilizando las 14 observaciones 1–14
                                 Variable dependiente: P

Variable          Coeficiente             Desv. t´
                                                ıpica            Estad´
                                                                      ıstico t      valor p
const                52,3509                37,2855                   1,4041         0,1857
F2                    0,138750               0,0187329                7,4068         0,0000

               Media de la var. dependiente                        317,493
               D.T. de la variable dependiente                      88,4982
               Suma de cuadrados de los residuos                 18273,6
               Desviaci´n t´
                        o ıpica de los residuos (ˆ )
                                                 σ                  39,0230
               R2                                                    0,820522
               ¯
               R2 corregido                                          0,805565
               Grados de libertad                                   12
               Log-verosimilitud                                  −70,084
               Criterio de informaci´n de Akaike
                                    o                              144,168
               Criterio de informaci´n Bayesiano de Schwarz
                                    o                              145,447
               Criterio de Hannan–Quinn                            144,050

El Modelo 2 est´ anidado en el 3. Los resultados de la estimaci´n de este modelo se muestran
                a                                              o
a continuaci´n:
            o

             Modelo 2: estimaciones MCO utilizando las 14 observaciones 1–14
                                 Variable dependiente: P

Variable           Coeficiente             Desv. t´
                                                 ıpica           Estad´
                                                                      ıstico t      valor p
const               121,179                  80,1778                 1,5114          0,1589
F2                    0,148314                0,0212080              6,9933          0,0000
BEDRMS              −23,910                  24,6419                −0,9703          0,3527

            Media de la var. dependiente                           317,493
            D.T. de la variable dependiente                         88,4982
            Suma de cuadrados de los residuos                    16832,8
            Desviaci´n t´
                      o ıpica de los residuos (ˆ )
                                               σ                    39,1185
            R2                                                       0,834673
            ¯
            R2 corregido                                             0,804613
            F (2, 11)                                               27,7674
            valor p para F ()                                        5,02220e-05
            Log-verosimilitud                                     −69,509
            Criterio de informaci´n de Akaike
                                 o                                 145,019
            Criterio de informaci´n Bayesiano de Schwarz
                                 o                                 146,936
            Criterio de Hannan–Quinn                               144,841




                                            68
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                              SARRIKO-ON 8/09


Finalmente el Modelo 4 solamente est´ anidado en el modelo 3. Los resultados de la estimaci´n
                                    a                                                      o
por MCO son:


                  Modelo 4: estimaciones MCO utilizando las 14 observaciones 1–14
                                      Variable dependiente: P

Variable                Coeficiente                Desv. t´
                                                         ıpica                Estad´
                                                                                   ıstico t               valor p
const                      27,2633                   149,652                       0,1822                 0,8588
BEDRMS                    −10,137                     46,9811                     −0,2158                 0,8331
BATHS                     138,795                     52,3450                      2,6515                 0,0225

                  Media de la var. dependiente                                    317,493
                  D.T. de la variable dependiente                                  88,4982
                  Suma de cuadrados de los residuos                             55926,4
                  Desviaci´n t´
                            o ıpica de los residuos (ˆ )
                                                     σ                             71,3037
                  R 2                                                               0,450706
                  ¯
                  R2 corregido                                                      0,350834
                  F (2, 11)                                                         4,51285
                  valor p para F ()                                                 0,0370619
                  Log-verosimilitud                                              −77,914
                  Criterio de informaci´n de Akaike
                                       o                                          161,829
                  Criterio de informaci´n Bayesiano de Schwarz
                                       o                                          163,746
                  Criterio de Hannan–Quinn                                        161,651

Comparaci´n de los resultados para los modelos 1,2 y 3.
         o


       • Se observa que a medida que se introducen m´s variables explicativas, la suma de cuadrados
                                                    a
         residual va disminuyendo y el coeficiente de determinaci´n R2 aumenta.
                                                                 o

       • En t´rminos del coeficiente de determinaci´n R2 , en el Modelo 1 el tama˜o de la vivienda
              e                                     o                              n
         (F2) explica el 82, 1 % de la variaci´n en los precios de la vivienda, pasando a ser de un
                                              o
         83, 6 % al incluir el n´mero de habitaciones (BEDRMS) y n´mero de ba˜os (BATHS).
                                u                                      u           n

       • A medida que se incluyen m´s variables explicativas, primero BEDRMS y luego BATHS,
                                       a
                                       o            ¯
         el coeficiente de determinaci´n corregido R2 disminuye y la desviaci´n t´
                                                                              o ıpica de los resi-
         duos aumenta  11 . Esto indica que la ganancia en un mayor valor del R2 o menor suma de

         cuadrados residual no se compensa en ning´n caso por la p´rdida de grados de libertad.
                                                     u              e

       • En cuanto a la significatividad individual, en los tres modelos la unica variable significativa
                                                                           ´
         a los niveles de significaci´n habituales es F2
                                    o                     12 . As´ una vez hemos controlado por el
                                                                 ı,
         tama˜o de la vivienda, las variables BEDRMS y BATHS no afectan significativamente el
              n
         precio de la vivienda.

       • El estad´
                 ıstico F de significaci´n conjunta se˜ala en los tres casos no aceptar la hip´tesis nula
                                       o             n                                       o
         de que todos los coeficientes excepto el asociado al t´rmino constante son igual a cero. Al
                                                                e
         menos hay un coeficiente que es significativamente distinto de cero. Por lo obtenido en los
  11
     Notar que los estad´
                        ısticos t asociados a cada coeficiente son menores que uno en valor absoluto.
  12
     Por ejemplo, con nivel de significaci´n del 5 por ciento los valores cr´
                                         o                                 ıticos ser´ para el modelo 1 t(12)0,025 =
                                                                                     ıan
2, 179, para el Modelo 2 t(11)0,025 = 2, 201 y para el Modelo 3 t(10)0,025 = 2, 228.


                                                        69
SARRIKO-ON 8/09                                           Econometr´ B´sica Aplicada con Gretl
                                                                   ıa a


       contrastes de significatividad individual, sabemos que ´ste es el coeficiente que acompa˜a
                                                             e                               n
       a F2.
       Si nos fijamos, a medida que vamos del Modelo 1 al 3, el valor muestral del estad´     ıstico
       F disminuye. Esto es l´gico, ya que este estad´
                               o                       ıstico es funci´n del R2 pero tambi´n de los
                                                                      o                    e
       grados de libertad. Otra vez estar´ recogiendo que, a medida que aumenta el n´mero de
                                          ıa                                               u
       par´metros a estimar K, las diferencias en R2 son demasiado peque˜as para compensar
           a                                                                   n
       la disminuci´n en el ratio (N − K)/(K − 1). Ahora bien, en general, las diferencias en el
                     o
       estad´ıstico F no son relevantes. Lo que es de inter´s es el resultado del contraste.
                                                            e

   • Si consideramos los criterios de informaci´n AIC, BIC y HQC, de los tres modelos el elegido
                                               o
                                                     ¯
     es el Modelo 1, reafirmando lo que indica el R2 . La ganancia en un mejor ajuste, o una
     menor suma de cuadrados residual, no es suficiente para compensar el factor que penaliza
     en funci´n de grados de libertad.
             o
       Dado que el tama˜o de la vivienda depende del n´mero de habitaciones y de ba˜os, este
                          n                                u                              n
       resultado parece indicar que una vez se controla por F2 indirectamente esta variable incluye
       casi todo lo que pueden aportar BEDRMS y BATHS.


¿Qu´ ocurre con el Modelo 4?
   e
En este modelo no hemos incluido la variable F2, que en el an´lisis anterior era la variable que
                                                              a
m´s explica el precio de la vivienda y hemos dejado las variables que no eran significativas una
  a
vez que inclu´
             ıamos esta variable. Podr´ıamos argumentar que de esta forma se podr´ analizar el
                                                                                   ıa
efecto de BEDRMS y BATHS, ya que F2 parec´ recoger la informaci´n relevante de estas dos
                                                ıa                    o
variables.
Si lo comparamos con el Modelo 3, que es en el que est´ anidado el Modelo 4, se obtiene
                                                           a
menor valor de R      ¯
                  2 y R2 , mayor valor de AIC, BIC y HQC, mayor suma de cuadrados residual

y mayor desviaci´n t´
                  o ıpica de los residuos. Todos ellos se˜alan en la misma direcci´n siendo,
                                                          n                         o
en t´rminos de estos criterios, peor modelo el 4. Vemos que el omitir F2 empeora mucho el
     e
ajuste sin compensar por la ganancia en grados de libertad. Adem´s cambia sustancialmente la
                                                                  a
estimaci´n y la significatividad del coeficiente que acompa˜a a BATHS, pasando la estimaci´n
         o                                                n                                o
de signo positivo a negativo y ser significativamente distinto de cero al 5 % de significaci´n.
                                                                                          o
¿Qu´ puede estar ocurriendo? ¿Ser´n esta estimaci´n y este contraste fiables si hemos omitido
     e                              a              o
una variable que parece ser relevante? ¿Se ver´n afectadas las propiedades del estimador MCO
                                              a
por esta omisi´n? Todo esto lo veremos en el tema de error de especificaci´n.
              o                                                           o




3.5.     Ejercicios para practicar

Ejercicio 1:
El Departamento de Sanidad de E.E.U.U. quiere estudiar la relaci´n entre el gasto sanitario agre-
                                                                  o
gado en billones de d´lares (exphlth), la renta personal disponible agregada tambi´n en billones
                     o                                                             e
de d´lares (income), el porcentaje de poblaci´n que supera los 65 a˜os en el a˜o 2005 (seniors)
     o                                         o                     n         n
y la poblaci´n en millones (pop). Para ello encarga un estudio a dos becarios de la facultad de
            o
Econ´micas de Harvard poniendo a su disposici´n datos de 2005 para dichas variables sobre 51
      o                                          o

                                                70
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                           SARRIKO-ON 8/09


estados americanos13 .



   1. Escribe la ecuaci´n del modelo que te permita analizar la influencia de las variables expli-
                       o
      cativas income, seniors y pop sobre la variable exphlth.

   2. Interpreta los coeficientes del modelo anterior.

   3. Estima la ecuaci´n propuesta por MCO. Interpreta los coeficientes estimados del modelo.
                      o
      ¿Son sus signos coherentes con la teor´ econ´mica?
                                            ıa    o

   4. Contrasta la significatividad individual de las variables explicativas del modelo. Escribe
      los supuestos necesarios sobre la perturbaci´n para que los estad´
                                                  o                    ısticos tengan validez.

   5. Contrasta la significatividad conjunta de las variables explicativas.

   6. Interpreta el coeficiente de determinaci´n del modelo.
                                             o

   7. Obt´n los siguientes gr´ficos y comenta la informaci´n que te proporcionan:
         e                   a                           o

           a) Gr´fico de la serie de residuos MCO.
                a
           b) Gr´fico de residuos MCO sobre la variable pop.
                a
           c) Gr´fico de residuos MCO sobre la variable income.
                a


Ejercicio 2:
Se quiere analizar la demanda de helado de mediados del siglo pasado en un estado de EEUU.
Para ello se dispone de una base de datos de 30 observaciones recogidos cada cuatro semanas
durante los a˜os 1951 a 1953, concretamente desde el 18 de marzo hasta el 11 de julio14 . Las
              n
variables que se consideran son:


       Q   Consumo per capita de helado en pintas, (Rango 0,256 - 0,548)
       P   Precio por pinta de helado en d´lares, (Rango 0,26 - 0,292)
                                          o
       I   Renta familiar disponible semanal, en d´lares (Rango 76 - 96)
                                                  o
       F   Temperatura media en grados Fahrenheit, (Rango 24 - 72)


   1. Dado que no se est´ acostumbrado a las unidades de medida americanas y sabiendo que
                          a
      una pinta equivale a 0,473 litros, un grado cent´
                                                      ıgrado son 1,8 grados Fahrenheit y que
      el d´lar est´ a 0,766 euros, cambia las unidades de las variables de forma que est´n en
          o       a                                                                     e
      unidades espa˜olas.
                    n

   2. Especifica un modelo en el que relaciones el consumo de helado (Q) con el precio (P), la
      renta (I) y el cuadrado de la temperatura (F 2 ).

   3. Interpreta los coeficientes del modelo.
  13
     Fichero data8-3.gdt. Fuente: Statistical Abstract of U.S. (1995), recogida en Ramanathan, R. (2002), Intro-
ductory econometrics with applications, 5th. Ed., South-Western.
  14
     Fichero data9-1.gdt. Fuente: Datos del art´ ıculo de Hildreth, C. y J. Lu (1960), “Demand relations with
autocorrelated disturbances”, Technical Bulletin No 2765, Michigan State University, recogida en Ramanathan,
R. (2002), Introductory econometrics with applications, 5th. Ed., South-Western.


                                                      71
SARRIKO-ON 8/09                                         Econometr´ B´sica Aplicada con Gretl
                                                                 ıa a


  4. Estima el modelo por M´  ınimos Cuadrados Ordinarios (MCO). ¿Son los signos de los coe-
     ficientes estimados los esperados?

  5. Si la temperatura media de las cuatro primeras semanas hubiese aumentado un grado
     cent´
         ıgrado manteni´ndose constantes los valores del resto de las variables, ¿en cu´nto esti-
                        e                                                              a
     mas la variaci´n del consumo per capita de helados correspondiente a ese mismo periodo?
                   o
     ¿Y si la temperatura en ese periodo hubiera sido de 25 grados cent´ ıgrados? ¿Y si hubiera
     sido de 40 grados cent´ıgrados?

  6. Comenta los resultados obtenidos en cuanto a la significatividad de las variables y la
     bondad de ajuste.

  7. Si la renta disponible semanal aumentara en un euro manteni´ndose constantes las dem´s
                                                                e                        a
     variables:

      a) ¿En cu´nto estimas que se incremente la demanda de helados semanal?
               a
      b) ¿Es posible que dicho incremento fuera de un mililitro?




                                              72
Tema 4

Contrastes de restricciones lineales y
predicci´n
        o

4.1.       Contrastes de restricciones lineales

En el Tema 3 hemos estudiado la forma m´s com´n de realizar los contrastes de significatividad
                                           a      u
individual y el contraste de significatividad conjunta sobre los coeficientes que acompa˜an an
las variables explicativas en un modelo de regresi´n lineal general. Estos contrastes son los
                                                     o
m´s habituales y en general cualquier programa econom´trico, como tambi´n es el caso de
  a                                                          e                  e
Gretl, muestra por defecto los valores de los estad´
                                                   ısticos correspondientes para contrastar estas
restricciones en el mismo output de estimaci´n.
                                              o
En ocasiones, adem´s de ´stas, tambi´n podemos estar interesados en contrastar hip´tesis que
                   a    e             e                                            o
implican otro tipo de restricciones lineales en los coeficientes poblacionales del modelo. En
general, podemos denotar la hip´tesis nula y la alternativa como:
                                o
       H0 :     R       ·     β       =     r
              (q × K)       (K × 1)       (q × 1)

       Ha : Rβ = r


siendo q el n´mero de restricciones bajo la hip´tesis nula y K el n´mero de par´metros en el
              u                                 o                  u           a
modelo no restringido. La hip´tesis alternativa implicar´ que al menos una de las igualdades
                             o                          ıa
no se satisface 1.

Por ejemplo en el modelo sobre el precio de la vivienda que hemos visto ya en temas anteriores,
                               Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui            (4.1)
podemos expresar de esta forma los siguientes contrastes:

  1. Contraste de significaci´n individual de la variable BEDRM S: H0 : β3 = 0
                            o
                                                                            
                                                                          β1
                                                                         β2 
                                          H0 : Rβ = r ⇒    0 0 1 0          
                                                                         β3  = 0
                                                                          β4
  1
      Cuidado que esto no es lo mismo que todas las igualdades no se satisfagan.


                                                          73
SARRIKO-ON 8/09                                           Econometr´ B´sica Aplicada con Gretl
                                                                   ıa a


  2. Contraste de significaci´n conjunta: H0 : β2 = β3 = β4 = 0
                            o
                                                               
                                                     β1     
                                                            
                                          0 1 0 0           0
                                                      β
                          H0 : Rβ = r ⇒  0 0 1 0   2  =  0 
                                                     β3 
                                          0 0 0 1             0
                                                      β4

  3. Contraste de un subconjunto de coeficientes igual a cero, por ejemplo los que acompa˜an
                                                                                        n
     a las variables BEDRMS y BATHS: H0 : β3 = β4 = 0


                                                                    
                                                                  β1
                                                 0 0 1 0         β2            0
                          H0 : Rβ = r ⇒                             
                                                 0 0 0 1         β3  =         0
                                                                  β4

Podemos ilustrar el inter´s de contrastar otro tipo de restricciones lineales en el siguiente modelo
                         e
para la inversi´n agregada de un pa´
               o                     ıs,

     IN V ERRt = β1 + β2 t + β3 P N BRt + β4 IN T ERESt + β5 IN F LACIONt + ut                 (4.2)

donde las variables implicadas son:
   INVERR:          Inversi´n agregada,, en t´rminos reales.
                           o                   e
   t:               Tiempo t = 1, 2, . . . , T
   PNBR:            Producto Nacional Bruto, en t´rminos reales.
                                                  e
   INTERES:         Tipo de Inter´s nominal.
                                 e
   INFLACION:       Tasa de Inflaci´n.
                                   o
Adem´s de realizar los contrastes de significatividad individual y conjunta, podr´
      a                                                                         ıamos estar
interesados en contrastar las siguientes restricciones lineales:

  1. H0 : β3 = 1, la propensi´n marginal a invertir es igual a 1, esto es, si aumenta el PNB real
                             o
     en una unidad, la inversi´n aumentar´ en la misma proporci´n, manteniendo el valor del
                               o           a                         o
     resto de variables constante.
                                                                            
                                                                        β1
                                                                       β2   
                                                                            
                           H0 : Rβ = r ⇒         0 0 1 0 0             β3   =1
                                                                            
                                                                       β4   
                                                                        β5

  2. H0 : β4 + β5 = 0, los inversores tienen en cuenta el tipo de inter´s real. Esto es, la inversi´n
                                                                       e                           o
     no variar´ si un aumento del tipo de inter´s nominal viene acompa˜ado por un aumento
              a                                   e                          n
     de la misma magnitud de la tasa de inflaci´n, manteniendo el resto de factores constantes.
                                                 o
                                                                     
                                                                  β1
                                                                β2 
                                                                     
                         H0 : Rβ = r ⇒        0 0 0 1 1  β3  = 0
                                                                     
                                                                β4 
                                                                  β5

                                                 74
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                       SARRIKO-ON 8/09


  3. H0 : β2 = 0, β3 = 1, β4 + β5 = 0. Contraste conjunto de las dos restricciones anteriores
     adem´s de la restricci´n de que la inversi´n en media no presenta una tendencia lineal.
          a                o                   o
                                                                              
                                                                        β1      
                                         0 1 0 0 0                      β2   
                                                                                  0
                         H0 : Rβ = r ⇒  0 0 1 0 0                      β3   = 1 
                                                                              
                                         0 0 0 1 1                       β4      0
                                                                          β5

El siguiente estad´
                  ıstico, conocido como estad´ıstico F de Wald, se puede utilizar para contrastar
una o m´s restricciones lineales en el contexto de un MRLG. Esta forma de realizar el contraste
         a
solamente requiere estimar el modelo sin restringir.
Como ya hemos visto en el Tema 3, bajo las hip´tesis b´sicas la distribuci´n del estimador MCO
                                                o       a                  o
                              ˆ ∼ N (β, σ 2 (X X)−1 ). Por lo tanto, dado que R es una matriz de
del modelo sin restringir es: β
constantes de rango q, se tiene que bajo la hip´tesis nula:
                                                 o

                                  ˆ
                                 Rβ ∼ N (       r     , σ 2 R(X X)−1 R )                       (4.3)
                                (q × 1)     (q × 1)
                                                            (q×q)

Utilizando este resultado y el estimador σ 2 = Tu u del par´metro σ 2 , tenemos que el estad´
                                         ˆ      ˆ ˆ
                                                −K          a                               ıstico
de contraste y su distribuci´n bajo la hip´tesis nula es el siguiente:
                            o             o

                          ˆ                        ˆ
                        (Rβ − r) [R(X X)−1 R ]−1 (Rβ − r)/q          H0
                  F =                                                ∼ F(q, T − K)             (4.4)
                                   u u/(T − K)
                                    ˆˆ

                                        ˆ
Si no es cierta la H0 , la diferencia (Rβ −r) ser´ grande por lo que el estad´
                                                 a                           ıstico F tomar´ valores
                                                                                           a
grandes en ese caso. Rechazaremos la H0 con un nivel de significatividad α si el valor muestral
del estad´ıstico es mayor que el valor cr´  ıtico, F > F(q, T − K)α , no rechazando H0 en caso
contrario.


4.2.     Contrastes utilizando Gretl

En esta secci´n vamos a utilizar Gretl para contrastar las restricciones vistas en los ejemplos
              o
anteriores utilizando ese estad´
                               ıstico. En general, una vez que hemos le´ los datos de las variables
                                                                       ıdo
de inter´s la forma de proceder es la siguiente:
        e

   • Especificar y estimar por MCO el modelo sin imponer las restricciones o el modelo no
     restringido en Modelo ⇒ M´ ınimos cuadrados ordinarios

   • En la ventana donde se muestran los resultados de la estimaci´n del modelo no restringido,
                                                                  o
     gretl: modelo1 elegir Contrastes ⇒ Restricciones lineales

   • Dentro de la ventana que aparece gretl: restricciones lineales podemos escribir las restric-
     ciones a contrastar.
       Cada restricci´n del conjunto de restricciones tiene que ir en una l´
                     o                                                     ınea como una ecuaci´n,
                                                                                                 o
       donde a la izquierda del signo igual tiene que ir la combinaci´n lineal de los par´metros y a
                                                                     o                   a
       la derecha el valor num´rico correspondiente. Los par´metros en la restricci´n se denotan
                               e                               a                       o

                                                    75
SARRIKO-ON 8/09                                          Econometr´ B´sica Aplicada con Gretl
                                                                  ıa a


     de la forma bJ donde J representa la posici´n en la lista de regresores comenzando por
                                                 o
     J= 1. Lo que nosotros hemos denotado en el MRLG como β1 , coeficiente que normalmente,
     aunque no necesariamente, acompa˜a a la constante, en Gretl se denomina b1, nuestro β2
                                         n
     es b2, β3 es b3 y as´ sucesivamente con todos los coeficientes del modelo.
                         ı

En el ejemplo del modelo para el precio de la vivienda, que hemos utilizado en el Tema 3,
vamos a contrastar la hip´tesis de que conjuntamente variaciones en el n´mero de habitaciones y
                         o                                              u
el n´mero de ba˜os, manteniendo el tama˜o de la vivienda constante, no influyen en el precio de
    u          n                          n
la vivienda. Vamos a denotar los coeficientes como Gretl lo har´ suponiendo que al especificar
                                                               ıa,
el modelo mantenemos el mismo orden en el listado de variables explicativas

                      Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui                      (4.5)

Una vez estimado el modelo con Modelo ⇒ M´      ınimos cuadrados ordinarios, en la ventana de
resultados de la estimaci´n gretl:modelo1 seleccionamos con el cursor
                         o

                              Contrastes ⇒ Restricciones lineales

Aparecer´ la ventana gretl: restricciones lineales. Dentro de la ventana escribimos
        a
            b3=0
            b4=0
Al seleccionar Aceptar en esta ventana obtenemos los siguientes resultados:

Conjunto de restricciones
 1: b[BEDRMS] = 0
 2: b[BATHS] = 0

Estad´stico de contraste:
     ı

F(2, 10) = 0,471106, con valor p = 0,637492

Estimaciones restringidas:

 VARIABLE          COEFICIENTE          DESV.T´P.
                                              I         ESTAD T   VALOR P
  const              52,3509            37,2855           1,404   0,18565
  F2                  0,138750           0,0187329        7,407 <0,00001
  BEDRMS              0,000000           0,000000           indefinido
  BATHS               0,000000           0,000000           indefinido

  Desviaci´n t´pica de los residuos = 39,023
          o   ı

No rechazamos la hip´tesis nula al nivel de significaci´n por ejemplo del 5 % ya que el valor
                       o                                 o
p = 0, 637492 > 0, 05. Si miramos a las tablas de la distribuci´n F con 2 y 10 grados de libertad,
                                                               o
eligiendo en la ventana principal de Gretl

                   Herramientas → Tablas estad´
                                              ısticas → F con gln 2 y gld 10

obtenemos la siguiente informaci´n,
                                o

                                               76
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                SARRIKO-ON 8/09


Valores cr´ticos aproximados de F(2, 10)
          ı
 10% en la cola derecha 2,92
  5%               4,10
  1%               7,56

De igual forma vemos que, para los tres niveles de significaci´n del 1, 5 y 10 % no se rechaza
                                                                o
la hip´tesis nula, ya que el valor muestral del estad´
       o                                              ıstico es menor que el valor cr´
                                                                                     ıtico corres-
pondiente. Adem´s tambi´n se muestran las estimaciones del modelo restringido bajo esas dos
                  a        e
restricciones. Notar que los coeficientes que acompa˜an a BEDRMS y BATHS son igual a cero
                                                     n
y sus desviaciones t´
                    ıpicas tambi´n. La raz´n es que esos coeficientes no son estimaciones ya que
                                 e        o
toman un valor dado conocido.
Cuando las restricciones a contrastar son simplemente de exclusi´n de uno o m´s regresores del
                                                                o             a
modelo de partida, otra forma de llevar a cabo este contraste en Gretl es elegir en el men´ de
                                                                                          u
la ventana de estimaci´n del modelo de partida,
                      o

                                 Contrastes ⇒ Omitir variables

Seguidamente en la ventana que surge, gretl: contrastes del modelo, se seleccionan las va-
riables que acompa˜an a los coeficientes que bajo la hip´tesis nula son cero. En el ejemplo en
                  n                                      o
concreto que estamos viendo, ser´ elegir las variables BEDRMS y BATHS. Al pulsar Aceptar se
                                ıa
muestra una nueva ventana con la estimaci´n del modelo restringido bajo esas dos restricciones
                                           o

                                      Pi = β1 + β2 F 2i + ui                                 (4.6)

que implican excluir de la regresi´n a BEDRMS y BATHS,
                                  o
 Modelo Restringido: estimaciones MCO utilizando las 14
 observaciones 1-14
 Variable dependiente: P

   VARIABLE       COEFICIENTE                 ´
                                        DESV.TIP.        ESTAD T       VALOR P
   const           52,3509              37,2855            1,404        0,18565
   F2               0,138750             0,0187329         7,407       <0,00001 ***

  Media de la var. dependiente = 317,493
  Desviaci´n t´pica de la var. dependiente. = 88,4982
          o   ı
  Suma de cuadrados de los residuos = 18273,6
  Desviaci´n t´pica de los residuos = 39,023
          o   ı
  R-cuadrado = 0,820522
  R-cuadrado corregido = 0,805565
  Grados de libertad = 12
  Log-verosimilitud = -70,0842
  Criterio de informaci´n de Akaike (AIC) = 144,168
                        o
  Criterio de informaci´n Bayesiano de Schwarz (BIC) = 145,447
                        o
  Criterio de Hannan-Quinn (HQC) = 144,05



 Comparaci´n entre el modelo restringido y no
          o
restringido:

                                               77
SARRIKO-ON 8/09                                                 Econometr´ B´sica Aplicada con Gretl
                                                                         ıa a



Hip´tesis nula: los par´metros de regresi´n son cero para las
   o                   a                 o
variables
    BEDRMS
    BATHS

Estad´stico de contraste:
     ı
 F(2, 10) = 0,471106, con valor p = 0,637492

La ventaja de realizar de esta forma el contraste es que, adem´s de tener la estimaci´n del
                                                              a                      o
modelo restringido (4.6), en esta nueva ventana tenemos otra vez todos los men´s que Gretl
                                                                               u
ofrece para el an´lisis de esta nueva especificaci´n2 .
                 a                               o
En esta ventana tambi´n se muestra el resultado del contraste, esto es, el valor muestral del
                        e
estad´
     ıstico F que contrasta esas dos restricciones de exclusi´n, y el valor-p. Como se puede
                                                              o
observar, el resultado que se obtiene es exactamente el mismo que el que se ofrece en la ventana
gretl: restricciones lineales.
Seguidamente vamos a utilizar el ejemplo del modelo de la Funci´n de Inversi´n, para ilustrar
                                                                  o         o
otro tipo de restricciones lineales que no sean simplemente de exclusi´n.
                                                                      o
Escribimos el modelo no restringido

       IN V ERRt = β1 + β2 t + β3 P N BRt + β4 IN T ERESt + β5 IN F LACIONt + ut                        (4.7)

y para el an´lisis usamos los datos3 de la Tabla 4.1.
            a
Las series de Inversi´n y Producto Nacional Bruto en t´rminos reales, INVERR y PNBR, se
                      o                                    e
han obtenido de dividir las series nominales por el IPC con a˜o base en 1972 y multiplicar por
                                                               n
10−1 , tal que est´n medidas en trillones de d´lares. La tasa de inflaci´n se ha calculado como el
                  a                           o                        o
porcentaje de variaci´n del IPC. Por lo tanto, los datos utilizados para estimar el modelo, son
                      o
finalmente los que aparecen en la Tabla 4.2.




   2
                                  a ˆ     ˆ    ˆ
      El estimador restringido ser´ βR = βR,1 βR,2 0 0            ˆ       ˆ
                                                           donde βR,1 y βR,2 son los obtenidos de la regresi´n
                                                                                                            o
excluyendo BEDRMS y BATHS.
    3
      Corresponden a la Tabla F3.1 publicada en Greene (2008), p.1082 y disponible en:
http://pages.stern.nyu.edu/∼wgreene/Text/econometricanalysis.htm. Fuente: Economic Report of the Pre-
sident, U.S. Government Printing Office, Washington, D.C., 1983. El IPC de 1967 es 79,06. El tipo de inter´s es
                                                                                                         e
el promedio anual de la tasa de descuento del Banco de la Reserva Federal de Nueva York.


                                                     78
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                  SARRIKO-ON 8/09


             A˜o
              n     PNB nominal     Inversi´n nominal
                                           o                 IPC      Tipo de Inter´s
                                                                                   e

             1968       73,4              133,3             82,54         5,16
             1969      944,0              149,3             86,79         5,87
             1970      992,7              144,2             91,45         5,95
             1971      1077,6             166,4             96,01         4,88
             1972      1185,9             195,0             100,00        4,50
             1973      1326,4             229,8             105,75        6,44
             1974      1434,2             228,7             115,08        7,83
             1975      1549,2             206,1             125,79        6,25
             1976      1718,0             257,9             132,34        5,50
             1977      1918,3             324,1             140,05        5,46
             1978      2163,9             386,6             150,42        7,46
             1979      2417,8             423,0             163,42        10,28
             1980      2633,1             402,3             178,64        11,77
             1981      2937,7             471,5             195,51        13,42
             1982      3057,5             421,9             207,23        11,02


                 Tabla 4.1: Datos para el estudio de la Funci´n de Inversi´n
                                                             o            o

                    A˜o
                     n     INVERR     PNBR        INFLACION          INTERES

                    1968    0,161      1,058         4,40             5,16
                    1969    0,172      1,088         5,15             5,87
                    1970    0,158      1,086         5,37             5,95
                    1971    0,173      1,122         4,99             4,88
                    1972    0,195      1,186         4,16             4,50
                    1973    0,217      1,254         5,75             6,44
                    1974    0,199      1,246         8,82             7,83
                    1975    0,163      1,232         9,31             6,25
                    1976    0,195      1,298         5,21             5,50
                    1977    0,231      1,370         5,83             5,46
                    1978    0,257      1,439         7,40             7,46
                    1979    0,259      1,479         8,64             10,28
                    1980    0,225      1,474         9,31             11,77
                    1981    0,241      1,503         9,44             13,42
                    1982    0,204      1,475         5,99             11,02


                            Tabla 4.2: Datos en t´rminos reales
                                                 e

Primeramente creamos el fichero de datos a partir de la tabla anterior incluyendo la variable
t = 1, . . . , 15, con la opci´n de Gretl
                              o

                            Archivo → Nuevo conjunto de datos

Seguidamente estimamos por MCO el modelo no restringido arriba especificado, eligiendo en el
men´ Modelo → M´
    u             ınimos Cuadrados ordinarios y obtenemos los siguientes resultados




                                               79
SARRIKO-ON 8/09                                         Econometr´ B´sica Aplicada con Gretl
                                                                 ıa a


            Modelo 1: estimaciones MCO utilizando las 15 observaciones 1968–1982
                               Variable dependiente: INVERR
Variable               Coeficiente             Desv. t´ıpica        Estad´
                                                                        ıstico t        valor p
const                     −0,509071                   0,0551277          −9,2344         0,0000
t                         −0,0165804                  0,00197176         −8,4089         0,0000
PNBR                       0,670383                   0,0549972          12,1894         0,0000
INTERES                   −0,00232593                 0,00121887         −1,9083         0,0854
INFLACION                 −9,40107e-05                0,00134748         −0,0698         0,9458
                 Media de la var. dependiente                       0,203333
                 D.T. de la variable dependiente                    0,0341774
                 Suma de cuadrados de los residuos                  0,000450812
                 Desviaci´n t´
                           o ıpica de los residuos (ˆ )
                                                    σ               0,00671425
                 R2                                                 0,972433
                  ¯
                 R2 corregido                                       0,961406
                 F (4, 10)                                         88,1883
               Estad´ıstico de Durbin–Watson                             1,96364
               Coef. de autocorr. de primer orden                      −0,0981367
               Criterio de informaci´n de Akaike
                                    o                                −103,62
               Criterio de informaci´n Bayesiano de Schwarz
                                    o                                −100,07

Contrastes de restricciones lineales:

  a) Contraste de que la propensi´n marginal a invertir es la unidad, H0 : β3 = 1, frente a
                                   o
     la hip´tesis alternativa de que es distinto de la unidad. En la ventana gretl: modelo1
           o
     seleccionamos Contrastes → Restricciones lineales y en la ventana que surge escribimos
     b3 = 1. Al aceptar se obtiene el siguiente resultado,
     Restricci´n:
              o
      b[PNBR] = 1
     Estad´stico de contraste:
          ı
     F(1, 10) = 35,92, con valor p = 0,000133289

     Estimaciones restringidas:

     VARIABLE    COEFICIENTE                   ´
                                         DESV.TIP.      ESTAD T       VALOR P
       const        -0,837112            0,0134320     -62,322     <0,00001 ***
       t            -0,0276707           0,00139136    -19,888     <0,00001 ***
       PNBR          1,00000             0,000000       indefinido
       INTERES      -0,00311914          0,00247563     -1,260      0,23377
       INFLACION    -0,000342359         0,00275183     -0,124      0,90323

     Desviaci´n t´pica de los residuos = 0,0137184
             o   ı

     Se muestran tambi´n las estimaciones de los coeficientes del modelo restringido, donde se
                          e
     ha impuesto que el coeficiente que acompa˜a a PNBR es igual a la unidad. Como damos
                                                n
     ese valor a β3 , no estamos estimando ese coeficiente, por lo tanto su desviaci´n t´
                                                                                   o ıpica es
     cero y el estad´ıstico t no est´ definido.
                                    a
     Dado que el valor-p, asociado al valor muestral del estad´
                                                              ıstico de contraste, es m´s peque˜o
                                                                                       a       n
     que 0, 01 se rechaza la hip´tesis nula al 1 % de significaci´n.
                                o                               o

                                              80
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                SARRIKO-ON 8/09


  b) Contraste de que la inversi´n real responde al tipo de inter´s real, H0 : β4 + β5 = 0, frente
                                o                                e
     a Ha : β4 + β5 = 0. De la misma forma que antes, en la ventana gretl: modelo1 seleccio-
     namos Contrastes → Restricciones lineales. En la nueva ventana que aparece escribimos
     b4+b5= 0. Al aceptar se obtiene el siguiente resultado

     Restricci´n:
              o
      b[INTERES] + b[INFLACION] = 0

     Estad´stico de contraste:
          ı
       F(1, 10) = 3,25354, con valor p = 0,10143

     Estimaciones restringidas:
       VARIABLE COEFICIENTE                  ´
                                       DESV.TIP.      ESTAD T      VALOR P
       const      -0,505855            0,0604801     -8,364       <0,00001 ***
       t          -0,0170255           0,00214732    -7,929       <0,00001 ***
       PNBR        0,657533            0,0598599     10,985       <0,00001 ***
       INTERES    -0,00133784          0,00119517    -1,119        0,28683
       INFLACION   0,00133784          0,00119517     1,119        0,28683

     De nuevo se muestran las estimaciones del modelo restringido. En este caso se estiman
     todos los coeficientes bajo la restricci´n de que β4 = −β5 . El coeficiente estimado que
                                            o
     acompa˜a a INTERES es el mismo valor pero con signo contrario que el obtenido para el
            n
     coeficiente de INFLACION. Este resultado surge de la restricci´n impuesta (β4 = −β5 ).
                                                                     o
     De igual forma coinciden las varianzas estimadas y las desviaciones t´
                                                                          ıpicas.
     Dado que el valor-p, asociado al valor muestral del estad´  ıstico de contraste, es mayor que
     0, 1 no se rechaza la hip´tesis nula al 10 % (ni al 5 % o 1 %) de significaci´n.
                              o                                                   o

  c) Por ultimo, realizamos el contraste conjunto de estas dos restricciones lineales, la propen-
          ´
     si´n marginal a invertir es la unidad y la inversi´n real responde al tipo de inter´s real.
       o                                                o                                 e
     Esto es H0 : β3 = 1, β4 + β5 = 0 frente a la alternativa de que al menos una de ellas no se
     satisface, Ha : β3 = 1, y  o β4 + β5 = 0.
     De nuevo, en la ventana gretl: modelo1 seleccionamos

                                  Contrastes → Restricciones lineales

     y escribimos
                        b3=1
                        b4+b5=0
     Al aceptar se obtiene el siguiente resultado:

     Conjunto de restricciones
      1: b[PNBR] = 1
      2: b[INTERES] + b[INFLACION] = 0

     Estad´stico de contraste:
          ı
        F(2, 10) = 21,3453, con valor p = 0,000246226

     Estimaciones restringidas:

                                               81
SARRIKO-ON 8/09                                              Econometr´ B´sica Aplicada con Gretl
                                                                      ıa a


        VARIABLE     COEFICIENTE        DESV.T´P.
                                              I          ESTAD T   VALOR P
         const       -0,851039          0,00799803       -106,406   <0,00001 ***
         t           -0,0289471         0,000989688      -29,249    <0,00001 ***
         PNBR         1,00000           0,000000         indefinido
         INTERES     -0,00172664        0,00227790        -0,758    0,46308
         INFLACION    0,00172664        0,00227790         0,758    0,46308

         Desviaci´n t´pica de los residuos = 0,0140693
                 o   ı

       Se rechaza la hip´tesis nula al 1 % de significaci´n, ya que el valor-p es menor que 0,01.
                         o                               o
       Por lo tanto, al menos una de las restricciones parece no satisfacerse. Viendo los resultados
       de los contrastes individuales, parece que la evidencia es contra la primera restricci´n.
                                                                                              o


4.3.     Estimaci´n bajo restricciones lineales
                 o

El estimador resultante de minimizar la suma de los residuos al cuadrado sujeto a restricciones
lineales del tipo Rβ = r, esto es

                        N
                  m´
                   ın             ˆ      ˆ          ˆ                  ˆ
                            (Yi − βR,1 − βR,2 X2i − βR,3 X3i − · · · − βR,K XKi )2
                   ˆ
                   βR i=1

                                          sujeto a         ˆ
                                                          RβR = r

se puede expresar como:


                            ˆ    ˆ                                −1     ˆ
                            βR = β − (X X)−1 R R(X X)−1 R              (Rβ − r)                (4.8)
        ˆ
donde β = (X X)−1 X Y es el estimador de los par´metros β sin imponer las restricciones. Dado
                                                    a
                                 ˆ
que el estimador no restringido β se ha obtenido sin imponer que ´ste satisfaga tales restricciones,
                                                                  e
en general (Rβ ˆ − r) = 0. La soluci´n restringida, βR , es igual a la soluci´n no restringida, β,
                                     o                ˆ                      o                    ˆ
menos un t´rmino de ajuste que tiene en cuenta en qu´ medida la soluci´n no restringida no
             e                                            e                  o
                                                    ˆ
satisface las restricciones. Si hemos obtenido ya β podemos utilizar directemente la expresi´n   o
(4.8) para obtener el estimador de β restringido, es decir βˆR .

Hemos visto en la secci´n anterior que el programa Gretl muestra las estimaciones del modelo
                        o
restringido cuando se selecciona la opci´n de contrastar restricciones lineales, a la vez que el
                                         o
valor muestral del estad´
                        ıstico de contraste.
Otra posibilidad es la de estimar el modelo imponiendo la o las restricciones. Cuando las res-
tricciones implican solamente la exclusi´n de variables explicativas del modelo de partida, no
                                         o
hay mayor problema en llevar a cabo la estimaci´n del modelo restringido. Bien se realiza la
                                                    o
regresi´n eliminando del listado de regresores esas variables o, como hemos visto antes en Gretl,
       o
se puede utilizar la opci´n Contrastes ⇒ Omitir variables a la vez que se contrasta.
                         o
Si las restricciones no son simplemente de exclusi´n, entonces se pueden sustituir en el modelo de
                                                  o
partida y reorganizarlo en funci´n del conjunto de (K −q) par´metros que quedan sin determinar.
                                 o                            a
Una ventaja de proceder as´ es que se dispone de las mismas opciones que en la ventana de
                               ı
estimaci´n de un modelo por m´
          o                       ınimos cuadrados ordinarios. Por ejemplo, se pueden hacer otro
tipo de contrastes en el modelo restringido, guardar sus residuos, etc.

                                                    82
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                               SARRIKO-ON 8/09


Por ejemplo, si queremos obtener el estimador de los par´metros bajo la restricci´n de
                                                        a                        o
que la propensi´n marginal a invertir sea la unidad, podemos hacerlo sustituyendo en el
                 o
modelo

    IN V ERRt = β1 + β2 t + β3 P N BRt + β4 IN T ERESt + β5 IN F LACIONt + ut              (4.9)

la restricci´n β3 = 1 y reorganizar tal que nos quedar´ la siguiente regresi´n:
            o                                         ıa                    o

      IN V ERRt − P N BRt = β1 + β2 t + β4 IN T ERESt + β5 IN F LACIONt + ut              (4.10)

en funci´n de K − q = 5 − 1 = 4 par´metros a estimar. El quinto ya est´ determinado por la res-
         o                         a                                  a
tricci´n. Definimos una nueva variable llam´mosla R, calculada como Rt = IN V ERRt −P N BRt ,
      o                                   e
utilizando la opci´n en Gretl de
                  o

                              Variable → Definir nueva variable

y en la ventana que aparece escribimos R = INVERR-PNBR. De esta forma se a˜ade la variable
                                                                                n
R al conjunto de variables disponibles que aparecen en la ventana principal o de inicio. Segui-
damente, se realiza la regresi´n de esta variable sobre la constante, t, INTERES e INFLACION
                              o
con Modelo → M´   ınimos cuadrados ordinarios y se obtienen los siguientes resultados:


   Modelo Restringido (4.10): estimaciones MCO utilizando las 15 observaciones 1968–1982
                                   Variable dependiente: R

Variable               Coeficiente                   Desv. t´
                                                           ıpica      Estad´
                                                                           ıstico t    valor p
const                     −0,837112                     0,0134320       −62,3223        0,0000
t                         −0,0276707                    0,00139136      −19,8875        0,0000
INTERES                   −0,00311914                   0,00247563       −1,2599        0,2338
INFLACION                 −0,000342359                  0,00275183       −0,1244        0,9032

             Media de la var. dependiente                             −1,0840
             D.T. de la variable dependiente                           0,131901
             Suma de cuadrados de los residuos                         0,00207013
             Desviaci´n t´
                       o ıpica de los residuos (ˆ )
                                                σ                      0,0137184
             R2                                                        0,991501
             ¯
             R2 corregido                                              0,989183
             F (3, 11)                                               427,751
             Estad´ ıstico de Durbin–Watson                            0,995558
             Coef. de autocorr. de primer orden.                       0,441936
             Log-verosimilitud                                        45,3774
             Criterio de informaci´n de Akaike
                                   o                                 −82,754
             Criterio de informaci´n Bayesiano de Schwarz
                                   o                                 −79,922
             Criterio de Hannan–Quinn                                −82,784

Recordamos lo que se obten´ al realizar el contraste de esa restricci´n en la ventana de estima-
                          ıa                                         o
ci´n por MCO del modelo no restringido mediante Contrastes → Restricciones Lineales:
  o
Restricci´n: b[PNBR] = 1
         o
Estad´stico de contraste: F(1, 10) = 35,92, con valor p = 0,000133289
     ı

                                               83
SARRIKO-ON 8/09                                                      Econometr´ B´sica Aplicada con Gretl
                                                                              ıa a


Estimaciones restringidas:
   VARIABLE COEFICIENTE     DESV.T´P.
                                  I      ESTAD T    VALOR P
    const     -0,837112     0,0134320   -62,322    <0,00001 ***
    t         -0,0276707    0,00139136 -19,888     <0,00001 ***
    PNBR       1,00000      0,000000    indefinido
    INTERES   -0,00311914   0,00247563   -1,260     0,23377
    INFLACION -0,000342359 0,00275183    -0,124     0,90323
  Desviaci´n t´pica de los residuos = 0,0137184
          o   ı

Los coeficientes estimados corresponden a las realizaciones del estimador de M´ınimos Cuadrados
Restringidos para los cuatro coeficientes que quedaban sin determinar por la restricci´n4 . El valor
                                                                                     o
para el coeficiente de PNBR viene dado por la restricci´n y es igual a la unidad. Su varianza
                                                         o
por lo tanto es igual a cero ya que su valor est´ dado.
                                                a
Hay que notar que el R2 , y por lo tanto el corregido, obtenidos en este ajuste no son comparables
con los resultantes de estimar el modelo no restringido, ya que en este caso la Suma de Cuadrados
Total corresponde a la variable R = IN V ERR −P N BR que es el regresando de esta regresi´n y  o
no a IN V ERR que es realmente la variable end´gena de inter´s a explicar. Para que los R2 sean
                                                  o             e
comparables entre el modelo no restringido y el restringido la Suma de Cuadrados Total tiene
que ser la misma. Veremos en la secci´n siguiente los que s´ son comparables y un estad´
                                       o                     ı                            ıstico de
contraste basado en ellos.


4.4.      Estad´
               ısticos equivalentes

Partimos del modelo Y = Xβ + u donde se quiere contrastar las restricciones lineales H0 :
Rβ = r. Podemos obtener la suma de los residuos al cuadrado y el coeficiente de determinaci´n     o
correspondientes a la estimaci´n del modelo sin restringir y al modelo restringido, de la siguiente
                              o
forma:
                                      ˆ           ˆ           2              uu
                                                                             ˆˆ
            SCRN R = u u = (Y − X β) (Y − X β)
                         ˆˆ                                 RN R = 1 −
                                                                          (Yt − Y )2

                                     ˆ           ˆ                          2               uR uR
                                                                                            ˆ ˆ
               SCRR = uR uR = (Y − X βR ) (Y − X βR )
                      ˆ ˆ                                                  RR = 1 −
                                                                                           (Yt − Y )2
Por otra parte, utilizando las sumas de cuadrados de los residuos correspondientes a la estimaci´n   o
del modelo restringido y no restringido, SCRR y SCRN R respectivamente y sus grados de
libertad, glR y glN R , es posible realizar el contraste de las restricciones lineales con el siguiente
estad´ıstico:
                                 (SCRR − SCRN R )/q H0
                            F =                           ∼ F(q, T − K)                          (4.11)
                                   SCRN R /(T − K)

N´tese que los grados de libertad de la distribuci´n del estad´
  o                                                  o            ıstico bajo la hip´tesis nula son
                                                                                     o
en el numerador glR − glN R = (T − (K − q)) − (T − K) = q, el n´mero de restricciones, y
                                                                         u
en el denominador glN R = T − K. Se puede demostrar que este estad´       ıstico es el mismo que el
estad´ıstico anterior (4.4). La diferencia radica en que calcularlo de esta forma requiere estimar
tanto el modelo sin restringir como el restringido.
   4
                                  a ˆ       ˆ     ˆ       ˆ
     El estimador restringido ser´ βR = βR,1 βR,2 1 βR,4 βR,5  ˆ             ˆ     ˆ      ˆ      ˆ
                                                                      donde βR,1 , βR,2 , βR,4 y βR,5 , son los obteni-
dos de la regresi´n bajo la restricci´n de que el coeficiente que acompa˜a al PNBR en el modelo para la Inversi´n
                 o                   o                                 n                                            o
real es igual a 1.


                                                          84
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                             SARRIKO-ON 8/09


Su interpretaci´n puede ser m´s intuitiva. Imponer restricciones en la estimaci´n siempre empeo-
                 o              a                                                 o
ra el ajuste tal que la diferencia de las sumas de cuadrados residuales del modelo restringido y no
restringido, (SCRR − SCRN R ), es mayor o igual a cero. Ahora bien, cuanto m´s grande sea esta
                                                                                   a
diferencia m´s evidencia habr´ de que las restricciones no sean ciertas, es decir contra la hip´te-
              a                 a                                                              o
sis nula. Se rechazar´ esta hip´tesis nula si el valor muestral del estad´
                       a          o                                        ıstico es suficientemente
grande como para caer en una regi´n cr´o    ıtica establecida.
Si dividimos numerador y denominador por la suma de cuadrados total SCT =                             t (Yt   − Y )2
                         ıstico en t´rminos de los coeficientes de determinaci´n5 :
podemos expresar el estad´          e                                        o
                                             2      2
                                           (RN R − RR )/q  H0
                                  F =          2 )/(T − K) ∼ F(q,T −K)                                        (4.12)
                                        (1 − RN R

El contraste se realizar´ del mismo modo que con los otros estad´
                        a                                       ısticos equivalentes.
Vamos a ilustrar esta forma de realizar el contraste en el ejemplo del modelo para la inversi´n   o
agregada. Para realizar el contraste de la restricci´n de que la propensi´n marginal a invertir
                                                      o                      o
es igual a la unidad, utilizamos las sumas de cuadrados residuales de la estimaci´n del modelo
                                                                                      o
restringido (4.10) y el modelo no restringido (4.9). Esto ya lo obtuvimos en la secciones anteriores.
En la ventana donde hemos realizado la regresi´n en cada caso podemos guardar las sumas de
                                                  o
cuadrados residuales y a˜adirlo a las variables ya definidas con Guardar → Suma de cuadrados
                          n
de lo residuos. En concreto se obtienen las siguientes sumas de cuadrados residuales:

                         SCRR = 0, 00207013                  SCRN R = 0, 000450812

                        ıstico (4.11) obtenemos el siguiente valor muestral6 :
Sustituyendo en el estad´

                          (0, 00207013 − 0, 000450812)/(15 − 4) − (15 − 5)
                   F =                                                     = 35, 92
                                       0, 000450812/(15 − 5)
siendo este el mismo valor que obtuvimos anteriormente con el estad´ ıstico utilizando Contrastes
→ Restricciones lineales, y por lo tanto obtenemos la misma conclusi´n del contraste, se rechaza
                                                                     o
la hip´tesis nula de que la propensi´n marginal a invertir sea la unidad.
      o                              o
A su vez, utilizando el dato que nos da Gretl de la Desviaci´n t´
                                                            o ıpica para la variable dependiente
IN V ERR, podemos obtener la Suma de Cuadrados Total como,

                        SCT      = (IN V ERRt − IN V ERR)2 =
                                 = (15 − 1)(D.T. IN V ERR)2 = 14(0, 0341774)2
                                                                        2
obteniendo el valor SCT = 0, 016353325. Por lo tanto la realizaci´n de RR es en este caso,
                                                                 o

                     2           uR uR
                                 ˆ ˆ
                    RR = 1 −           = 1 − (0, 00207013/0, 016353325) = 0, 87341
                                 SCT
que no coincide con el que muestra la regresi´n del modelo (4.10). Esta vez este valor s´ es
                                              o                                          ı
comparable con el valor obtenido para el coeficiente de determinaci´n de estimar el modelo no
                                                                  o
   5
    Este es el estad´
                    ıstico que se introdujo en el Tema 3. En ese tema se vi´ como caso particular el estad´
                                                                           o                              ıstico de
significaci´n conjunta
          o

                                R2 /(K − 1)        R2     (T − K) H0
                       F =          2         =                   ∼ F (K − 1, T − K)
                             (1 − R )/(T − K)   (1 − R2 ) (K − 1)
                2
En ese caso RR = 0
   6
     Se puede hacer el c´lculo con Gretl utilizando Datos → Definir nueva variable y escribiendo la f´rmula del
                         a                                                                          o
estad´ıstico en t´rminos de los nombres asignados a las variables sumas de cuadrados residuales.
                  e


                                                        85
SARRIKO-ON 8/09                                                  Econometr´ B´sica Aplicada con Gretl
                                                                          ıa a

              2
restringido, RN R = 0, 972433. Se puede apreciar, como era de esperar, que el valor obtenido del
RR2 es menor que el del R2 , el ajuste empeora al imponer la restricci´n. La cuesti´n es si esto
                                                                       o            o
                          NR
es aceptable, con un nivel de confianza elegido, para aceptar la hip´tesis nula como cierta o no.
                                                                   o
El valor del estad´
                  ıstico (4.12) para este caso es,
                            2      2
                          (RN R − RR )/q        (0, 972433 − 0, 87341)/1
                 F =          2 )/(T − K) = F = (1 − 0, 972433)/(15 − 5) = 35, 92
                       (1 − RN R

obteniendo de nuevo el mismo valor para el estad´
                                                ıstico y la misma conclusi´n del contraste.
                                                                          o


4.5.     Predicci´n
                 o

Uno de los objetivos de la econometr´ consiste en predecir. Una vez estimado un modelo que
                                       ıa
se considera que recoge bien el comportamiento de una variable en funci´n de otros factores o
                                                                          o
variables explicativas, se quiere determinar con cierta confianza el valor o intervalo de valores
que puede tomar la variable dependiente, supuestos unos valores para esos factores.
Supongamos que se ha estimado el siguiente modelo7 :

                                  Yt = β1 + β2 X2t + . . . + βK XKt + ut

con una muestra de tama˜o T , obteniendo la siguiente funci´n de regresi´n muestral (FRM):
                       n                                   o            o
                                       ˆ    ˆ    ˆ                ˆ
                                       Yt = β1 + β2 X2t + . . . + βK XKt

Entonces, disponiendo de nuevas observaciones de las variables explicativas,

                          Xp =      1 X2p . . . XKp               p ∈ {1, 2, . . . , T }

podemos utilizar el modelo estimado por MCO para predecir el valor que tomar´ la variable
                                                                                    a
end´gena en el periodo de predicci´n p. A este proceso se le llama predicci´n por punto, donde el
    o                              o                                       o
valor estimado para la variable end´gena Y en el periodo de predicci´n se obtiene sustituyendo
                                     o                                o
estos valores de las variables ex´genas en la FRM.
                                 o
                                               ˆ       ˆ
                                               Yp = Xp βM CO

Equivalentemente:
                                    ˆ    ˆ    ˆ                ˆ
                                    Yp = β1 + β2 X2p + . . . + βK XKp .
                                                      ˆ          ˆ
El error de predicci´n se define como ep = Yp − Yp = −Xp (β − β) + up . Para obtener la
                     o
predicci´n por intervalo, nos basaremos en la distribuci´n del error de predicci´n, ya que si up
        o                                                o                      o
  ˆ
y β son variables aleatorias normales, el error de predicci´n tambi´n lo ser´:
                                                           o       e        a
                                                                    −1
                                  ep ∼ N (0, σ 2 ( 1 + Xp X X            Xp ))

Sin embargo, en general, σ 2 es desconocido por lo que utilizaremos su estimador insesgado
propuesto en temas anteriores obteniendo el siguiente resultado:
                                                 ep
                                                                 ∼ t(T −K)
                                   σ
                                   ˆ     1 + Xp ( X X )−1 Xp
   7
    En lo que sigue, como siempre, se satisfacen las hip´tesis b´sicas tanto en el periodo de estimaci´n como de
                                                        o       a                                     o
predicci´n
        o


                                                      86
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                       SARRIKO-ON 8/09


A partir de este estad´
                      ıstico podemos obtener un intervalo con un nivel de confianza del 1 − α
alrededor de la predicci´n por punto para la variable end´gena en el momento p.
                        o                                o
                                        ˆ                     ˆ
                          IC1−α (Yp ) = Yp − t α (T −K) σep , Yp + t α (T −K) σep
                                                        ˆ                     ˆ
                                               2                     2


donde σep = σ 2 ( 1 + Xp ( X X )−1 Xp ).
      ˆ2    ˆ
¿C´mo utilizar Gretl para predecir por punto y por intervalo?
  o
Utilizaremos el ejemplo de los precios de las viviendas para analizar los pasos a seguir en el
programa Gretl.
Uno de los modelos propuestos era
                          Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui
Supongamos que tenemos informaci´n de una nueva vivienda, por ejemplo, F 2 = 3200, BEDRM S =
                                      o
5 y BAT HS = 3 y nos piden P = 500, en miles de euros, por ella. Mediante este modelo, po-
demos obtener una predicci´n del precio que tendr´ una vivienda con estas caracter´
                               o                    ıa                              ısticas y
analizar si el precio solicitado es razonable o no.
Para ello, incorporamos los nuevos datos (Xp ) a la base de datos mediante

                                         Datos → Seleccionar todos

A continuaci´n, pincharemos la opci´n
            o                      o

                                       Datos → A˜adir Observaciones
                                                n

indicando el n´mero de observaciones que queremos a˜adir, en este caso 1. En la fila correspon-
              u                                          n
diente incluimos los valores de las variables explicativas en el periodo de predicci´n, en este caso
                                                                                    o
la observaci´n 15, incorporando cada observaci´n en la casilla correspondiente. Si no incorpo-
            o                                     o
ramos el valor para la variable P que es la que vamos a predecir, gretl nos mostrar´ un aviso
                                                                                         a
(Atenci´n: hab´ observaciones perdidas). Podemos simplemente ignorarlo y darle a aceptar.
        o      ıa
Posteriormente, estimaremos el modelo sin considerar esta nueva observaci´n (recordar que
                                                                          o
inicialmente ten´
                ıamos 14 observaciones en la muestra). Para ello, tenemos que especificar el
rango muestral, es decir, en la opci´n
                                    o

                                         Muestra → Establecer rango

especificaremos del rango de observaciones de la muestra para estimar el modelo, en nuestro
caso de la 1 a la 14 y elegimos Aceptar.
Tal y como explicamos en los temas anteriores, estimaremos el modelo por MCO y en la ventana
de los resultados elegimos

                                           An´lisis → Predicciones
                                             a

En la nueva ventana podemos determinar el dominio de predicci´n, es decir el Inicio y Fin que
                                                              o
en este caso es en ambos la observaci´n n´mero 15, y tambi´n cuantas observaciones se quieren
                                      o u                 e
representar antes de la prediccion8 .
Los resultados que muestra Gretl son los siguientes:
  8
      En este caso hemos elegido todas pero esto es opcional.


                                                        87
SARRIKO-ON 8/09                                                                               Econometr´ B´sica Aplicada con Gretl
                                                                                                       ıa a


 Para intervalos de confianza 95%, t(10, .025) = 2,228

     Obs          price       predicci´n
                                      o                    desv. t´pica
                                                                  ı                            Interv. de confianza 95%

        1          199,9                  207,8
        2          228,0                  234,0
        3          235,0                  241,2
        4          285,0                  256,3
        5          239,0                  287,6
        6          293,0                  289,2
        7          285,0                  287,8
        8          365,0                  307,8
        9          295,0                  311,8
       10          290,0                  319,9
       11          385,0                  355,1
       12          505,0                  436,3
       13          425,0                  439,6
       14          415,0                  470,5
       15                                 479,9                             55,39                       356,5 -        603,3

                            650
                                                                         price
                                                                   predicción
                            600           Intervalo de confianza 95 por ciento


                            550


                            500


                            450


                            400


                            350


                            300


                            250


                            200


                            150
                                  1   2    3       4      5      6      7        8   9   10   11   12   13   14   15




El gr´fico que se obtiene junto a los resultados muestra la serie de precios (P) observada en
     a
color rojo y estimada con el modelo para las 14 observaciones anteriores a la predicci´n y la
                                                                                      o
predicci´n en color azul, junto con su intervalo de confianza en color verde.
        o
La predicci´n por punto del precio de una vivienda con estas caracter´
              o                                                                ısticas es de 479, 905
miles de euros, mientras que la predicci´n por intervalo con un nivel de confianza del 95 % es
                                            o
(356, 5; 603, 3) en miles de euros, por lo que el precio que nos piden, que era de 500 miles de euros
por la vivienda, est´ dentro del intervalo. Este precio para una vivienda de esas caracter´
                     a                                                                         ısticas
se aceptar´ como razonable dado nuestro modelo y la informaci´n muestral utilizada para su
            ıa                                                        o
estimaci´n, con un nivel de confianza del 95 %.
          o




                                                                            88
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                        SARRIKO-ON 8/09


4.6.      Ejercicios para practicar

Ejercicio 1:
Se dispone de 14 observaciones sobre precios de viviendas y sus caracter´
                                                                        ısticas para la comunidad
de la Ciudad Universitaria de San Diego correspondientes a 19909 . Las variables que se consideran
son:


 price     Precio de venta en cientos de d´lares
                                          o
           (Rango 199,9 - 505)
  sqft     Superficie de la vivienda en pies cuadrados
           (Rango 1065 - 3000)
bedrms     N´mero de habitaciones (Rango 3 - 4)
            u
 baths     N´mero de ba~os (Rango 1,75 - 3)
            u          n


Se define el siguiente modelo para determinar el precio de venta de la vivienda:

                        pricei = β1 + β2 sqf ti + β3 bedrmsi + β4 bathsi + ui                         (4.13)

   1. Estima el modelo por MCO.

   2. Bas´ndote en el modelo que has estimado, ¿en cu´nto estimas que cambie el precio medio
          a                                           a
      de una vivienda si, junto a un incremento de 350 pies cuadrados del ´rea habitable (sqft)
                                                                          a
      se le a˜aden una habitaci´n (bedrms) y un ba˜o (baths) m´s?
             n                  o                  n            a

   3. Utilizando Gretl, contrasta las siguientes restricciones lineales:

         a) H0 : β3 = β4
         b) H0 : β3 = 2β4

       Escribe en cada caso la hip´tesis alternativa, el estad´
                                  o                           ıstico utilizado y la regla de decisi´n.
                                                                                                   o
       Considera realizar el contraste utilizando todas las posibilidades que dispone Gretl que
       sean equivalentes.

   4. Estima por MCO tres especificaciones del modelo para el precio de la vivienda, incluyendo
      en todos los casos adem´s de un t´rmino constante:
                             a         e

         a) la variable bedrms (Modelo 2).
         b) la variable baths (Modelo 3).
         c) las variables bedrms y baths (Modelo 4).

       Completa la tabla que se adjunta con los resultados de estimaci´n obtenidos. Comenta
                                                                       o
       todos los resultados obtenidos y compara las distintas especificaciones. ¿Te parecen ra-
       zonables los signos obtenidos? Razona teniendo en cuenta en cada caso qu´ recogen los
                                                                                 e
       coeficientes.
  9
    Fichero data4-1.gdt. Recogido en Ramanathan, R. (2002), Introductory econometrics with applications, 5th.
Ed., South-Western.


                                                     89
SARRIKO-ON 8/09                                                 Econometr´ B´sica Aplicada con Gretl
                                                                         ıa a


            Tabla 4.3: Resultados de estimaci´n obtenidos para los distintos modelos.
                                             o

          Variable dependiente:

          Variables explicativas                       Modelo 2         Modelo 3         Modelo 4

          CONSTANT                                         ······           ······           ······
                                                       (            )   (            )   (            )


          BEDRMS                                                            ······           ······
                                                                        (            )   (            )


          BATHS                                                                              ······
                                                                                         (            )



          Suma de cuadrados de los residuos                ······           ······           ······
          Desviaci´n t´
                  o ıpica de los residuos (ˆ )
                                           σ               ······           ······           ······

          R2                                               ······           ······           ······
          ¯
          R2                                               ······           ······           ······

          F de significaci´n conjunta
                         o                                 ······           ······           ······
          Grados de libertad                               ······           ······           ······

          Criterio de Akaike (AIC)                         ······           ······           ······
          Criterio de Schwarz (BIC)                        ······           ······           ······
          Criterio de Hannan-Quinn (HQC)                   ······           ······           ······
           (*) Entre par´ntesis, los estad´
                        e                 ısticos t



Ejercicio 2:
Para la realizaci´n de este ejercicio utiliza el archivo de muestra greene5-1.gdt disponible en
                 o
gretl.10

Este archivo contiene datos de series temporales a frecuencia trimestral desde 1950:1 a 2000:4
de las siguientes variables para la econom´ americana:
                                          ıa


  realgdp      Producto interior bruto real(en billones de d´lares)
                                                            o
 realcons      Gastos de consumo real
 realinvs      Inversi´n real en el sector privado
                      o
 realgovt      Gasto p´blico real
                      u
  realdpi      Renta personal disponible real
    cpi_u      Indice de precios al consumo
       M1      Stock nominal de dinero
 tbilrate      Tipo de inter´s (media trimestral)
                            e
    unemp      Tasa de desempleo
  10
     Fuente: Greene, W. (2008), Econometrics Analysis, 6th Ed., Prentice-Hall, Tabla F5.1: Macroeconomics Data
Set, Quarterly, 1950I to 2000IV, 204 Quarterly Observations Source: Department of Commerce, BEA website and
www.economagic.com.


                                                      90
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                SARRIKO-ON 8/09


      pop    Poblaci´n (en miles)
                    o
     infl    Tasa de inflaci´n (primera observaci´n no disponible)
                            o                    o
  realint    Tipo de inter´s real ex-post = Tbilrate - Infl
                          e

Ten en cuenta que la primera observaci´n para la variable infl no est´ disponible. Ajusta entonces
                                      o                             a
el rango muestral para tener observaciones para todas las variables.
Considera la siguiente especificaci´n para la funci´n de Inversi´n:
                                  o               o            o

              realinvst = β1 + β2 time + β3 realgdpt + β4 tbilratet + β5 inf lt + ut        (4.14)



  1. Muestra los resultados de la estimaci´n del modelo por MCO. Recuerda que antes de
                                          o
     estimar tienes que a˜adir una nueva variable, una tendencia temporal (time).
                         n

  2. Utilizando las opciones de Contrastes → Restricciones lineales y Contrastes → Omitir
     variables, realiza el contraste de significaci´n individual para la variable realgdp.
                                                  o

  3. Verifica que el valor del estad´ıstico F obtenido de esta forma, coincide con el valor del
     estad´ıstico t al cuadrado que se muestra en el resultado de la estimaci´n del modelo no
                                                                             o
     restringido.

  4. De igual forma que en el segundo apartado, realiza el contraste de significaci´n conjunta.
                                                                                   o
     Verifica que el valor coincide con el que se muestra en los resultados de la estimaci´n del
                                                                                         o
     modelo no restringido.

  5. Obt´n la estimaci´n de los par´metros del modelo para la inversi´n real bajo la restricci´n
         e              o           a                                  o                      o
     de que los coeficientes que acompa˜an al tipo de inter´s (tbilrate) y a la inflaci´n (infl )
                                          n                   e                        o
     suman cero. Para ello estima directamente el Modelo Restringido incorporando la restric-
     ci´n. Escribe el modelo restringido y muestra los resultados de su estimaci´n. ¿Qu´ recoge
       o                                                                        o       e
     esta restricci´n? ¿Para qu´ sirve la variable realint?
                   o           e

  6. Para la hip´tesis nula de que los coeficientes que acompa˜an al tipo de inter´s (tbilrate)
                 o                                             n                   e
     y a la inflaci´n (infl ) suman cero, obt´n el valor del estad´
                   o                         e                   ıstico basado en comparar las
     sumas de cuadrados residuales del modelo restringido y no restringido. Calcula tambi´n el
                                                                                         e
     estad´
          ıstico en funci´n de los coeficientes de determinaci´n de ambos modelos.
                         o                                   o

  7. Comprueba que el valor obtenido en el apartado anterior del estad´ ıstico de contraste, es el
     mismo valor que el obtenido con el estad´
                                             ıstico equivalente utilizando la opci´n Contrastes
                                                                                   o
     → Restricciones lineales

  8. Utilizando los datos del fichero greene5-1.gdt como muestra para el rango de estimaci´n,    o
     predice el valor que tomar´ la inversi´n real en el trimestre 2001:1 por punto y por intervalo
                               a           o
     (al 95 % de confianza), basando esta predicci´n en las previsiones para el realgdp de 1000
                                                     o
     billones de d´lares, tipo de inter´s tbilrate del 10 % e inflaci´n del 4 % para 2001:1. Ten
                   o                   e                              o
     en cuenta que los valores que tomar´ la variable time en el periodo de predicci´n vienen
                                           a                                            o
     determinados por el n´mero correspondiente de observaci´n posterior al utilizado para
                             u                                      o
     estimar.




                                               91
SARRIKO-ON 8/09                                                Econometr´ B´sica Aplicada con Gretl
                                                                        ıa a


Ejercicio 3:
Para la realizaci´n de este ejercicio utiliza el archivo de muestra en gretl greene8-3.gdt. 11 Son
                 o
datos de series temporales para los a˜os 1966 a 1985 de las siguientes variables:
                                       n

            q   Producci´n agregada por trabajador-hora
                        o
            k   Ratio capital/trabajo agregado
            A   ´ndice tecnol´gico
                I            o

   1. Se especifica un primer modelo para la funci´n de producci´n agregada:
                                                 o             o

                                              qt = β1 + β2 kt + ut                                   (4.15)

       Interpreta sus coeficientes.

   2. Estima el modelo por M´ ınimos Cuadrados Ordinarios. Comenta los resultados obtenidos
      en t´rminos de bondad de ajuste, significatividad y signos de los coeficientes estimados.
          e
      Razona si te parecen adecuados los resultados.

   3. Obt´n e interpreta los siguientes gr´ficos:
         e                                a

         • Gr´fico de los residuos MCO contra el tiempo.
             a
         • Gr´fico de la serie estimada y observada contra el tiempo.
             a

   4. Obt´n el gr´fico de residuos MCO sobre la variable que no ha sido incluida, el ´
          e       a                                                                 ındice
      tecnol´gico A. Comenta el gr´fico obtenido. ¿Puedes encontrar alguna relaci´n con lo
            o                       a                                           o
      encontrado en el gr´fico de residuos contra el tiempo?
                         a

   5. Realiza el contraste de Engle para analizar si en el modelo (4.15) ser´ relevante controlar
                                                                            ıa
      por el cambio tecnol´gico incluyendo la variable A. Para ello calcula el estad´
                           o                                                         ıstico NR2,
      donde R2 es el coeficiente de determinaci´n de la regresi´n de los residuos del modelo
                                                 o                o
      (4.15) sobre una constante y la variable A. ¿Qu´ evidencia se obtiene del contraste?
                                                       e

   6. Se considera ampliar la especificaci´n del modelo (4.15) incluyendo el ´
                                         o                                  ındice de cambio
      tecnol´gico,
            o

                                          qt = β1 + β2 kt + β3 At + ut                               (4.16)

        a) Interpreta los coeficientes estimados.
        b) Contrasta la significatividad de las variables explicativas. ¿Es consistente el resultado
           obtenido con la evidencia encontrada utilizando el contraste de Engle?
        c) Compara los resultados de la estimaci´n de los modelos (4.15) y (4.16), ¿cu´l te
                                                o                                        a
           parece mejor? Razona tus conclusiones utilizando todos los criterios que consideres
           oportunos.
        d ) Realiza el contraste de las siguientes restricciones lineales en el modelo (4.16):

                              H0 : β2 = 1       H0 : β3 = β2         H0 : β2 = 1, β3 = 2
            No olvides escribir la hip´tesis alternativa, estad´
                                      o                        ıstico de contraste y criterio de deci-
            si´n.
              o
  11
    Fuente: Greene, W. (2008), Econometrics Analysis, 6th Ed., Prentice-Hall, Tabla F6.3: Datos sobre cambio
tecnol´gico de Solow (1957), p. 314.
      o


                                                    92
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                          SARRIKO-ON 8/09


        e) Utilizando los datos del fichero greene8-3.gdt como muestra para el rango de esti-
           maci´n, predice el valor que tomar´ la producci´n agregada q por trabajador-hora
                o                              ıa            o
           en el a˜o 1987, por punto y por intervalo (al 95 % de confianza). Basa esta predicci´n
                  n                                                                           o
           en las previsiones para el ratio capital/trabajo k de 3 unidades e ´
                                                                              ındice tecnol´gico
                                                                                           o
           A de 2 unidades.

Ejercicio 4:
Para la realizaci´n de este ejercicio utiliza el archivo de muestra en gretl greene9-1.gdt.
                 o                                                                                   12

El archivo contiene datos de secci´n cruzada para 25 estados americanos sobre manufacturas de
                                  o
equipamiento del sector transporte. Las variables consideradas son.

             valadd     Valor a~adido en millones de d´lares de 1957
                               n                      o
            capital     Capital en millones de d´lares de 1957
                                                o
              labor     Trabajo en millones de d´lares de 1957
                                                o
              nfirm     N´mero de empresas del sector en ese estado
                         u

                                           valadd          capital           labor
   1. Define las nuevas variables V =       nf irm ,   K=   nf irm    y L=   nf irm .

   2. Especifica un primer modelo para la funci´n de producci´n por establecimiento:
                                              o             o

                                              Vi = β1 + β2 Li + ui                                  (4.17)

       Interpreta sus coeficientes.

   3. Estima el modelo por M´ ınimos Cuadrados Ordinarios. Comenta los resultados obtenidos
      en t´rminos de bondad de ajuste, significatividad y signos de los coeficientes estimados.
          e
      Razona si te parecen adecuados los resultados.

   4. Obt´n e interpreta los siguientes gr´ficos:
         e                                a

         • Gr´fico de los residuos MCO.
             a
         • Gr´fico de la serie estimada y observada.
             a

   5. Obt´n el gr´fico de residuos MCO sobre la variable que no ha sido incluida, el factor capital
         e       a
      K. Comenta el gr´fico obtenido.
                       a

   6. Realiza el contraste de Engle para analizar si en el modelo (4.17) ser´ relevante controlar
                                                                             ıa
      por el factor capital incluyendo la variable K. Para ello calcula el estad´
                                                                                ıstico NR2, donde
      R2 es el coeficiente de determinaci´n de la regresi´n de los residuos del modelo (4.17) sobre
                                         o              o
      una constante y la variable K. ¿Qu´ evidencia se obtiene del contraste?
                                           e

   7. Se considera ampliar la especificaci´n del modelo (4.17) incluyendo el factor capital,
                                         o

                                         Vi = β1 + β2 Li + β3 Ki + ui                               (4.18)

        a) Interpreta los coeficientes estimados.
        b) Contrasta la significatividad de las variables explicativas, ¿Es consistente el resultado
           obtenido con la evidencia encontrada utilizando el contraste de Engle?
  12
   Fuente: Greene, W. (2008), Econometrics Analysis, 6th Ed., Prentice-Hall, Tabla F14.1: Statewide Data on
Transportation Equipment Manufacturing, Fuente: A. Zellner and N. Revankar (1970, p. 249).


                                                      93
SARRIKO-ON 8/09                                                   Econometr´ B´sica Aplicada con Gretl
                                                                           ıa a


           c) Compara los resultados de la estimaci´n de los modelos (4.17) y (4.18), ¿cu´l te
                                                   o                                        a
              parece mejor? Razona tus conclusiones utilizando todos los criterios que consideres
              oportunos.
           d ) Realiza el contraste de las siguientes restricciones lineales:
               H0 : β3 = 1 H0 : β2 + β3 = 1 H0 : β1 = 0, β3 = β2

Ejercicio 5:
Para la realizaci´n de este ejercicio utiliza el archivo de muestra en gretl greene10-3.gdt. 13
                 o
El archivo contiene datos de serie temporal de frecuencia anual para los a˜os 1966 a 1985. Las
                                                                            n
variables que se consideran son:

       r    Tipo de descuento a final de a~o, Reserva Federal de NY
                                           n
       M    Oferta Monetaria M2
       Y    Producto Nacional Bruto, en d´lares de 1982
                                         o

  1. Se especifica un primer modelo para la demanda de dinero:

                                                Mt = β1 + β2 Yt + ut                            (4.19)

        Interpreta sus coeficientes.

  2. Estima el modelo por M´ ınimos Cuadrados Ordinarios. Comenta los resultados obtenidos
     en t´rminos de bondad de ajuste, significatividad y signos de los coeficientes estimados.
         e
     Razona si te parecen adecuados los resultados.

  3. Obt´n e interpreta los siguientes gr´ficos:
        e                                a

            • Gr´fico de los residuos MCO contra el tiempo.
                a
            • Gr´fico de la serie estimada y observada contra el tiempo.
                a

  4. Obt´n el gr´fico de residuos MCO sobre la variable que no ha sido incluida, el tipo de
         e       a
     descuento r. Comenta el gr´fico obtenido.
                               a

  5. Realiza el contraste de Engle para analizar si en el modelo (4.19) ser´ relevante controlar
                                                                           ıa
     por el tipo de descuento incluyendo la variable r. Para ello calcula el estad´ ıstico NR2,
     donde R2 es el coeficiente de determinaci´n de la regresi´n de los residuos del modelo
                                                 o               o
     (4.19) sobre una constante y la variable r. ¿Qu´ evidencia se obtiene del contraste?
                                                     e

  6. Se considera ampliar la especificaci´n del modelo (4.19) incluyendo el tipo de descuento
                                        o


                                            Mt = β1 + β2 Yt + β3 rt + ut                        (4.20)

           a) Interpreta los coeficientes estimados.
           b) Contrasta la significatividad de las variables explicativas, ¿Es consistente el resultado
              obtenido con la evidencia encontrada utilizando el contraste de Engle?
           c) Compara los resultados del modelo (4.19) y modelo (4.20), ¿cu´l te parece mejor?
                                                                               a
              Razona tus conclusiones utilizando todos los criterios que consideres oportunos.

 13
      Fuente: Greene, W. (2008), Econometrics Analysis, 6th Ed., Prentice-Hall.


                                                       94
Tema 5

Errores de especificaci´n en la elecci´n
                      o              o
de los regresores

5.1.    Introducci´n
                  o

La primera especificaci´n de un modelo de regresi´n implica tomar varias decisiones, a menudo
                       o                           o
previas a la confrontaci´n de ´ste con los datos. Algunas de estas decisiones son:
                        o     e

   • Elecci´n de la variable dependiente.
           o

   • Elecci´n de las variables explicativas.
           o

   • Medici´n de las variables.
           o

   • Forma funcional de la relaci´n. Estabilidad.
                                 o

   • Especificaci´n de las propiedades del t´rmino de error.
                o                          e

En los temas anteriores hemos especificado un modelo de regresi´n donde se satisfacen una serie
                                                                   o
de hip´tesis b´sicas. Algunas de estas hip´tesis pueden no mantenerse si las decisiones adoptadas
      o       a                            o
son err´neas o porque simplemente, dadas las caracter´
       o                                                ısticas de las variables del modelo y de los
datos a utilizar, estas hip´tesis pudieran no ser adecuadas. Esto puede influir negativamente en
                            o
las propiedades del estimador utilizado y en la inferencia, siendo las decisiones posteriores sobre
el modelo err´neas. En muchos casos la evaluaci´n de un modelo puede estar influenciada por
              o                                    o
esta primera especificaci´n. Por ello, es importante disponer de instrumentos o contrastes que nos
                          o
permitan hacer un diagn´stico sobre si son aceptables ciertas decisiones o hip´tesis adoptadas.
                           o                                                       o
Estos instrumentos pueden ser un an´lisis gr´fico de los residuos o contrastes estad´
                                       a      a                                        ısticos donde
se traten de detectar problemas de mala especificaci´n.o
En este tema nos vamos a centrar en ilustrar las implicaciones que pueden tener decisiones
err´neas en t´rminos de la elecci´n de las variables explicativas o regresores. Para ello vamos a
   o         e                   o
proponer que conocemos el modelo correcto y consideramos separadamente dos situaciones:

  a) Omisi´n de variables explicativas relevantes. Analizaremos las implicaciones en el estima-
          o
     dor MCO y en la validez de los contrastes de significatividad. Veremos la utilizaci´n del
                                                                                         o
     gr´fico de residuos y alg´n contraste de mala especificaci´n con algunos ejemplos emp´
       a                     u                               o                           ıricos.

                                                95
SARRIKO-ON 8/09                                                       Econometr´ B´sica Aplicada con Gretl
                                                                               ıa a


  b) Inclusi´n de variables irrelevantes. En este caso nos interesaremos por los efectos de haber
            o
     incluido variables que sabemos no tendr´ que estar en el modelo. La cuesti´n es c´mo
                                               ıan                                    o      o
     detectar y decidir en la pr´ctica qu´ variables son o no relevantes. Tambi´n discutiremos
                                 a         e                                     e
     estas cuestiones utilizando un caso pr´ctico.
                                             a

Aunque te´ricamente analizaremos cada uno de estos efectos por separado y asumiremos que
         o
conocemos la especificaci´n correcta, en la pr´ctica podemos tener combinados estos efectos.
                        o                    a


5.2.        Efectos de omisi´n de variables relevantes
                            o

Podemos seguir con nuestro ejemplo sobre el precio de la vivienda en el que quer´  ıamos explicar
esta variable, medida en miles de d´lares, en funci´n de una serie de variables explicativas como
                                   o               o
pod´ ser el tama˜o de la vivienda F 2, el n´mero de habitaciones BEDRM S y el n´mero de
     ıan           n                          u                                          u
ba˜os BAT HS. En principio, vamos a considerar que el modelo correcto para explicar el precio
   n
de la vivienda es

                   Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui                            i = 1, . . . , N   (5.1)

donde se satisfacen las hip´tesis b´sicas pero se estima por MCO el siguiente,
                           o       a

                      Pi = β1 + β3 BEDRM Si + β4 BAT HSi + vi                                i = 1, . . . , N      (5.2)

En el modelo considerado a la hora de estimar se ha omitido la variable F2 o tama˜o de la   n
vivienda. Si esta variable es relevante entonces β2 = 0 por lo que el error vi recoger´ la variable
                                                                                        a
omitida, esto es vi = β2 F 2i + ui , siendo E(vi ) = β2 F 2i = 0. Luego en el modelo mal especificado
no se satisface una de las hip´tesis b´sicas. Esto a su vez implica que la covarianza entre las
                                 o        a
variables incluidas y el error del modelo (5.2) depender´ de la covarianza entre la variable
                                                                a
omitida F 2i y cada una de las incluidas BEDRM Si y BAT HSi . Si estas no son cero, esto
introducir´ un sesgo en los coeficientes estimados que ser´ funci´n de estas covarianzas. El signo
          a                                                   a      o
del sesgo depender´ del signo del coeficiente β2 y de los signos de estas covarianzas. Se puede
                    a
demostrar que los sesgos de estimar por MCO β3 y β4 en el modelo (5.2) son

                   ˆ                 S23 S44 − S24 S34          ˆ                            S24 S33 − S23 S34
                 E(β3 ) − β3 = β2                 2           E(β4 ) − β4 = β2                            2        (5.3)
                                      S33 S44 − S34                                           S33 S44 − S34

donde Sjs =              ¯          ¯
                i (Xji − Xj )(Xis − Xs ), siendo la covarianza muestral entre dos variables j, s
si j = s, y la varianza muestral de la variable j si j = s. Como se puede apreciar, el sesgo
en la estimaci´n de ambos coeficientes depende de las covarianzas entre las variables relevante
              o
excluida F 2 y cada una de las variables incluidas BEDRM S y BAT HS 1 . Adem´s depende
                                                                                   a
   1
       Si el modelo de partida correcto hubiera sido

                                Pi = β1 + β2 F 2i + β3 BEDRM Si + ui            i = 1, . . . , N                   (5.4)

pero hubi´ramos considerado para estimar
         e

                                     Pi = β1 + β3 BEDRM Si + vi           i = 1, . . . , N                         (5.5)

entonces el sesgo en estimar β3 en (5.5) ser´ simplemente
                                            ıa

                                                   ˆ                S23
                                                 E(β3 ) − β3 = β2                                                  (5.6)
                                                                    S33
El sesgo sigue dependiendo de la covarianza entre la variable omitida F 2 y la incluida BEDRM S dada por S23 .
En este caso se puede esperar que el sesgo fuera positivo ya que tanto S23 como β2 se esperan sean positivos. El


                                                         96
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                           SARRIKO-ON 8/09


del coeficiente β2 que en el modelo correcto (5.1) se esperaba fuera positivo, pero la direcci´n
                                                                                             o
del signo de cada sesgo no es clara ya que depende del signo del cociente que acompa˜a a  n
β2 . Para que no hubiera sesgo en la estimaci´n de cualquiera de estos dos coeficientes ambas
                                             o
variables incluidas, BEDRM S y BAT HS tendr´ que estar incorreladas con el tama˜o
                                                   ıan                                       n
de la vivienda o variable excluida, cosa poco probable en este ejemplo.
En cuanto al sesgo en la estimaci´n del coeficiente que acompa˜a al t´rmino constante se puede
                                 o                           n      e
demostrar que es2



                 ˆ              ¯    S23 S44 − S24 S34 ¯    S24 S33 − S23 S34 ¯
               E(β1 ) − β1 = β2 X2 −              2    X3 −              2    X4                           (5.7)
                                      S33 S44 − S34          S33 S44 − S34



Vemos que en este caso a´n siendo S23 = S24 = 0 el sesgo no se anular´ ya que todav´ depende
                        u                                            ıa,             ıa
                                   ¯ 2 , que generalmente no va a ser cero. De este resultado se
de la media de la variable omitida X
puede argumentar que el coeficiente que acompa˜a al t´rmino constante, generalmente va a
                                                   n      e
recoger efectos de variables omitidas a´n cuando esto no influya en la estimaci´n del resto
                                         u                                         o
de par´metros o pendientes por estar estas variables incorreladas con las incluidas. Por ello,
      a
normalmente es conveniente no excluir el t´rmino constante, a no ser que se tengan fuertes
                                              e
razones te´ricas para hacerlo.
          o
Si se estiman con sesgo los coeficientes βj , tambi´n ser´n incorrectos los contrastes de significati-
                                                  e     a
vidad individual, conjunta y otro tipo de contrastes sobre los coeficientes del modelo utilizando
estas estimaciones sesgadas. Ahora bien, ¿ser´n fiables los contrastes sobre las pendientes si se
                                                a
dan las condiciones para que los estimadores de estos par´metros no sean sesgados? La respuesta
                                                           a
es que no, ya que a´n dandose las condiciones de incorrelaci´n entre regresores incluidos y varia-
                    u                                         o
bles relevantes excluidas, el estimador de la matriz de varianzas y covarianzas de esos coeficientes
estimados seguir´ siendo sesgada. Esto se debe a que el estimador del par´metro σ 2 utilizando
                  a                                                           a
la suma de cuadrados residual de la estimaci´n del modelo mal especificado estar´ sesgado en
                                                o                                     a
cualquiera de los casos.
Luego vemos que en general las consecuencias de omitir variables relevantes en la especificaci´n
                                                                                             o
de un modelo son serias, especialmente en la inferencia.


¿C´mo detectar que esto pueda estar ocurriendo? Una primera cuesti´n es tener en cuenta
   o                                                                       o
el modelo te´rico de inter´s y pensar qu´ variables pueden faltar en el modelo emp´
            o             e             e                                          ırico. Por otro
lado, podemos ayudarnos de contrastes que puedan se˜alar la existencia de alg´n problema de
                                                       n                         u
mala-especificaci´n3 .
                 o
Adem´s, el an´lisis de los residuos nos puede ayudar a ver si hemos dejado fuera factores relevan-
      a       a
tes. Por ejemplo, podemos ver el gr´fico de los residuos por observaci´n y ver si estos presentan
                                     a                                o
efecto de omitir F 2 o no controlar por el tama˜o de la vivienda en el modelo (5.5) ser´ sobreestimar el efecto
                                                 n                                        a
marginal de tener una habitaci´n m´s en la vivienda sobre el precio de ´sta. Por tanto, el n´mero de habitaciones
                               o    a                                  e                    u
estar´ tambi´n de alguna forma representando el papel del tama˜o de la vivienda, que no se ha incluido en
     ıa       e                                                     n
el modelo. No se estimar´ con sesgo si S23 = 0, cosa que no parece factible ya que el n´mero de habitaciones
                          ıa                                                                u
estar´ correlacionado con el tama˜ o de la vivienda.
     a                            n
   2
     Ocurre lo mismo si consideramos que el modelo estimado es (5.5) y el verdadero modelo es (5.4).
   3
     En este tema ilustraremos alguno de estos contrastes, aunque no todos. Incluso algunos contrastes dise˜ados
                                                                                                           n
para analizar si el t´rmino de error no est´ autocorrelacionado, puede capturar tambi´n otro tipo de cuestiones
                     e                     a                                            e
de mala especificaci´n.
                     o


                                                       97
SARRIKO-ON 8/09                                                      Econometr´ B´sica Aplicada con Gretl
                                                                              ıa a


alg´n comportamiento sistem´tico que pueda apuntar en esa direcci´n.
   u                       a                                     o
Por ejemplo, consideremos los resultados de la estimaci´n de los modelos (5.1) y (5.2) para
                                                       o
explicar el precio de la vivienda4


 Variable                                             Modelo (5.1)                 Modelo (5.2)
                                                  Supuestamente Correcto
 CONSTANT                                                 129,062                      27,2633
                                                          (1,462)                      (0,182)
 F2                                                        0,1548
                                                          (4,847)
 BEDRMS                                                   -21,588                      -10,1374
                                                          (-0,799)                     (-0,216)
 BATHS                                                    -12,193                       138,795
                                                          (-0,282)                      (2,652)

 Suma de cuadrados de los residuos                          16700,1                    55926,4
 Desviaci´n t´
          o ıpica de los residuos (ˆ )
                                   σ                        40,8657                    71,3037
 R2                                                          0,836                    0,450706
 ¯
 R2                                                          0,787                    0,350834
 F de significaci´n conjunta
                o                                            16,989                    4,51285
 Grados de libertad                                            10                         11
 Criterio de Akaike (AIC)                                   146,908                    161,829
 Criterio de Schwarz (BIC)                                  149,464                    163,746

                Tabla 5.1: Modelos (5.1) y (5.2) estimados para el precio de la vivienda




Como ya comentamos en el cap´    ıtulo anterior, la omisi´n de la variable F 2 empeora bastante
                                                         o
el ajuste tanto en t´rminos del R
                    e                          ¯
                                  2 como del R2 , AIC y BIC. El coeficiente estimado que m´s  a
ha cambiado es el que acompa˜a a la variable BAT HS pasando a tener signo positivo y ser
                                n
significativamente distinto de cero. Parece que, dado que ambas variables representan tambi´n e
tama˜o de la vivienda, el efecto indirecto de la omisi´n de esta variable puede estar siendo
      n                                                  o
capturando m´s por el coeficiente de BAT HS que por el de BEDRM S.
              a
Podemos mirar a las correlaciones entre la variable excluida F 2 y las incluidas BEDRM S y
BAT HS. En la ventana principal de Gretl donde tenemos estas variables, las seleccionamos con
el bot´n izquierdo del rat´n, mientras mantenemos la tecla de may´sculas ⇑, y en Ver → matriz
      o                   o                                      u
de correlaci´n obtenemos
            o

                       Coeficientes de correlaci´n, usando las observaciones 1 - 14
                                               o
                        valor cr´
                                ıtico al 5 % (a dos colas) = 0,5324 para n = 14
                                       F2    BEDRMS         BATHS
                                  1, 0000      0, 4647       0, 7873     F2
                                               1, 0000       0, 5323     BEDRMS
                                                             1, 0000     BATHS

  4
      Los valores entre par´ntesis son los correspondientes estad´
                           e                                     ısticos t de significatividad individual.


                                                          98
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                     SARRIKO-ON 8/09


Vemos que, aunque tanto el n´mero de habitaciones BEDRM S como el n´mero de ba˜os
                              u                                              u           n
BAT HS presenta una correlaci´n positiva con la variable excluida, tama˜o de la vivienda F 2,
                              o                                        n
es la variable BAT HS la que presenta una mayor correlaci´n con esta ultima.
                                                         o           ´
Seguidamente vamos a analizar diversos gr´ficos de los residuos del ajuste del modelo (5.2) donde
                                         a
hemos omitido F 2 que parece ser relevante. De la estimaci´n de este modelo en la ventana de
                                                            o
estimaci´n gretl:modelo2 elegimos
        o

                        Gr´ficos → Grafico de residuos → Por n´mero de observaci´n
                          a                                 u                 o

que nos muestra el gr´fico de residuos por observaci´n seg´n est´n las 14 observaciones ordenadas
                     a                             o     u     a
en la muestra. Lo podemos guardar posicionando el cursor dentro de la ventanta del gr´fico y
                                                                                          a
pinchando con el bot´n derecho del rat´n, aparece un men´ con distintas opciones y formatos
                      o                 o                   u
para guardarlo.

                     200




                     150




                     100
           residuo




                      50




                       0




                      -50




                     -100
                              2         4        6            8     10       12       14
                                                     observacion


                     Gr´fico 5.1: Gr´fico de los residuos del Modelo (5.2) por observaci´n
                       a           a                                                  o


En el gr´fico se puede apreciar que hay demasiados residuos negativos juntos al comienzo de la
         a
muestra y a medida que vamos hacia las ultimas observaciones o viviendas, estos se concentran
                                         ´
m´s en la parte positiva. Si observamos la disposici´n de las viviendas en la muestra, veremos
  a                                                 o
que est´n ordenadas en funci´n creciente del tama˜o de la vivienda. Luego los residuos negativos
       a                     o                   n
estar´ asociados en general con viviendas de menor tama˜o y los positivos con viviendas de
     ıan                                                    n
mayor tama˜o. Esto sugiere un comportamiento sistem´tico en la disposici´n de los residuos
            n                                            a                   o
alrededor de su media muestral que es cero.
El gr´fico de los residuos sobre la variable F 2 puede ayudar a ver si hay alguna relaci´n. De hecho
     a                                                                                 o
el gr´fico nos mostrar´ la recta de regresi´n de los residuos sobre esta variable si es que existe
     a                 a                    o
una relaci´n significativa. Para obtener el gr´fico primero tenemos que guardar los residuos de
          o                                     a
la estimaci´n del modelo (5.2). Para ello, en la ventana de estimaci´n gretl:modelo2 elegimos
           o                                                           o

                                            Guardar → Residuos

                                                     99
SARRIKO-ON 8/09                                                                       Econometr´ B´sica Aplicada con Gretl
                                                                                               ıa a


y le damos un nombre a la serie de residuos. Esta serie aparecer´ en la ventana principal gretl
                                                                a
y la podremos utilizar posteriormente. En esta misma ventana elegimos

                                                     Ver → Gr´ficos → Grafico X-Y (scatter)
                                                             a

                                   200
                                              Y = -112, + 0,0584X



                                   150




                                   100
            Residuo modelo (5.2)




                                    50




                                     0




                                    -50




                                   -100
                                                            1500             2000                2500       3000
                                                                               F2


                                          Gr´fico 5.2: Gr´fico de los residuos del Modelo (5.2) sobre F2
                                            a           a


En la ventana que aparecer´ posteriormente, especificamos que variable se representa en el eje
                             a
de ordenadas eje X, en este caso F 2, y en el eje de abcisas o eje Y, en este caso los residuos de
la estimaci´n del Modelo (5.2). En este gr´fico podemos apreciar que hay una relaci´n positiva
           o                               a                                           o
significativa entre los residuos de la estimaci´n del modelo (5.2) y la variable F 2 omitida en
                                               o
ese modelo. De hecho, la l´ınea que aparece en el gr´fico representa la recta de regresi´n de los
                                                     a                                   o
residuos sobre esa variable. Esto indica que cierto componente residual puede ser explicado por
la variable que no hemos incluido.
Lo detectado en estos gr´ficos puede ser contrastado utilizando el siguiente contraste que se debe
                         a
a Engle (1982). Este contraste utiliza el R2 de la regresi´n auxiliar de los residuos del modelo
                                                           o
que se est´ analizando sobre la variable o variables que sospechamos puedan ser candidatas a
           a
ser incluidas en ´l por ser relevantes. En nuestro caso ser´ realizar la regresi´n
                 e                                         ıa                   o

                                                         ui = δ1 + δ2 F 2i + ξi
                                                         ˆ                          i = 1, . . . , N                 (5.8)

El estad´ıstico de contraste es N R2 donde el R2 es el coeficiente de determinaci´n de esta regresi´n
                                                                                o                 o
auxiliar. La distribuci´n exacta del estad´
                        o                   ıstico, bajo la hip´tesis nula de que la variable F 2 no
                                                               o
es una variable relevante a incluir en el modelo, no es conocida pero se puede aproximar por la
distribuci´n χ2 con un grado de libertad5 . Esta aproximaci´n ser´ mejor cuanto mayor sea el
           o                                                     o     a
tama˜o muestral.
      n
En el ejemplo que nos ocupa esta regresi´n auxiliar la podemos obtener con Gretl eligiendo
                                        o
   5
    En general, los grados de libertad ser´n el n´ mero de regresores de la regresi´n auxiliar sin contar el t´rmino
                                          a      u                                 o                          e
constante.


                                                                           100
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                          SARRIKO-ON 8/09


                           Modelo → Minimos Cuadrados Ordinarios

y en la ventana que emerge elegir como variable dependiente la serie de residuos de la estimaci´n
                                                                                               o
del modelo (5.2) que ten´ ıamos guardada y como regresores a F 2 adem´s de la constante. Los
                                                                         a
resultados de esta regresi´n auxiliar (5.8) para el ejemplo que nos ocupa son
                          o

                                 ui = −111, 588 + 0, 0583946 F2i
                                        (−1,995)        (2,078)
                                                   2
                                    N = 14 R = 0, 264584

Si queremos guardar el valor muestral N R2 podemos hacerlo en esa misma ventana eligiendo

                                   Guardar → T ∗ R-cuadrado

                           ıstico N R2 = 3, 70417 se muestra en la ventana principal con el resto
El valor muestral del estad´
de variables. Este valor habr´ que compararlo en este caso con el valor cr´
                              a                                            ıtico χ2
                                                                                  (1)α utilizando
en el contraste un nivel de significaci´n α concreto.
                                      o
Para buscar el valor cr´ ıtico en las tablas de la Chi-cuadrado con 1 grado de libertad podemos
elegir en la ventana principal de Gretl, Herramientas → Tablas Estad´  ısticas y en la ventana que
aparece seleccionar la chi-cuadrado especificando 1 grado de libertad. Aparece una ventana con
los valores cr´
              ıticos de la distribuci´n Chi-cuadrado para distintos niveles de significaci´n.
                                     o                                                    o
Tambi´n podemos obtener el valor-p dado el valor muestral del estad´
       e                                                             ıstico. En la ventana prin-
cipal de nuevo en Herramientas → Buscador de valores-p, y en la ventana que aparece seleccio-
nar la chi-cuadrado especificando en la primera casilla 1 grado de libertad y el valor muestral
del estad´ıstico en la segunda casilla. Aparece una ventana con la siguiente informaci´n: Chi-
                                                                                        o
cuadrado(1): ´rea a la derecha de 3,70417 = 0,0542767 (a la izquierda: 0,945723).
               a
Por lo tanto, como el valor-p obtenido es 0, 0542767 que, aunque poco, es algo mayor que 0, 05,
no se rechazar´ la hip´tesis nula de que F 2 sea una variable importante a a˜adir al modelo
                ıa      o                                                          n
al 5 %, pero s´ al 10 % al ser el valor-p en ese caso menor que ese nivel de significaci´n. Vemos
              ı                                                                          o
que la hip´tesis nula se rechazar´ al 10 % de significaci´n ya que el valor muestral en ese caso
          o                        ıa                       o
N R2 = 3, 70417 ser´ mayor que el valor cr´
                    ıa                       ıtico χ2
                                                    (1)0,1 = 2, 706, aunque no se rechazar´ al 5 %.
                                                                                           ıa
Luego existe cierta evidencia de que F 2 sea una variable relevante a a˜adir en el modelo.
                                                                          n
¿C´mo cambiar´ los gr´ficos (5.1) y (5.2) si consideramos los residuos del modelo (5.1) que
   o             ıan       a
incluye a la variable F2? Estos corresponden a los gr´ficos de la Figura (5.3). En este caso la
                                                        a
disposici´n de los residuos positivos y negativos es m´s aleatoria alrededor de su media muestral.
         o                                            a
Por otro lado, el gr´fico de los residuos del modelo (5.1) sobre la variable F 2 ya no muestra esa
                     a
relaci´n positiva entre ambas variables.
      o


5.3.    Efectos de inclusi´n de variables irrelevantes
                          o

Supongamos ahora que el modelo correcto para el precio de la vivienda es

                               Pi = β1 + β2 F 2i + ui    i = 1, . . . , N                         (5.9)

donde se satisfacen las hip´tesis b´sicas, pero incluimos en la regresi´n una variable m´s que no
                           o       a                                   o                a
es relevante, BEDRM S. El modelo que ajustamos es

                      Pi = β1 + β2 F 2i + β3 BEDRM Si + ui          i = 1, . . . , N             (5.10)

                                               101
SARRIKO-ON 8/09                                                                              Econometr´ B´sica Aplicada con Gretl
                                                                                                                                  ıa a

                             80                                                                                    80



                             60                                                                                    60



                             40                                                                                    40
Residuos del Modelo (5.1)




                                                                                       Residuos del Modelo (5.1)
                             20                                                                                    20



                              0                                                                                     0



                            −20                                                                                    -20



                            −40                                                                                    -40



                            −60                                                                                    -60
                                    2     4     6           8     10   12       14                                            1500     2000     2500     3000
                                                    Observación                                                                          F2


                                    Gr´fico 5.3: Gr´ficos de los residuos del Modelo (5.1) sobre observaci´n y sobre F2
                                      a           a                                                     o


                            En este modelo se siguen satisfaciendo las hip´tesis b´sicas, ya que el valor poblacional del
                                                                              o      a
                            coeficiente que acompa˜a a la variable BEDRM S es cero al no ser una variable relevante, por
                                                   n
                            lo que el t´rmino de error no cambia. Pero en la regresi´n se estimar´n todos los coeficientes,
                                       e                                              o            a
                            tambi´n los de las variables irrelevantes y la estimaci´n puntual de β3 no ser´ en general cero.
                                  e                                                o                      a
                            ¿Qu´ consecuencias tendr´ este error de especificaci´n?
                                e                     a                          o

                                                                                                                        ˆ
                                  • En este caso, los estimadores de todos los coeficientes son insesgados, por lo que E(βj ) =
                                    βj ∀j. En particular, E(βˆ3 ) = 0.

                                  • La matriz de varianzas y covarianzas se estimar´ correctamente con el estimador habitual.
                                                                                    a
                                    Por lo que tanto los intervalos de confianza como los procedimientos habituales de contraste
                                    sobre los coeficientes βj siguen siendo v´lidos.
                                                                             a

                                  • El coste de este error de especificaci´n es la p´rdida de eficiencia en la estimaci´n. Si se
                                                                         o          e                                o
                                    comparan las varianzas de los coeficientes estimados en el modelo incorrecto relativamente
                                    al correctamente especificado, estas ser´n mayores en el primero. Por ejemplo, se puede
                                                                            a
                                    demostrar que esta p´rdida de eficiencia depende de la correlaci´n entre F 2 y BEDRM S
                                                         e                                         o
                                    siendo mayor cuanto mayor sea esta correlaci´n.
                                                                                  o
                                    En particular, para β2 el ratio de la varianza del estimador de este coeficiente en el modelo
                                    incorrecto (5.10) sobre la varianza del estimador en el modelo correcto (5.9) es

                                                                                ˆ
                                                                            var(β2 )(10)      1
                                                                                         =         ≥1                                                  (5.11)
                                                                            var(βˆ2 )(9)   1 − ρ2
                                                                                                23

                                    siendo 0 ≤ ρ2 ≤ 1 el coeficiente de correlaci´n al cuadrado entre F 2 y BEDRM S.
                                                  23                               o
                                    En el caso de los datos que estamos utilizando data4-1 sobre 14 viviendas este ratio es
                                     1/ 1 − (0, 5323)2 = 1, 4, luego hay cierta p´rdida de eficiencia en la estimaci´n de
                                                                                   e                                  o
                                    β2 en el modelo (5.10) relativamente a (5.9). La inclusi´n de la variable supuestamente
                                                                                            o
                                    irrelevante BEDRM S hace que estimemos con menor precisi´n el coeficiente β2 . Lo mismo
                                                                                               o
                                    ocurre con el coeficiente β1 .




                                                                                     102
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                                 SARRIKO-ON 8/09


¿C´mo podemos detectar la presencia de variables innecesarias?
  o
Una posibilidad es comenzar por un modelo relativamente general y utilizar los contrastes de
                                                                            ¯
significatividad individual, as´ como las medidas de bondad de ajuste R2 o los criterios de
                               ı
informaci´n AIC o BIC por ejemplo. Estos indicadores nos pueden ayudar en la toma de esta
          o
decisi´n. Los resultados obtenidos de la estimaci´n de los modelos (5.9) y (5.10) se muestran en
      o                                           o
la tabla (5.2)6 . Considerando que nuestro modelo de partida es el modelo m´s general, Modelo
                                                                             a
(5.10), y utilizando el contraste de significatividad individual para el coeficiente que acompa˜an
a BEDRM S, podr´      ıamos considerar que esta variable no es relevante en explicar la variaci´n
                                                                                               o
en el precio de la vivienda una vez hemos incluido el tama˜o de ´sta. Eliminar esta variable
                                                               n      e
                                                                        ¯
del modelo tambi´n mejora el resto de indicadores de ajuste, mayor R2 , menores AIC y BIC.
                    e
Se puede observar tambi´n que las desviaciones t´
                          e                        ıpicas estimadas se reducen bastante. Por otro
lado, tanto en el modelo (5.10) como en el (5.9), la variable F 2 es significativa indicando su
relevancia en explicar la variaci´n en el precio de la vivienda.
                                 o

 Variable                                             Modelo (5.9)                Modelo (5.10)
                                                  supuestamente correcto
 CONSTANT                                                 52,351                       121,179
                                                          (1,404)                       (1,511)
                                                          [37,28]                     [80,1778]
 F2                                                      0,13875                       0,14831
                                                          (7,407)                       (6,993)
                                                         [0,0187]                      [0,0212]
 BEDRMS                                                                                -23,911
                                                                                       (-0,970)
                                                                                       [24,642]
 Suma de cuadrados de los residuos                          18273,6                    16832,8
 Desviaci´n t´
          o ıpica de los residuos (ˆ )
                                   σ                        39,023                     39,1185
 R2                                                          0,821                       0,835
 ¯
 R2                                                          0,806                       0,805
 F de significaci´n conjunta
                o                                            54,861                     27,767
 Grados de libertad                                            12                          11
 Criterio de Akaike (AIC)                                   144,168                    145,019
 Criterio de Schwarz (BIC)                                  145,447                    146,936

                       Tabla 5.2: Modelos estimados para el precio de la vivienda.



La aproximaci´n de ir de un modelo m´s general a uno m´s restringido suele ser m´s conveniente
                o                        a                 a                        a
que la aproximaci´n contraria. En el caso de comenzar por un modelo m´s reducido e ir a˜adiendo
                   o                                                    a                n
variables secuencialmente, decidiendo mantenerlas o no en funci´n de si son o no significativas,
                                                                   o
se corre el peligro de lo que se conoce con el nombre ingl´s de data mining o torturar a los datos.
                                                          e
El problema en la aproximaci´n contraria es que, si el modelo de partida es demasiado general
                              o
y los regresores est´n muy correlacionados, la precisi´n con la que estimemos los par´metros
                    a                                  o                                 a
puede ser poca. Por esa falta de precisi´n en la estimaci´n podemos tener coeficientes no signifi-
                                        o                o
cativamente distintos de cero, no siendo capaces de identificar el efecto de esas variables ya que
la potencia de los contrastes de significaci´n puede ser muy poca7 . No rechazar en ese caso la
                                            o
  6
      Entre par´ntesis estad´
               e            ısticos t y entre corchetes las desviaciones t´
                                                                          ıpicas estimadas.
  7
      Este problema ser´ tratado m´s en detalle en el tema de Multicolinealidad.
                        a            a


                                                         103
SARRIKO-ON 8/09                                        Econometr´ B´sica Aplicada con Gretl
                                                                ıa a


hip´tesis nula no es evidencia de que esas variables no sean relevantes sino de que el contraste
    o
tiene poca potencia.




                                              104
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                           SARRIKO-ON 8/09


5.4.      Ejercicios para practicar

Ejercicio 1:
Realiza exclusivamente los apartados 1 a 6
Para la realizaci´n de este ejercicio utiliza el archivo greene 7-8.gdt de muestra en gretl8 El
                 o
archivo contiene datos de serie temporal para los a˜os 1953 a 2004 de las siguientes variables
                                                       n
sobre el mercado de la gasolina en Estados Unidos:

 G       Consumo total de gasolina en Estados Unidos. Se obtiene de
         dividir el gasto en gasolina entre el ´ndice de precios al
                                               ı
         consumo
 Pg      ´ndice de precios para la gasolina
         I
 Y       Renta disponible per capita
 Pnc     ´ndice de precios para coches nuevos
         I
 Puc     ´ndice de precios para coches usados
         I
 Ppt     ´ndice de precios para transporte p´blico
         I                                  u
 Pd      ´ndice de precios agregado para bienes de consumo duradero
         I
 Pn      ´ndice de precios agregado para bienes de consumo no duradero
         I
 Ps      ´ndice de precios agregado para servicios de consumo
         I
 Pop     Poblaci´n total en Estados Unidos en millones de personas
                 o

     1. Define una nueva variable, el gasto per c´pita Gpc, como Gpc = G/P op.
                                                a

     2. Especifica un primer modelo para la funci´n de consumo de gasolina:
                                                o

                                         Gpct = β1 + β2 Yt + β3 P gt + ut                                 (5.12)

       Interpreta sus coeficientes.

     3. Estima el modelo (6.3) por M´
                                    ınimos Cuadrados Ordinarios. Comenta los resultados obteni-
        dos en t´rminos de bondad de ajuste, significatividad y signos de los coeficientes estimados.
                e
        Razona si te parecen adecuados los resultados.

     4. Obt´n e interpreta los siguientes gr´ficos:
           e                                a

          • Gr´fico de los residuos MCO contra el tiempo.
              a
          • Gr´fico de la serie estimada y observada contra el tiempo.
              a

     5. Se considera ampliar la especificaci´n del modelo (6.3) incluyendo otros ´
                                           o                                    ındices de precios.
        Estima las siguientes especificaciones:

         MODELO 2        Gpct = β1 + β2 Yt + β3 P gt + β4 P nct + ut

         MODELO 3        Gpct = β1 + β2 Yt + β3 P gt + β4 P nct + β5 P uct + ut

         MODELO 4        Gpct = β1 + β2 Yt + β3 P gt + β4 P nct + β5 P uct + β6 P dt + ut

         a) Muestra en el siguiente cuadro los resultados obtenidos para cada especificaci´n.
                                                                                         o
   8
     Fuente: Greene, W. (2008), Econometrics Analysis, 6th Ed., Prentice-Hall, Tabla F2.2: Source: These data
were compiled by Professor Chris Bell, Department of Economics, University of North Carolina, Asheville. Sources:
www.bea.gov and www.bls.gov.


                                                      105
SARRIKO-ON 8/09                                                  Econometr´ B´sica Aplicada con Gretl
                                                                          ıa a


       Tabla 5.3: Modelos estimados para el Consumo de Gasolina en Estados Unidos
      Variable dependiente Gpc
                                      ∗
      Variables Explicativas                               Modelo 2         Modelo 3         Modelo 4

      Constant                                                 ······           ······           ······
                                                           (            )   (            )   (            )


      Y                                                        ······           ······           ······
                                                           (            )   (            )   (            )


      Pg                                                       ······           ······           ······
                                                           (            )   (            )   (            )


      Pnc                                                      ······           ······           ······
                                                           (            )   (            )   (            )


      Puc                                                                       ······           ······
                                                                            (            )   (            )


      Pd                                                                                         ······
                                                                                             (            )



      Suma de cuadrados de los residuos                        ······           ······           ······
      Desviaci´n t´
              o ıpica de los residuos (ˆ )
                                       σ                       ······           ······           ······

      R2                                                       ······           ······           ······
      ¯
      R2                                                       ······           ······           ······

      F de significaci´n conjunta
                     o                                         ······           ······           ······
      Grados de libertad                                       ······           ······           ······

      Criterio de Akaike (AIC)                                 ······           ······           ······
      Criterio de Schwarz (BIC)                                ······           ······           ······
      Criterio de Hannan-Quinn (HQC)                           ······           ······           ······
      (*)Valores entre par´ntesis son los estad´
                          e                    ısticos t



      b) Comenta los resultados mostrados en la Tabla 6.1 en t´rminos de significatividad
                                                                   e
         individual, conjunta, coeficiente de determinaci´n y distintos criterios de selecci´n de
                                                        o                                  o
         modelos.
      c) ¿Consideras que alguna de las especificaciones es mejor? Razona tus conclusiones.

  6. Calcula la matriz de correlaci´n entre las variables de precios Pg, Pnc, Puc y Pd. ¿Crees
                                   o
     que puede haber alg´n problema en la estimaci´n de los modelos anteriores? Interpreta
                          u                           o
     los valores de la matriz.

  7. Calcula el Factor de Inflaci´n de Varianza y el Factor de Tolerancia para los regresores del
                                o
     Modelo 3 y el Modelo 4. Interpreta los resultados.

                                                     106
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                         SARRIKO-ON 8/09


   8. ¿Qu´ conclusiones extraes?
         e

   9. Contrasta al 5 % en el Modelo 3, la hip´tesis nula de que los coeficientes asociados a las va-
                                             o
      riables individualmente no significativas no son significativas conjuntamente. ¿Qu´ puedes
                                                                                         e
      concluir?

 10. Contrasta al 5 % en el Modelo 4, las siguientes restricciones lineales:

        a) H0 : β4 = β5
        b) H0 : β3 = −β4
        c) H0 : β4 = β5 = β6


Ejercicio 2:
Realiza exclusivamente los apartados 1 y 2


Se dispone de un conjunto de observaciones sobre el n´mero total de viviendas de nueva cons-
                                                     u
trucci´n y sus determinantes para el periodo de 1963 a 19949 . Las variables que se consideran
      o
son:


  housing      No total de viviendas de nueva construcci´n (en miles)
                                                        o
      pop      Poblaci´n de Estados Unidos (en millones)
                      o
      gdp      Producto interior bruto (en billones de $ de 1992)
    unemp      Tasa de desempleo
  intrate      Tipo de inter´s sobre la hipoteca de nueva vivienda
                            e


   1. Considera una primera especificaci´n (Modelo A) de la demanda de nueva vivienda, donde
                                         o
      la variable dependiente es housing y las explicativas son gdp, intrate, adem´s de incluir un
                                                                                  a
      t´rmino constante:
       e

        a) Escribe el modelo te´rico que se ha estimado. Explica qu´ son cada uno de sus ele-
                               o                                   e
           mentos y las hip´tesis b´sicas de partida.
                           o       a
        b) Muestra los resultados de la estimaci´n de este modelo.
                                                o
        c) Interpreta qu´ recoge cada uno de los coeficientes estimados y si te parecen razonables
                         e
           los resultados obtenidos.
        d ) Realiza los contrastes de significatividad individual utilizando el valor-p. Explica
            qu´ es el valor-p. Razona la respuesta.
              e

   2. Posteriormente se decide excluir del Modelo A la variable intrate, definimos como Modelo
      B al modelo resultante.

        a) Obt´n los resultados de su estimaci´n. ¿Te parecen razonables? Razona tu respuesta.
              e                               o
        b) Explica c´mo afectar´ a la fiabilidad de los resultados obtenidos en la estimaci´n del
                    o          ıa                                                         o
           Modelo B el que la variable intrate fuera relevante para explicar el total de nuevas
           viviendas construidas.
   9
    Fichero data4-3a.gdt. Recogido en Ramanathan, R. (2002), Introductory econometrics with applications, 5th.
Ed., South-Western.


                                                     107
SARRIKO-ON 8/09                                        Econometr´ B´sica Aplicada con Gretl
                                                                ıa a


  3. Seguidamente se estiman dos especificaciones. Una, en la que en el Modelo B se incluye a
     la variable pop y otra con todas las variables disponibles para explicar housing.

      a) Indica con Modelo C y Modelo D estas dos ultimas especificaciones y muestra los
                                                       ´
         resultados de la estimaci´n de estos dos nuevos modelos.
                                  o
      b) Valora los resultados de las cuatro especificaciones (A, B, C y D), utilizando todos
         los criterios mostrados, significatividad, coeficientes de determinaci´n, criterios de
                                                                             o
         informaci´n. ¿Qu´ especificaci´n te parece la m´s adecuada? ¿Por qu´? Razona tu
                   o       e            o                 a                    e
         respuesta.
      c) ¿Qu´ es el VIF? ¿Qu´ te indica? Calcula este factor para el Modelo D y analiza si en
             e               e
         ese modelo hay evidencia del problema que este factor trata de detectar.
      d ) Realiza el contraste de Chow en el Modelo D ¿Qu´ te indica? ¿Hay evidencia de lo
                                                              e
          que el contraste trata de detectar dados los resultados obtenidos en la realizaci´n del
                                                                                           o
          contraste?




                                             108
Tema 6

Multicolinealidad

A la hora de estimar un modelo econ´mico, los datos disponibles sobre las variables explicativas
                                     o
o regresores pueden presentar un alto grado de correlaci´n, especialmente en un contexto de
                                                           o
series temporales y con series macroecon´micas. Por ejemplo, la poblaci´n y el PIB en general
                                         o                                 o
suelen estar altamente correlacionados. A este fen´meno se le conoce como multicolinealidad.
                                                   o
En alg´n caso puede que los datos de una variable se obtengan como resultado de una identidad
       u
contable o de una combinaci´n lineal exacta entre otros regresores. Este ultimo caso se denomina
                            o                                            ´
de multicolinealidad exacta o perfecta.
Cuando dos o m´s variables explicativas en un modelo est´n altamente correlacionadas en la
                  a                                         a
muestra, es muy dif´ separar el efecto parcial de cada una de estas variables sobre la variable
                     ıcil
dependiente. La informaci´n muestral que incorpora una de estas variables es casi la misma que
                           o
el resto de las correlacionadas con ella. En el caso extremo de multicolinealidad exacta no es
posible estimar separadamente estos efectos sino una combinaci´n lineal de ellos. En este tema
                                                                 o
analizaremos las implicaciones que tiene en la estimaci´n por el m´todo de M´
                                                       o           e         ınimos Cuadrados
Ordinarios este fen´meno muestral.
                    o



6.1.       Multicolinealidad perfecta

Dada la especificaci´n del modelo y los datos de las variables, si al menos una de las variables
                    o
explicativas se puede obtener como combinaci´n lineal exacta de alguna o algunas de las
                                                  o
restantes, diremos que existe multicolinealidad exacta o perfecta.
Consideremos el siguiente ejemplo. ¿Qu´ ocurrir´ si definimos una nueva variable F 25 que es una
                                       e         a
combinaci´n lineal exacta de otra variable explicativa en el modelo, F 25 = 5×F 2 y pretendemos
          o
estimar los par´metros del siguiente modelo?
               a

                  Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 F 25i + ui                 i = 1, 2, . . . , N   (6.1)

Las variables F 25 y F 2 son combinaci´n lineal exacta por lo que el rango de la matriz X es
                                       o
3 = K − 1, menor que el n´mero de par´metros a estimar, ya que la cuarta columna se obtiene
                           u            a
de multiplicar por 5 la segunda columna. El sistema de ecuaciones normales que se obtiene del
criterio de estimaci´n del m´todo de M´
                    o       e          ınimos Cuadrados Ordinarios ser´ un sistema de cuatro
                                                                       ıa
ecuaciones pero solamente tres ser´n linealmente independientes1 .
                                  a
  1
      La notaci´n utilizada es Yi ≡ Pi , X2i ≡ F 2i , X3i ≡ BEDRM Si , X4i ≡ F 25i .
               o


                                                        109
SARRIKO-ON 8/09                                                 Econometr´ B´sica Aplicada con Gretl
                                                                         ıa a



                        Yi   =      ˆ    ˆ
                                  N β1 + β2           ˆ
                                                X2i + β3          ˆ
                                                            X3i + β4      X4i

                   Yi X2i    =    ˆ
                                  β1         ˆ
                                       X2i + β2       2    ˆ
                                                     X2i + β3               ˆ
                                                                  X3i X2i + β4      X4i X2i

                   Yi X3i    =    ˆ
                                  β1         ˆ
                                       X3i + β2                ˆ
                                                     X2i X3i + β3      2    ˆ
                                                                      X3i + β4      X4i X3i

                   Yi X4i    =    ˆ
                                  β1         ˆ
                                       X4i + β2                ˆ
                                                     X2i X4i + β3               ˆ
                                                                      X3i X4i + β4       2
                                                                                        X4i
 Si sustituimos en estas ecuaciones la relaci´n lineal exacta X4i = 5X2i y reorganizamos, obte-
                                             o
nemos:
                             Yi   =      ˆ     ˆ     ˆ
                                       N β1 + (β2 + 5β4 )          ˆ
                                                             X2i + β3      X3i

                         Yi X2i   =    ˆ
                                       β1            ˆ     ˆ
                                              X2i + (β2 + 5β4 )      2    ˆ
                                                                    X2i + β3     X3i X2i

                         Yi X3i   =    ˆ
                                       β1            ˆ     ˆ
                                              X3i + (β2 + 5β4 )               ˆ
                                                                    X2i X3i + β3      2
                                                                                     X3i

                   5[    Yi X2i   =    ˆ
                                       β1            ˆ     ˆ
                                              X2i + (β2 + 5β4 )      2    ˆ
                                                                    X2i + β3     X3i X2i ]
 Se puede observar que la cuarta ecuaci´n es la misma que la segunda excepto por un factor
                                         o
                                                            ˆ ˆ ˆ        ˆ
de escala igual a 5. Por lo tanto, hay cuatro inc´gnitas β1 , β2 , β3 y β4 pero solamente tres
                                                    o
ecuaciones linealmente independientes. Consecuentemente, no es posible estimar de forma unica
                                                                                           ´
todos los coeficientes del modelo. Ahora bien, las tres primeras ecuaciones si podemos resolverlas
      ˆ ˆ                             ˆ     ˆ
para β1 , β3 y la combinaci´n lineal (β2 + 5β4 ). Esto mismo se puede comprobar sustituyendo
                           o
F 25i = 5 × F 2i en el modelo (6.1).

              Pi = β1 + (β2 + 5β4 ) F 2i + β3 BEDRM Si + ui                 i = 1, 2, . . . , N   (6.2)

Vemos que en esta regresi´n son estimables de forma separada y unica los coeficientes β1 y β3
                           o                                     ´
pero no β2 y β4 . El coeficiente que acompa˜a a F 2i recoger´ la combinaci´n lineal β2 + 5β4 .
                                          n                ıa            o
¿Qu´ hace el programa GRETL si hay multicolinealidad perfecta? Elimina una variable cual-
    e
quiera de las que forman parte de esa relaci´n exacta, mostrando el siguiente resultado.
                                            o

Modelo 8: estimaciones MCO utilizando las 14 observaciones 1-14
Variable dependiente: P

Omitidas debido a colinealidad exacta: F25

VARIABLE       COEFICIENTE               DESV.T´P.
                                               I            ESTAD T       VALOR P
  const        121,179                   80,1778              1,511       0,15888
  F2             0,148314                 0,0212080           6,993       0,00002 ***
  BEDRMS       -23,9106                  24,6419             -0,970       0,35274

  Media de la var. dependiente = 317,493
  Desviaci´n t´pica de la var. dependiente. = 88,4982
          o   ı
  Suma de cuadrados de los residuos = 16832,8
  Desviaci´n t´pica de los residuos = 39,1185
          o   ı
  R-cuadrado = 0,834673
  R-cuadrado corregido = 0,804613
  Estad´stico F (2, 11) = 27,7674 (valor p = 5,02e-005)
       ı
  Log-verosimilitud = -69,5093
  Criterio de informaci´n de Akaike (AIC) = 145,019
                        o

                                                    110
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                           SARRIKO-ON 8/09


  Criterio de informaci´n Bayesiano de Schwarz (BIC) = 146,936
                       o
  Criterio de Hannan-Quinn (HQC) = 144,841

Por lo tanto, avisa de que ha eliminado una variable explicativa de la regresi´n, en este caso
                                                                               o
F 25, y muestra los resultados de la regresi´n excluyendo esa variable. De hecho, el coeficiente
                                            o
que acompa˜a a F2 podr´ considerarse como (β2 + 5β4 ). Este ha sido un ejemplo ilustrativo de
            n            ıa
las implicaciones que tiene el problema de multicolinealidad perfecta.


6.2.     Multicolinealidad de grado alto

En general es dif´ tener en un modelo de regresi´n variables explicativas o regresores que
                 ıcil                                 o
no presenten cierta correlaci´n muestral. La multicolinealidad, de no ser perfecta, se puede
                             o
considerar un problema cuando la correlaci´n entre los regresores es tan alto que se hace casi
                                             o
imposible estimar con precisi´n los efectos individuales de cada uno de ellos.
                             o
Si la correlaci´n entre la variables explicativas es alta, es com´n tener los siguientes s´
               o                                                 u                        ıntomas:

    • Peque˜os cambios en los datos o en la especificaci´n provocan grandes cambios en las
            n                                          o
      estimaciones de los coeficientes.

    • La estimaciones de los coeficientes suelen presentar signos distintos a los esperados y
      magnitudes poco razonables.

    • El efecto m´s pernicioso de la existencia de un alto grado de multicolinealidad es el de
                  a
      incrementar las varianzas de los coeficientes estimados por MCO. Es decir, es dif´ estimar
                                                                                      ıcil
      separadamente los efectos marginales o individuales de cada variable explicativa por lo
      que estos se estiman con poca precisi´n.2 Como consecuencia, el valor del estad´
                                                o                                            ıstico
      para realizar contrastes de significatividad individual tiende a ser peque˜o y aumenta
                                                                                  n
      la probabilidad de no rechazar la hip´tesis nula, por lo que se tiende a concluir que las
                                              o
      variables no son significativas individualmente. El problema no reside en que los contrastes
      no sean correctos estad´ısticamente, sino en que no estimamos con suficiente precisi´n estos
                                                                                           o
      efectos individuales.

    • Se obtienen valores altos del R2 a´n cuando los valores de los estad´
                                         u                                    ısticos t de significati-
      vidad individual son bajos. El problema reside en la identificaci´n del efecto individual de
                                                                         o
      cada variable explicativa, no tanto en su conjunto. Por eso, si se realiza un contraste de sig-
      nificatividad conjunta de las variables explicativas, el resultado normalmente ser´ rechazar
                                                                                           a
      la hip´tesis nula por lo que conjuntamente son significativas aunque individualmente cada
            o
      una de ellas no lo sea.

Si se presentan estos s´
                       ıntomas se puede sospechar que el problema de multicolinealidad est´ afec-
                                                                                           e
tando a nuestros resultados, especialmente a la inferencia sobre los efectos individuales de cada
variable explicativa. De todas formas es importante analizar e interpretar adecuadamente los
resultados obtenidos sin tomar conclusiones precipitadamente.
¿C´mo podemos analizar si existe un problema de multicolinealidad?
  o
    2
      Los estimadores MCO siguen siendo los de menor varianza dentro de la clase de lineales e insesgados si las
hip´tesis b´sicas se satisfacen. Luego no es un problema de p´rdida de eficiencia relativamente a otro estimador
    o       a                                                e
lineal e insesgado.


                                                      111
SARRIKO-ON 8/09                                                  Econometr´ B´sica Aplicada con Gretl
                                                                          ıa a


 1) Una primera aproximaci´n consiste en obtener los coeficientes de correlaci´n muestral
                            o                                                       o
    simples para cada par de variables explicativas y ver si el grado de correlaci´n entre estas
                                                                                  o
    variables es alto.
       Utilizando el ejemplo de los precios de los pisos (Fichero de muestra del Ramanathan
       data4-1 ) con las variables que ya analizamos en temas anteriores,

                            Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui

       obtenemos los siguientes valores de los coeficientes de correlaci´n:
                                                                       o

       Coeficientes de correlaci´n, usando observaciones 1 - 14
                                o
       valor cr´tico al 5% (a dos colas) = 0,5324 para n = 14
               ı

              P                  F2               BEDRMS              BATHS
           1,0000              0,9058             0,3156              0,6696     P
                               1,0000             0,4647              0,7873     F2
                                                  1,0000              0,5323     BEDRMS
                                                                      1,0000     BATHS


       Como podemos observar, todas las variables explicativas presentan cierto grado de corre-
       laci´n dos a dos, siendo la correlaci´n mayor entre F2 y BATH con un coeficiente igual a
           o                                 o
       0,7873. Excepto por este valor, no parece que los coeficientes de correlaci´n simple sean
                                                                                    o
       demasiado grandes para sospechar que haya un problema de multicolinealidad. De todas
       formas, aunque es condici´n suficiente para que exista este problema que todos estos coefi-
                                  o
       cientes fueran altos, lo contrario no necesariamente es cierto. Se puede dar el caso de tener
       una relaci´n lineal casi perfecta entre tres o m´s variables y sin embargo las correlaciones
                 o                                     a
       simples entre pares de variables no ser mayores que 0, 5.

 2) Otra forma de detectar la multicolinealidad consiste en realizar la regresi´n de cada
                                                                                        o
    una de las variables explicativas sobre el resto3 y analizar los coeficientes de determinaci´n
                                                                                                o
    de cada regresi´n. Si alguno o algunos de estos coeficientes de determinaci´n (Rj
                    o                                                                 o    2 ) son

    altos, estar´ se˜alando la posible existencia de un problema de multicolinealidad.
                ıa n
       Siguiendo con el ejemplo sobre el modelo del precio de la vivienda, esto consistir´ en
                                                                                         ıa
       realizar las siguientes regresiones:

        Modelo 1: estimaciones MCO utilizando las
       14 observaciones 1-14 Variable dependiente: F2

       VARIABLE       COEFICIENTE                  ´
                                             DESV.TIP.           ESTAD T         VALOR P
       const          -657,612                 809,640             -0,812        0,43389
       BEDRMS           73,9671                254,175              0,291        0,77646
       BATHS           975,371                 283,195              3,444        0,00548 ***

          R-cuadrado = 0,622773

       Modelo 2: estimaciones MCO utilizando las 14 observaciones 1-14
 3
     En cada regresi´n se incluye el t´rmino constante como regresor pero no como variable dependiente.
                    o                 e


                                                     112
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                     SARRIKO-ON 8/09


     Variable dependiente: BEDRMS

      VARIABLE        COEFICIENTE           DESV.T´P.
                                                  I                ESTAD T VALOR P
     const            2,29560              0,700852                3,275   0,00739 ***
     F2               0,000103288          0,000354931             0,291   0,77646
     BATHS            0,487828             0,459485                1,062   0,31113

       R-cuadrado = 0,288847

     Modelo 3: estimaciones MCO utilizando las 14 observaciones 1-14
     Variable dependiente: BATHS

       VARIABLE       COEFICIENTE                    ´
                                               DESV.TIP.           ESTAD T     VALOR P
       const           0,646527                0,583914             1,107      0,29182
       F2              0,000531961             0,000154452          3,444      0,00548 ***
       BEDRMS          0,190531                0,179461             1,062      0,31113

       R-cuadrado = 0,655201


     Los resultados parecen mostrar que las variaciones muestrales de las variables F 2 y BAT HS
     son las m´s explicadas por el resto de variables explicativas, aunque los coeficientes de de-
               a
     terminaci´n de esas dos regresiones no son excesivamente altos; alrededor de un 60 % de
               o
     la variaci´n de F 2 y de BAT HS vienen explicadas por variaciones en el resto de variables
               o
     explicativas. Si recordamos los resultados obtenidos en el Tema 3, donde al estimar el
     modelo 3 una vez que inclu´ ıamos F 2 en la regresi´n, obten´
                                                        o         ıamos que las variables BAT H
     y BEDRM S no eran significativas. ¿Puede ser este hecho consecuencia de un problema
     de multicolinealidad? ¿Podr´  ıamos tener problemas de multicolinealidad entre las varia-
     bles F 2, BAT HS y BEDRM S? Vamos a utilizar alg´n procedimiento m´s formal para
                                                             u                    a
     detectar si existe este problema.

  3) Neter et al. (1990) consideran una serie de indicadores para analizar el grado de multico-
     linealidad entre los regresores de un modelo, como por ejemplo los llamados Tolerancia
     (TOL) y Factor de Inflaci´n de la Varianza (VIF) que se definen:
                                  o

                                               1                         1
                               V IFj =                       T OLj =
                                               2
                                          1 − Rj                       V IFj

               2
     siendo Rj el coeficiente de determinaci´n de la regresi´n auxiliar de la variable Xj sobre
                                               o             o
     el resto de las variables explicativas y 1 ≤ V IFj ≤ ∞.
                                                                         ˆ
     La varianza de cada uno de los coeficientes de la regresi´n MCO (βj ) de un modelo de
                                                               o
     regresi´n lineal general se puede expresar como:
            o


                     ˆ              σ2                   1                σ2
                 var(βj ) =                    2               =                     2   V IFj
                              N           ¯
                                    Xji − Xj             2
                                                    1 − Rj
                                                                    N           ¯
                                                                          Xji − Xj
                              i=1                                   i=1

                                                                   2
     donde βj , es el coeficiente que acompa˜a a la variable Xj y Rj es el coeficiente de deter-
                                           n
     minaci´n de la regresi´n auxiliar de la variable Xj en funci´n del resto de las variables
           o                 o                                   o

                                                   113
SARRIKO-ON 8/09                                          Econometr´ B´sica Aplicada con Gretl
                                                                  ıa a


     explicativas. Como vemos existe una relaci´n inmediata entre el valor V IFj y la varianza
                                                o
                                                         2
     del coeficiente estimado. Cuanto m´s se acerque Rj a la unidad, es decir, cuanto mayor
                                         a
     sea la colinealidad de la variable Xj con el resto, mayor es el valor de V IFj y mayor es
     la varianza del coeficiente estimado, porque tal y como hemos dicho, la multicolineali-
     dad “infla” la varianza. Seg´n estos autores, si V IFj > 10, entonces concluiremos que la
                                 u
     colinealidad de Xj con las dem´s variables es alta.
                                     a
     La utilizaci´n de los coeficientes T OL y V IF para detectar la presencia de la multicolineali-
                 o
     dad ha recibido m´ltiples cr´
                        u         ıticas, porque la conclusi´n obtenida con estos valores no siem-
                                                            o
     pre recoge adecuadamente la informaci´n y problema de los datos. Tal y como hemos visto
                                              o
     anteriormente, las varianzas de los estimadores depende del V IFj , σ 2 y           ¯ 2
                                                                                  Xji − Xj , por
     lo que un alto V IFj no es condici´n suficiente ni necesaria para que dichas varianzas sean
                                         o
     elevadas ya que es posible que σ  2 sea peque˜ o o
                                                    n              ¯ 2
                                                             Xji − Xj grande y se compensen.
     Los indicadores T OL y V IF se pueden obtener con el programa GRETL de forma muy
     sencilla. Siguiendo con el ejemplo de los precios de las viviendas, calcularemos la Inflaci´n
                                                                                               o
     de la Varianza para analizar la posible presencia de multicolinealidad. Para ello, en la
     ventana de la estimaci´n por MCO del modelo de inter´s, elegimos la opci´n
                            o                                  e                  o

                                     Contrastes → Colinealidad

     obteniendo la siguiente informaci´n:
                                      o

     Factores de inflaci´n de varianza (VIF)
                        o

      M´nimo valor posible = 1.0
       ı
      Valores mayores que 10.0 pueden indicar un
      problema de colinealidad

         2)              F2         2,651
         3)            BEDRMS       1,406
         4)             BATHS       2,900

     VIF(j) = 1/(1 - R(j)^2), donde R(j) es el coeficiente de
     correlaci´n m´ltiple entre la variable j y las dem´s variables
              o   u                                    a
     independientes

     Como podemos observar, seg´n los valores del V IFj , podr´
                                  u                           ıamos concluir que no existen
     problemas de multicolinealidad.

Aunque no es f´cil, se pueden considerar las siguientes “soluciones” para intentar resolver el
              a
problema:

   • Si realmente es un problema muestral, una posibilidad es cambiar de muestra porque puede
     ser que con nuevos datos el problema se resuelva, aunque esto no siempre ocurre. La idea
     consiste en conseguir datos menos correlacionados que los anteriores, bien cambiando toda
     la muestra o simplemente incorporando m´s datos en la muestra inicial. De todas formas,
                                               a
     no siempre resulta f´cil obtener mejores datos por lo que muy probablemente debamos
                          a
     convivir con el problema teniendo cuidado con la inferencia realizada y las conclusiones de
     la misma.

                                               114
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                               SARRIKO-ON 8/09


   • En ocasiones, si se incorpora informaci´n a priori sobre los coeficientes del modelo desapa-
                                            o
     rece el problema. A´n as´ ser´ conveniente tener en cuenta dicha informaci´n antes de la
                          u    ı,   ıa                                             o
     detecci´n del problema de multicolinealidad y no posteriormente, ya que as´ estimaremos
             o                                                                     ı
     el modelo m´s eficientemente.
                  a

   • Quitar del modelo alguna de las variables colineales. Es una medida que puede provocar
     otro tipo de problemas, ya que si la variable que eliminamos del modelo realmente s´ esı
     significativa, estaremos omitiendo una variable relevante. Por consiguiente, los estimadores
     de los coeficientes del modelo y de su varianza ser´ sesgados por lo que la inferencia
                                                          ıan
     realizada no ser´ v´lida.
                      ıa a

   • Existen otros m´todos de estimaci´n sugeridos en la literatura econom´trica que mejorar´
                     e                 o                                    e                  ıan
     la estimaci´n en t´rminos de eficiencia o precisi´n, pero los estimadores as´ obtenidos ser´
                o      e                             o                          ı              ıan
     sesgados. Explicar estos m´todos no entran dentro de los objetivos de este curso.
                                e




                                              115
SARRIKO-ON 8/09                                                Econometr´ B´sica Aplicada con Gretl
                                                                        ıa a


6.3.     Ejercicios para practicar

Ejercicio 1:
Se dispone de una base de datos anuales sobre las tasas de mortalidad por enfermedades coro-
                                      ıodo de 1947 a 1980 en U.S.4 .
narias y sus determinantes para el per´

        chd    Tasa de mortalidad por cada 100.000 individuos de
               poblaci´n (Rango 321,2 - 375,4)
                      o
        cal    Consumo, per c´pita, de calcio diario en gramos (Ran
                              a
               go 0,9 - 1,06)
      unemp    Tanto por ciento de fuerza de mano de obra desemplea-
               da en miles de personas mayores de 16 a~os
                                                      n
               (Rango 2,9 - 8,5)
       cigs    Consumo de cigarrillos, per c´pita, en libras de ta-
                                            a
               baco, por persona mayor de 18 a~os. Aproximadamente
                                               n
               339 cigarrillos por libra de tabaco
               (Rango 6,75 - 10,46)
      edfat    Ingesti´n de comestibles grasos y aceites, per c´pita,
                      o                                        a
               incluyendo manteca, margarina y mantequilla (Rango 42
                - 56,5)
       meat    Ingesti´n de carne en libras, incluyendo carne de vaca,
                      o
               ternera, cordero y oveja (Rango 138 - 194,8)
  spirits      Consumo per c´pita de licores destilados, en galones
                            a
               fiscales, para mayores de 18 a~os (Rango 1 - 2,9)
                                             n
       beer    Consumo per c´pita de licor de malta en galones
                            a
               fiscales para mayores 18 a~os (Rango 15,04 - 34,9)
                                         n
       wine    Consumo per c´pita de vino, en galones fiscales, en
                            a
               mayores de 18 a~os (Rango 0,77 - 2,65)
                               n

   1. Especifica un modelo que explique la tasa de mortalidad por enfermedades coronarias en
      el periodo 1947-1980.

   2. Interpreta los coeficientes del modelo anterior.

   3. Estima el modelo por M´
                            ınimos Cuadrados Ordinarios. Interpreta los par´metros estimados.
                                                                           a

   4. Comenta los resultados obtenidos de la estimaci´n en t´rminos de bondad de ajuste, sig-
                                                     o      e
      nificatividad y signos de los coeficientes estimados. Razona si te parecen adecuados los
      resultados.

   5. Calcula la matriz de correlaci´n entre las variables y comenta lo obtenido. ¿Crees que
                                    o
      puede haber alg´n problema?
                     u

        a) Calcula el Factor de Inflaci´n de Varianza y el Factor de Tolerancia para los regresores.
                                      o
           Interpreta los resultados.
        b) ¿Conoces otra forma de detectar la multicolinealidad? Apl´
                                                                    ıcala.
        c) ¿Qu´ conclusiones extraes?
              e
  4
    Fichero de datos: data4-7.gdt. Recogido en Ramanathan, R. (2002), Introductory econometrics with applica-
tions, 5th. Ed., South-Western.


                                                    116
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                           SARRIKO-ON 8/09


   6. Realiza un contraste de significatividad conjunta de aquellas variables que sean individual-
      mente no significativas.

Ejercicio 2:
Se dispone de una base de datos anuales sobre el consumo real y sus determinantes para el
   ıodo de 1959 a 1994 en U.S. 5 . Las variables que se consideran son:
per´

           Ct    Consumo real en billones de d´lares de 1992,
                                              o
                 (Rango 1393,6-4471,1)
           Yt    Producto interior bruto en billones de d´lares de
                                                         o
                 1992 (Rango 2212,3 - 6604,2)
       WAGES     Salarios en billones de d´lares corrientes
                                          o
                 (Rango 281,2 - 4008,3)
     PRDEFL      Deflactor impl´cito de los precios para el gasto
                               ı
                 en consumo, 1992 = 100, (Rango 22,8 - 105,1)

   1. ¿Qu´ quiere decir: “Deflactor impl´
         e                             ıcito de los precios para el gasto en consumo, 1992=100”?
   2. Crea las siguientes variables:
                                                   100×W AGES
        a) Salario en t´rminos reales, W =
                       e                             P RDEF L .
        b) Beneficios y otras rentas del capital, P = Y − W .
   3. ¿Qu´ quiere decir que las variables est´n medidas en t´rminos reales?
         e                                   a              e
   4. Especifica un modelo para la evoluci´n del consumo en funci´n del salario real y los bene-
                                            o                      o
      ficios y otras rentas del capital, para el periodo de 1959-1994.
   5. Interpreta los coeficientes del modelo anterior.
   6. Estima el modelo por M´
                            ınimos Cuadrados Ordinarios. Interpreta los coeficientes estimados
      que acompa˜an a las variables explicativas.
                 n
   7. Comenta los resultados obtenidos de la estimaci´n en t´rminos de bondad de ajuste, sig-
                                                     o      e
      nificatividad y signos de los coeficientes estimados. Razona si te parecen adecuados los
      resultados.
   8. Calcula y comenta la matriz de correlaci´n entre las variables. ¿Crees que puede haber
                                              o
      alg´n problema?
         u
        a) Calcula el Factor de Inflaci´n de Varianza y el Factor de Tolerancia para los regresores.
                                      o
           Interpreta los resultados.
        b) ¿Conoces otra forma de detectar la multicolinealidad? Apl´
                                                                    ıcala.
        c) ¿Qu´ conclusiones extraes?
              e

Ejercicio 3:
Se dispone de una base de datos anuales sobre ´ ındices de producci´n y factores de producci´n
                                                                   o                           o
agr´                                            ıodo de 1948 a 1993 en U.S. 6 . Las variables que
   ıcolas y ganaderos con base 1982, para el per´
se consideran son
   5
     Fichero de datos: data4-2.gdt. Recogido en Ramanathan, R. (2002), Introductory econometrics with applica-
tions, 5th. Ed., South-Western.
   6
     Fichero de datos: data9-5.gdt. Fuente: Economic report of the President, 1996, Tablas B-95 y B-96, recogidas
en Ramanathan, R. (2002), Introductory econometrics with applications, 5th. Ed., South-Western.


                                                      117
SARRIKO-ON 8/09                                        Econometr´ B´sica Aplicada con Gretl
                                                                ıa a


        year    1948-1993 (n=46)
      output    Producci´n agr´cola y ganadera
                        o      ı
       labor    Factor trabajo
        land    Tama~o de la explotaci´n
                    n                 o
    machines    Gasto en equipamiento
      energy    Energ´a utilizada
                      ı
        fert    Gasto en fertilizantes qu´micos
                                         ı
    seedfeed    Gasto en semillas, forrajes y compra de ganado
      others    Otros gastos

  1. ¿Qu´ quiere decir que los ´
         e                       ındices tienen la base en el a˜o 1982? Si la base no fuese la
                                                               n
     misma para todos los ´ ındices ¿tendr´ sentido el an´lisis?, ¿por qu´?, ¿qu´ tendr´ que
                                           ıa             a              e      e      ıas
     hacer para solucionar tu problema?

  2. Especifica un modelo doblemente logar´   ıtmico en el que relaciones el logaritmo de la pro-
     ducci´n con el logaritmo de todos los inputs, para analizar si los factores de producci´n
           o                                                                                 o
     tenidos en cuenta son utiles para explicar o no la producci´n agr´
                           ´                                    o     ıcola-ganadera en U.S. en
     el per´
           ıodo de 1948 a 1993.

  3. Interpreta los coeficientes del modelo anterior.

  4. Estima el modelo por M´ınimos Cuadrados Ordinarios. Interpreta los par´metros que acom-
                                                                           a
     pa˜an al factor trabajo y al factor tama˜o de la explotaci´n.
       n                                     n                 o

  5. Comenta los resultados obtenidos de la estimaci´n en t´rminos de bondad de ajuste, sig-
                                                    o      e
     nificatividad y signos de los coeficientes estimados. Razona si te parecen adecuados los
     resultados.

  6. Calcula la matriz de correlaci´n entre las variables y comenta lo obtenido. ¿Crees que
                                   o
     puede haber alg´n problema?
                    u

      a) Calcula el Factor de Inflaci´n de Varianza y el Factor de Tolerancia para los regresores.
                                    o
         Interpreta los resultados.
      b) ¿Conoces otra forma de detectar la multicolinealidad? Apl´
                                                                  ıcala.
      c) ¿Qu´ conclusiones extraes?
            e

  7. Realiza un contraste de significatividad conjunta de aquellas variables que sean individual-
     mente no significativas.




                                             118
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                           SARRIKO-ON 8/09


Ejercicio 5:
Para la realizaci´n de este ejercicio utiliza el archivo greene 7-8.gdt de muestra en gretl7 El
                 o
archivo contiene datos de serie temporal para los a˜os 1953 a 2004 de las siguientes variables
                                                       n
sobre el mercado de la gasolina en Estados Unidos:

        G       Consumo total de gasolina en Estados Unidos. Se ob-
                tiene de dividir el gasto en gasolina entre el ´ndi-
                                                               ı
                ce de precios al consumo
        Pg      Indice de precios para la gasolina
        Y       Renta disponible per capita
        Pnc     Indice de precios para coches nuevos
        Puc     Indice de precios para coches usados
        Ppt     Indice de precios para transporte p´blico
                                                   u
        Pd      Indice de precios agregado para bienes de consumo
                duradero
        Pn      Indice de precios agregado para bienes de consumo
                no duradero
        Ps      Indice de precios agregado para servicios de consumo
        Pop     Poblaci´n total en EE.UU en millones de personas
                       o

   1. Define una nueva variable, el gasto per c´pita Gpc, como Gpc = G/P op.
                                              a

   2. Especifica un primer modelo para la funci´n de consumo de gasolina:
                                              o

                                         Gpct = β1 + β2 Yt + β3 P gt + ut                                  (6.3)

      Interpreta sus coeficientes.

   3. Estima el modelo (6.3) por M´
                                  ınimos Cuadrados Ordinarios. Comenta los resultados obteni-
      dos en t´rminos de bondad de ajuste, significatividad y signos de los coeficientes estimados.
              e
      Razona si te parecen adecuados los resultados.

   4. Obt´n e interpreta los siguientes gr´ficos:
         e                                a

            • Gr´fico de los residuos MCO contra el tiempo.
                a
            • Gr´fico de la serie estimada y observada contra el tiempo.
                a

   5. Se considera ampliar la especificaci´n del modelo (6.3) incluyendo otros ´
                                         o                                    ındices de precios.
      Estima las siguientes especificaciones:

        MODELO 2         Gpct = β1 + β2 Yt + β3 P gt + β4 P nct + ut

        MODELO 3         Gpct = β1 + β2 Yt + β3 P gt + β4 P nct + β5 P uct + ut

        MODELO 4         Gpct = β1 + β2 Yt + β3 P gt + β4 P nct + β5 P uct + β6 P dt + ut



   7
     Fuente: Greene, W. (2008), Econometrics Analysis, 6th Ed., Prentice-Hall, Tabla F2.2: Source: These data
were compiled by Professor Chris Bell, Department of Economics, University of North Carolina, Asheville. Sources:
www.bea.gov and www.bls.gov.


                                                      119
SARRIKO-ON 8/09                                                  Econometr´ B´sica Aplicada con Gretl
                                                                          ıa a


      a) Muestra en el siguiente cuadro los resultados obtenidos para cada especificaci´n.
                                                                                      o

       Tabla 6.1: Modelos estimados para el Consumo de Gasolina en Estados Unidos
      Variable dependiente Gpc
                                      ∗
      Variables Explicativas                               Modelo 2         Modelo 3         Modelo 4

      Constant                                                 ······           ······           ······
                                                           (            )   (            )   (            )


      Y                                                        ······           ······           ······
                                                           (            )   (            )   (            )


      Pg                                                       ······           ······           ······
                                                           (            )   (            )   (            )


      Pnc                                                      ······           ······           ······
                                                           (            )   (            )   (            )


      Puc                                                                       ······           ······
                                                                            (            )   (            )


      Pd                                                                                         ······
                                                                                             (            )



      Suma de cuadrados de los residuos                        ······           ······           ······
      Desviaci´n t´
              o ıpica de los residuos (ˆ )
                                       σ                       ······           ······           ······

      R2                                                       ······           ······           ······
      ¯
      R2                                                       ······           ······           ······

      F de significaci´n conjunta
                     o                                         ······           ······           ······
      Grados de libertad                                       ······           ······           ······

      Criterio de Akaike (AIC)                                 ······           ······           ······
      Criterio de Schwarz (BIC)                                ······           ······           ······
      Criterio de Hannan-Quinn (HQC)                           ······           ······           ······
      (*)Valores entre par´ntesis son los estad´
                          e                    ısticos t


      b) Comenta los resultados mostrados en la Tabla 6.1 en t´rminos de significatividad
                                                                   e
         individual, conjunta, coeficiente de determinaci´n y distintos criterios de selecci´n de
                                                        o                                  o
         modelos.
      c) ¿Consideras que alguna de las especificaciones es mejor? Razona tus conclusiones.

  6. Calcula la matriz de correlaci´n entre las variables de precios Pg, Pnc, Puc y Pd. ¿Crees
                                   o
     que puede haber alg´n problema en la estimaci´n de los modelos anteriores? Interpreta
                          u                           o
     los valores de la matriz.

  7. Calcula el Factor de Inflaci´n de Varianza y el Factor de Tolerancia para los regresores del
                                o
     Modelo 3 y el Modelo 4. Interpreta los resultados.

                                                     120
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                  SARRIKO-ON 8/09


  8. ¿Qu´ conclusiones extraes?
        e

  9. Contrasta al 5 % en el Modelo 3, la hip´tesis nula de que los coeficientes asociados a las va-
                                            o
     riables individualmente no significativas no son significativas conjuntamente. ¿Qu´ puedes
                                                                                        e
     concluir?

 10. Contrasta al 5 % en el Modelo 4, las siguientes restricciones lineales:

      a) H0 : β4 = β5
       b) H0 : β3 = −β4
       c) H0 : β4 = β5 = β6




                                              121
SARRIKO-ON 8/09         Econometr´ B´sica Aplicada con Gretl
                                 ıa a




                  122
Tema 7

Variables Cualitativas

7.1.      Introducci´n. Un ejemplo
                    o

A lo largo del curso unicamente se han especificado modelos con variables de naturaleza cuan-
                      ´
titativa, es decir, aqu´llas que toman valores num´ricos. Sin embargo, las variables tambi´n
                        e                           e                                         e
pueden ser cualitativas, es decir, pueden tomar valores no num´ricos como categor´ clases o
                                                                e                   ıas,
atributos. Por ejemplo, son variables cualitativas el g´nero de las personas, el estado civil, la
                                                       e
raza, el pertenecer a diferentes zonas geogr´ficas, momentos hist´ricos, estaciones del a˜o, etc.
                                            a                     o                      n
De esta forma, el salario de los trabajadores puede depender del g´nero de los mismos; la tasa
                                                                    e
de criminalidad puede venir determinada por la zona geogr´fica de residencia de los individuos;
                                                           a
el PIB de los pa´ puede estar influenciado por determinados acontecimientos hist´ricos como
                 ıses                                                               o
las guerras; las ventas de un determinado producto pueden ser significativamente distintas en
funci´n de la ´poca del a˜o, etc.
      o        e          n
En este tema, aunque seguimos manteniendo que la variable dependiente es cuantitativa, vamos
a considerar que ´sta puede venir explicada por variables cualitativas y/o cuantitativas.
                 e


Dado que las categor´ de las variables no son directamente cuantificables, las vamos a cuan-
                     ıas
tificar construyendo unas variables artificiales llamadas ficticias, binarias o dummies, que son
num´ricas. Estas variables toman arbitrariamente el valor 1 si la categor´ est´ presente en el
    e                                                                     ıa   a
individuo y 0 en caso contrario1.



                                           1 si la categor´ est´ presente
                                                          ıa   a
                                 Di =
                                           0 en caso contrario

En este tema estudiamos la estimaci´n, interpretaci´n de los coeficientes y contrastes de hip´tesis
                                   o               o                                        o
en modelos con presencia de variables cualitativas como regresores.


7.2.      Modelo con una variable cualitativa

Consideremos el caso m´s sencillo, una variable cualitativa como unico regresor del modelo.
                      a                                          ´
Vamos a suponer que queremos explicar el precio de la vivienda bas´ndonos unicamente en si
                                                                  a        ´
   1
    Las variables ficticias pueden tomar dos valores cualesquiera, sin embargo, la interpretaci´n de los coeficientes
                                                                                              o
es m´s sencilla si se consideran los valores 0 y 1.
    a


                                                       123
SARRIKO-ON 8/09                                                       Econometr´ B´sica Aplicada con Gretl
                                                                               ıa a


la vivienda tiene piscina o no2 . Para ello, definimos la siguiente variable ficticia:

                                           1 si la vivienda i-´sima tiene piscina
                                                              e
                           P OOLi =
                                           0 en caso contrario

Abrimos el fichero de datos data7-3 de Ramanathan (2002), que contiene datos para 14 viviendas
sobre el precio de venta de la vivienda (PRICE), pies cuadrados habitables (SQFT), n´mero   u
de habitaciones (BEDRMS) y n´mero de ba˜os (BATHS), utilizados en cap´
                                u            n                                 ıtulos anteriores y
a˜ade una variable ficticia que toma el valor 1 si la vivienda tiene piscina y 0 en caso contrario
 n
(POOL), una variable ficticia que toma el valor 1 si la vivienda tiene sala de estar y 0 en caso
contrario (FAMROOM) y una variable ficticia que toma el valor 1 si la vivienda tiene chimenea
y 0 en caso contrario (FIREPL). Seleccionamos las variables PRICE y POOL y observamos los
valores de estas dos variables:


         Obs              price            pool

           1              199,9               1
           2              228,0               0
           3              235,0               1
           4              285,0               0
           5              239,0               0
           6              293,0               0
           7              285,0               0
           8              365,0               1
           9              295,0               0
          10              290,0               0
          11              385,0               1
          12              505,0               1
          13              425,0               0
          14              415,0               0


Por ejemplo, la primera vivienda de la muestra tiene un precio de 199.900 d´lares y tiene piscina
                                                                           o
(ya que la variable POOL toma el valor 1), mientras que la segunda no tiene piscina (la variable
POOL toma el valor 0) y su precio de venta es de 228.000 d´lares, etc.
                                                             o


Con los datos anteriores podemos obtener f´cilmente que el precio medio de la vivienda es
                                          a
317.493 d´lares:
         o

                         Estad´
                              ısticos principales, usando las observaciones 1 - 14
                             para la variable price (14 observaciones v´lidas)
                                                                       a
                              Media        Mediana        M´
                                                           ınimo            M´ximo
                                                                             a
                                317, 49      291, 50        199, 90               505, 00

                           Desv. T´
                                  ıp.        C.V.       Asimetr´
                                                               ıa       Exc. de curtosis
                                88, 498     0, 27874       0, 65346            −0, 52983
  2
      Por simplicidad vamos a ignorar el efecto del resto de variables que afectan al precio de la vivienda.

                                                         124
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                             SARRIKO-ON 8/09


Sin embargo, tambi´n es posible obtener el precio medio para las viviendas que tienen piscina,
                     e
por un lado, y para las que no la tienen, por otro. Para ello, en primer, lugar se selecciona el precio
para aquellas viviendas con piscina. Para ello, seleccionamos la variable PRICE, pinchamos en
Muestra → Definir a partir de v. ficticia..., seleccionamos la variable POOL y aceptamos. De esta
forma hemos seleccionado el precio para aquellas viviendas que tienen piscina3 . A continuaci´n,    o
se obtienen los estad´ısticos principales:

                         Estad´
                              ısticos principales, usando las observaciones 1 - 5
                             para la variable price (5 observaciones v´lidas)
                                                                      a
                             Media       Mediana        M´
                                                         ınimo           M´ximo
                                                                          a
                               337, 98      365, 00       199, 90               505, 00

                          Desv. T´
                                 ıp.        C.V.      Asimetr´
                                                             ıa      Exc. de curtosis
                               122, 99    0, 36390       0, 15896             −1, 2798

Para seleccionar el precio de las viviendas que no tienen piscina, pinchamos en Muestra → Res-
tringir a partir de criterio, introducimos la condici´n P OOL = 0 y aceptamos. Los estad´
                                                     o                                   ısticos
principales son los siguientes:

                         Estad´
                              ısticos principales, usando las observaciones 1 - 9
                             para la variable price (9 observaciones v´lidas)
                                                                      a
                             Media       Mediana        M´
                                                         ınimo           M´ximo
                                                                          a
                              306, 11       290, 00       228, 00               425, 00

                          Desv. T´
                                 ıp.        C.V.       Asimetr´
                                                              ıa     Exc. de curtosis
                              68, 959    0, 225275       0, 87575           −0, 52255

Por tanto, el precio medio de las viviendas con piscina es de 337.980 d´lares frente a los 306.110
                                                                       o
de las viviendas sin piscina. Dado el modelo una vivienda con piscina es en promedio 31.869
d´lares m´s cara que la que no tiene piscina. Notar que no se est´n teniendo en cuenta otros
  o       a                                                         a
factores que pueden afectar al precio de la vivienda (n´mero de pies cuadrados habitables,
                                                           u
n´mero de habitaciones, etc.).
  u


El sencillo an´lisis anterior podemos realizarlo mediante un an´lisis de regresi´n. Podemos es-
              a                                                  a              o
pecificar un modelo econom´trico utilizando la variable ficticia POOL como regresor, estimarlo,
                              e
hacer inferencia e ir incorporando otras caracter´ısticas que pueden afectar a los precios de las
viviendas. Para comenzar, consideramos el siguiente modelo de regresi´n lineal simple:
                                                                       o

                             P RICEi = α1 + α2 P OOLi + ui            i = 1, . . . , 14                (7.1)



Interpretaci´n y estimaci´n de los coeficientes
            o            o
En nuestro ejemplo, la funci´n de regresi´n poblacional var´ en funci´n de si la vivienda tiene
                            o            o                 ıa        o
piscina o no:
  3
      Para restablecer el tama˜ o muestral inicial pinchar en Muestra → Recuperar el rango completo.
                              n


                                                       125
SARRIKO-ON 8/09                                                 Econometr´ B´sica Aplicada con Gretl
                                                                         ıa a


       • E(P RICEi |i es una vivienda con piscina) = α1 + α2 , puesto que la variable POOL toma
         el valor 1 y E(ui ) = 0.

       • E(P RICEi |i es una vivienda sin piscina) = α1 , puesto que la variable POOL toma el
         valor 0 y E(ui ) = 0.

Por tanto, los coeficientes se interpretan como sigue:

       • α1 : precio medio de una vivienda sin piscina.

       • α1 + α2 : precio medio de una vivienda con piscina.

       • α2 : diferencia en el precio medio de una vivienda con piscina con respecto a una que no la
         tiene.

Utilizando las ecuaciones normales que derivamos en el Tema 2 para estimar el modelo de
regresi´n simple y teniendo en cuenta que al ser POOL una variable ficticia que toma valores 0
       o
y 1 coincide con su cuadrado, obtenemos que los estimadores de los coeficientes del modelo (7.1)
se pueden calcular a partir de simples medias muestrales4 :

       • α1 = P RICE nopool = 306,111
         ˆ                                    ⇒ precio estimado medio de las viviendas sin piscina.

       • α2 = P RICE pool − P RICE nopool = 337,980 − 306,111 = 31,869
         ˆ                                                                   ⇒ diferencia estimada
         en el precio medio de las viviendas con piscina con respecto a las que no la tienen.

En efecto, si estimamos el modelo por M´ınimos Cuadrados Ordinarios utilizando Gretl obtenemos
que las estimaciones de los coeficientes son las siguientes:


                Modelo (7.1): estimaciones MCO utilizando las 14 observaciones 1–14
                                     Variable dependiente: price

Variable              Coeficiente               Desv. t´
                                                      ıpica               Estad´
                                                                               ıstico t              valor p
const                   306,111                    30,2077                    10,1335                 0,0000
pool                     31,8689                   50,5471                     0,6305                 0,5402

                  Media de la var. dependiente                                 317,493
                  D.T. de la variable dependiente                               88,4982
                  Suma de cuadrados de los residuos                          98550,5
                  Desviaci´n t´
                           o ıpica de los residuos (ˆ )
                                                    σ                           90,6231
                  R 2                                                            0,0320632
                  ¯
                  R2 corregido                                                 −0,0485982
                  Grados de libertad                                            12
                  Log-verosimilitud                                           −81,880
                  Criterio de informaci´n de Akaike
                                       o                                       167,760
                  Criterio de informaci´n Bayesiano de Schwarz
                                       o                                       169,038

   4
   P RICE pool es la media muestral del precio de las viviendas con piscina, de igual forma P RICE nopool es la
media muestral del precio de las viviendas sin piscina.


                                                     126
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                               SARRIKO-ON 8/09


Que coinciden con las calculadas utilizando los valores obtenidos en ambas submuestras mediante
los Estad´
         ısticos Principales:

                   P RICE i = 306, 111 + 31, 869P OOLi                 i = 1, . . . , 14
                    (estad. t)   (10,13)    (0,63)




El modelo (7.1) no es la unica especificaci´n correcta posible para explicar las variaciones del
                          ´                 o
precio de la vivienda en funci´n de si tiene piscina o no. Al igual que hemos definido la variable
                              o
ficticia POOL, podemos crear la variable NOPOOL, tomando el valor 1 si la vivienda no tiene
piscina y 0 en caso contrario. Con esta nueva variable podemos especificar los dos modelos
siguientes:
                       P RICEi = γ1 + γ2 N OP OOLi + ui                 i = 1, . . . , 14              (7.2)

                  P RICEi = β1 P OOLi + β2 N OP OOLi + ui                      i = 1, . . . , 14       (7.3)

La interpretaci´n de los coeficientes se har´ de forma an´loga a como hemos visto para el
                 o                           ıa               a
modelo (7.1). Notar que la equivalencia entre los coeficientes de los distintos modelos (7.1), (7.2)
y (7.3) es la siguiente:

   • E(P RICEi |i es una vivienda con piscina) = α1 + α2 = γ1 = β1

   • E(P RICEi |i es una vivienda sin piscina) = α1 = γ1 + γ2 = β2



Una especificaci´n que no ser´ adecuada es la siguiente:
               o            ıa


P RICEi = α + β1 P OOLi + β2 N OP OOLi + ui                i = 1, . . . , 14


ya que si analizamos la matriz de datos X para este modelo observamos que la suma de la segunda
y tercera columnas es igual a la primera y tendr´ıamos un problema de multicolinealidad exacta,
por lo que la matriz X X no ser´ invertible. En estas circunstancias no se podr´ obtener una
                                  ıa                                            ıa
unica soluci´n para α, β
´           o        ˆ  ˆ1 y β2 del sistema de ecuaciones normales.
                             ˆ

                                                                
                                                 1     1     0
                                                1     0     1   
                                                                
                                                1     1     0   
                                                                
                                                1     0     1   
                                                                
                                                1     0     1   
                                                                
                                                1     0     1   
                                                                
                                                                
                                                1     0     1   
                                           X=                   
                                                1     1     0   
                                                                
                                                1     0     1   
                                                                
                                                1     0     1   
                                                                
                                                1     1     0   
                                                                
                                                1     1     0   
                                                                
                                                1     0     1   
                                                 1     0     1

                                                 127
SARRIKO-ON 8/09                                                   Econometr´ B´sica Aplicada con Gretl
                                                                           ıa a


Contraste de hip´tesis
                o
Los contrastes de hip´tesis se realizan con la metodolog´ estudiada en los cap´
                     o                                   ıa                           ıtulos previos. Por
ejemplo, si quisi´ramos contrastar en el modelo (7.1) si hay diferencias significativas en el precio
                 e
medio de la vivienda entre aqu´llas que tienen piscina y las que no, la hip´tesis de contraste es
                                e                                                 o
H0 : α2 = 0.5 Este contraste se puede realizar utilizando el estad´    ıstico t habitual cuyo valor-p es
0,5402, por lo que no se rechaza la hip´tesis nula para un nivel de significaci´n del 5 %, es decir,
                                        o                                           o
el precio medio de la vivienda no es significativamente diferente por el hecho de tener piscina.
Alternativamente, se puede realizar el contraste utilizando el estad´     ıstico F basado en las sumas
de cuadrados de los residuos siendo en este caso el modelo (7.1) el modelo no restringido mientras
que el modelo restringido es P RICEi = α1 + ui        i = 1, . . . , 14.



7.2.1.       Incorporaci´n de variables cuantitativas
                        o

En el modelo (7.1) el unico regresor para explicar el precio de la vivienda es una caracter´
                       ´                                                                   ıstica
cualitativa, el hecho de tener o no piscina sin embargo, en un modelo pueden convivir variables
cualitativas y cuantitativas. Vamos a comenzar a˜adiendo un regresor cuantitativo, la variable
                                                   n
SQFT (n´mero de pies cuadrados habitables de la vivienda) y manteniendo la variable ficticia
          u
POOL afectando a la ordenada.


Cambio en la ordenada

Suponer que el precio de la vivienda unicamente depende de si tiene piscina o no es poco realista,
                                     ´
por lo que a˜adimos como regresor a la variable cuantitativa SQFT (n´mero de pies cuadrados
            n                                                          u
habitables de la vivienda) de la siguiente manera:
                      P RICEi = α1 + α2 P OOLi + β SQF Ti + ui                i = 1, . . . , 14       (7.4)


Estimaci´n e interpretaci´n de los coeficientes:
        o                o
La funci´n de regresi´n poblacional se puede expresar como:
        o            o

      • E(P RICEi |i es una vivienda con piscina) = α1 + α2 + β SQF Ti
      • E(P RICEi |i es una vivienda sin piscina) = α1 + β SQF Ti

Por tanto podemos interpretar α1 como el precio esperado de una vivienda sin piscina y cero
pies cuadrados, α2 como el diferencial en el precio esperado en una vivienda por el hecho de
tener piscina, manteniendo el n´mero de pies cuadrados habitables constante. A igual n´mero
                                u                                                          u
de pies cuadrados habitables el hecho de tener piscina se puede considerar una mejora en la
vivienda por lo que ser´ preferida, as´ tener piscina es una caracter´
                       ıa             ı                              ıstica que sube el precio de
la vivienda y esperar´
                     ıamos que α2 tuviese signo positivo. Finalmente interpretamos β como la
variaci´n en el precio esperado de una vivienda por incrementar su superficie en un pie cua-
       o
drado. Esperar´ıamos signo positivo, a mayor superficie mayor precio esperado para la vivienda.
Gr´ficamente, obtenemos dos rectas con igual pendiente, β, y distinta ordenada como podemos
   a
observar en el Gr´fico 7.1:
                 a

  5
      Equivalentemente, H0 : γ2 = 0 ´ H0 : β1 = β2 para los modelos (7.2) y (7.3), respectivamente.
                                    o


                                                       128
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                           SARRIKO-ON 8/09

                                 price
                                                                 α1 + α2 + βsqf t


                                                                 α1 + βsqf t
                             α1 + α2


                                       α1

                                                                      sqf t

                                        Gr´fico 7.1: Cambio en ordenada
                                          a

El resultado de la estimaci´n del modelo (7.4) por M´
                           o                        ınimos Cuadrados Ordinarios es:

              Modelo (7.4): estimaciones MCO utilizando las 14 observaciones 1–14
                                   Variable dependiente: price

Variable              Coeficiente                      Desv. t´
                                                             ıpica             Estad´
                                                                                    ıstico t          valor p
const                    22,6728                         29,5058                     0,7684            0,4584
pool                     52,7898                         16,4817                     3,2029            0,0084
sqft                      0,144415                        0,0141849                 10,1809            0,0000

                  Media de la var. dependiente                                     317,493
                  D.T. de la variable dependiente                                   88,4982
                  Suma de cuadrados de los residuos                               9455,36
                  Desviaci´n t´
                            o ıpica de los residuos (ˆ )
                                                     σ                              29,3186
                  R 2                                                                0,907132
                  ¯
                  R2 corregido                                                       0,890247
                  F (2, 11)                                                         53,7238
                  Log-verosimilitud                                               −65,472
                  Criterio de informaci´n de Akaike
                                       o                                           136,944
                  Criterio de informaci´n Bayesiano de Schwarz
                                       o                                           138,861

El modelo estimado es:

                         P RICE i = 22, 673 + 52, 790P OOLi + 0,144 SQF Ti
                          (estad. t)        (0,768)   (3,203)          (10,181)


donde se puede observar que ambos regresores son significativos para explicar el precio medio
de la vivienda y tienen los signos adecuados6 . Por tanto, existen diferencias significativas en el
precio medio de la vivienda que tiene piscina con respecto a la que no la tiene.
Los coeficientes estimados se interpretan como sigue:

    • α1 = 22, 673 ⇒ el precio medio estimado de las viviendas sin piscina y con cero pies
      ˆ
      cuadrados habitables es 22.673 d´lares.
                                      o
   6
     El valor de los estad´
                          ısticos t para los coeficientes de ambos regresores es superior al valor cr´
                                                                                                    ıtico de una
distribuci´n t de Student de N − K = 14 − 3 = 11 grados de libertad para un nivel de significaci´n del 5 %, que
          o                                                                                      o
es 2,201.


                                                        129
SARRIKO-ON 8/09                                         Econometr´ B´sica Aplicada con Gretl
                                                                 ıa a


   • α2 = 52, 790 ⇒ se estima que entre dos viviendas con el mismo n´mero de pies cuadrados
     ˆ                                                                u
     habitables el precio medio de una con piscina es 52.790 d´lares m´s caro que el de una sin
                                                              o       a
     piscina.
     ˆ
   • β = 0, 144 ⇒ el precio medio estimado de una vivienda se incrementa en 144 d´lares al
                                                                                 o
     aumentar en un pie cuadrado habitable la vivienda.


Cambio en la ordenada y en la pendiente

Tambi´n es posible pensar que la variaci´n en el precio de las viviendas ante el incremento
       e                                  o
en un pie cuadrado habitable sea diferente para aqu´llas que tienen piscina. En este caso se
                                                       e
especifica el siguiente modelo, donde la variable ficticia POOL afecta tanto a la ordenada como
a la pendiente de la recta:

     P RICEi = α1 + α2 P OOLi + β1 SQF Ti + β2 P OOL · SQF Ti + ui        i = 1, . . . , 14      (7.5)

La interacci´n P OOL · SQF T mide el n´mero de pies cuadrados habitables para las viviendas
            o                           u
que tienen piscina, mientras que toma el valor 0 para las que no la tienen.


Estimaci´n e interpretaci´n de los coeficientes:
        o                o
Una vez definida la interacci´n P OOL · SQF T en Gretl, estimamos el modelo (7.5):
                            o

             Modelo (7.5): estimaciones MCO utilizando las 14 observaciones 1–14
                                  Variable dependiente: price
Variable           Coeficiente               Desv. t´
                                                   ıpica         Estad´ıstico t               valor p
const                 77,1332                   25,6379                3,0086                 0,0131
pool                 −82,648                    39,7759               −2,0779                 0,0644
sqft                   0,116667                  0,0125934             9,2641                 0,0000
pool· sqft             0,0722955                 0,0203274             3,5566                 0,0052

                Media de la var. dependiente                        317,493
                D.T. de la variable dependiente                      88,4982
                Suma de cuadrados de los residuos                  4174,72
                Desviaci´n t´
                          o ıpica de los residuos (ˆ )
                                                   σ                 20,4321
                R 2                                                   0,958997
                ¯
                R2 corregido                                          0,946696
                F (3, 10)                                            77,9615
                Log-verosimilitud                                  −59,749
                Criterio de informaci´n de Akaike
                                     o                              127,499
                Criterio de informaci´n Bayesiano de Schwarz
                                     o                              130,055

La funci´n de regresi´n poblacional se puede expresar como:
        o            o

   • E(P RICEi |i es una vivienda con piscina) = α1 + α2 + (β1 + β2 )SQF Ti

   • E(P RICEi |i es una vivienda sin piscina) = α1 + β1 SQF Ti

El par´metro poblacional α1 se interpreta como el precio esperado de una vivienda sin piscina y
      a
con cero pies cuadrados habitables. α2 mide el diferencial en el precio esperado de una vivienda

                                              130
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                            SARRIKO-ON 8/09


con cero pies cuadrados habitables por el hecho de tener piscina. Esperar´  ıamos que ambos
coeficientes tuviesen signo positivo por las razones argumentadas anteriormente.
β1 se interpreta como la variaci´n en el precio esperado de una vivienda sin piscina por in-
                                  o
crementar su superficie en un pie cuadrado habitable mientras que β2 mide el diferencial en
la variaci´n en el precio esperado de una vivienda ante un incremento de su superficie en un
          o
pie cuadrado por el hecho de tener piscina. Esperar´ıamos que ambos coeficientes tuviesen signo
positivo, a mayor superficie de la vivienda mayor precio esperado. Si adem´s la vivienda tiene
                                                                           a
piscina el cambio en el precio esperado por pie cuadrado m´s de superficie ser´ mayor ya que la
                                                           a                 a
posesi´n de piscina es una mejora.
      o
La representaci´n gr´fica corresponde a dos rectas que var´ tanto en el punto de corte con el
               o    a                                    ıan
eje de ordenadas como en la pendiente:

                           price
                                          α1 + α2 + (β1 + β2 )sqf t


                                                     α1 + β1 sqf t


                        α1 + α2
                            α1

                                                       sqf t
                       Gr´fico 7.2: Cambio en ordenada y en pendiente
                         a



Interpretaci´n de los coeficientes estimados:
            o

   • α1 = 77, 133 ⇒ el precio medio estimado de las viviendas que no tienen piscina y con cero
     ˆ
     pies cuadrados habitables es 77.133 d´lares.
                                          o

   • α2 = −82, 648 ⇒ entre dos viviendas con 0 pies cuadrados habitables el precio medio
     ˆ
     estimado de una con piscina es 82.648 d´lares m´s barato que el de una sin piscina.
                                            o       a
      ˆ
   • β1 = 0, 117 ⇒ al incrementar en un pie cuadrado la superficie habitable, el precio medio
     estimado de una vivienda sin piscina aumenta en 117 d´lares.
                                                          o
      ˆ
   • β2 = 0, 072 ⇒ al incrementar en un pie cuadrado la superficie habitable, el precio medio
     estimado de una vivienda con piscina aumenta en 72 d´lares.
                                                          o



Contraste de hip´tesis
                o


La hip´tesis nula para contrastar si tener piscina influye significativamente en el precio medio
       o
de las viviendas es H0 : α2 = β2 = 0. El resultado del contraste es:




                                             131
SARRIKO-ON 8/09                                                  Econometr´ B´sica Aplicada con Gretl
                                                                          ıa a


Contraste de omisi´n de variables –
                   o
  Hip´tesis nula: los par´metros son cero para las variables
     o                   a
    pool
    poolsqft
  Estad´
       ıstico de contraste: F (2, 10) = 16,886
  con valor p = P (F (2, 10) > 16,886) = 0,000622329

por lo que se rechaza la hip´tesis nula para un nivel de significaci´n del 5 % y por lo tanto tener
                            o                                      o
piscina es una variable significativa para explicar el precio de las viviendas.
Tambi´n se puede contrastar mediante un contraste de significatividad individual si el incremento
       e
en un pie cuadrado de superficie afecta al precio de manera diferente seg´n la vivienda tenga
                                                                           u
o no piscina, para ello podemos contrastar H0 : β2 = 0. Como vemos en los resultados de
la estimaci´n del modelo este coeficiente es significativo, como esper´bamos la influencia de
            o                                                           a
la superficie habitable de una vivienda en su precio var´ si la vivienda tiene piscina o no.
                                                            ıa
Por otro lado, α2 no tiene el signo esperado y a su vez no es significativo a nivel individual,
                ˆ
aparentemente el hecho de incluir la variable ficticia en la pendiente ha restado significatividad
a la discriminaci´n en la ordenada.
                 o


7.3.     Modelo con dos o m´s variables cualitativas
                           a

Al igual que ocurr´ con los regresores cuantitativos sobre una variable end´gena pueden influir
                  ıa                                                        o
m´s de una variable cualitativa. Por ejemplo en el precio de una vivienda podr´ influir no s´lo
  a                                                                             ıa            o
el hecho de tener o no piscina, su superficie habitable, el n´mero de habitaciones, el n´mero de
                                                            u                           u
ba˜os, si no tambi´n si tiene o no chimenea, si tiene o no ascensor o la zona de la ciudad donde
   n               e
est´ situada.
   e


7.3.1.    Varias categor´
                        ıas

Supongamos que creemos que la zona de la ciudad donde est´ situada la vivienda es un de-
                                                                   e
terminante de su precio. Pensemos por ejemplo en precios de viviendas situadas en una gran
ciudad en la que podemos distinguir como zonas a la zona centro, zona norte, zona sur, zona
este y zona oeste. En general el centro de las ciudades es una zona valorada por ser el centro
neur´lgico econ´mico-comercial y el resto de zonas se valorar´ en funci´n del tipo de viviendas
     a           o                                               a         o
que recoja y sus comunicaciones, por ejemplo en una ciudad como Madrid esperar´        ıamos mayor
precio en el centro, norte y oeste que en el sur o en el este que agrupan a barrios, en general, con
menor nivel econ´mico y peor comunicados. Para el ejemplo necesitamos definir cinco variables
                   o
ficticias una para cada zona ya que la situaci´n geogr´fica de la vivienda la hemos dividido en
                                                o         a
cinco categor´ıas7.

Definimos las siguiente variables:

                            1   si la vivienda i-´sima est´ situada en la zona centro
                                                 e        a
                 D1i =
                            0   en caso contrario
                            1   si la vivienda i-´sima est´ situada en la zona norte
                                                 e        a
                 D2i =
                            0   en caso contrario
   7
    En el ejemplo anterior la vivienda ten´ o no piscina, solo hab´ dos casos posibles y por tanto s´lo hab´ dos
                                          ıa                      ıa                                o      ıa
categor´
       ıas.


                                                      132
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                       SARRIKO-ON 8/09


                         1   si la vivienda i-´sima est´ situada en la zona sur
                                              e        a
               D3i =
                         0   en caso contrario
                         1   si la vivienda i-´sima est´ situada en la zona este
                                               e        a
                D4i =
                         0   en caso contrario
                         1    si la vivienda i-´sima est´ situada en la zona oeste
                                               e        a
                D5i =
                         0    en caso contrario

Si adem´s de la situaci´n geogr´fica de la vivienda creemos que la superficie habitable influye
        a              o       a
en su precio podemos definir, por ejemplo, el siguiente modelo:


           P RICEi = α1 D1i + α2 D2i + α3 D3i + α4 D4i + α5 D5i + β SQF Ti + ui
                                                                   i = 1, . . . , N            (7.6)

Donde β se interpreta de la forma habitual y α1 se interpreta como el precio esperado de una vi-
vienda con cero pies cuadrados situada en la zona centro, as´ αi i = 1, . . . , 5 se interpretan como
                                                            ı
el precio esperado de una vivienda con cero pies cuadrados situadas en la zona correspondiente,
centro, norte, sur, este u oeste.
En la especificaci´n (7.6) se ha optado por no incluir t´rmino independiente en el modelo e incluir
                  o                                    e
las cinco variables ficticias para no incurrir en un problema de multicolinealidad exacta como se
expuso en el punto anterior pero, podr´  ıamos especificar un modelo con t´rmino independiente
                                                                            e
siempre y cuando dejemos fuera una de las variables ficticias o categor´ para no tener dicho
                                                                          ıas
problema. Por ejemplo una especificaci´n alternativa ser´
                                         o                ıa:


             P RICEi = α + α2 D2i + α3 D3i + α4 D4i + α5 D5i + β SQF Ti + ui
                                                                 i = 1, . . . , N              (7.7)

En el modelo anterior la interpretaci´n del par´metro poblacional β no var´ α se interpreta
                                        o           a                             ıa,
como el precio esperado de una vivienda con cero pies cuadrados situada en la zona centro,
αi i = 2, . . . , 5 se interpretan como el diferencial en el precio esperado de una vivienda, a igual
superficie habitable, por estar situada en la zona norte, (sur, este y oeste respectivamente) con
respecto a una vivienda situada en la zona centro. Qu´ variable ficticia (o categor´ dejemos
                                                             e                           ıa)
fuera no es relevante siempre y cuando interpretemos adecuadamente los par´metros. Natural-
                                                                                   a
mente podemos afectar las variables ficticias a la variable cuantitativa como en el caso anterior
siempre y cuando no incurramos en multicolinealidad exacta.




Contraste de hip´tesis
                o
Para contrastar en el modelo (7.6) que por ejemplo no existen diferencias significativas en el
precio medio de la vivienda por su situaci´n la hip´tesis de contraste es H0 : α1 = α2 = α3 =
                                          o         o
α4 = α5 . Hip´tesis que podemos contrastar utilizando el estad´
               o                                                ıstico F basado en las sumas de
cuadrados de los residuos siendo en este caso el modelo (7.6) el modelo no restringido mientras
que el modelo restringido ser´ P RICEi = α1 +β SQF Ti +ui
                             ıa                                 i = 1, . . . , N . El mismo contraste
puede llevarse a cabo en el modelo (7.7) con la hip´tesis H0 : α2 = α3 = α4 = α5 = 0 siendo
                                                    o
el modelo no restringido el modelo (7.7) y el restringido P RICEi = α + β SQF Ti + ui             i=
1, . . . , N .

                                                133
SARRIKO-ON 8/09                                             Econometr´ B´sica Aplicada con Gretl
                                                                     ıa a


7.3.2.     Varios conjuntos de variables ficticias

Supongamos que ampliamos el modelo (7.4) incorporando regresores que podr´ explicar el
                                                                              ıan
precio de la vivienda como por ejemplo el n´mero de habitaciones, el n´mero de ba˜os, que la
                                           u                          u           n
vivienda tenga sala de estar o no y que tenga chimenea o no. Las dos primeras son variables
ficticias que pueden definirse as´
                               ı:


                      1   si la vivienda i-´sima tiene chimenea
                                           e
     F IREP Li =
                      0   en caso contrario
                      1   si la vivienda i-´sima tiene sala de estar
                                           e
 F AM ROOMi =
                      0   en caso contrario

Mientras que el n´mero de ba˜os y el n´mero de habitaciones se definen como en los temas
                 u          n         u
anteriores:
 BEDRM S n´mero de habitaciones de la vivienda i-´sima
           u                                      e
 BAT HS n´mero de cuartos de ba˜o de la vivienda i-´sima
         u                     n                    e


Con todas ellas podemos definir el siguiente modelo para explicar el precio de la vivienda:


           P RICEi = γ1 + γ2 P OOLi + γ3 F AM ROOMi + γ4 F IREP Li
              +β1 SQF Ti + β2 BEDRM Si + β3 BAT HSi + ui            i = 1, . . . , 14          (7.8)


Donde lo primero a notar es que en el modelo (7.8), afectando a la ordenada, conviven tres
conjuntos de variables ficticias con dos categor´ cada una, el hecho de tener o no piscina, el
                                               ıas
hecho de tener o no chimenea y el hecho de tener o no sala de estar, de las cuales s´lo se incluye
                                                                                    o
una de cada conjunto y se mantiene el t´rmino independiente.
                                        e
Esta forma de definir el modelo es muy c´moda ya que sigue manteniendo los resultados de
                                            o
los modelos con t´rmino independiente y permite una f´cil interpretaci´n de los coeficientes que
                  e                                       a                o
acompa˜an a las variables ficticias. As´ γi i = 2, 3, 4 recogen el diferencial en el valor esperado de
        n                             ı,
una vivienda por el hecho de poseer la caracter´ ıstica correspondiente manteni´ndose constante
                                                                                    e
el resto de variables.
El resultado de la estimaci´n es:
                           o


              Modelo (7.8): estimaciones MCO utilizando las 14 observaciones 1–14
                                   Variable dependiente: price

Variable            Coeficiente               Desv. t´
                                                    ıpica              Estad´
                                                                            ıstico t        valor p
const                 39,0571                    89,5397                    0,4362          0,6758
pool                  53,1958                    22,0635                    2,4110          0,0467
famroom              −21,344                     42,8734                   −0,4979          0,6338
firepl                 26,1880                    53,8454                    0,4864          0,6416
sqft                   0,146551                   0,0301014                 4,8686          0,0018
bedrms                −7,0455                    28,7363                   −0,2452          0,8134
baths                 −0,263691                  41,4547                   −0,0064          0,9951

                                                134
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                SARRIKO-ON 8/09


             Media de la var. dependiente                             317,493
             D.T. de la variable dependiente                           88,4982
             Suma de cuadrados de los residuos                       9010,24
             Desviaci´n t´
                      o ıpica de los residuos (ˆ )
                                               σ                       35,8773
             R2                                                         0,911504
             ¯
             R2 corregido                                               0,835650
             F (6, 7)                                                  12,0166
             valor p para F ()                                          0,00221290
             Log-verosimilitud                                       −65,134
             Criterio de informaci´n de Akaike
                                  o                                   144,269
             Criterio de informaci´n Bayesiano de Schwarz
                                  o                                   148,743




La interpretaci´n de los coeficientes estimados es la siguiente:
               o

   • γ1 = 39, 057: el precio medio estimado de las viviendas sin piscina, ba˜os, habitaciones,
     ˆ                                                                      n
     sala de estar ni chimenea y con 0 pies cuadrados habitables es de 39.057 d´lares.
                                                                               o

   • γ2 = 53, 1958: la diferencia estimada en el precio medio de las viviendas con piscina con
     ˆ
     respecto a las que no la tienen, siendo iguales en el resto de caracter´
                                                                            ısticas (pies cuadrados
     habitables, n´mero de habitaciones, n´mero de ba˜os, existencia de sala de estar y/o
                   u                           u             n
     chimenea) es de 53.196 d´lares.
                                o

   • γ3 = −21, 34: el precio medio estimado de una vivienda con sala de estar es 21.340 d´lares
     ˆ                                                                                       o
     inferior al de una sin sala de estar, siendo id´nticas en el resto de caracter´
                                                    e                              ısticas. Esto se
     debe a que, al mantener constante el n´mero de pies cuadrados de la vivienda y el n´mero
                                              u                                              u
     de habitaciones y ba˜os, incluir una sala de estar har´ que el resto de habitaciones o ba˜os
                          n                                 a                                  n
     sean de menor tama˜o.n

   • γ4 = 26, 188: el precio medio estimado de una vivienda con chimenea es 26.188 d´lares
     ˆ                                                                                     o
     m´s caro que el de una sin chimenea, siendo id´nticas en el resto de caracter´
       a                                           e                              ısticas.
     ˆ
   • β1 = 0, 147: el precio medio estimado de una vivienda se incrementa en 147.000 d´lares al
                                                                                     o
     aumentar en 1 pie cuadrado habitable su superficie, permaneciendo constantes el n´mero
                                                                                       u
     de ba˜os y habitaciones y el resto de caracter´
          n                                        ısticas de la vivienda.
     ˆ
   • β2 = −7, 046: el precio medio estimado de una vivienda disminuye en 7.046 d´lares alo
     aumentar en 1 el n´mero de habitaciones, permaneciendo constantes el n´mero de ba˜os
                        u                                                        u            n
     y los pies cuadrados habitables y el resto de caracter´
                                                           ısticas de la vivienda. Esto se debe a
     que las habitaciones ser´n de menor tama˜o .
                             a                  n
     ˆ
   • β3 = −0, 264: el precio medio estimado de una vivienda disminuye en 264 d´lares al
                                                                                     o
     aumentar en 1 el n´mero de ba˜os, permaneciendo constantes el n´mero de habitaciones
                        u           n                                   u
     y los pies cuadrados habitables el resto de caracter´
                                                         ısticas de la vivienda. De nuevo, las
     habitaciones ser´n de menor tama˜o.
                     a                 n




                                               135
SARRIKO-ON 8/09                                              Econometr´ B´sica Aplicada con Gretl
                                                                      ıa a


Contraste de hip´tesis
                o
Para contrastar, por ejemplo, que no existen diferencias significativas en el precio medio de la
vivienda por el hecho de tener chimenea, se realiza un contraste de significatividad individual
de la variable FIREPL. En este caso, observando el valor-p correspondiente, 0,6416, se puede
concluir que a un nivel de significaci´n del 5 %, no existen diferencias significativas en el precio
                                     o
medio de una vivienda por el hecho de tener chimenea.


Si comparamos los modelos (7.4) y (7.8), ninguna de las variables a˜adidas en el ultimo modelo
                                                                     n              ´
es significativa individualmente          a       ¯
                                 8 . Adem´s, el R2 es inferior. El contraste de significatividad

conjunta para las variables a˜adidas se puede realizar con el estad´
                               n                                    ıstico F basado en las sumas
de cuadrados residuales de los modelos restringido (modelo (7.4)) y no restringido (modelo (7.8)).
En este caso, el resultado es:


Contraste de omisi´n de variables –
                    o
  Hip´tesis nula: los par´metros son cero para las variables
      o                  a
    bedrms
    baths
    famroom
    firepl
  Estad´ıstico de contraste: F (4, 7) = 0,0864517
  con valor p = P (F (4, 7) > 0,0864517) = 0,983881

por lo que no se rechaza la hip´tesis nula de que las variables a˜adidas al modelo (7.4) son
                                 o                                  n
conjuntamente no significativas. Al omitir dichas variables el modelo mejora en cuanto a la
                                     ¯
significaci´n de sus coeficientes y el R2 . Por tanto, manteniendo las variables POOL y SQFT, la
          o
inclusi´n del resto (FIREPL, FAMROOM, BATHS, BEDRMS) no a˜ade capacidad explicativa
       o                                                              n
al modelo.



7.4.     Contraste de cambio estructural


En ocasiones puede ocurrir que la relaci´n entre la variable dependiente y los regresores cambie
                                         o
a lo largo del periodo muestral, es decir, puede que exista un cambio estructural. Por ejemplo,
si estamos analizando el consumo de tabaco y durante el per´  ıodo muestral se ha producido una
campa˜a de salud p´blica informando sobre los peligros que conlleva el consumo de tabaco,
        n            u
podemos pensar que tras dicha campa˜a el comportamiento de la demanda de tabaco haya
                                         n
cambiado, reduci´ndose significativamente. Si esto ocurre no podemos especificar una unica
                  e                                                                         ´
funci´n de demanda para todo el per´
      o                             ıodo muestral si no que deber´ıamos especificar dos funciones,
una hasta la campa˜a antitabaco y otra para el per´
                    n                               ıodo siguiente. Por tanto, ante sospechas de
que exista un cambio estructural, debemos de contrastar la estabilidad de los par´metros de
                                                                                     a
nuestra relaci´n.
              o
El contraste de cambio estructural, llamado habitualmente contraste de Chow, puede realizarse
de manera sencilla mediante el estad´ ıstico de sumas de cuadrados de los residuos sin m´s que
                                                                                        a
  8
    Un problema a˜ adido es que tenemos un bajo tama˜o muestral, T=14, y hemos aumentado significativamente
                   n                                 n
el n´ mero de par´metros a estimar, K=7, por lo que tenemos muy pocos grados de libertad.
    u            a


                                                   136
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                      SARRIKO-ON 8/09


especificar adecuadamente el modelo restringido y el no restringido. Tambi´n podemos llevarlo
                                                                         e
a cabo utilizando variables ficticias. Veamos un ejemplo.
El fichero data7-19 contiene datos para 1960-1988 sobre la demanda de tabaco y sus determi-
nantes en Turqu´ Las variables de inter´s para el ejemplo son las siguientes:
                ıa.                    e

 Q: consumo de tabaco por adulto (en kg).
 Y : PNB real per c´pita en liras turcas de 1968.
                     a
 P : precio real del kilogramo de tabaco, en liras turcas.
 D82: variable ficticia que toma valor 1 a partir de 1982.
A mediados de 1981 el gobierno turco lanza una campa˜a de salud p´blica advirtiendo de los
                                                       n             u
peligros de salud que conlleva el consumo de tabaco. Nuestro objetivo es determinar si existen
cambios en la demanda de tabaco tras la campa˜a institucional en cuyo caso la especificaci´n:
                                               n                                          o
                  LnQt = α + βLnYt + γLnPt + ut           t = 1960, . . . , 1988              (7.9)
no es correcta para todo el per´
                               ıodo muestral y deber´
                                                    ıamos especificar dos ecuaciones:
                LnQt = α1 + β1 LnYt + γ1 LnPt + u1t         t = 1960, . . . , 1981           (7.10)
                LnQt = α2 + β2 LnYt + γ2 LnPt + u2t         t = 1982, . . . , 1988           (7.11)

Si existe cambio estructural rechazar´
                                     ıamos H0 : α1 = α2 , β1 = β2 y γ1 = γ2
Este contraste podemos llevarlo a cabo utilizando el estad´ıstico F basado en las sumas de cua-
drados de los residuos siendo en este caso el modelo restringido el recogido en la ecuaci´n (7.9)
                                                                                         o
mientras que el modelo no restringido est´ constituido por las ecuaciones (7.10) y (7.11). Utili-
                                          a
zando Gretl una vez abierto el fichero de datos y tomado las correspondientes transformaciones
estimar´
       ıamos el modelo (7.9) por MCO y en la ventana de resultados de la estimaci´n elegimos:
                                                                                     o

                                Contrastes −→ Contraste de Chow

A la pregunta Observaci´n en la cual dividir la muestra contestar´
                       o                                         ıamos 1982 y la correspon-
diente devoluci´n es:
               o


           Modelo (7.9): estimaciones MCO utilizando las 29 observaciones 1960-1988
                                   Variable dependiente: lnQ

Variable           Coeficiente              Desv. t´
                                                  ıpica               Estad´
                                                                           ıstico t        valor p
const                −4,58987                   0,724913                  −6,332            0,00001∗∗∗
lnY                   0,688498                  0,0947276                  7,268            0,00001∗∗∗
lnP                   0,485683                  0,101394                  −4,790            0,00006∗∗∗

                     Media de la var. dependiente = 0,784827
                     Desviaci´n t´
                              o ıpica de la var. dependiente. = 0,108499
                     Suma de cuadrados de los residuos = 0,0949108
                     Desviaci´n t´
                              o ıpica de los residuos = 0,0604187
                     R-cuadrado = 0,712058
                     R-cuadrado corregido = 0,689908
                     Estad´ıstico F (2, 26) = 32,148 (valor p < 0,00001)
                     Estad´ıstico de Durbin-Watson = 1,00057
                     Coef. de autocorr. de primer orden. = 0,489867

                                              137
SARRIKO-ON 8/09                                                 Econometr´ B´sica Aplicada con Gretl
                                                                         ıa a


                Log-verosimilitud = 41,8214
                Criterio de informaci´n de Akaike (AIC) = -77,6429
                                     o
                Criterio de informaci´n Bayesiano de Schwarz (BIC) = -73,541
                                     o
                Criterio de Hannan-Quinn (HQC) = -76,3582

                Contraste de Chow de cambio estructural en la observaci´n 1982 -
                                                                       o
                Hip´tesis nula: no hay cambio estructural
                   o
                Estad´
                     ıstico de contraste: F(3, 23) = 20,1355
                con valor p = P(F(3, 23) > 20,1355) = 1,25619e-006

El estad´ıstico calculado es Fc = 20, 135 > F0,05(3,23) por lo que rechazamos H0 para un nivel de
significatividad del 5 %, es decir existe cambio estructural, la campa˜a institucional ha tenido
                                                                         n
efecto y la demanda de tabaco en Turqu´ de 1960 a 1988 queda especificada por las ecuaciones
                                          ıa
(7.10) y (7.11). Los resultados de la estimaci´n m´
                                               o      ınimo cuadr´tica de estas ecuaciones son los
                                                                  a
siguientes:

            LnQt        = −5, 024 + 0, 735 LnYt − 0, 381 LnPt         t = 1960, . . . , 1981
           (estad. t)      (−10,614)    (11,587)     (−4,227)
                                                                       SCR1 = 0, 01654
               LnQt        = 8, 837 − 0, 953 LnYt + 0, 108LnPt        t = 1982, . . . , 1988
              (estad. t)      (2,170)   (−1,941)      (0,654)
                                                                       SCR2 = 0, 00965



7.4.1.   Cambio estructural utilizando variables ficticias

Alternativamente, el contraste anterior podr´
                                            ıamos haberlo realizado mediante la variable ficticia
D82 especificando el siguiente modelo donde t = 60, . . . , 88:

                LnQt = β1 + β2 LnYt + β3 LnPt + β1 D82t + β2 D82t · LnYt +                     (7.12)
                                                           +β3 D82t · LnPt + ut                (7.13)

En el cual, si existe cambio estructural rechazar´  ıamos H0 : β1 = β2 = β3 = 0. De nuevo el
contraste puede realizarse con el estad´ıstico F habitual de sumas residuales donde el modelo no
restringido es el (7.13) y el modelo restringido es

                                  LnQt = β1 + β2 LnYt + β3 LnPt + ut                           (7.14)

Utilizando Gretl, el proceso despu´s de abierto el fichero de datos, tomado logaritmos y cons-
                                   e
truido las interacciones D82 · LnY y D82 · LnP , ser´ estimar´
                                                     ıa:      ıamos el modelo (7.13) por MCO
y en la ventana de resultados de la estimaci´n har´
                                            o      ıamos

                                        Contrastes −→ Omitir variables

elegir´
      ıamos D82, D82 · LnY y D82 · LnP y obtendr´
                                                ıamos el siguiente resultado:

            Modelo 1: estimaciones MCO utilizando las 29 observaciones 1960-1988
                                  Variable dependiente: lnQ

                                                     138
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                         SARRIKO-ON 8/09


Variable             Coeficiente                  Desv. t´
                                                        ıpica               Estad´
                                                                                 ıstico t           valor p
const                   −4,58987                       0,724913                 −6,332               0,00001∗∗∗
lnY                      0,688498                      0,0947276                 7,268               0,00001∗∗∗
lnP                      0,485683                      0,101394                 −4,790               0,00006∗∗∗

             Media de la var. dependiente = 0,784827
             Desviaci´n t´
                      o ıpica de la var. dependiente. = 0,108499
             Suma de cuadrados de los residuos = 0,0949108
             Desviaci´n t´
                      o ıpica de los residuos = 0,0604187
             R-cuadrado = 0,712058
             R-cuadrado corregido = 0,689908
             Estad´ıstico F (2, 26) = 32,148 (valor p < 0,00001)
             Estad´ıstico de Durbin-Watson = 1,00057
             Coef. de autocorr. de primer orden. = 0,489867
             Log-verosimilitud = 41,8214
             Criterio de informaci´n de Akaike (AIC) = -77,6429
                                   o
             Criterio de informaci´n Bayesiano de Schwarz (BIC) = -73,541
                                   o
             Criterio de Hannan-Quinn (HQC) = -76,3582

             Comparaci´n entre el modelo (7.13) y el modelo (7.14):
                         o
             Hip´tesis nula: los par´metros de regresi´n son cero para las variables
                o                    a                 o
             D82
             D82Y
             D82P
             Estad´ıstico de contraste: F(3, 23) = 20,1355, con valor p = 1,25619e-006
             De los 3 estad´ısticos de selecci´n de modelos, 0 han mejorado.
                                              o

Dado el valor-p rechazamos la hip´tesis nula para un nivel de significatividad del 5 % y existe
                                   o
cambio estructural. La demanda de tabaco en Turqu´ de 1960 a 1988 queda mejor especificada
                                                     ıa
por el modelo (7.13). O lo que es lo mismo las ecuaciones (7.10) y (7.11) si no utilizamos
la variable ficticia D82 en la especificaci´n del modelo. Notar que ambas especificaciones son
                                          o
id´nticas, son dos formas alternativas y por lo tanto equivalentes de especificar la demanda de
  e
tabaco en Turqu´ para ese periodo temporal.
                 ıa


7.5.       Ejercicios para practicar

Ejercicio 1:
Se dispone de una base de datos sobre el precio de venta y distintas caracter´  ısticas de 224
viviendas pertenecientes a dos ´reas residenciales del condado de Orange en California (USA),
                               a
Dove Canyon y Coto de Caza 9 . Dove Canyon es una zona de viviendas relativamente peque˜as n
construidas alrededor de un campo de golf. Coto de Caza es un ´rea de mayor nivel de vida
                                                                  a
aunque m´s rural con viviendas m´s grandes. Las variables que se consideran son:
          a                       a

       salepric    Precio de venta de la vivienda en miles de d´lares
                                                               o
           sqft    Tama~o de la vivienda en pies cuadrados
                       n
            age    Edad de la vivienda en a~os
                                           n
   9
    Fichero data7-24.gdt. Recogido en Ramanathan, R. (2002), Introductory econometrics with applications, 5th.
Ed., South-Western.


                                                     139
SARRIKO-ON 8/09                                            Econometr´ B´sica Aplicada con Gretl
                                                                    ıa a


          city    1 si est´ en Coto de Caza, 0 si est´ en Dove Canyon
                          a                          a

  1. Especifica un primer modelo (Modelo 1) para analizar si el tama˜o y la edad de la vivienda
                                                                   n
     son factores que explican o no el precio de la vivienda.

  2. Interpreta los coeficientes del modelo.

  3. Estima el modelo por M´
                           ınimos Cuadrados Ordinarios. Interpreta los coeficientes estimados.

  4. Comenta los resultados obtenidos en t´rminos de bondad de ajuste, significatividad y
                                             e
     signos de los coeficientes estimados. Razona si te parecen adecuados los resultados.

  5. Introduce como variable explicativa en el modelo la variable city (Modelo 2). Interpreta el
     coeficiente que la acompa˜a.
                              n

  6. Estima el Modelo 2 por MCO. Comenta los resultados y compara estos con los obtenidos
     en el Modelo 1. ¿Ha mejorado la especificaci´n? Razona tu respuesta.
                                                o

  7. Obt´n el gr´fico de los residuos de la estimaci´n MCO del Modelo 2. ¿Qu´ te sugiere este
         e      a                                  o                        e
     gr´fico? Comenta si crees que existe alg´n problema de mala especificaci´n.
       a                                     u                             o

  8. Utilizando el Modelo 2, obt´n e interpreta los siguientes gr´ficos.
                                e                                a

         • Gr´fico de la serie de residuos MCO.
             a
         • Gr´fico de residuos MCO sobre la variable age.
             a
         • Gr´fico de residuos MCO sobre la variable sqf t.
             a

Ejercicio 2:
Se quiere estudiar la relaci´n entre el salario (W ) y las horas trabajadas (H ). Para ello se dispone
                            o
de observaciones de secci´n cruzada para 8 individuos, mujeres y hombres, por lo que tambi´n
                           o                                                                        e
se dispone de la informaci´n del sexo del individuo a trav´s de una variable ficiticia (S ) que
                             o                                   e
toma el valor 1 si el individuo es Mujer y 0 si es Hombre.


Considera el siguiente modelo:


                                       Wi = β1 + β2 Hi + ui                                    (7.15)

  1. Edita en Gretl un archivo con los siguientes datos a utilizar en el ejercicio:

        W           H     S
       170         40     0
       180         50     0
       165         30     0
       165         40     0
       105         50     1
        95         35     1
       100         40     1
        90         35     1

  2. Muestra los resultados de la estimaci´n del Modelo (7.15) y comenta los resultados. ¿Te
                                          o
     parecen los esperados?

                                                 140
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                          SARRIKO-ON 8/09


  3. Contrasta la significatividad individual de las variables explicativas del modelo. Escribe
     los supuestos necesarios sobre la perturbaci´n para que los estad´
                                                 o                    ısticos tengan validez.

  4. Contrasta la significatividad conjunta de las variables explicativas.

  5. Interpreta el coeficiente de determinaci´n del modelo.
                                            o

  6. Obt´n el gr´fico de residuos. Teniendo en cuenta que las primeras cuatro observaciones
         e      a
     son hombres y las siguientes cuatro son mujeres, ¿qu´ te sugiere el gr´fico?
                                                         e                 a

  7. Realiza el contraste de Engle para analizar si en el modelo (7.15) ser´ relevante controlar
                                                                              ıa
     por el sexo, incluyendo la variable ficticia S. Para ello calcula el estad´
                                                                              ıstico NR2, donde R2
     es el coeficiente de determinaci´n de la regresi´n de los residuos del modelo (7.15) sobre
                                      o               o
     una constante y la variable S. ¿Qu´ te sugiere el contraste?
                                         e

  8. Dado el resultado del contraste y lo analizado en el gr´fico de residuos, ¿c´mo cambiar´ la
                                                            a                   o          ıas
     especificaci´n del modelo (7.15)? Estima esa nueva especificaci´n incluyendo en el modelo
                 o                                                    o
     la variable que recoge el sexo y comenta los resultados. Compara los resultados obtenidos
     de estimar ambos modelos.

  9. ¿Cu´l es el sesgo en la estimaci´n del efecto de las horas trabajadas sobre el salario si se
          a                          o
     elige la especificaci´n del modelo (7.15) y la correcta es la del modelo que incluye el sexo?
                         o
     ¿Qu´ signo esperas que tenga ese sesgo?
          e

Ejercicio 3:
Para la realizaci´n de este ejercicio utilizamos el fichero smoke del libro de Wooldridge (2003),
                 o
Introductory Econometrics. A Modern Approach, que ten´is como archivo de muestra en gretl10 .
                                                           e
Son datos para 807 individuos varones residentes en distintos estados americanos en el a˜o 1979.
                                                                                        n
Las variables que est´n en este fichero son:
                     a

    educ       A~os de escolarizaci´n
                n                  o
 cigpric       Precio de un paquete de cigarrillos en centavos
   white       Variable ficticia que es igual a la unidad si el
               individuo es blanco, cero en otro caso.
     age       Edad del individuo en a~os
                                      n
  income       Renta anual, en d´lares
                                o
    cigs       Cigarrillos fumados al d´a
                                       ı
restaurn       Variable ficticia que es igual a la unidad si una
               persona reside en un estado donde hay restricciones
               al tabaquismo en los restaurantes, cero en otro caso.
 lincome       log(income)
   agesq       Edad al cuadrado
 cigpric       log(cigprice)

Considera la siguiente especificaci´n:
                                  o


         lincomei = β1 + β2 cigsi + β3 educi + β4 agei + β5 agesqi + ui         i = 1, . . . , 807      (7.16)

  1. Muestra los resultados de la estimaci´n por MCO del Modelo (7.16).
                                          o
 10
      Wooldrige, J. M. (2003), Introductory Econometrics. A Modern Approach, 2sd. Ed., South-Western.


                                                     141
SARRIKO-ON 8/09                                         Econometr´ B´sica Aplicada con Gretl
                                                                 ıa a


  2. Comenta los resultados obtenidos sobre la bondad de ajuste, los signos de los coeficientes
     estimados y su significatividad. ¿Puedes justificar el signo del coeficiente estimado que
     acompa˜a a la variable cigs?
            n

  3. ¿Hay evidencia de que la relaci´n entre la variable lincome y age sea cuadr´tica, mante-
                                      o                                             a
     niendo constante el resto de las variables explicativas? Muestra los resultados del contraste
     utilizado para tus conclusiones.

  4. Incluye la variable restaurn en la ecuaci´n (7.16). Interpreta el par´metro asociado a la
                                                o                             a
     variable. Estima el modelo y contrasta si la existencia de restricciones al consumo de tabaco
     en los restaurantes aumenta significativamente el logaritmo de la renta familiar anual.

  5. Incluye la variable white en el modelo correspondiente al apartado anterior. Interpreta el
     par´metro asociado a la variable. Contrasta si la raza es una variable significativa para
        a
     explicar a la variable lincome.

  6. Prop´n y estima un modelo que permita contrastar que el n´mero medio de cigarrillos
         o                                                        u
     fumados al d´ var´ con la raza del individuo. Realiza el contraste.
                 ıa   ıa

  7. F´ıjate en los valores de la variable cigs, esta variable est´ discriminando entre individuos
                                                                  a
     fumadores y no fumadores. Utilizando la variable cigs construye una variable ficticia que
     tome valor 1 si el individuo es fumador y cero en otro caso. ¿Dir´ que ambas varia-
                                                                             ıas
     bles est´n perfectamente correlacionadas? Calcula la correlaci´n entre ambas variables.
              a                                                          o
     Interpreta el resultado.

  8. Suponiendo que la variable lincome s´lo depende de las variables educ y age. Contrasta la
                                            o
     posibilidad de que la funci´n de renta anual sea distinta para aquellos individuos fumadores
                                o
     respecto de los que no lo son.

  9. Escribe una secci´n de conclusiones donde finalices proponiendo una especificaci´n sen-
                       o                                                               o
     sata para el logaritmo de la renta familiar anual teniendo en cuenta todos los resultados
     anteriores.




                                              142
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                          SARRIKO-ON 8/09


Ejercicio 4:
Se dispone de una base de datos sobre sistemas de televisi´n por cable y sus determinantes para
                                                          o
101 ciudades estadounidenses. Las primeras cuarenta observaciones corresponden a 1979 y las
ultimas 61 observaciones corresponden a 199411 . Las variables que se consideran son:
´

            sub    El n´mero de suscriptores de cada sistema
                       u
                   (en miles)(Rango 1 - 462)
          homes    El n´mero de hogares conectados a cada sistema
                       u
                   (en miles) (Rango 1,7 - 1201,09)
           inst    Cuota de instalaci´n en d´lares (Rango 5,95 - 75)
                                     o       o
            svc    Cuota mensual de cada sistema (Rango 5,08 - 24,93)
       cblchanl    N´mero de se~ales de televisi´n llevadas por cada
                    u           n               o
                   sistema de cable (Rango 6 - 120)
       tvchanl     N´mero de se~ales de televisi´n recibidas
                    u           n               o
                   (Rango 3 - 15)
       pcincome    Renta per c´pita para cada mercado de televisi´n
                              a                                   o
                   con cable, en d´lares (Rango 7,683 - 28,597)
                                  o
               D   1 para 1994 y 0 para 1979

   1. Para la especificaci´n:
                         o

                       subi = β1 + β2 homesi + β3 insti + β4 svci + β5 cblchanli
                             +β6 tvchanli + β7 pcincomei + ui           i = 1, . . . , 101             (7.17)

       Contrasta, sin utilizar la variable D, si existe un comportamiento distinto en 1979 que en
       1994 en la determinaci´n del n´mero de suscriptores de cada sistema.
                               o        u

   2. Como consecuencia de los resultados del contraste, ¿c´mo especificar´ un modelo para
                                                           o             ıas
      el n´mero de suscriptores?
          u

   3. Repite el contraste realizado utilizando la variable D.

   4. Restringe la muestra a las observaciones de 1979.

         a) Analiza si las variables homes, inst, svc, cblchanl, tvchanl y pcincome son individual
            y conjuntamente significativas para explicar la evoluci´n del n´mero de subscriptores
                                                                     o      u
            de cada sistema.
         b) Prop´n una especificaci´n realista para el n´mero de suscriptores de cada sistema en
                o                 o                    u
            1979.

   5. Restringe ahora la muestra a las observaciones correspondientes al a˜o 1994 y repite el
                                                                          n
      an´lisis realizado en el apartado anterior.
        a

   6. Dados los resultados obtenidos para los a˜os 1979 y 1994, ¿te parece sorprendente lo
                                               n
      obtenido en el primer apartado?




  11
    Fichero data7-22.gdt. Recogido en Ramanathan, R. (2002), Introductory econometrics with applications, 5th.
Ed., South-Western.


                                                     143
SARRIKO-ON 8/09         Econometr´ B´sica Aplicada con Gretl
                                 ıa a




                  144
Ap´ndice A
  e

A.1.     Repaso de probabilidad

Las variables econ´micas tienen un componente sistem´tico y otro aleatorio, ya que con ante-
                   o                                     a
rioridad a su observaci´n no podemos predecir con certeza los valores que van a tomar. Este
                         o
apartado revisa los conceptos de probabilidad que aplicaremos este curso: qu´ es una variable
                                                                               e
aleatoria o estoc´stica, cu´les son sus propiedades y, finalmente, se presentan las distribuciones
                 a         a
de probabilidad m´s usuales.
                   a


A.1.1.   Una variable aleatoria

Una variable aleatoria, que denotamos por X, es aquella cuyo valor no es conocido con ante-
rioridad a su observaci´n. La probabilidad es un medio para expresar la incertidumbre sobre el
                       o
resultado. Se distinguen dos tipos de variables aleatorias: discretas, cuando el conjunto de todos
sus posibles valores es finito o infinito numerable, y continuas, cuando el conjunto de realiza-
ciones es infinitamente divisible y, por tanto, no numerable. Por ejemplo, la superficie de una
vivienda es una variable continua mientras que el n´mero de ba˜os es una variable discreta. En
                                                     u             n
general, en este curso nos ocuparemos de variables continuas.
Si X es una variable discreta, podemos asignar una probabilidad p(xi ) = P rob(X = xi ) a cada
posible resultado xi . El conjunto de probabilidades, que se denomina funci´n de probabilidad,
                                                                           o
debe cumplir que p(xi ) ≥ 0 y i p(xi ) = 1.
Si X es continua, la probabilidad asociada a cualquier punto en particular es cero, por lo que nos
referimos a la probabilidad de que X tome valores en un intervalo [a, b]. La funci´n de densidad
                                                                                  o
f (x) de una variable aleatoria continua X es una funci´n tal que
                                                        o

                                                               b
                            P robabilidad(a ≤ X ≤ b) =             f (x) dx
                                                           a

Es decir, el ´rea por debajo de la funci´n entre dos puntos a y b es la probabilidad de que la
             a                           o
variable tome valores en el intervalo [a, b] (ver panel izquierdo del Gr´fico A.3). La funci´n de
                                                                        a                  o
densidad toma valores no negativos, f (x) ≥ 0, y el ´rea total por debajo de la funci´n es la
                                                        a                               o
          ∞
unidad, −∞ f (x)dx = 1.
Un ejemplo de variable aleatoria continua es la distribuci´n normal. Su funci´n de densidad
                                                          o                  o
tiene forma de campana (ver panel izquierdo del Gr´fico A.3). Es muy utilizada en la pr´ctica
                                                    a                                 a
para modelar variables que se distribuyen sim´tricamente alrededor de un valor central, con
                                                e
mucha probabilidad acumulada en valores cercanos a dicho punto central y poca en valores
alejados.

                                               145
SARRIKO-ON 8/09                                            Econometr´ B´sica Aplicada con Gretl
                                                                    ıa a




                 Gr´fico A.3: La funci´n de densidad normal y el histograma
                   a                 o


El panel derecho del Gr´fico A.3 ilustra la relaci´n entre la funci´n de densidad y el histograma
                        a                        o                o
de los datos. Tal y como mencionan Pe˜a y Romo (1997): “La funci´n de densidad constituye
                                         n                             o
una idealizaci´n de los histogramas de frecuencia o un modelo del cual suponemos que proceden
              o
las observaciones. El histograma representa frecuencias mediante ´reas; an´logamente, la fun-
                                                                    a        a
ci´n de densidad expresa probabilidades por ´reas. Adem´s, conserva las propiedades b´sicas del
  o                                          a           a                              a
histograma: es no negativa y el ´rea total que contiene es uno. ”
                                a
La distribuci´n de una variable aleatoria puede resumirse utilizando medidas de posici´n (me-
              o                                                                           o
dia, mediana y moda), dispersi´n (varianza, desviaci´n t´
                                 o                     o ıpica y coeficiente de variaci´n) o forma
                                                                                      o
(coeficiente de asimetr´ y coeficiente de curtosis). Estos conceptos se definen de forma similar a
                        ıa
los utilizados para resumir las caracter´
                                        ısticas de un conjunto de datos. Definiremos los elementos
que utilizaremos a lo largo del curso.


La media o valor esperado, µ, de una variable aleatoria X se define como el promedio ponderado
de todos los posibles valores que puede tomar X, donde la ponderaci´n es la probabilidad de
                                                                      o
cada valor. Si la variable es continua se define:
                                                    ∞
                                  µ = E(X) =             x f (x)dx
                                                    −∞

donde E se conoce como el operador de esperanzas matem´ticas o, simplemente, esperanzas. La
                                                           a
media recoge el centro de gravedad sobre el que se distribuye la variable. As´ cuanto mayor sea
                                                                             ı,
la media, mayor es el valor que se espera que tomen las realizaciones del experimento (ver panel
izquierdo del Gr´fico A.4).
                a


La varianza de una variable aleatoria X es su momento central, o respecto a la media, de orden
2. Es decir,
                             var(X) = σX = E[(X − µ)2 ] ≥ 0
                                         2


La varianza es una medida de dispersi´n de la distribuci´n. Su ra´ cuadrada positiva se conoce
                                     o                  o        ız
como desviaci´n t´
               o ıpica o desviaci´n est´ndar de la variable aleatoria X, es decir:
                                   o      a

                                  des(X) = σX =          var(X)

El panel derecho del Gr´fico A.4 muestra que cuanto menor es la varianza de la variable, mayor
                       a
es la probabilidad concentrada alrededor de la media.

                                              146
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                SARRIKO-ON 8/09


            Distinta media y σ = 1                         Distinta dispersi´n y µ = 6
                                                                            o




                         Gr´fico A.4: Ejemplos de distribuci´n normal
                           a                               o


Distribuci´n normal est´ndar. La distribuci´n normal se caracteriza por el valor de su
            o               a                      o
media y su varianza. Si Z es una variable aleatoria normal de media igual a 0 y varianza igual
a la unidad, se dice que Z es una variable normal est´ndar y se denota Z ∼ N (0, 1). Existen
                                                       a
tablas de esta distribuci´n que a cada posible resultado z le asigna la probabilidad acumulada
                         o
hasta ese punto, P rob(Z ≤ z).
En general, si X es una variable normal con media µ y varianza σ 2 se denota X ∼ N (µ, σ 2 ). Dado
que la transformaci´n Z = (X − µ)/σ es una normal est´ndar, con la tabla de esta distribuci´n
                    o                                    a                                      o
normal se obtiene la probabilidad acumulada P rob(X ≤ x).


     Ejercicio 1: simulaci´n normal est´ndar. Crea un conjunto de datos artificiales
                           o                a
     (N =250 observaciones), generados a partir de variables aleatorias normales est´ndar
                                                                                    a
     independientes. El proceso es el siguiente:

        1. En Gretl, crea el conjunto de datos siguiendo los pasos: Archivo →Nuevo con-
           junto de datos, en N´mero de observaciones: escribe 250, elige la estructura de
                                u
           datos de secci´n cruzada y pincha en No desea empezar a introducir los valores.
                         o
           Se crea un conjunto de datos con dos variables que genera Gretl autom´ticamen-
                                                                                  a
           te: la constante const y la variable ´
                                                ındice index, que toma valores 1,2,3,...,250.
        2. Crea una serie de 250 realizaciones independientes de una variable normal con:
                           A˜adir →Variable aleatoria →Normal ...
                             n
           Aparece un cuadro titulado gretl: variable normal donde debes indicar el nombre
           de la variable, su media y su desviaci´n t´
                                                   o ıpica σ. Por ejemplo, para generar
           observaciones de una variable que llamamos z1 y que se distribuye como una
           N(0,1), escribimos:
                                              z1 0 1
           Tras pinchar en Aceptar, en la ventana principal de Gretl aparece la variable
           creada, z1, con la nota explicativa z1 = normal().
        3. Repitiendo el paso 2, crea una nueva realizaci´n de la normal est´ndar y ll´mala
                                                         o                  a         a
           z2.
        4. Haz dos gr´ficos, uno con z1 y otro con z2, sobre la variable ´
                     a                                                  ındice con la opci´n:
                                                                                          o
           Ver →Gr´ficos →Gr´fico X-Y (scatter). Observa sus caracter´
                    a          a                                            ısticas comunes:

                                               147
SARRIKO-ON 8/09                                                                                          Econometr´ B´sica Aplicada con Gretl
                                                                                                                  ıa a


         los datos oscilan en torno al valor cero, y la mayor parte de ellos se encuentra
         en el intervalo (-2, 2).
      5. Compara el histograma de las frecuencias relativas con la funci´n de densidad
                                                                        o
         normal. Para ello debes situar el cursor sobre una de las variables y seguir la
         ruta:
                   Variable →Gr´fico de frecuencias →contra la normal
                                 a
         El resultado es un gr´fico similar (no id´ntico) al Gr´fico A.5.
                              a                  e            a
                                       0.4
                                             Estadstico para el contraste de normalidad:                                 z1
                                             Chi-cuadrado(2) = 2,893, valor p = 0,23543                 N(-0,031699 1,0189)

                                      0.35


                                       0.3


                                      0.25
                           Densidad




                                       0.2


                                      0.15


                                       0.1


                                      0.05


                                        0
                                                -3           -2           -1               0        1       2           3
                                                                                               z1



                           Gr´fico A.5: Simulaci´n 1: histograma
                             a                 o

         En este gr´fico aparece el histograma junto con la funci´n de densidad de la
                     a                                            o
         distribuci´n normal de media µ = 0, 1087 y desviaci´n t´
                   o                                         o ıpica σ = 1, 0055. Estos
         valores aparecen en la parte superior derecha del gr´fico y se eligen en funci´n
                                                             a                        o
         de la media y varianza de los datos.
    Ejercicio 2: simulaci´n normal general. En el mismo fichero crea dos series de
                         o
    datos:
      • x3= 250 datos generados con una variable normal de media 25 y desviaci´n      o
         ıpica 6 (es decir, σ 2 = 36). En A˜adir →Variable aleatoria →Normal ... escribir
        t´                                 n
        x3 25 6.
      • x4, generados a partir de una distribuci´n normal de media 50 y desviaci´n
                                                o                               o
        t´
         ıpica 0.
    Haz el gr´fico de los datos sobre la variable index y su distribuci´n de frecuencias
               a                                                       o
    frente a la normal. ¿Hay alg´n problema al crear o representar la distribuci´n de x4?
                                u                                               o
    ¿Por qu´?e


    Ejercicio 3: transformaci´n lineal. Se trata de construir una nueva serie de datos,
                              o
    que llamaremos z3 y que se define a partir de la variable x3 del ejercicio anterior:
                                         x3 − 25
                                                                  z3 =
                                            6
      1. Pincha en la opci´n A˜adir →Definir nueva variable.
                          o   n
      2. En la siguiente ventana escribe el nombre de la nueva serie y su f´rmula de
                                                                           o
         c´lculo, es decir z3=(x3-25)/6.
          a
    Si has realizado el proceso correctamente, en la ventana principal de Gretl aparece
    la variable creada, z3. Haz el histograma de z3, compar´ndola con la de la variable
                                                              a
    inicial x3. Compara sus estad´  ısticos descriptivos, en particular, las medias y las
    varianza. ¿Cambian mucho?

                                                                                 148
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                             SARRIKO-ON 8/09


A.1.2.    Dos o m´s variables aleatorias
                 a

Para responder a preguntas relativas a dos o m´s variables aleatorias debemos conocer su funci´n
                                               a                                                 o
de densidad conjunta. Si las variables aleatorias X e Y son discretas, a cada posible par de
resultados (xi , yj ) podemos asignar una probabilidad p(xi , yj ). El conjunto de probabilidades es
la funci´n de probabilidad conjunta, cumpli´ndose que 0 ≤ p(xi , yj ) ≤ 1 y i j p(xi , yj ) = 1.
        o                                    e
Si las variables aleatorias son continuas, su distribuci´n conjunta se recoge mediante la funci´n
                                                        o                                       o
de densidad conjunta f (x, y). Si las dos variables siguen una distribuci´n normal, la forma t´
                                                                         o                    ıpica
de su funci´n de densidad conjunta se encuentra en el Gr´fico A.6.
            o                                               a




                           Gr´fico A.6: Distribuci´n normal bivariante
                             a                   o
El volumen total recogido bajo esta superficie es la masa de probabilidad total que es igual a la
unidad, es decir, x y f (x, y) dx dy = 1. Adem´s, la funci´n no toma valores negativos, f (x, y) ≥
                                              a           o
0. As´ el volumen debajo del rect´ngulo definido por dos puntos (a, b) mide la probabilidad de
     ı,                             a
que X tome valores por debajo de a e Y por debajo de b. Es decir,
                                                           a       b
                     P robabilidad(X ≤ a, Y ≤ b) =                      f (x, y)dx dy
                                                          −∞   −∞


Por ejemplo, el volumen recogido bajo la superficie marcada en el Gr´fico A.6 es la probabilidad
                                                                   a
de que X ≤ −2 e Y ≤ 4,5. La funci´n de densidad marginal de cada variable puede obtenerse
                                  o
mediante integraci´n. As´
                   o    ı:
                                ∞                                      ∞
                      f (x) =        f (x, y) dy         f (y) =            f (x, y) dx             (A.18)
                                −∞                                     −∞


La distribuci´n conjunta de dos variables aleatorias se puede resumir mediante:
             o

   • El centro de gravedad de cada variable, es decir, las medias (µX , µY ), que se obtienen de
     las distribuciones marginales (A.18).

   • Medidas de dispersi´n de cada variable alrededor de su media, por ejemplo, las varianzas
                        o
                 2    2
     de X e Y , σX y σY , que se derivan de las distribuciones marginales (A.18).

   • Medida de la relaci´n lineal entre las dos variables aleatorias, para lo que se utiliza la
                        o
     covarianza σXY :
                           cov(X, Y ) = σXY = E[(X − µX )(Y − µY )]

                                                   149
SARRIKO-ON 8/09                                          Econometr´ B´sica Aplicada con Gretl
                                                                  ıa a


     o bien el coeficiente de correlaci´n entre las variables,
                                      o

                                                        σXY
                                 corr(X, Y ) = ρXY =         ∈ [−1, 1]
                                                       σX σY

     Covarianza y correlaci´n de las variables aleatorias tienen una interpretaci´n similar a sus
                           o                                                     o
     hom´logas en los datos. As´ si σXY = ρXY = 0 se dice que las variables X e Y est´n
         o                       ı,                                                            a
     incorrelacionadas.

La distribuci´n conjunta se resume en el vector de medias µ y la matriz de varianzas y covarianzas
             o
Σ ´ V:
  o
                                        var(X) cov(X, Y )                2
                                                                        σX σXY
                    µX
             µ=                Σ=                                 =             2
                    µY                 cov(X, Y )   var(Y )            σXY σY


Distribuci´n condicionada. Al estudiar un conjunto de variables, interesa evaluar la posibi-
           o
lidad de que un suceso ocurra dado que otro suceso ha tenido lugar. Por ejemplo, ¿cu´l es la
                                                                                          a
probabilidad de que una mujer casada y con hijos en edad escolar participe en el mercado de
trabajo? La probabilidad condicionada permite responder este tipo de preguntas. Si las va-
riables son discretas, se define la distribuci´n condicional de Y dado que la variable aleatoria X
                                             o
toma el valor xi como:

                                           P rob(Y = yj , X = xi )     p(xi , yj )
                P rob(Y = yj |X = xi ) =                           =
                                               P rob(X = xi )          j p(xi , yj )


                                      para P rob(X = xi ) > 0

Si las variables son continuas, se define la funci´n de densidad de Y condicionada a que la
                                                  o
variable aleatoria X tome el valor x (para f (x) > 0):

                                                     f (x, y)
                                     f (y|X = x) =
                                                      f (x)

De esta forma se obtiene una nueva distribuci´n, con las propiedades ya vistas. Los momentos
                                              o
de inter´s de esta distribuci´n se denominan media y varianza condicionada de Y para el valor
        e                    o
dado de X = x, y se denotan E(Y |X = x) y var(Y |X = x).


Independencia. Dos variables aleatorias X y Y son estad´      ısticamente independientes o est´n
                                                                                              a
independientemente distribuidas si conocido el valor que toma una de ellas, no aporta ninguna
informaci´n sobre el valor que puede tomar la segunda. Si las variables X e Y son independientes,
         o
entonces su funci´n de densidad conjunta puede descomponerse seg´n:
                 o                                                    u

                          f (x, y) = f (x) × f (y)     − ∞ < x, y < ∞


Adem´s, se tiene que f (y|X = x) = f (y). Se demuestra que si X e Y son independientes,
     a
entonces Cov(X, Y ) = 0. Tambi´n se demuestra que, si las variables X e Y se distribuyen
                              e
conjuntamente seg´n una normal y Cov(X, Y ) = 0, entonces X e Y son independientes.
                 u

                                               150
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                           SARRIKO-ON 8/09


M´s de dos variables. Los resultados anteriores se pueden generalizar a un conjunto de n
  a
variables, X1 , X2 , . . . , Xn , que se recogen en un vector
                                                          
                                                        X1
                                                      X2 
                                                          
                                                X= . 
                                                      . . 
                                                       Xn

La distribuci´n conjunta de estas variables se resume en el vector de medias E(X) ´ µ y la
             o                                                                    o
matriz de varianzas y covarianzas V (X) ´ ΣX . As´
                                            o       ı:

                                            
                        E(X1 )            µ1
                       E(X2 )          µ2   
                                            
   E(X) = µ =            .      =       .             y
                         .
                          .              .
                                           .   
                        E(Xn )            µn
                                                                                 2
                                                                                                            
                     var(X1 )    cov(X1 , X2 )     . . . cov(X1 , Xn )            σ1    σ1,2   . . . σ1,n
                  cov(X1 , X2 )   var(X2 )        . . . cov(X2 , Xn )         σ1,2    σ22
                                                                                               . . . σ2,n   
                                                                                                         
     ΣX    =           .             .            ..         .          =       .      .    ..     .     
                       .
                        .             .
                                      .                .      .
                                                              .                  .
                                                                                   .      .
                                                                                          .        .  .
                                                                                                      .     
                                                                                                       2
                   cov(X1 , Xn ) cov(X2 , Xn )     ...     var(Xn )              σ1,n   σ2,n   . . . σn

donde ΣX es una matriz cuadrada de orden n, sim´trica y definida no negativa. Esto implica
                                                    e
                                                              2
que los elementos de la diagonal principal son no negativos, σi ≥ 0, ∀i.
Si las variables son mutuamente independientes, entonces est´n incorrelacionadas, es decir, σi,j =
                                                             a
0, ∀i = j, por lo que la matriz ΣX es diagonal:
                                         2                  
                                           σ1 0 . . . 0
                                                2           
                                         0 σ2 . . . 0 
                                        
                                  ΣX =  .                   
                                                . ..      . 
                                         . .   .
                                                .    . .  . 
                                            0 0 . . . σn   2



Si, adem´s, X1 , . . . , Xn siguen la misma distribuci´n,
        a                                             o       con la misma media y la misma varianza:
                                                  2                    
                                    µ                 σ        0 ... 0
                                 µ                                     
                                                  0         σ2 . . . 0 
                        E(X) =  .         ΣX =  .
                                                    .          . ..
                                                                          
                                                                        . =σ I
                                                                                2
                                 . 
                                    .               .          .
                                                                .       . 
                                                                      . .
                                    µ                  0       0 . . . σ2

entonces se dice que son variables aleatorias id´ntica e independientemente distribuidas con
                                                 e
media µ y varianza σ 2 y se denota X ∼ iid(µ, σ 2 ), ∀i = 1, . . . , n.
                                    i

Si X1 , . . . , Xn son variables aleatorias normales, se dice que el vector X sigue una distribuci´n
                                                                                                  o
normal multivariante, y queda caracterizada por su vector de medias µ y su matriz de va-
rianzas y covarianzas ΣX . Se denota X ∼ N (µ, ΣX ). Si adem´s las variables son independientes,
                                                                   a
con media y varianza com´n, se denota Xi ∼ N ID(µ, σ 2 ), i = 1, . . . , n.
                               u
Adem´s de la distribuci´n normal, a lo largo del curso utilizaremos otras distribuciones, todas
       a                 o
ellas relacionadas con la distribuci´n normal. Veamos sus propiedades.
                                    o

                                                    151
SARRIKO-ON 8/09                                         Econometr´ B´sica Aplicada con Gretl
                                                                 ıa a




              Gr´fico A.7: Funci´n de densidad de la distribuci´n Chi-cuadrado
                a              o                              o

A.1.3.   Algunas distribuciones de probabilidad

La distribuci´n Chi-cuadrado. Si (Z1 , . . . , Zn ) son variables aleatorias independientes con
               o
distribuci´n normal est´ndar, es decir, Zi ∼ N ID(0, 1), se dice que X = n Zi2 es una variable
          o             a                                                  i=1
aleatoria chi-cuadrado de n grados de libertad y se denota X ∼ χ2 (n). Para valores negativos
de X, f (x) = 0 y la forma general de su funci´n de densidad se recoge en el Gr´fico A.7.
                                               o                                a
Es una distribuci´n asim´trica, con media igual a n y varianza 2n. Existen tablas que propor-
                  o      e
cionan la probabilidad acumulada hasta un punto P rob(X ≤ x), es decir, el ´rea rayada del
                                                                              a
gr´fico, en funci´n de los grados de libertad, n.
  a             o

     Ejercicio 4: transformaci´n no lineal. Siguiendo el procedimiento del ejercicio
                                  o
     3, crea una nueva serie de datos, y = z12 + z22 + z32 . En este caso debes escribir:

                                  y = z1ˆ 2 + z2ˆ 2 + z3ˆ 2

     Haz la representaci´n gr´fica de la distribuci´n de frecuencias de esta variable frente
                        o    a                    o
     a la normal. El histograma que obtengas tendr´ un patr´n bastante diferente a
                                                       a         o
     la distribuci´n normal. ¿Puedes justificar el resultado? ¿Con qu´ distribuci´n la
                  o                                                      e            o
     comparar´ ıas?

La distribuci´n F de Snedecor. Si Z1 ∼ χ2 (n1 ) y Z2 ∼ χ2 (n2 ) y adem´s se distribuyen
                o                                                              a
independientemente, entonces la distribuci´n X = (n2 /n1 )(Z1 /Z2 ) se conoce como distribuci´n
                                             o                                               o
F de n1 , n2 grados de libertad y se escribe:

                                         Z1 /n1
                                   X=           ∼ F(n1 , n2 )
                                         Z2 /n2

El Gr´fico A.8 muestra su funci´n de densidad para distintos grados de libertad.
     a                        o
La probabilidad se acumula en la parte positiva de la recta real, x > 0. A medida que aumentan
los grados de libertad del denominador, n2 → ∞, la distribuci´n de n1 F(n1 , n2 ) converge a la
                                                                o
              2 (n ).
distribuci´n χ 1
          o


La distribuci´n t de Student. Si Z ∼ N (0, 1) e Y ∼ χ2 (n) y adem´s, Z e Y se distribuyen
             o                                                   a
independientemente, entonces la distribuci´n de X = Z/ Y /n se denomina distribuci´n t de
                                          o                                       o

                                              152
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                SARRIKO-ON 8/09




                Gr´fico A.8: Funci´n de densidad de la distribuci´n F-Snedecor
                  a              o                              o

Student de n grados de libertad y se denota:
                                               Z
                                       X=             ∼ t(n)
                                               Y /n
El Gr´fico A.9 incluye ejemplos de la funci´n de densidad de la t-Student compar´ndolas con la
      a                                   o                                    a
distribuci´n normal est´ndar:
          o            a




                 Gr´fico A.9: Funci´n de densidad de la distribuci´n t-Student
                   a              o                              o

Se trata de una distribuci´n sim´trica alrededor de 0. Para n > 1, la media de la distribuci´n
                           o      e                                                          o
es cero y para n > 2 su varianza es igual a n/(n − 2). Esta distribuci´n tiene las colas m´s
                                                                           o                 a
gruesas que la normal, es decir, su exceso de curtosis es positivo, pero, a medida que aumentan
sus grados de libertad, la distribuci´n t converge a la normal est´ndar.
                                     o                             a


A.2.     Repaso de inferencia estad´
                                   ıstica

Supongamos que interesa conocer cu´l es el salario medio de los reci´n licenciados. Se trata
                                       a                                  e
de una poblaci´n o conjunto de individuos muy amplio, por lo que se recoge la informaci´n
               o                                                                               o
unicamente de una muestra o un subconjunto de reci´n licenciados seleccionados al azar. Con esta
´                                                     e
informaci´n, ¿qu´ es posible inferir del salario esperado de un reci´n licenciado? Para responder
         o       e                                                  e
a esta pregunta y, en general, saber usar los datos para examinar conjeturas y relaciones sobre
la poblaci´n repasaremos algunos conceptos de inferencia estad´
          o                                                      ıstica.
El objetivo de la inferencia estad´
                                  ıstica es aprender determinadas caracter´
                                                                          ısticas de una poblaci´n
                                                                                                o
a partir del an´lisis de una muestra. La poblaci´n es un conjunto bien definido de elementos que
               a                                  o

                                               153
SARRIKO-ON 8/09                                              Econometr´ B´sica Aplicada con Gretl
                                                                      ıa a


son el objeto del estudio, por ejemplo, el conjunto de familias de un pa´ el conjunto de viviendas
                                                                        ıs,
de una ciudad o los clientes de una empresa de telecomunicaciones. La muestra est´ formada
                                                                                        a
por un subconjunto representativo de elementos de la poblaci´n.  o
Una vez definida la poblaci´n, hay que especificar un modelo para los datos que recoja las carac-
                                  o
ter´ısticas poblacionales que interesan. En Econometr´ suponemos que los datos y1 , y2 , . . . , yN
                                                             ıa
son realizaciones de N variables aleatorias cuya distribuci´n conjunta depende de varios par´me-
                                                                o                                 a
tros desconocidos Θ. Un modelo para los datos especifica las caracter´           ısticas generales de la
distribuci´n junto con el vector de par´metros desconocidos Θ. Por ejemplo, supongamos que
               o                               a
nos interesa conocer el precio medio del metro cuadrado de un piso en una ciudad y la muestra
est´ formada por 50 pisos. Suponemos que los valores recogidos del precio por m2 de los 50 pisos,
    a
y1 , . . . , y50 , son realizaciones de variables normales id´ntica e independientemente distribuidas.
                                                             e
Por tanto, el modelo especificado para los datos es:

                                          Yi ∼ N ID(µ, σ 2 )

Los par´metros que determinan la distribuci´n son la media y la varianza del precio del m2 ,
        a                                      o
que son desconocidos, es decir, Θ = (µ, σ 2 ). Adem´s, la media es el par´metro de inter´s en el
                                                   a                     a              e
estudio y queremos aprender sobre ella a partir de los datos.
En grandes l´ıneas, aplicaremos dos herramientas de la estad´ ıstica, la estimaci´n y el contraste de
                                                                                 o
hip´tesis. En la estimaci´n se trata de calcular posibles valores para par´metros de inter´s, por
   o                      o                                                  a                e
ejemplo, una elasticidad o el precio medio por metro cuadrado de la vivienda. En el contraste de
hip´tesis hay que establecer una hip´tesis o conjetura espec´
   o                                 o                        ıfica sobre la poblaci´n, por ejemplo,
                                                                                    o
que no hay discriminaci´n salarial por sexo o que el estado de un piso es un factor determinante
                         o
de su precio, y analizar los datos para decidir si la hip´tesis es correcta.
                                                         o


A.2.1.    Estimaci´n
                  o

El objetivo de la estimaci´n es aproximar el valor de un conjunto de par´metros desconocidos
                            o                                                   a
de una distribuci´n a partir de las observaciones muestrales de la misma. Denotaremos como θ
                   o
a un par´metro desconocido y Θ = (θ1 , θ2 , . . . , θK ) a un vector de K par´metros desconocidos.
          a                                                                     a
Un estad´   ıstico es una funci´n de los datos, g(y1 , . . . , yN ). Un estimador puntual de θ es un
                               o
estad´ıstico que pretende ser un aproximaci´n al par´metro desconocido y se denota por θ. Por
                                             o             a                                  ˆ
ejemplo, la media de los datos puede ser un estimador de la media de una variable aleatoria y
la varianza de los datos un estimador de su varianza. Es decir,
                             N                                              N
                    1                                  2      ∗2       1
               µ=y=
               ˆ ¯                yi                   σ =
                                                       ˆ     Sy    =              (yi − y )2
                                                                                        ¯
                    N                                                N −1
                            i=1                                             i=1

Un estimador es una regla que est´ definida antes de que los datos se observen. El valor num´rico
                                   a                                                       e
que se obtiene al aplicarlo a los datos se denomina estimaci´n. Por ejemplo, la estimaci´n de la
                                                            o                            o
media del precio por metro cuadrado de un piso con la muestra de la Tabla 1.1 es:
                       3, 82 + 5, 246 + . . . + 3, 434 + 4, 20
                  µ=
                  ˆ                                            = 3, 91 miles de euros
                                        50
Es decir, se estima que el precio de un piso oscila alrededor de 3910 euros/m2 . Sin embargo,
¿qu´ confianza podemos tener en este resultado? Por ejemplo, ¿valorar´
    e                                                                ıamos igual esta cantidad
si se hubiera calculado con una muestra de 5 observaciones? La respuesta obvia es NO, sino que
consideramos m´s fiables los resultados con 50 datos que con 5. Por tanto, un estimador (y sus
                 a
estimaciones) deben complementarse con una medida de su fiabilidad o precisi´n.o

                                                 154
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                   SARRIKO-ON 8/09


Un estimador es una variable aleatoria que depende de las variables Yi , i = 1, . . . , N . Su distri-
buci´n de probabilidad se denomina distribuci´n muestral o distribuci´n emp´
     o                                         o                     o       ırica del estimador.
En el ejemplo anterior, si Yi ∼ N ID(µ, σ 2 ), entonces el estimador µ = y es una combinaci´n
                                                                     ˆ     ¯                       o
lineal de N variables normales independientes, por lo que su distribuci´n muestral es:
                                                                       o


                                       µ = y ∼ N (µ, σ 2 /N )
                                       ˆ ¯                                                     (A.19)


La media muestral se distribuye alrededor de la media poblacional y se concentra m´s probabi-
                                                                                   a
lidad alrededor de µ cuanto mayor es N (es decir, menor es la varianza). Por tanto, hay mayor
probabilidad de obtener una estimaci´n cercana a µ con 50 datos que con N = 5. En este caso,
                                     o                                  √
es sensato utilizar como indicador de la precisi´n la desviaci´n t´
                                                o             o ıpica σ/ N : menor desviaci´n
                                                                                           o
t´
 ıpica indica mayor precisi´n. Normalmente, σ es desconocido, por lo que sustituimos su valor
                            o
                                                  ∗
poblacional por el correspondiente muestral, Sy . La estimaci´n de la desviaci´n t´
                                                                o              o ıpica de la
distribuci´n muestral de y ,
          o               ¯
                                                    ∗
                                                      √
                                       σy = Sy = Sy / N
                                       ˆ¯     ¯



se conoce como error t´ıpico de y . √ el ejemplo del precio del m2 , obtenemos que el error
                                ¯ En
t´
 ıpico de estimaci´n es 0, 993341/ 50 = 0, 14. Es f´cil comprobar que si obtuvi´ramos los
                  o                                 a                             e
mismos valores √ y y Sy con una muestra de 5 observaciones, el error t´
                de ¯                                                     ıpico se triplicar´
                                                                                           ıa,
Sy = 0, 993341/ 5 = 0, 44 miles de euros.
  ¯




      Ejercicio 5. Estimaci´n de la media y la varianza del precio por m2 de un
                           o
      piso.


        1. Abre el fichero de datos de Gretl pisos.gdt.

        2. Crea la variable precio por metro cuadrado, que denotaremos pr m2 :

            a) Usa las opci´n definir nueva variable que est´ en el men´ A˜adir o en
                           o                               a          u n
               Variable.
            b) En la nueva ventana escribe nombre de la nueva variable = f´rmula, es
                                                                          o
               decir,
                                         pr m2 = precio/m2

        3. Una vez creados los nuevos datos, las estimaciones de la media, m, y la desvia-
           ci´n t´
             o ıpica, S, se obtienen de la tabla de estad´
                                                         ısticos descriptivos. La estimaci´n
                                                                                    √     o
           de la varianza es el cuadrado de S. El error t´
                                                         ıpico de estimaci´n es S/ 50.
                                                                           o



      Ejercicio 6: Estimaci´n de media y varianza. Utilizando la opci´n de estad´
                              o                                               o           ısti-
      cos descriptivos o estad´
                              ısticos principales, obt´n las medias y las desviaciones t´
                                                      e                                 ıpicas
      de z1, z2, x3 y x4 generados en el ejercicio 1. Completa la siguiente tabla, incluyendo
      junto con los momentos poblacionales las estimaciones que has obtenido, es decir,
      correspondientes los momentos muestrales.

                                                 155
SARRIKO-ON 8/09                                        Econometr´ B´sica Aplicada con Gretl
                                                                ıa a


             Modelo 1             µ=                           σ=
             Muestra: z1      Estimaci´n =
                                      o                   Estimaci´n =
                                                                  o

             Modelo 2             µ=                           σ=
             Muestra: z2      Estimaci´n =
                                      o                   Estimaci´n =
                                                                  o

             Modelo 3             µ=                           σ=
             Muestra: x3      Estimaci´n =
                                      o                   Estimaci´n =
                                                                  o

             Modelo 4             µ=                           σ=
             Muestra: x4      Estimaci´n =
                                      o                   Estimaci´n =
                                                                  o



Criterios para comparar estimadores

Para un problema determinado existen distintos m´todos de estimaci´n y, obviamente, unos son
                                                    e                o
mejores que otros. En algunos casos, distintos m´todos pueden dar lugar a un mismo estimador
                                                  e
de un par´metro. Es posible elegir entre distintos m´todos de estimaci´n bas´ndonos en ciertas
          a                                           e                o     a
propiedades de la distribuci´n muestral del estimador. En general, buscamos los estimadores que
                            o
m´s se aproximen a los verdaderos valores. As´ exigimos que los estimadores cumplan una serie
  a                                            ı,
                                                                 ˆ
de propiedades basadas en una medida de la distancia entre θ y θ. En este curso nos fijamos en
tres propiedades: insesgadez, eficiencia y el error cuadr´tico medio m´
                                                        a             ınimo.


Insesgadez. Un estimador es insesgado si la media de su distribuci´n emp´
                                                                  o     ırica es el verdadero
valor del par´metro, es decir,
             a
                                            ˆ
                                         E(θ) = θ
                                                                       ˆ
Si se pudieran obtener todas las posibles realizaciones muestrales de θ, el promedio de todas
estas estimaciones ser´ el valor del par´metro. Es una propiedad deseable porque indica que si
                      ıa                a
                                               o ˆ
un estimador es insesgado, el error de estimaci´n, θ − θ, se anula en promedio. Un ejemplo de
estimador insesgado de la media poblacional de una distribuci´n normal es y , ya que de (A.19)
                                                               o            ¯
tenemos que E(¯) = µ. Un estimador insesgado de la varianza de una distribuci´n es la varianza
                y                                                             o
muestral, S 2 .
En caso contrario, se dice que el estimador es sesgado. Se define el sesgo de un estimador como
        ˆ        ˆ
Sesgo(θ) = E(θ) − θ. La parte izquierda del Gr´fico A.10 representa las distribuciones de 3
                                                   a
                                                       ˆ                ˆ
estimadores de un mismo par´metro, θ: el estimador θ1 es insesgado; θ2 , tiene sesgo negativo,
                              a
                                                                               ˆ
es decir, en promedio subestima el valor del par´metro; finalmente el sesgo de θ3 es positivo, es
                                                 a
decir, este estimador en promedio sobrevalora el valor del par´metro.
                                                              a


Eficiencia. Si nos fijamos unicamente en los estimadores insesgados, nos interesa establecer un
                            ´
criterio para elegir un estimador dentro de esta clase de estimadores. En la parte derecha del
Gr´fico A.10 se representa la distribuci´n de dos estimadores, ambos insesgados. Claramente,
   a                                      o
el estimador con menor varianza, θ  ˆ1 , tiene una probabilidad menor de obtener realizaciones
                                                                        ˆ
alejadas del verdadero valor del par´metro. Por tanto, se considera que θ1 supera al estimador
                                    a
ˆ2 y se dice que θ1 es m´s eficiente que θ2 .
θ                 ˆ      a                ˆ

                                              156
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                SARRIKO-ON 8/09




                         Gr´fico A.10: Sesgo y varianza de estimadores
                           a
En general, si un estimador es el que tiene menor varianza dentro de una clase de estimadores
se dice que es el estimador eficiente dentro de esa clase. As´ se dice que un estimador θ es
                                                              ı,                           ˆ
                                                                                         ˜
eficiente dentro de la clase de estimadores insesgados si no hay otro estimador insesgado θ con
una varianza menor:
                                   ˜        ˆ
                              var(θ) ≥ var(θ)       ˜
                                                  ∀θ insesgado
Por ejemplo, la media de los datos es un estimador eficiente dentro de la clase de estimadores
insesgados de la media poblacional µ de una variable normal. Es decir, se demuestra que, si
Yi ∼ N ID(µ, σ 2 ), i = 1, . . . , N , entonces para todo estimador insesgado de µ, µ con E µ = µ:
                                                                                    ˜       ˜
                                                σ2
                                     var(¯) =
                                         y         ≤ var(˜)
                                                         µ
                                                N
Si se trata de estimar un conjunto de K par´metros Θ, se dice que un estimador insesgado Θ
                                           a
                                              ˜                     ˜
es m´s eficiente que otro estimador insesgado Θ si la diferencia [V (Θ) − V (Θ)] es una matriz
     a
semidefinida positiva. Esto implica que cada elemento de Θ tiene una varianza menor o igual
                                   ˜
que el correspondiente elemento de Θ.


Error cuadr´tico medio Aunque la insesgadez es una propiedad deseable, esto no implica
             a
que un estimador insesgado siempre sea preferible a uno sesgado. El Gr´fico A.11 ilustra una
                                                                       a
                                            ˆ                                           ˆ
situaci´n en la que un estimador insesgado θ1 puede descartarse frente a otro sesgado, θ2 . El
       o
           ˆ
estimador θ1 tiene mucha varianza, por lo que tiene una probabilidad mayor de obtener errores
           o    a                                                ˆ
de estimaci´n m´s grandes que el estimador con menor varianza, θ2 , aunque este sea sesgado.




                    Gr´fico A.11: Ejemplos de distribuci´n de estimadores
                      a                                o

Esto sugiere utilizar como criterio de elecci´n de estimadores una medida del error del estimador.
                                             o
Se define el error cuadr´tico medio de un estimador:
                        a
                              ˆ       ˆ               ˆ           ˆ
                         ECM (θ) = E[(θ − θ)2 ] = var(θ) + [sesgo(θ)]2

                                                157
SARRIKO-ON 8/09                                             Econometr´ B´sica Aplicada con Gretl
                                                                     ıa a


que se descompone en un t´rmino de varianza y otro de sesgo. As´ entre un conjunto de esti-
                           e                                   ı,
madores se elige aquel que tiene menor error cuadr´tico medio.
                                                  a


A.2.2.    Contraste de hip´tesis
                          o

Como ya se mencion´, uno de los objetivos de la Econometr´ es el de contrastar hip´tesis.
                       o                                         ıa                        o
Por ejemplo, nos planteamos si los datos del precio del m2 de la vivienda son compatibles con
una determinada distribuci´n con media 3000 euros/m2 . En un contraste de hip´tesis se trata
                             o                                                     o
de establecer si la diferencia entre la hipot´tica media poblacional (en el ejemplo, 3000 e) y la
                                             e
media muestral (3910 e) se debe unicamente a la naturaleza aleatoria de los datos.
                                   ´
Un contraste de hip´tesis tiene tres etapas (Ramanathan, 2002): (1) Formulaci´n de dos hip´te-
                    o                                                          o           o
sis opuestas; (2) derivaci´n de un estad´
                          o               ıstico de contraste y su distribuci´n muestral; y (3)
                                                                             o
determinaci´n de un criterio de decisi´n para elegir una de las dos hip´tesis planteadas.
            o                          o                               o
Una hip´tesis estad´
         o           ıstica es una afirmaci´n sobre la distribuci´n de una o varias variables alea-
                                          o                       o
torias. En un contraste se trata de decidir cu´l, entre dos hip´tesis planteadas, es la que mejor
                                               a                 o
se adec´a a los datos. La hip´tesis de inter´s se denomina hip´tesis nula, H0 , mientras que
        u                      o             e                      o
la hip´tesis frente a la que se contrasta se llama hip´tesis alternativa, Ha . En el ejemplo,
      o                                                 o
consideramos que el precio del m2 es una variable aleatoria normal y planteamos la hip´tesis   o
nula de que la media de Y sea igual a 3 (miles e) frente a la alternativa de que no lo sea, es decir,
                        H0 : µ = 3                    frente a               Ha : µ = 3
Normalmente, la hip´tesis nula es una hip´tesis simple, es decir, s´lo se plantea un valor para µ.
                     o                      o                      o
La hip´tesis alternativa suele ser una hip´tesis compuesta, que especifica un intervalo de valores.
       o                                  o
En el ejemplo, Ha es la negaci´n de H0 y se dice que es un contraste bilateral o a dos colas. Si
                                o
la hip´tesis alternativa se especifica Ha : µ < 3, o bien Ha : µ > 3, se dice que el contraste es
      o
unilateral o a una cola.
La elecci´n entre las hip´tesis se basa en un estad´
         o               o                          ıstico de contraste, que es una funci´n de
                                                                                             o
los datos que mide la discrepancia entre estos y H0 . Por ejemplo, en el contraste bilateral sobre
la media, se define la siguiente medida de la discrepancia:
                                               y−3
                                               ¯
                                                 Sy
                                                  ¯

Esta discrepancia, que utilizaremos como estad´ ıstico de contraste, no depende de las unidades
de medida y tiene en cuenta la diferencia entre los datos (resumidos en y ) y el valor establecido
                                                                           ¯
en H0 . Adem´s, debe conocerse la distribuci´n de esta variable aleatoria cuando la hip´tesis
              a                               o                                               o
nula es correcta. En el ejemplo, se demuestra que si los datos y1 , y2 , . . . , yN son una muestra
aleatoria de un conjunto de variables Yi ∼ N ID(µ, σ 2 ) ∀i, con µ y σ 2 desconocidas, entonces:
                                         y−µ
                                         ¯
                                              ∼ t(N − 1)
                                           Sy
                                            ¯

y sustituyendo µ = 3, tenemos la distribuci´n muestral del estad´
                                           o                    ıstico bajo H0 :
                                           y − 3 H0
                                           ¯
                                      t=         ∼ t(N − 1)                                   (A.20)
                                             Sy
                                              ¯

Este estad´
          ıstico se aplica mucho en la pr´ctica y se denomina estad´
                                         a                         ıstico t de la media.
Finalmente, para determinar el criterio de decisi´n del contraste se divide el conjunto de
                                                      o
posibles resultados del estad´
                             ıstico de contraste en dos zonas, la regi´n cr´
                                                                      o     ıtica y su comple-
mentaria. Se rechaza H0 cuando el valor del estad´ ıstico obtenido con la muestra tm pertenece

                                                158
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                    SARRIKO-ON 8/09


a la regi´n cr´
         o    ıtica. El punto de partida para establecer la regi´n cr´
                                                                o     ıtica es que se rechaza H0 si
la discrepancia entre datos y H0 es grande. En el contraste bilateral, se rechazar´ H0 si y se
                                                                                       ıa      ¯
alejara mucho del valor establecido en H0 , lo que para el estad´ıstico implica que:
                                                   y−3
                                                   ¯
                                         |tm | =        >c                                      (A.21)
                                                     Sy
                                                      ¯

donde c es la discrepancia m´xima que estamos dispuestos a asumir y se denomina valor cr´
                              a                                                             ıtico.
En caso contrario, si |t m | ≤ c, no se rechaza la hip´tesis nula. El valor de c depende de la
                                                      o
distribuci´n del estad´
          o           ıstico de contraste cuando H0 es cierta y del error que estemos dispuestos
a aceptar. En un contraste siempre existe la posibilidad de cometer los siguientes errores:

   • Rechazar la hip´tesis nula cuando ´sta es cierta, que se llama error tipo I. El nivel de
                     o                 e
     significaci´n o tama˜o de un contraste es la probabilidad de incurrir en el error tipo I y
               o        n
     se denota por α.

   • No rechazar la hip´tesis nula cuando ´sta es falsa, llamado error tipo II. La potencia de
                        o                  e
     un contraste es la probabilidad de no cometer un error tipo II.

Deseamos cometer el menor error, pero no es posible eliminar los dos errores simult´neamente, es
                                                                                        a
decir, que el tama˜o sea 0 y la potencia igual a 1. En general, disminuir el error tipo I lleva consigo
                   n
un aumento del error tipo II. Por ejemplo, no cometemos error tipo I si decidimos no rechazar
nunca la hip´tesis nula; pero la potencia del contraste ser´ 0 porque tampoco rechazaremos H0
              o                                             ıa
cuando sea falsa. Daremos m´s importancia al error tipo I, por lo que elegiremos el tama˜o del
                               a                                                                 n
contraste; los niveles m´s habituales son 10 %, 5 % y 1 %. Para el tama˜o elegido, trataremos de
                         a                                                 n
utilizar el contraste con mayor potencia.


Ejemplo: zona cr´ ıtica en un contraste bilateral sobre la media de una distribuci´n normal.
                                                                                      o
Veamos c´mo se determina el valor cr´
         o                            ıtico c en el ejemplo sobre la media del precio. El tama˜o
                                                                                              n
α es la probabilidad de rechazar H0 cuando ´sta es cierta. Como (A.21) es la condici´n para
                                               e                                          o
rechazar y (A.20) es la distribuci´n del estad´
                                  o           ıstico cuando H0 es cierta, esto implica que:

                    α = P rob(|t| > c)       cuando el estad´
                                                            ıstico t ∼ t(N − 1)

En este caso, rechazaremos H0 si el valor del estad´  ıstico t obtenido con los datos es un valor
poco probable en la distribuci´n del estad´
                              o           ıstico bajo H0 .

Este gr´fico muestra la distribuci´n del estad´
        a                         o            ıstico si
H0: µ = 3 es cierta. La regi´n cr´
                            o    ıtica es la zona pun-
teada en las dos colas de la distribuci´n, de modo
                                         o
que en cada cola se acumula una probabilidad α/2.
As´ c es la ordenada de la distribuci´n t(N − 1)
   ı,                                     o
que deja en la cola derecha una probabilidad α/2.
Por ejemplo, para α = 0, 05 y N = 50, entonces,
c = 2, 01 y se rechaza H0 al nivel de significaci´n del
                                                 o
5 % si |tm | > 2, 01.


      Ejemplo 1: Contraste sobre la media del precio por m2 en Gretl.
      Suponiendo que la variable precio por metro cuadrado pr m2 sigue una distribuci´n
                                                                                     o
      normal, contrasta H0: µ = 3 frente a Ha: µ = 3. Los pasos son los siguientes:

                                                   159
SARRIKO-ON 8/09                                                               Econometr´ B´sica Aplicada con Gretl
                                                                                       ıa a


     1. C´lculo del valor muestral del estad´
         a                                  ıstico t = (¯ − 3)/Sy , siendo y la media
                                                        y       ¯          ¯
        muestral de pr m2:
                                √
                           tm = 50(3, 9144 − 3)/0, 99341 = 6, 51

        Se obtiene con la siguiente opci´n de Gretl:
                                        o
                 Herramientas →Calculadora de estad´  ısticos de contraste
        En la siguiente ventana elige la pesta˜a media y en ella:
                                              n
          • Marca la opci´n Utilice una variable del conjunto de datos.
                          o
          • Selecciona la variable pr m2. Aparecer´n los estad´
                                                     a           ısticos descriptivos que
            intervienen en el c´lculo de t
                               a          m . En este caso:
                                   media muestral:          3,9144
                                       desv. t´
                                              ıpica:                                        0,99341
                                       tama˜o muestral :
                                           n                                                             50
          • Escribe la hip´tesis nula a contrastar: H0: media = 3.
                          o
          • Comprueba que la opci´n Suponer que la desv. t´
                                   o                       ıpica es un valor poblacional
            no est´ activada y pincha en Aplicar.
                  a
        El resultado es la tabla y el Gr´fico A.12. En el gr´fico se representa la distri-
                                          a                   a
        buci´n del estad´
             o            ıstico bajo H0 , en este caso t(49), junto con el valor muestral
        del estad´
                 ıstico (la l´
                             ınea verde).
         Hip´tesis nula: media poblacional = 3
            o                                     Tama~o muestral: n = 50
                                                      n
         Media muestral = 3,91439, desv. t´pica = 0,993407
                                          ı
         Estad´stico de contraste: t(49) = (3,91439 - 3)/0,140489 = 6,50864
              ı
         valor p a dos colas = 3,83e-008 (a una cola = 1,915e-008)
                            0.5
                                                                        Distribucin muestral t(49)
                                                                         Estadstico de contraste



                            0.4




                            0.3




                            0.2




                            0.1




                             0
                                  -6    -4   -2            0            2             4              6
                                                  Desviaciones tpicas




       Gr´fico A.12: Ejemplo 1: Resultado y distribuci´n del estad´
         a                                           o           ıstico bajo H0

        En este caso tenemos que el valor muestral del estad´ıstico cae en la cola su-
        perior, en una intervalo de valores poco probable si H0 es cierta. Por tanto,
        rechazaremos la hip´tesis nula. Pero calcularemos exactamente la regi´n cr´
                            o                                                 o    ıti-
        ca.
     2. Regi´n cr´
            o                                         ıtico c se obtiene con la opci´n de
                  ıtica o zona de rechazo. El valor cr´                             o
        Gretl Herramientas →Tablas estad´   ısticas.
        En la nueva ventana hay que elegir la pesta˜a de la variable t y en el siguiente
                                                     n
        cuadro hay que rellenar:
         • gl = grados de libertad n, en este caso 49
         • probabilidad en la cola derecha = α/2. Fijamos un nivel de significaci´n o
             del 5 %, por lo que escribimos 0,025.
        Tras pinchar en Aceptar, obtenemos el siguiente resultado:

                                                    160
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                 SARRIKO-ON 8/09


               t(49)       probabilidad en la cola derecha = 0,025
                           probabilidad complementaria = 0,975
                           probabilidad a dos colas = 0,05

                           Valor cr´tico = 2,00958
                                   ı

           Interpretaci´n: P rob(t > 2, 00958) = 0, 025 o bien P rob(X < 2, 00958) = 0, 975.
                       o
           Por tanto, el valor cr´
                                 ıtico con alpha = 5 % es igual a c = 2, 00958.
        3. Aplicaci´n de la regla de decisi´n. Como |6, 51| > c, al nivel de significaci´n
                    o                       o                                           o
           del 5 %, se rechaza la hip´tesis de que el precio medio sea igual a 3000e fren-
                                      o
           te a la alternativa. Cierra las ventanas de calculadora de estad´
                                                                           ısticos y tablas
           estad´
                ısticas.


Ejemplo: regi´n cr´
               o    ıtica en el contraste unilateral sobre la media de una distribuci´n normal.
                                                                                        o
En los estudios econom´tricos a veces se plantean contrastes a una cola. Por ejemplo, en estudios
                         e
sociales interesa analizar si hay discriminaci´n salarial, de modo que las mujeres perciben salarios
                                              o
m´s bajos que los hombres. Habitualmente, se contrasta la hip´tesis nula de que la media del
  a                                                                o
salario que perciben las mujeres es igual al salario medio de los hombres frente a la hip´tesis
                                                                                              o
alternativa de que la media del salario es mayor en el grupo de hombres.
En el estudio del precio del m2 , supongamos que interesa contrastar si la media es tres o mayor,
por lo que planteamos las hip´tesis:
                              o
                         H0 : µ = 3                frente a            Ha : µ > 3
                                                                                     √
Al mantenerse la misma hip´tesis nula, el estad´
                              o                  ıstico de contraste es (A.20), t = N (¯ − 3)/Sy ,
                                                                                         y
que bajo H0 sigue una distribuci´n t(N − 1). La hip´tesis alternativa determina el criterio de
                                   o                    o
decisi´n. Rechazaremos H0 cuando la discrepancia tome valores alejados de H0 y compatibles
      o
con Ha , es decir, cuando t tome valores positivos grandes. La regi´n cr´
                                                                     o    ıtica est´ definida por la
                                                                                   a
condici´n t > c. El valor cr´
        o                   ıtico c se determina por:

                     α = P rob(t > c)        cuando el estad´
                                                            ıstico t ∼ t(N − 1)

La regi´n cr´
        o      ıtica del contraste es la zona pun-
teada en una cola de la distribuci´n, la derecha.
                                      o
As´ c es la ordenada de la distribuci´n t(N − 1)
   ı,                                    o
que acumula en la cola derecha una probabilidad
α.
Por ejemplo, si α = 0, 05 y N = 50, entonces
el nivel cr´
           ıtico es c = 1, 67655 (usar herramienta
de tabla estad´  ıstica de Gretl) y no se rechaza H0
al nivel de significaci´n del 5 % si tm < 1, 67655.
                         o

En general, se usan las expresiones rechazar o no rechazar H0 . Esto es as´ porque en un contraste
                                                                          ı
mantenemos la H0 mientras no haya suficiente evidencia en contra. Los datos pueden rechazar
la hip´tesis, pero no pueden probar que H0 sea correcta, por lo que no se dice que se acepta H0 .
      o
No rechazar H0 significa que los datos no son capaces de mostrar su falsedad.

      Ejemplo 2: Contraste de igualdad de varianzas. Los datos que estamos anali-
      zando sobre precio de la vivienda incluye dos tipos de viviendas:

                                                  161
SARRIKO-ON 8/09                                        Econometr´ B´sica Aplicada con Gretl
                                                                ıa a


      • Viviendas a reformar, es decir, es necesario realizar un gasto adicional para
        acondicionar la vivienda.
      • Viviendas acondicionadas para entrar a vivir.

    Es posible que el precio medio de las viviendas a reformar y reformadas sigan patrones
    diferentes. Esto implica que la distribuci´n del precio de los dos tipos de vivienda es
                                               o
    distinta. Por tanto, consideramos el siguiente modelo:

      • El precio por metro cuadrado de la vivienda que no necesita reforma, Y1 sigue
                                                        2
        una distribuci´n normal de media µ1 y varianza σ1 .
                      o
      • El precio por metro cuadrado de la vivienda a reformar, Y2 sigue una distribu-
                                             2
        ci´n normal de media µ2 y varianza σ2 .
          o
      • Ambas variables Y1 e Y2 son independientes.

    Vamos a contrastar si la varianza es la misma en ambas distribuciones frente a que
    sea menor en el grupo de pisos a reformar. Por tanto, planteamos el contraste de
    hip´tesis:
       o
                               2    2                     2    2
                         H0 : σ1 = σ2      frente a Ha : σ1 > σ2
    El procedimiento de contraste consiste en comparar las dos varianzas muestrales,
     ∗2    ∗2
    S1 y S2 , que son estimadores insesgados de las respectivas varianzas poblacionales.
                           ∗2    ∗2          ∗2
    Valores cercanos de S1 y S2 , o ratios S1 /S2 ∗2    1, apoyan H0 . El estad´
                                                                               ıstico de
    contraste y su distribuci´n bajo H0 son:
                              o
                                      ∗2
                                     S1 H0
                               F =    ∗2 ∼ F(N1 − 1, N2 − 1)
                                     S2
    donde N1 es el n´mero de pisos que no necesita reforma y N2 el n´mero de pisos a
                      u                                                 u
                                                    ∗2   ∗2
    reformar. Dada Ha , rechazamos H0 si el ratio S1 /S2 est´ muy por encima de 1. La
                                                              a
    regi´n cr´
        o                                        ∗2   ∗2
             ıtica, por tanto, est´ definida por S1 /S2 > c, siendo c el valor cr´
                                  a                                             ıtico. Los
    pasos para realizar el contraste con Gretl son:
      1. Seleccionar el subconjunto de pisos que no necesitan reforma. En el fichero de
         datos pisos.gdt son las observaciones para las que la variable Reforma = 1. En
         Gretl, seleccionamos la submuestra que cumple esta condici´n si:
                                                                      o
          a) Vamos a Muestra →Definir a partir de v. ficticia.
          b) En la nueva ventana aparece como opci´n Reforma y pinchamos en Aceptar
                                                        o
         Si el proceso es correcto, en la parte inferior de la pantalla de Gretl aparece
         el mensaje Sin fecha: rango completo n=50; muestra actual n=31. Ahora s´lo  o
         trabajamos con los datos de pisos que no necesitan reforma: si consultamos los
         datos en Datos →Mostrar valores ahora s´lo aparece la informaci´n de los 31
                                                    o                        o
         pisos que pertenecen a esta clase.
      2. Crear la serie de datos y1 que incluye unicamente los precios por m2 de los pisos
                                                ´
         reformados: en A˜adir →Definir nueva variable... escribimos y1 = pr m2.
                           n
      3. Seleccionar el subconjunto formado por los pisos que necesitan reforma, es decir,
         caracterizados por Reforma = 0 :
          a) Vamos a Muestra →Restringir, a partir de criterio.
          b) En la nueva ventana escribimos el criterio de selecci´n:
                                                                    o
               Reforma =0
          c) Pinchamos en Reemplazar restricci´n actual y luego en
                                                  o
               Aceptar.

                                             162
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                                               SARRIKO-ON 8/09


          Ahora debe aparecer Sin fecha: rango completo n=50; muestra actual n=19.
       4. Crear la serie de datos y2 de precios por m2 de pisos no reformados: en A˜adir
                                                                                   n
          →Definir nueva variable... escribimos y2 = pr m2.
       5. Recuperar la muestra completa en Muestra →Recuperar rango el completo.
          Comprobamos que las series y1 e y2 no tienen errores editando los datos de
          estas series. Las celdas de y1 estar´n vac´ en pisos no reformados y lo rec´
                                              a     ıas                              ıpro-
          co para y2.
                                              ıstico F m en Herramientas →Calculadora
       6. Calcular el valor muestral del estad´
          de estad´
                  ısticos de contraste →2 varianzas. En la siguiente ventana rellenamos
          los datos:
            - Marcar Utilice una variable del conjunto de datos y seleccionar y1.
              Aparecen los estad´                          ∗2
                                ısticos necesarios de y1: S1 = 0, 77702 y N1 = 31

            - Marcar Utilice una variable del conjunto de datos y seleccionar y2.
              Aparecen los estad´                          ∗2
                                ısticos necesarios de y2: S2 = 0, 70340 y N2 = 19

            - Comprobar la marca en Mostrar el gr´fico de la distribuci´n muestral y
                                                 a                    o
              Aplicar.
          El resultado es una tabla y un gr´fico con la distribuci´n del estad´
                                             a                   o           ıstico bajo
          H0 , F(30, 18) y el valor muestral del estad´
                                                      ıstico.

      Hip´tesis nula: Las varianzas poblacionales son iguales
         o
      Muestra 1: n = 31, varianza = 0,777054
      Muestra 2: n = 19, varianza = 0,703402
      Estad´stico de contraste: F(30, 18) = 1,10471
           ı
      valor p a dos colas = 0,8436 (a una cola = 0,4218)
                               1.2
                                                                     Distribucin muestral F(30, 18)
                                                                            Estadstico de contraste


                                1




                               0.8




                               0.6




                               0.4




                               0.2




                                0
                                     0   0.5   1   1.5   2     2.5         3         3.5          4   4.5




         Gr´fico A.13: Ejemplo 2: Resultado y distribuci´n del estad´
           a                                           o           ıstico bajo H0

       7. El gr´fico anterior sugiere que no rechazaremos H0 . Calculamos la regi´n cr´
               a                                                                o    ıtica:
          se trata de un contraste a una cola, por tanto, buscamos c tal que 0, 05 =
          P rob(F > c). Vamos a Herramientas →Tablas estad´    ısticas →F.
          Los grados de libertad del numerador son gln 30 y los del denominador, gld 18.
          Finalmente, la probabilidad en la cola derecha es 0,05. El resultado es:
              F(30, 18)     probabilidad en la cola derecha = 0.05
                            probabilidad complementaria = 0.95
                            Valor cr´tico = 2.10714
                                    ı
          Por tanto, si α = 5 %, entonces c = 2, 107.

                                                         163
SARRIKO-ON 8/09                                            Econometr´ B´sica Aplicada con Gretl
                                                                    ıa a


      8. Conclusi´n del contraste: F m = 1, 10 < 2, 11, por tanto, al nivel de significaci´n
                  o                                                                      o
         del 5 % no rechazamos la hip´tesis de igualdad de varianzas entre los dos tipos
                                      o
         de viviendas.

    Ejemplo 3: Contraste de igualdad de medias. Vamos a contrastar la hip´tesis  o
    de que el precio medio del piso es mayor en los pisos reformados. Suponiendo que
    el precio por m2 de los dos tipos de pisos son variables independientes, ambas con
    distribuci´n normal de igual varianza, σ 2 y medias diferentes, µ1 y µ2 .
              o
    Para contrastar la hip´tesis anterior, planteamos
                          o                                 H0: µ1 = µ2 frente a Ha: µ1 > µ2 .
    El procedimiento de contraste se basa en la comparaci´n de las dos medias muestra-
                                                              o
    les, y1 y y2 . Peque˜as diferencias entre ellas apoyan la H0 . El estad´
         ¯ ¯            n                                                  ıstico de contraste
    y su distribuci´n bajo H0 son:
                     o
                                            y1 − y2
                                            ¯     ¯      H0
                                  t=                     ∼ t(N1 + N2 − 2)
                                      S 1/N1 + 1/N2
    donde S 2 es el estimador de la varianza com´n utilizando todos los datos:
                                                u
                                          N1                     N2
                               1
                     S=                         (y1i − y1 )2 +
                                                       ¯               (y2i − y2 )2
                                                                              ¯
                          N1 + N2 − 2
                                          i=1                    i=1


    Dada Ha , rechazamos H0 si la diferencia y1 − y2 es grande. La regi´n cr´
                                                ¯     ¯                o    ıtica, por
    tanto, est´ definida por t > c, siendo c el valor cr´
              a                                         ıtico.
    Aplicamos el procedimiento de contraste a los datos en Gretl. Las dos series de datos
    y1 e y2 se crean seg´n lo descrito en el ejemplo 2. A continuaci´n debemos:
                        u                                           o

                                             ıstico tm en Herramientas →Calculadora
      1. Calcular el valor muestral del estad´
         de estad´
                 ısticos de contraste →2 medias. En la siguiente ventana rellenamos los
         datos:
           - Marcar Utilice una variable del conjunto de datos y seleccionar y1.
             Aparecen los estad´                             ∗
                               ısticos de y1: y1 = 4, 3040, S1 = 0, 88150675 y N1 = 31
                                              ¯

           - Marcar Utilice una variable del conjunto de datos y seleccionar y2.
             Aparecen los estad´                               ∗
                               ısticos de y2: y2 = 3, 278717, S2 = 0, 83869 y N2 = 19
                                              ¯

           - Marcar Suponer desviaci´n t´
                                    o ıpica poblacional com´n.
                                                           u

           - Marcar Mostrar el gr´fico de la distribuci´n muestral y pinchar en Aplicar.
                                 a                    o
         El resultado es una tabla y un gr´fico con la distribuci´n t(50 − 2) y el valor
                                          a                     o
         muestral del estad´
                           ıstico.


          Hip´tesis nula: Diferencia de medias = 0
             o
          Muestra 1: n = 31, media = 4,304, d.t. = 0,881507
                     desviaci´n t´pica de la media = 0,158323
                             o   ı
                     Intervalo de confianza 95% para la media:
                     3,98066 a 4,62734

          Muestra 2: n = 19, media = 3,27872, d.t. = 0,838691

                                                 164
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                                                                 SARRIKO-ON 8/09


                         desviaci´n t´pica de la media = 0,192409
                                 o   ı
                         Intervalo de confianza 95% para la media:
                         2,87448 a 3,68295

           Estad´stico de contraste:
                ı
           t(48)= (4,304-3,27872)/0,252229 =4,0649
           valor p a dos colas = 0,0001774 (a una cola = 8,871e-005)


                              0.5
                                                                             Distribucin muestral t(48)
                                                                              Estadstico de contraste



                              0.4




                              0.3




                              0.2




                              0.1




                               0
                                    -4   -3   -2   -1         0          1          2          3          4
                                                     Desviaciones tpicas


         Gr´fico A.14: Ejemplo 3: Resultado y distribuci´n del estad´
           a                                           o           ıstico bajo H0

       2. Definir la regi´n cr´
                         o   ıtica: se trata de un contraste a una cola, por tanto, buscamos
          c tal que 0, 05 = P rob(t > c). Vamos a Herramientas →Tablas estad´     ısticas →t,
          grados de libertad gl 48 y para α = 5 %, obtenemos c = 1, 229.
       3. Resultado del contraste: 4, 06496 > 1, 229, por tanto, al nivel de significaci´n
                                                                                       o
          del 5 % rechazamos la hip´tesis nula de igualdad de medias. Es decir, los datos
                                   o
          apoyan la hip´tesis de que el precio del m2 es mayor en los pisos reformados.
                       o




                                                       165
SARRIKO-ON 8/09         Econometr´ B´sica Aplicada con Gretl
                                 ıa a




                  166
Ap´ndice B
  e

B.1.    Otros recursos

• Algunos organismos institucionales que publican datos macroecon´micos son:
                                                                 o

   • Banco Central Europeo: http://www.ecb.int/

   • Banco de Espa˜a: http://www.bde.es → Estad´
                  n                            ısticas

   • Banco Mundial: http://www.worldbank.org

   • Bolsa de Madrid: http://www.bolsamadrid.es

   • Economic and Social Data Series: Gu´ a recursos de datos de libre acceso:
                                         ıa
     http://www.esds.ac.uk/internacional/access/access.asp

   • EUROSTAT: Oficina Estad´   ıstica de la Uni´n Europea:
                                               o
     http://europa.eu.int/comm/eurostat

   • Fondo Monetario Internacional (FMI): http://www.imf.org

   • Instituto Nacional de Estad´
                                ıstica (INE): http://www.ine.es → Inebase o Banco tempus

   • Instituto Vasco de Estad´
                             ıstica (EUSTAT): http://www.eustat.es

   • Organizaci´n para la Cooperaci´n y Desarrollo Econ´mico (OCDE): http://www.oecd.org
               o                   o                   o




• Software estad´
                ıstico y/o econom´trico:
                                 e

   • Eviews, http : //www.eviews.com.

   • SHAZAM, http : //shazam.econ.ubc.ca

   • Gretl, http : //gretl.sourcef orge.net

   • RATS, http : //www.estima.com

   • R, http : //www.r − project.org




                                              167
SARRIKO-ON 8/09                                      Econometr´ B´sica Aplicada con Gretl
                                                              ıa a


• Links a libros de Econometr´ y/o Estad´
                             ıa         ıstica.

   • Greene, W. (2008), Econometric Analysis, http://prenhall.com/greene

   • Gujarati, D. (1997), Econometr´ b´sica,
                                   ıa a
     http://www.mhhe.com/economics/mhhe

   • Hill, R. C. Griffiths, W.E. y G. G. Judge (2001), Undergraduate Econometrics,
     http://eu.he.wiley.com/WileyCDA

   • Kennedy, P. (1992), A Guide to Econometrics.,
     http://eu.he.wiley.com/WileyCDA

   • Ramanathan, R. (2002), Introductory Econometrics with applications,
     http://weber.ucsd.edu/∼rramanat/embook5.htm

   • Verbeek, M. (2004), A Guide to Modern Econometrics,
     http://eu.he.wiley.com/WileyCDA

   • Wooldridge, J. M. (2003), Introductory Econometrics. A Modern Approach,
     http://wooldridge.swcollege.com/

• Algunos libros de Econometr´ y/o Estad´
                             ıa         ıstica que incluyen CD con datos para resolver ejer-
cicios:

   • Alonso, A., Fern´ndez, F. J. e I. Gallastegui (2005), Econometr´ Prentice-Hall, Madrid
                     a                                              ıa,

   • Ramanathan, R. (2002), Introductory Econometrics with Applications, 5a edn., South-
     Western, Mason, Ohio.

   • Stock, J. y M. Watson (2003), Introduction to Econometrics, Addison-Wesley, Boston.

   • Verbeek, M. (2004), A Guide to Modern Econometrics, 2a edn., John Wiley, England.

   • Wooldridge, J. M. (2003), Introductory Econometrics. A Modern Approach, 2a edn., South-
     Western, Mason, Ohio.




• Datos

   • http : //www.nber.org/data index.html

   • http : //www.estadief.minhac.es/

   • http : //f isher.osu.edu/f in/osudown.htm

   • http : //econ.queensu.ca/jae/

   • http : //www.psidonline.isr.umich.edu/data/

   • http : //www.census.gov/

                                             168
Econometr´ B´sica Aplicada con Gretl
         ıa a                                                          SARRIKO-ON 8/09


• Revistas de Econom´
                    ıa

   • http : //www.revecap.com. Revista de Econom´ Aplicada
                                                ıa

   • http : //www.revistaestudiosregionales.com. Revista de Estudios Regionales

   • http : //www.f unep.es/invecon/sp/sie.asp. Investigaciones Econ´micas
                                                                    o

   • http : //www1.euskadi.net/ekonomiaz. Ekonomiaz




                                           169
SARRIKO-ON 8/09         Econometr´ B´sica Aplicada con Gretl
                                 ıa a




                  170
Bibliograf´
          ıa

Bibliograf´ B´sica:
          ıa a
Ramanathan, R. (2002), Introductory Econometrics with Applications, 5th. edn., South-Western,
Mason, Ohio.




Bibliograf´ recomendada en los temas del curso:
          ıa
Alonso, A., Fern´ndez, F. J. e I. Gallastegui (2005), Econometr´ Prentice-Hall, Madrid.
                a                                              ıa,
Davidson, D. y J. Mackinnon (2004), Econometric Theory and Methods, Oxford University
Press, New York.
Engle, R. F. (1982), “A general approach to Lagrangian Multiplier Modelo Diagnostics”, Jour-
nal of Econometrics, vol. 20, pp. 83-104.
Greene, W. (2008), Econometric Analysis, 6a edn., Prentice-Hall, New Jersey.
Gujarati, D. (1997), Econometr´ B´sica, 4a edn., McGraw-Hill, Mexico.
                              ıa a
Heij, C., de Boer, P., Frances, P., Kloek, T. y H. Van Dijk (2004), Econometric Methods
with Applications in Business and Economics, Oxford University Press, Oxford.
Neter, J., Wasserman, W. y M. H. Kutner (1990), Applied Linear Statistical Models, 3a
edn., M.A: Irwin, Boston.
Pe˜ a, D. y J. Romo (1997), Introducci´n a la Estad´
   n                                  o            ıstica para las Ciencias Sociales, McGraw-
Hill, Madrid.
Stock, J. y M. Watson (2003), Introduction to Econometrics, Addison-Wesley, Boston.
Verbeek, M. (2004), A Guide to Modern Econometrics, 2a edn., John Wiley, England.
Wooldridge, J. M. (2003), Introductory Econometrics. A Modern Approach, 2a edn., South-
Western, Mason, Ohio.




Bibliograf´ Complementaria:
          ıa
Fern´ndez, A., Gonz´lez, P., Reg´ lez, M., Moral, P. y M. V. Esteban (2005), Ejercicios
     a              a           u
de Econometr´ 2a edn., MacGraw-Hill, serie Schaum, Madrid.
            ıa,




                                            171
SARRIKO-ON 8/09                                     Econometr´ B´sica Aplicada con Gretl
                                                             ıa a


Hill, R. C. Griffiths, W.E. y G. G. Judge (2001), Undergraduate Econometrics, 2a edn.,
John Wiley and Sons, Inc., England.
Johnston, J. y J. Dinardo (2001), M´todos de Econometr´ Vicens Vives, Barcelona.
                                   e                  ıa,
Kennedy, P. (1992), A Guide to Econometrics., 3a edn., Blackwell, Oxford.
Maddala, G. S. (1996), Introducci´n a la Econometr´ 2a edn., McGraw-Hill, M´xico.
                                 o                ıa,                      e
Novales, A. (1993), Econometr´ 2a edn., McGraw-Hill, Madrid.
                             ıa,
Pindyck, R.S. y D.L. Rubinfeld (1998), Econometric Models and Economic Forecast, 4a
edn., McGraw-Hill, New York.




                                           172

Más contenido relacionado

PDF
Gretl guide-es[1]
PDF
Modulo fisica-i1
PDF
Teoriapto
PDF
Tutorial de maxima
PDF
Introducción a la Informática
PDF
Diseño canónico control automatico
PDF
VXC: Computer Vision
Gretl guide-es[1]
Modulo fisica-i1
Teoriapto
Tutorial de maxima
Introducción a la Informática
Diseño canónico control automatico
VXC: Computer Vision

La actualidad más candente (7)

PDF
Daniel peña análisis de datos multivariantes
PDF
Cuaderno de ejercicios de cálculo diferencial
PDF
2011 minitab-15
PDF
Electronicadigital
PDF
M´etodos num´ericos
PDF
Calculo diferencial
PDF
Teoria mef
Daniel peña análisis de datos multivariantes
Cuaderno de ejercicios de cálculo diferencial
2011 minitab-15
Electronicadigital
M´etodos num´ericos
Calculo diferencial
Teoria mef
Publicidad

Similar a Econometria aplicada con gretl (20)

PDF
Econometria
PDF
Econometria Aplicada I.pdfjvfukycvuyckiyvgiyfvukckjb
PPTX
Clase econometria para mejorar la primera clase
PDF
Material de Clase Econometria I 2015 Alex Aguayo Martinez
PDF
PPTX
presentacion de econometria
PDF
Analisis de Regresion en R.pdf
DOCX
Tema2. pronosticos de demanda
PDF
REPASO MODELOS ECONOMETRICOS.pdf
PDF
REPASO MODELOS ECONOMETRICOS.pdf
PDF
Apuntes de introduccion a los modelos econometricos 1
PDF
Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)
PPTX
Tema IV Tecnicas de Pronostico Grupo 6.pptx
PDF
Econometria temario completo GRADO ADE UV
PDF
Clase1. Naturaleza del análisis econométrico y preliminares estadísticos
DOC
Econometria 1
PDF
Manual abreviado de_analisis_multivarian
DOCX
Econometria
PDF
T0p1c05 d3 3c0n0m37r14 www.huancayodemocratico.blogspot.com (1)
Econometria
Econometria Aplicada I.pdfjvfukycvuyckiyvgiyfvukckjb
Clase econometria para mejorar la primera clase
Material de Clase Econometria I 2015 Alex Aguayo Martinez
presentacion de econometria
Analisis de Regresion en R.pdf
Tema2. pronosticos de demanda
REPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdf
Apuntes de introduccion a los modelos econometricos 1
Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)
Tema IV Tecnicas de Pronostico Grupo 6.pptx
Econometria temario completo GRADO ADE UV
Clase1. Naturaleza del análisis econométrico y preliminares estadísticos
Econometria 1
Manual abreviado de_analisis_multivarian
Econometria
T0p1c05 d3 3c0n0m37r14 www.huancayodemocratico.blogspot.com (1)
Publicidad

Más de apuntesdeeconomia (20)

PDF
Unidad VI Comercio Internacional
PDF
Unidad V Comercio Internacional
PDF
Unidad IV Comercio Internacional
PDF
Unidad III Comercio Internacional
PDF
Unidad II Comercio Internacional
PDF
Unidad I Comercio Internacional
PDF
Contenido Comercio Internacional
PDF
Economia agraria
PDF
Teorias economicas
PPT
Tema 6 macroeconomia
PPT
Tema 5 macroeconomia
PPT
Tema 3 macroeconomia
PPT
Tema 2 macroeconomia
PPT
Tema 1 macroeconomia
PDF
Matematicas para economistas
PDF
Matemáticas para economistas
PDF
Bibliotecnicas
PDF
T5tecnicas
PDF
T4tecnicas
PDF
T3tecnicas
Unidad VI Comercio Internacional
Unidad V Comercio Internacional
Unidad IV Comercio Internacional
Unidad III Comercio Internacional
Unidad II Comercio Internacional
Unidad I Comercio Internacional
Contenido Comercio Internacional
Economia agraria
Teorias economicas
Tema 6 macroeconomia
Tema 5 macroeconomia
Tema 3 macroeconomia
Tema 2 macroeconomia
Tema 1 macroeconomia
Matematicas para economistas
Matemáticas para economistas
Bibliotecnicas
T5tecnicas
T4tecnicas
T3tecnicas

Último (20)

PDF
Guia de Tesis y Proyectos de Investigacion FS4 Ccesa007.pdf
DOCX
V UNIDAD - PRIMER GRADO. del mes de agosto
PDF
Unidad de Aprendizaje 5 de Educacion para el Trabajo EPT Ccesa007.pdf
PDF
PFB-MANUAL-PRUEBA-FUNCIONES-BASICAS-pdf.pdf
PDF
biología es un libro sobre casi todo el tema de biología
PDF
Escuelas Desarmando una mirada subjetiva a la educación
DOCX
PROYECTO DE APRENDIZAJE para la semana de fiestas patrias
PDF
Punto Critico - Brian Tracy Ccesa007.pdf
PDF
GUIA DE: CANVA + INTELIGENCIA ARTIFICIAL
PPTX
AGENTES PATÓGENOS Y LAS PRINCIPAL ENFERMEAD.pptx
DOCX
UNIDAD DE APRENDIZAJE 5 AGOSTO tradiciones
PDF
Escuela de Negocios - Robert kiyosaki Ccesa007.pdf
PDF
Metodologías Activas con herramientas IAG
DOCX
2 GRADO UNIDAD 5 - 2025.docx para primaria
PDF
DI, TEA, TDAH.pdf guía se secuencias didacticas
PDF
SESION 12 INMUNIZACIONES - CADENA DE FRÍO- SALUD FAMILIAR - PUEBLOS INDIGENAS...
PDF
Crear o Morir - Andres Oppenheimer Ccesa007.pdf
PPT
Cosacos y hombres del Este en el Heer.ppt
DOCX
III Ciclo _ Plan Anual 2025.docx PARA ESTUDIANTES DE PRIMARIA
PDF
OK OK UNIDAD DE APRENDIZAJE 5TO Y 6TO CORRESPONDIENTE AL MES DE AGOSTO 2025.pdf
Guia de Tesis y Proyectos de Investigacion FS4 Ccesa007.pdf
V UNIDAD - PRIMER GRADO. del mes de agosto
Unidad de Aprendizaje 5 de Educacion para el Trabajo EPT Ccesa007.pdf
PFB-MANUAL-PRUEBA-FUNCIONES-BASICAS-pdf.pdf
biología es un libro sobre casi todo el tema de biología
Escuelas Desarmando una mirada subjetiva a la educación
PROYECTO DE APRENDIZAJE para la semana de fiestas patrias
Punto Critico - Brian Tracy Ccesa007.pdf
GUIA DE: CANVA + INTELIGENCIA ARTIFICIAL
AGENTES PATÓGENOS Y LAS PRINCIPAL ENFERMEAD.pptx
UNIDAD DE APRENDIZAJE 5 AGOSTO tradiciones
Escuela de Negocios - Robert kiyosaki Ccesa007.pdf
Metodologías Activas con herramientas IAG
2 GRADO UNIDAD 5 - 2025.docx para primaria
DI, TEA, TDAH.pdf guía se secuencias didacticas
SESION 12 INMUNIZACIONES - CADENA DE FRÍO- SALUD FAMILIAR - PUEBLOS INDIGENAS...
Crear o Morir - Andres Oppenheimer Ccesa007.pdf
Cosacos y hombres del Este en el Heer.ppt
III Ciclo _ Plan Anual 2025.docx PARA ESTUDIANTES DE PRIMARIA
OK OK UNIDAD DE APRENDIZAJE 5TO Y 6TO CORRESPONDIENTE AL MES DE AGOSTO 2025.pdf

Econometria aplicada con gretl

  • 1. Econometría básica Aplicada con Gretl ISBN: 978-84-692-4355-8 Mª Victoria Esteban González M. Paz Moral Zuazo Susan Orbe Mandaluniz Marta Regúlez Castillo Ainhoa Zarraga Alonso Marian Zubia Zubiaurre 08-09
  • 2. Econometr´ B´sica Aplicada con Gretl ıa a Autores: M. Victoria Esteban M. Paz Moral Susan Orbe Marta Reg´lez u Ainhoa Zarraga Marian Zubia Departamento de Econom´ Aplicada III. Econometr´ y Estad´ ıa ıa ıstica Facultad de Ciencias Econ´micas y Empresariales o Universidad del Pa´ Vasco/Euskal Herriko Unibertsitatea ıs
  • 3. 2
  • 4. Contenido 1. Gretl y la Econometr´ ıa 1 1.1. Introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 1 1.2. ¿Qu´ es la Econometr´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e ıa? 1 1.2.1. ¿Para qu´ sirve la Econometr´ e ıa? . . . . . . . . . . . . . . . . . . . . . . . 3 1.3. Un estudio econom´trico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 5 1.4. Los datos y su manejo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.4.1. Fuentes de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4.2. El software econom´trico . . . . . . . . . . . . . . . . . . . . . . . . . . . e 8 1.5. Introducci´n a Gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 10 1.5.1. An´lisis descriptivo de una variable . . . . . . . . . . . . . . . . . . . . . . a 13 1.5.2. Relaciones entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.6. Ejercicio para practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2. Modelo de Regresi´n Lineal Simple o 23 2.1. Introducci´n. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 23 2.2. Elementos del modelo de regresi´n simple . . . . . . . . . . . . . . . . . . . . . . o 25 2.3. Hip´tesis b´sicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o a 26 2.3.1. Resumen: modelo de regresi´n lineal simple con hip´tesis b´sicas . . . . . o o a 30 2.4. Estimaci´n por M´ o ınimos Cuadrados Ordinarios . . . . . . . . . . . . . . . . . . . 30 2.4.1. El criterio de estimaci´n m´ o ınimo-cuadr´tico . . . . . . . . . . . . . . . . . a 32 2.4.2. Propiedades de los estimadores MCO . . . . . . . . . . . . . . . . . . . . 33 2.4.3. La estimaci´n MCO en Gretl . . . . . . . . . . . . . . . . . . . . . . . . . o 34 2.4.4. Propiedades de la recta m´ ınimo-cuadr´tica . . . . . . . . . . . . . . . . . a 36 2.4.5. La precisi´n de la estimaci´n y la bondad del ajuste . . . . . . . . . . . . o o 38 2.5. Contrastes de hip´tesis e intervalos de confianza . . . . . . . . . . . . . . . . . . o 41 2.5.1. Contrastes de hip´tesis sobre β . . . . . . . . . . . . . . . . . . . . . . . . o 41 i
  • 5. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 2.5.2. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.6. Resumen. Presentaci´n de los resultados . . . . . . . . . . . . . . . . . . . . . . . o 45 2.7. Ejercicios para practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3. Modelo de Regresi´n Lineal M´ ltiple o u 49 3.1. Introducci´n. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 49 3.2. Estimaci´n de M´ o ınimos Cuadrados Ordinarios utilizando Gretl . . . . . . . . . . 51 3.3. An´lisis de los resultados mostrados . . . . . . . . . . . . . . . . . . . . . . . . . a 52 3.3.1. Coeficientes estimados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.3.2. Desviaciones t´ ıpicas e intervalos de confianza . . . . . . . . . . . . . . . . 58 3.3.3. Significatividad individual y conjunta . . . . . . . . . . . . . . . . . . . . 61 3.4. Bondad de ajuste y selecci´n de modelos . . . . . . . . . . . . . . . . . . . . . . . o 65 3.5. Ejercicios para practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4. Contrastes de restricciones lineales y predicci´n o 73 4.1. Contrastes de restricciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.2. Contrastes utilizando Gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 4.3. Estimaci´n bajo restricciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . o 82 4.4. Estad´ ısticos equivalentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.5. Predicci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 86 4.6. Ejercicios para practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5. Errores de especificaci´n en la elecci´n de los regresores o o 95 5.1. Introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 95 5.2. Efectos de omisi´n de variables relevantes . . . . . . . . . . . . . . . . . . . . . . o 96 5.3. Efectos de inclusi´n de variables irrelevantes . . . . . . . . . . . . . . . . . . . . . 101 o 5.4. Ejercicios para practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6. Multicolinealidad 109 6.1. Multicolinealidad perfecta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 6.2. Multicolinealidad de grado alto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.3. Ejercicios para practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 7. Variables Cualitativas 123 7.1. Introducci´n. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 o 7.2. Modelo con una variable cualitativa . . . . . . . . . . . . . . . . . . . . . . . . . 123 7.2.1. Incorporaci´n de variables cuantitativas . . . . . . . . . . . . . . . . . . . 128 o ii
  • 6. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 7.3. Modelo con dos o m´s variables cualitativas . . . . . . . . . . . . . . . . . . . . . 132 a 7.3.1. Varias categor´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 ıas 7.3.2. Varios conjuntos de variables ficticias . . . . . . . . . . . . . . . . . . . . 134 7.4. Contraste de cambio estructural . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.4.1. Cambio estructural utilizando variables ficticias . . . . . . . . . . . . . . . 138 7.5. Ejercicios para practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 Ap´ndice A e 145 A.1. Repaso de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 A.1.1. Una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 A.1.2. Dos o m´s variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . 149 a A.1.3. Algunas distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . . 152 A.2. Repaso de inferencia estad´ ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 A.2.1. Estimaci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 o A.2.2. Contraste de hip´tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 o Ap´ndice B e 167 B.1. Otros recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 Bibliograf´ ıa 171 iii
  • 7. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a iv
  • 8. Figuras 1.1. Diagrama de dispersi´n superficie-precio de pisos . . . . . . . . . . . . . . . . . . o 3 1.2. Pantalla inicial de Gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3. A˜adir datos: hoja de c´lculo de Gretl . . . . . . . . . . . . . . . . . . . . . . . . n a 10 1.4. Fin de carga de datos con hoja de c´lculo . . . . . . . . . . . . . . . . . . . . . . a 11 1.5. Fichero con datos de tres variables . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.6. Cuadro de descripci´n de variables . . . . . . . . . . . . . . . . . . . . . . . . . . o 12 1.7. Fichero con descripci´n de variables . . . . . . . . . . . . . . . . . . . . . . . . . o 13 1.8. Histograma de frecuencias relativas . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.9. Iconos de la sesi´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 14 1.10. Tipos de asimetr´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ıa 17 1.11. Diagrama de dispersi´n superficie-precios (2) . . . . . . . . . . . . . . . . . . . . o 19 1.12. Diagramas de dispersi´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 20 2.1. Selecci´n de un fichero de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . o 23 2.2. Diagrama de dispersi´n precio-superficie de viviendas . . . . . . . . . . . . . . . . o 24 2.3. Precio de los pisos de Bilbao versus superficie habitable . . . . . . . . . . . . . . 27 2 2.4. Modelo Yi = α + β × 5 + ui , con SX = 0 . . . . . . . . . . . . . . . . . . . . . . 28 2.5. Ejemplos de realizaciones de u . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.6. Ejemplos de distribuci´n de Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 29 2.7. Modelo de regresi´n simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 31 2.8. Funci´n de regresi´n poblacional y funci´n de regresi´n muestral . . . . . . . . . o o o o 32 2.9. Ventana de especificaci´n del modelo lineal . . . . . . . . . . . . . . . . . . . . . o 34 2.10. Ventana de resultados de estimaci´n MCO . . . . . . . . . . . . . . . . . . . . . . o 34 2.11. Ventana de iconos: recuperar resultados estimaci´n . . . . . . . . . . . . . . . . . o 35 2.12. Gr´ficos de resultados de regresi´n MCO . . . . . . . . . . . . . . . . . . . . . . . a o 36 2.13. Residuos MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.14. Criterio de decisi´n del contraste de significatividad individual . . . . . . . . . . o 42 v
  • 9. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 3.1. Gr´fico de residuos por n´mero de observaci´n . . . . . . . . . . . . . . . . . . . a u o 53 3.2. Gr´fico de residuos contra la variable F2 . . . . . . . . . . . . . . . . . . . . . . . a 54 3.3. Gr´fico de la variable estimada y observada por n´mero de observaci´n . . . . . a u o 54 3.4. Gr´fico de la variable estimada y observada contra F2 . . . . . . . . . . . . . . . a 55 5.1. Gr´fico de los residuos del Modelo (5.2) por observaci´n . . . . . . . . . . . . . . a o 99 5.2. Gr´fico de los residuos del Modelo (5.2) sobre F2 . . . . . . . . . . . . . . . . . . 100 a 5.3. Gr´ficos de los residuos del Modelo (5.1) sobre observaci´n y sobre F2 . . . . . . 102 a o 7.1. Cambio en ordenada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 7.2. Cambio en ordenada y en pendiente . . . . . . . . . . . . . . . . . . . . . . . . . 131 A.3. La funci´n de densidad normal y el histograma . . . . . . . . . . . . . . . . . . . 146 o A.4. Ejemplos de distribuci´n normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 o A.5. Simulaci´n 1: histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 o A.6. Distribuci´n normal bivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 o A.7. Funci´n de densidad de la distribuci´n Chi-cuadrado . . . . . . . . . . . . . . . . 152 o o A.8. Funci´n de densidad de la distribuci´n F-Snedecor . . . . . . . . . . . . . . . . . 153 o o A.9. Funci´n de densidad de la distribuci´n t-Student . . . . . . . . . . . . . . . . . . 153 o o A.10.Sesgo y varianza de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 A.11.Ejemplos de distribuci´n de estimadores . . . . . . . . . . . . . . . . . . . . . . . 157 o A.12.Ejemplo 1: Resultado y distribuci´n del estad´ o ıstico bajo H0 . . . . . . . . . . . . 160 A.13.Ejemplo 2: Resultado y distribuci´n del estad´ o ıstico bajo H0 . . . . . . . . . . . . 163 A.14.Ejemplo 3: Resultado y distribuci´n del estad´ o ıstico bajo H0 . . . . . . . . . . . . 165 vi
  • 10. Tablas 1.1. Datos sobre precio de vivienda ocupada . . . . . . . . . . . . . . . . . . . . . . . 2 1.2. Distribuci´n de frecuencias del precio de 50 pisos . . . . . . . . . . . . . . . . . . o 15 1.3. Estad´ ısticos descriptivos del precio de 50 pisos . . . . . . . . . . . . . . . . . . . 15 1.4. Estad´ ısticos descriptivos del conjunto de datos . . . . . . . . . . . . . . . . . . . 18 1.5. Matriz de coeficientes de correlaci´n . . . . . . . . . . . . . . . . . . . . . . . . . o 21 2.1. Conjunto de datos incluidos en data3.1 House prices and sqft . . . . . . . . . . . 24 2.2. Residuos de la regresi´n MCO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 36 2.3. Estad´ ısticos descriptivos de variables de la FRM . . . . . . . . . . . . . . . . . . 37 2.4. Matriz de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 o ˆ ˆ 2.5. Estimaci´n de varianzas y covarianza de α y β. . . . . . . . . . . . . . . . . . . . 40 2.6. Estimaci´n por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 44 3.1. Modelo (3.1). Datos de caracter´ ısticas de viviendas . . . . . . . . . . . . . . . . . 52 o ˆ 3.2. Modelo (3.1). Estimaci´n de la matriz de covarianzas de β . . . . . . . . . . . . . 59 3.3. Modelo (3.1): Estimaci´n por intervalo de los coeficientes. . . . . . . . . . . . . . o 60 4.1. Datos para el estudio de la Funci´n de Inversi´n . . . . . . . . . . . . . . . . . . o o 79 4.2. Datos en t´rminos reales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 79 4.3. Resultados de estimaci´n obtenidos para los distintos modelos. . . . . . . . . . . o 90 5.1. Modelos (5.1) y (5.2) estimados para el precio de la vivienda . . . . . . . . . . . 98 5.2. Modelos estimados para el precio de la vivienda. . . . . . . . . . . . . . . . . . . 103 5.3. Modelos estimados para el Consumo de Gasolina en Estados Unidos . . . . . . . 106 6.1. Modelos estimados para el Consumo de Gasolina en Estados Unidos . . . . . . . 120 0
  • 11. Tema 1 Gretl y la Econometr´ ıa 1.1. Introducci´n o Estas notas se dirigen a aquellas personas interesadas en aprender a interpretar informaci´no estad´ıstica sobre la realidad econ´mica. La herramienta b´sica es un modelo econom´trico que o a e conjuga los esquemas te´ricos sobre el funcionamiento de la Econom´ con las t´cnicas estad´ o ıa e ısti- cas de an´lisis de datos. Un modelo puede tener una estructura muy compleja, pero nos cen- a tramos en el modelo m´s sencillo, y que da nombre a la asignatura, el modelo de regresi´n a o lineal general. Este modelo explica el comportamiento de una unica variable econ´mica o de ´ o otra ´ ındole m´s general. a Por otro lado, este curso tiene un car´cter totalmente aplicado, en el que los ejemplos pr´cti- a a cos sirven para introducir los conceptos estad´ ıstico-econom´tricos. As´ una parte importante e ı, del curso se dedica a estudiar casos pr´cticos, en los que el estudiante aprender´ a manejar un a a software econom´trico y a interpretar adecuadamente los resultados obtenidos. El paquete eco- e nom´trico a utilizar es Gretl; se trata de software de libre uso, f´cil de manejar y que tiene acceso e a a las bases de datos que se estudian en muchos libros de introducci´n al an´lisis econom´trico. o a e Este primer tema se organiza de la siguiente forma: la secci´n 2 presenta la disciplina que nos o ocupa, la Econometr´ La secci´n 3 describe un ejemplo de estudio econom´trico, destacando ıa. o e cu´les son los elementos que integran un modelo econom´trico. La secci´n 4 se ocupa de los datos a e o econ´micos, sus caracter´ o ısticas, las principales fuentes de obtenci´n de datos y los programas o inform´ticos que sirven para almacenar y procesar los datos. El software Gretl se introduce en a el apartado 5, en el que se incluye el esquema de una primera sesi´n pr´ctica de uso de Gretl. o a 1.2. ¿Qu´ es la Econometr´ e ıa? En la toma de decisiones de car´cter econ´mico suele ser muy util disponer de informaci´n a o ´ o en forma de datos cuantitativos. Por ejemplo, a la hora de elegir unos estudios universitarios podemos guiarnos por nuestras preferencias personales, pero tambi´n por factores como las e expectativas de salario en la rama elegida o la facilidad con la que esperamos conseguir un empleo. Si se trata de la compra-venta de un piso, nos interesa conocer la situaci´n del mercado o inmobiliario. Para ello podemos recopilar datos de precios y de algunas caracter´ ısticas de los pisos que puedan influir en el precio como, por ejemplo, su tama˜o o si es una vivienda usada n que necesita reforma. Supongamos que en la secci´n de anuncios de un peri´dico local aparecen o o 1
  • 12. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Indicador Tama˜o n Precio A reformar Indicador Tama˜o n Precio A reformar 1 55 210,354 no 26 110 476,600 no 2 59 309,520 no 27 110 456,769 no 3 60 366,617 no 28 115 500,643 no 4 60 299,304 si 29 125 619,000 no 5 60 369,650 no 30 135 645,253 no 6 65 273,460 si 31 135 625,000 no 7 65 155,000 si 32 140 522,800 si 8 70 228,384 no 33 150 390,660 no 9 70 246,415 no 34 150 504,850 si 10 70 255,000 si 35 150 715,204 no 11 75 150,253 si 36 150 570,000 si 12 77 352,800 no 37 160 751,265 no 13 80 366,000 si 38 180 583,000 si 14 80 298,000 si 39 180 738,000 no 15 80 312,530 no 40 180 552,931 si 16 83 240,400 no 41 190 691,200 no 17 85 278,569 si 42 195 811,400 no 18 91 390,658 no 43 200 691,000 si 19 92 216,364 si 44 200 1110,000 no 20 100 402,600 no 45 230 961,620 no 21 100 272,300 si 46 230 661,000 no 22 100 360,607 no 47 240 841,417 no 23 100 570,000 no 48 240 588,992 si 24 100 480,809 no 49 245 841,400 si 25 100 186,314 si 50 250 1051,000 no Tabla 1.1: Datos sobre precio de vivienda ocupada los siguientes datos sobre 50 pisos en venta en el centro de una ciudad: • Precio del piso, en miles de euros. • Tama˜o del piso, en metros cuadrados h´biles. n a • Estado del piso: si necesita reforma o est´ para entrar a vivir. a Estos datos aparecen en la Tabla 1.1. En base a esta informaci´n, si nos ofrecen un piso de 100 o m 2 reformado a un precio de 525000e, dir´ ıamos que el piso parece caro ya que su precio supera el promedio de precios de los pisos de estas caracter´ ısticas incluidos en la muestra: 402, 6 + 360, 607 + 570 + 480, 809 = 453, 504 miles de euros 4 Sin embargo, ¿qu´ podemos decir si se tratara de un piso de 90 m2 a reformar? ¿O de un piso e de 50 m 2 reformado? No tenemos datos para replicar el procedimiento anterior. Un econ´metra o podr´ ayudar a dar respuesta a estas cuestiones. En el Gr´fico 1.1, que representa conjuntamente ıa a el precio y el tama˜o de cada piso, se ve un patr´n o relaci´n estable entre tama˜o de un piso y n o o n su precio. Esta relaci´n se puede trasladar a un modelo util para responder a las preguntas que o ´ planteamos. Las t´cnicas econom´tricas nos permiten cuantificar, a partir del modelo y los datos, e e 2
  • 13. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 la influencia que tiene el tama˜o del piso o su estado en el precio del mismo. La respuesta podr´ n ıa ser, por ejemplo: La estimaci´n del precio medio de un piso a reformar de 90 m2 es de 297350 o euros, aunque el precio puede oscilar entre 152711 y 441989 euros a un nivel de confianza del 90 %. Adem´s, si se trata de un piso reformado, la estimaci´n del precio medio se incrementa a o en m´s de 100000 euros, siendo factibles precios entre 210521 y 556639 euros. a 1200 1100 1000 900 800 precio (miles euros) 700 600 500 400 300 200 100 50 100 150 200 250 Superficie (m2) Gr´fico 1.1: Diagrama de dispersi´n superficie-precio de pisos a o La Econometr´ es una rama de la Econom´ que utiliza la estad´ ıa ıa ıstica para medir o cuantificar las relaciones existentes entre variables econ´micas. Es una materia interdisciplinar que utiliza o la teor´ econ´mica, la matem´tica, la estad´ ıa o a ıstica y los m´todos computacionales. En palabras e de Ramanathan (2002): En t´rminos sencillos, la econometr´ se ocupa de la aplicaci´n de m´todos es- e ıa o e tad´ ısticos a la econom´ A diferencia de la estad´ ıa. ıstica econ´mica, que es princi- o palmente datos estad´ısticos, la econometr´ se distingue por la unificaci´n de teor´ ıa o ıa econ´mica, instrumentos matem´ticos y metodolog´ estad´ o a ıa ıstica. En t´rminos m´s e a generales, la econometr´ se ocupa de (1) estimar relaciones econ´micas, (2) con- ıa o frontar la teor´ econ´mica con los datos y contrastar hip´tesis relativas al compor- ıa o o tamiento econ´mico, y (3) predecir el comportamiento de variables econ´micas. o o 1.2.1. ¿Para qu´ sirve la Econometr´ e ıa? El objetivo de un estudio econom´trico es comprender mejor un fen´meno econ´mico y, como e o o resultado, poder realizar predicciones de la evoluci´n futura del fen´meno de inter´s. El instru- o o e mento b´sico es el modelo, que ayuda a entender las relaciones entre variables econ´micas y a o sirve para evaluar los efectos de distintas medidas o pol´ ıticas econ´micas. Algunos ejemplos en o los que la Econometr´ puede ser de utilidad son los siguientes: ıa • Un analista del mercado de activos puede estar interesado en analizar y cuantificar la relaci´n entre el precio de un activo y distintas caracter´ o ısticas de la empresa que ofrece ese activo as´ como del estado general de la econom´ ı ıa. • Los directivos de una empresa el´ctrica pueden estar interesados en analizar los factores e que afectan a la demanda de electricidad. 3
  • 14. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a • El grupo de grandes superficies comerciales puede estar interesado en cuantificar el efecto de distintos niveles de publicidad sobre sus ventas y sus beneficios. • El servicio de estudios del Ministerio de Econom´ y del Banco de Espa˜a o del Banco ıa n Central Europeo quiere analizar el impacto de las pol´ıticas monetarias y fiscales sobre el desempleo, la inflaci´n, las exportaciones e importaciones, los tipos de inter´s, etc. o e • Si un organismo quiere implementar pol´ ıticas para corregir, por ejemplo, la discriminaci´n o salarial por sexo, en primer lugar debe conocer cu´les son los principales factores determi- a nantes del problema y, en segundo lugar, analizar las posibles medidas a tomar, estudiando cu´les pueden ser los efectos de dichas medidas. a • Un gobierno regional puede necesitar previsiones sobre la evoluci´n de la poblaci´n para o o planificar la necesidad de servicios sociales y las necesidades de financiaci´n que conllevan. o Tambi´n debe tener informaci´n precisa sobre su capacidad de financiaci´n, por lo que le e o o interesa disponer de predicciones relativas a la recaudaci´n impositiva. o • Si una persona quiere contratar un pr´stamo, le interesa conocer cu´l va a ser la evoluci´n e a o de los tipos de inter´s. e En los ultimos a˜os hemos asistido a una mayor difusi´n y utilizaci´n de los m´todos econom´tri- ´ n o o e e cos gracias, entre otras razones, a la mayor disponibilidad y calidad de los datos y al desarrollo de los m´todos de computaci´n. Adem´s, la aplicaci´n de la Econometr´ no se restringe al e o a o ıa a ´mbito estrictamente econ´mico, sino que proporciona procedimientos de estudio de datos que o pueden aplicarse al campo de las Ciencias Sociales. Por ejemplo, para: • Analizar si el endurecimiento de las penas, como la introducci´n de la pena de muerte, o tiene como consecuencia la disminuci´n de la tasa de criminalidad. o • Analizar la efectividad de las medidas de seguridad vial, como el carnet por puntos, en la reducci´n del n´mero de muertes en accidentes de tr´fico. o u a • Predecir los resultados de una competici´n deportiva como, por ejemplo, el n´mero de o u goles que marcar´ la selecci´n de Inglaterra en un mundial de f´tbol. a o u • Analizar cu´l puede ser el efecto sobre los votantes en las pr´ximas elecciones de una deter- a o minada medida, por ejemplo, prohibir fumar en lugares p´blicos, legalizar los matrimonios u entre personas del mismo sexo, etc. • Estudiar si hay diferencias en el voto dependiendo de si se trata de elecciones locales, regionales o europeas. • Analizar si las medidas restrictivas sobre la publicidad de tabaco y alcohol reducen el consumo de estos productos. Los comienzos de la Econometr´ pueden situarse en la d´cada de los treinta del siglo pasado. ıa e Su coincidencia en el tiempo con la Gran Depresi´n no es casual: como consecuencia de ´sta, o e los economistas de la ´poca estaban interesados en poder predecir los ciclos econ´micos que e o observaban. Entre ellos destaca Keynes, que defend´ la intervenci´n del gobierno en la actividad ıa o econ´mica para mitigar estas crisis. As´ los primeros econ´metras se ocuparon de dar respuesta o ı, o a problemas macroecon´micos con objeto de asesorar a los gobiernos en la implantaci´n de o o pol´ ıticas econ´micas. o 4
  • 15. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 En un comienzo, se aplicaron a los datos econ´micos m´todos estad´ o e ısticos que ya hab´ sido uti- ıan lizados en ciencias naturales. Sin embargo, estos m´todos no pod´ reproducirse mim´ticamente e ıan e en el ´mbito econ´mico, sino que hab´ que adaptarlos o desarrollar nuevos m´todos de acuerdo a o ıa e a las caracter´ ısticas propias que poseen las variables socioecon´micas. As´ en la econometr´ se o ı, ıa han desarrollado dos grandes ´reas: la econometr´ te´rica, cuyo objetivo es desarrollar m´todos a ıa o e de estudio y an´lisis de datos y determinar sus propiedades, y la econometr´ aplicada, que se a ıa ocupa de utilizar estos m´todos para responder a los problemas de inter´s en la pr´ctica. En e e a estas notas ponemos mayor ´nfasis en la parte aplicada. Se trata de proporcionar al alumno las e herramientas necesarias para que sea capaz de llevar a cabo un proyecto aplicado. Para ello, es indispensable dedicar tiempo al conocimiento de los m´todos e instrumentos b´sicos del an´lisis e a a econom´trico, ya que son el requisito previo para una buena aplicaci´n pr´ctica. e o a 1.3. Un estudio econom´trico e Uno de nuestros objetivos espec´ ıficos es que, al final del curso, el estudiante debe ser capaz de estructurar y desarrollar un trabajo de investigaci´n. Hoy d´ una persona que disponga de un o ıa, ordenador en su casa puede llevar a cabo un peque˜o proyecto econom´trico. As´ un estudio n e ı, econom´trico consta de las siguientes etapas, Heij , de Boer, Franses, Kloer y Dijk (2004): e • Formulaci´n del problema. Se trata de determinar la cuesti´n de inter´s. Debemos plantear o o e de forma precisa las preguntas que nos interesa responder. Por ejemplo, si se trata de cono- cer la situaci´n del mercado inmobiliario en una ciudad, podemos plantearnos la siguiente o pregunta: ¿cu´l es el precio de los pisos en esa ciudad y qu´ factores lo determinan? La a e teor´ econ´mica puede ayudarnos a enfocar el problema, a determinar qu´ variables est´n ıa o e a involucradas y cu´l puede ser la relaci´n entre ellas. a o • Recolecci´n de datos estad´ o ısticos relevantes para el an´lisis. En el ejemplo anterior, es f´cil a a recolectar datos sobre el precio de pisos, su tama˜o y otras caracter´ n ısticas que pueden influir en su precio (ver Tabla 1.1). Los resultados del an´lisis van a depender en gran a medida de la calidad de los datos. Sin embargo, no siempre es sencillo obtener los datos relevantes para el an´lisis. Podemos encontrar problemas como la ausencia de alg´n dato, a u cambios en la definici´n de una variable, fallos en el m´todo de recogida, tener una cantidad o e insuficiente de datos o no disponer de informaci´n relativa a una variable. o • Formulaci´n y estimaci´n del modelo. De la uni´n de las teor´ y cuestiones planteadas o o o ıas en la primera etapa con los datos se llega a un modelo econom´trico. Por ejemplo, e podemos plantear que, en media, el precio de un piso, Y , depende de su tama˜o, X. Un n posible modelo econom´trico que recoge esta teor´ es: e ıa Y |X ∼ N (α + βX, σ 2 ) Es decir, el precio de los pisos dado un tama˜o, por ejemplo 100 m2 , se distribuye alrededor n de su media α + β100 seg´n una normal de varianza σ 2 . Al formular el modelo hemos u elegido la forma funcional de la relaci´n entre las variables y la naturaleza estoc´stica de o a la variable de inter´s o end´gena, Y . El objetivo es obtener un modelo relevante y util e o ´ para dar respuesta a nuestros objetivos. El siguiente paso es la estimaci´n de los par´metros desconocidos de la distribuci´n y que o a o son de inter´s para el an´lisis. En el ejemplo del precio de los pisos, interesan los par´metros e a a 5
  • 16. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a de su media, α y β. La estimaci´n consiste en utilizar los datos y toda la informaci´n o o relevante para aprender algo sobre los par´metros desconocidos. En la interpretaci´n de a o los resultados de estimaci´n es importante tener en cuenta que no conocemos el valor de o los par´metros, por lo que unicamente vamos a hacer afirmaciones del tipo “con un 95 % de a ´ confianza, el aumento del impuesto sobre carburantes no afecta al consumo de gasolina”. Existen muchos m´todos de estimaci´n. La elecci´n entre uno u otro depende de las pro- e o o piedades del modelo econom´trico seleccionado. Es decir, una mala selecci´n del modelo e o tambi´n influye en la validez de las estimaciones. Un curso introductorio de Econometr´ e ıa, como este, se suele centrar en el estudio del modelo de regresi´n lineal y su estimaci´n o o mediante m´ınimos cuadrados ordinarios, que son instrumentos sencillos y muy utiles en la ´ pr´ctica. a • An´lisis del modelo. Se trata de estudiar si el modelo elegido es adecuado para recoger el a comportamiento de los datos. Por ejemplo, si es correcto asumir que el tama˜o del piso n influye en su precio, si la relaci´n lineal entre ambas variables es correcta, etc. Consiste en o una serie de contrastes diagn´sticos que valoran si el modelo est´ correctamente especifi- o a cado, es decir, si los supuestos realizados son v´lidos. Si es necesario, se modifica el modelo a en base a los resultados obtenidos en los contrastes. • Aplicaci´n del modelo. Una vez obtenido un modelo correcto, se utiliza para responder a o las cuestiones de inter´s. e Dado que para la realizaci´n de un proyecto econom´trico es necesario conocer d´nde obtener o e o los datos y manejar un software espec´ıfico de an´lisis econom´trico, vamos a extendernos un a e poco en estos dos puntos. 1.4. Los datos y su manejo ¿C´mo se obtienen datos econ´micos? No proceden de experimentos controlados sino que los o o economistas, al igual que otros investigadores del campo de las Ciencias Sociales, obtienen los datos de la observaci´n de la realidad. En un experimento controlado, como los realizados en o laboratorios, el investigador tiene control sobre las condiciones del estudio. Por ejemplo, para analizar el efecto de un fertilizante, podemos aplicar distintas dosis de fertilizante sobre un con- junto de sembrados, controlando tambi´n el grado de humedad o la luz que recibe cada planta. e Adem´s, se puede repetir el experimento, manteniendo las mismas condiciones o alterando al- a gunas como las dosis o el grado de humedad. Obviamente, aunque las cantidades elegidas sean exactamente las mismas, no esperamos que el resultado, por ejemplo, el crecimiento de las plan- tas, sea id´ntico entre experimentos porque las semillas utilizadas son distintas o porque hay e peque˜os errores de medida. Estas diferencias naturales en los resultados de los experimentos se n conocen como variaciones muestrales. Los datos obtenidos de experimentos controlados son t´ ıpicos de las Ciencias Naturales y se co- nocen como datos experimentales. Los datos que son resultado de un proceso que tiene lugar en la sociedad, y que no es controlable por una o varias personas, se conocen como datos no experimentales. Esta caracter´ ıstica ha sido un factor importante en el desarrollo de las t´cnicas e econom´tricas y debemos tenerlo en cuenta en la interpretaci´n de los resultados. e o 6
  • 17. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Clasificaci´n de los datos econ´micos. Los datos econ´micos pueden ser de diferentes tipos, o o o lo que va a determinar el an´lisis que realicemos. Una primera clasificaci´n distingue entre datos a o cuantitativos, aqu´llos que toman valores num´ricos dentro de un rango de valores, como precio e e o tama˜o de un piso, y datos cualitativos, que aparecen como categor´ o atributos, como por n ıas ejemplo el sexo, la profesi´n o el estado de un piso. Los seis primeros temas de este curso se o centran en el an´lisis de datos cuantitativos. El tema siete considera situaciones en las que alg´n a u factor explicativo es cualitativo. Una segunda clasificaci´n distingue entre datos de series temporales y datos de secci´n cruzada. o o Los primeros se refieren a observaciones recogidas en sucesivos momentos de tiempo, normal- mente regulares, como a˜os, trimestres o meses. Ejemplos de datos temporales son el Producto n Interior Bruto (PIB) de la Contabilidad Nacional trimestral, el n´mero mensual de afiliacio- u nes a la Seguridad Social o el valor diario del IBEX35. Los segundos se refieren a valores que toman diferentes agentes en un momento del tiempo, por ejemplo, la poblaci´n desempleada o en el a˜o 2005 en cada uno de los pa´ n ıses de la Uni´n Europea (UE), el salario medio en cada o sector industrial en el 2006 o el gasto realizado en libros de texto por un conjunto de familias en septiembre pasado. Tambi´n es posible tener una combinaci´n de datos de secci´n cruzada y e o o series temporales, por ejemplo, las puntuaciones obtenidas por los estudiantes de Econometr´ ıa en los cursos 2004-05, 2005-06 y 2006-07. Cuando se encuesta a los mismos individuos a lo largo del tiempo, como la tasa de paro y el crecimiento del PIB desde 1990 hasta 2006 para los 25 pa´ de la UE, se conocen con el nombre de datos de panel o datos longitudinales. En este curso ıses nos centraremos en el an´lisis de datos de secci´n cruzada. Las t´cnicas que utilicemos tambi´n a o e e se pueden aplicar en series temporales, aunque en ocasiones su estudio es m´s complejo. a Una tercera clasificaci´n se establece en funci´n del nivel de agregaci´n. Se conocen como datos o o o microecon´micos o microdatos los referidos al comportamiento de agentes econ´micos como o o individuos, familias o empresas. Un ejemplo es la Encuesta de Poblaci´n Activa, elaborada por o el INE y publicada en http://www.ine.es/prodyser/micro epa.htm. Los datos macroecon´micos o o macrodatos son los datos referidos a ciudades, regiones o naciones que son resultantes de la agregaci´n sobre agentes individuales, como son los resultados de la Contabilidad Nacional. o Por ejemplo, la Contabilidad Nacional Trimestral de Espa˜a, elaborada tambi´n por el INE y n e publicada en http://www.ine.es/inebmenu/mnu cuentas.htm. 1.4.1. Fuentes de datos Encontrar y recopilar datos no es siempre sencillo. En ocasiones es muy costoso coleccionar los datos adecuados a la situaci´n y manejarlos. Sin embargo, esta tarea se ha visto favorecida en o los ultimos a˜os por la mejora en la recogida de datos y el hecho de que muchos organismos ´ n permiten acceder a sus bases de datos en la World Wide Web. Algunos organismos que publican datos macroecon´micos son: o • Instituto Vasco de Estad´ ıstica (EUSTAT): http://www.eustat.es. • Banco de Espa˜a: http://www.bde.es → Estad´ n ısticas. Tambi´n publica el Bolet´ es- e ın tad´ ıstico mensual y el Bolet´ de coyuntura mensual. ın • Instituto Nacional de Estad´ıstica (INE): http://www.ine.es → Inebase o Banco tempus. Est´n disponibles, por ejemplo, los resultados de la encuesta de poblaci´n activa, la Con- a o tabilidad Nacional o el bolet´ estad´ ın ıstico mensual. Adem´s, en enlaces se encuentran a otras p´ginas web de servicios estad´ a ısticos. 7
  • 18. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a • EUROSTAT: Es la Oficina Estad´ ıstica de la Uni´n Europea, se encarga de verificar y o analizar los datos nacionales recogidos por los Estados Miembros. El papel de Eurostat es consolidar los datos y asegurarse de que son comparables utilizando una metodolog´ ıa homog´nea. La informaci´n en t´rminos de tablas estad´ e o e ısticas, boletines estad´ ısticos e informativos, incluso documentos de trabajo papers se puede encontrar en la direcci´n: o http://europa.eu.int/comm/eurostat. • Organizaci´n para la Cooperaci´n y Desarrollo Econ´mico (OCDE): http://www.oecd.org, o o o Statistical portal, statistics. Est´n disponibles algunas series de las publicaciones Main a Economic Indicators (mensual) o Comercio internacional. • Fondo Monetario Internacional (FMI): http://www.imf.org. Para obtener datos sobre un amplio conjunto de pa´ ıses tambi´n se puede consultar su publicaci´n Estad´ e o ısticas Fi- nancieras Internacionales (mensual y anual). Muchos manuales de Econometr´ incluyen una base de datos que se analizan en el texto co- ıa mo ilustraci´n a la materia. En este curso utilizaremos principalmente los datos incluidos en o Ramanathan (2002), que est´n accesibles como archivos de muestra en Gretl. a 1.4.2. El software econom´trico e El desarrollo de los ordenadores ha permitido almacenar una gran cantidad de datos, a la vez que ha facilitado su manejo. Existen en la actualidad un amplio conjunto de paquetes para el an´lisis econom´trico que realizan complejas operaciones mediante unas instrucciones muy a e sencillas. Si los datos est´n disponibles en papel, las hojas de c´lculo, como EXCEL, son un a a instrumento sencillo para introducir y preparar los datos y realizar operaciones sencillas. Sin embargo, en general es conveniente utilizar programas econom´tricos espec´ e ıficos. Algunos de los m´s populares en los cursos de Econometr´ son: a ıa • EViews, desarrollado por Quantitative Micro Software, contiene una amplia gama de t´cnicas de an´lisis econom´trico. Muchos manuales de Econometr´ contienen un CD e a e ıa con ejemplos pr´cticos en Eviews. Su p´gina web con la informaci´n del programa es a a o http : //www.eviews.com. • SHAZAM, elaborado en la Universidad British of Columbia (Canad´), incluye t´cnicas a e para estimar muchos tipos de modelos econom´tricos. M´s informaci´n se puede obtener e a o en http : //shazam.econ.ubc.ca, donde se puede ejecutar el programa remotamente. • Gretl, acr´nimo de Gnu Regression, Econometric and Time Series (Biblioteca Gnu de o Regresi´n Econometr´ y Series Temporales), elaborado por Allin Cottrell (Universidad o ıa Wake Forest). Es software libre, muy f´cil de utilizar. Tambi´n da acceso a bases de datos a e muy amplias, tanto de organismos p´blicos, como el Banco de Espa˜a, como de ejemplos u n recogidos en textos de Econometr´ ıa. • RATS, acr´nimo de Regression Analysis of Time Series. Contiene una amplia gama de o t´cnicas de an´lisis econom´trico con especial dedicaci´n al An´lisis de Series Temporales. e a e o a Su web es: http : //www.estima.com • R, software libre para c´mputo estad´ o ıstico y gr´ficos. Consiste en un lenguaje, un entorno a de ejecuci´n, un debugger y la habilidad de correr programas guardados en archivos de o 8
  • 19. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 tipo script. Su dise˜o fue influenciado por dos lenguajes existentes: S y Scheme. P´gina n a web: http : //www.r − project.org Un objetivo de este curso es que el estudiante se familiarice con el uso de programas econom´tri- e cos. Por su sencillez y accesibilidad, en este curso introductorio se utiliza el programa Gretl para estudiar casos pr´cticos. En la p´gina a a http : //gretl.sourcef orge.net/gretl− espanol.html se encuentra toda la informaci´n en castellano relativa a la instalaci´n y manejo del programa. o o El manual, en ingl´s, se encuentra en la carpeta en/. e Junto con el programa se pueden cargar los datos utilizados como ejemplos de aplicaciones eco- nom´tricas en los siguientes libros de texto Davidson y Mackinnon (2004), Greene (2008), Gu- e jarati (1997), Ramanathan (2002), Stock y Watson (2003), Verbeek (2004), Wooldridge (2003). Al instalar Gretl autom´ticamente se cargan los datos utilizados en Ramanathan (2002) y Greene a (2008). El resto se pueden descargar de la p´gina: a http : //gretl.sourcef orge.net/gretl− data.html en la opci´n textbook datasets. Este curso se estructura sobre casos pr´cticos presentados en o a Ramanathan (2002) y en Wooldridge (2003) y ejercicios a resolver con ayuda de Gretl. La uni´n o de teor´ y pr´ctica permiten al alumno un autoaprendizaje tanto de los contenidos b´sicos del ıa a a curso de Econometr´ B´sica como de la utilizaci´n del software Gretl. ıa a o 9
  • 20. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 1.5. Introducci´n a Gretl o La primera sesi´n con el programa Gretl consiste en una pr´ctica guiada en la que se aprender´ a o a a crear un fichero, introducir los datos de la Tabla 1.1 y realizar un an´lisis descriptivo. a Preparaci´n del fichero. Al ejecutar Gretl, aparece la siguiente ventana principal: o Gr´fico 1.2: Pantalla inicial de Gretl a Como todav´ no se ha cargado ning´n fichero, varias opciones del men´ principal, en gris claro, ıa u u no est´n disponibles. Los datos a analizar no est´n incluidos en la base de Gretl, por lo que a a vamos a la opci´n Archivo → Nuevo conjunto de datos Control+N. Completamos la informaci´n o o que va solicitando el programa: • n´mero de observaciones, en la Tabla 1.1 se incluyen 50 pisos. Pinchar en Aceptar. u • El tipo de datos que utilizamos. En este caso, marcamos de secci´n cruzada y Adelante. o • Si el paso anterior se ha realizado correctamente, confirmamos la estructura del conjunto de datos pinchando en Aceptar. Al pinchar en Atr´s se recupera s´lo la ventana de tipo de a o datos, por lo que esta opci´n no permite corregir un error en el n´mero de observaciones. o u • En la ultima ventana marcaremos S´ queremos empezar a introducir los datos. ´ ı • En la siguiente ventana escribimos el Nombre de la primera variable, por ejemplo m2. No se pueden utilizar la letra n, acentos ni m´s de 15 caracteres para nombrar a las ˜ a variables. Tras Aceptar, se abre una hoja de c´lculo, de modo que en la pantalla aparece: a Gr´fico 1.3: A˜adir datos: hoja de c´lculo de Gretl a n a Para incluir los datos de la variable m2, vamos a la celda correspondiente, por ejemplo la primera, y pinchamos sobre ella con la tecla izquierda del rat´n; tras teclear la cifra, 55, damos a la tecla o 10
  • 21. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Entrar. Si por error no tecleamos alg´n dato, por ejemplo, la segunda observaci´n de 59 m2 , nos u o situaremos en la fila posterior, en este caso en el primer dato de 60 m2 , y vamos a observaci´n o →insertar obs. Se crea una nueva fila en blanco por encima de la anterior. Para guardar las modificaciones en la sesi´n de trabajo hay que pinchar en Aplicar. o Podemos a˜adir m´s variables con la opci´n Variable →A˜adir del men´ de la hoja de c´lculo. n a o n u a Por ejemplo, creamos una nueva variable que denominamos Reforma. Esta variable es cualitativa, por lo que asociamos a la situaci´n a reformar = s´ el valor 0 y a la otra opci´n, a reformar = o ı o no el valor 1. Una vez que se han incluido todos los datos, vamos a Aplicar y Cerrar la hoja de c´lculo. Si no hab´ a ıamos guardado los ultimos cambios realizados, al cerrar la hoja de c´lculo ´ a aparece un cuadro que nos pide confirmar los cambios. Las series creadas deben aparecer as´ enı la pantalla: ¡OJO! Gr´fico 1.4: Fin de carga de datos con hoja de c´lculo a a Es recomendable guardar los datos ya incorporados en un fichero de datos Gretl mediante la opci´n del men´ principal Archivo →Guardar datos. En el siguiente cuadro a˜adimos el o u n directorio y el nombre del fichero de datos, por ejemplo, pisos. Por defecto, grabar´ los datos a con la extensi´n gdt. Para usar estos datos en una sesi´n posterior, s´lo hay que pinchar dos o o o veces sobre el fichero. Con frecuencia, los datos est´n almacenados en otra hoja de c´lculo, como EXCEL. Por ejemplo, a a en el fichero EXCEL pisos.xls se encuentran las variables m2 y precio de la Tabla 1.1. A˜adir n los datos de precio al fichero de Gretl es muy sencillo. Una vez abierto el fichero pisos.gdt, hay que: • Utilizar la opci´n del men´ principal Archivo →A˜adir datos →EXCEL . . . . o u n • Dar el nombre y ubicaci´n del fichero EXCEL, pisos.xls. o • Dar la celda a partir de la cual hay que empezar a importar los datos. En este caso la variable precio empieza en la celda B1, donde est´ su nombre, e importaremos los datos a desde columna 2, fila 1. Para a˜adir las dos variables, m2 y precio, comenzar´ n ıamos a importar datos en columna 1, fila 1. Finalmente, hay que pinchar en Aceptar. Para comprobar si no hay errores en los datos vamos a Datos →seleccionar todos y luego activamos la hoja de c´lculo mediante Datos →Editar valores o bien mostramos los datos en a pantalla con Datos →Mostrar valores →Todas las variables. Debe aparecer la siguiente ventana: 11
  • 22. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a ¡OJO! * = LOS CAMBIOS NO SE HAN GUARDADO Gr´fico 1.5: Fichero con datos de tres variables a Una vez que los datos se han cargado correctamente, los almacenamos en el mismo fichero pi- sos.gdt pinchando en Archivo →Guardar datos. Una vez guardadas las modificaciones, en la pantalla de Gretl aparece el nombre del fichero sin el asterisco *. Notas explicativas. Al crear un fichero, nos interesa incluir notas explicativas del trabajo ya realizado. En Gretl es posible a˜adir esta informaci´n en dos apartados, uno general y otro n o espec´ıfico de cada variable. Es posible a˜adir una breve descripci´n de cada variable y que n o aparezca como etiqueta descriptiva junto con el nombre de la variable. Por ejemplo, a˜adiremos n la nota informativa sobre la interpretaci´n de la variable Reforma: o Valor 0 si el piso est´ para reformar, valor 1 si est´ reformado a a Marcamos con el rat´n la variable y vamos a Variable→editar atributos. El cuadro siguiente en o el apartado descripci´n escribimos el texto y pinchamos en Aceptar (ver Gr´fico 1.6). o a Gr´fico 1.6: Cuadro de descripci´n de variables a o Las etiquetas descriptivas son utiles para saber la fuente de datos o las unidades de medida. Por ´ ejemplo, para la variable precio y m2 a˜adiremos las siguientes etiquetas descriptivas: n 12
  • 23. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Variable Etiqueta descriptiva Nombre a mostrar en gr´ficos a precio Precio de pisos en miles de euros Precio (miles euros) m2 Tama˜o de pisos en metros cuadrados n Superficie (m2) La opci´n Datos →Editar informaci´n da lugar a un cuadro que permite a˜adir texto informa- o o n tivo, por ejemplo, Datos utilizados en el tema 1 de An´lisis de regresi´n con Gretl a o Finalmente, la opci´n Datos →Ver descripci´n permite visualizar la informaci´n de la estructura o o o del conjunto de datos junto con las notas explicativas a˜adidas. Si todo el proceso se ha realizado n correctamente, en pantalla debe aparecer el siguiente cuadro: LOS ÚLTIMOS CAMBIOS SE HAN GUARDADO Gr´fico 1.7: Fichero con descripci´n de variables a o 1.5.1. An´lisis descriptivo de una variable a Una vez incorporados los datos, vamos a obtener una visi´n general de los mismos. El objetivo del o an´lisis descriptivo es resumir un conjunto de datos, extrayendo las caracter´ a ısticas e informaci´n o m´s relevante para el estudio. En primer lugar, sintetizaremos la informaci´n de cada una de a o las variables y en una segunda etapa, obtendremos una primera idea de las relaciones existentes entre las variables. Para ello se utilizan gr´ficos y n´meros-resumen conocidos como estad´ a u ısticos descriptivos 1 . El an´lisis descriptivo de una unica variable que proporciona Gretl se encuentra en a ´ la opci´n variable del men´ principal; un resumen de este an´lisis se obtiene en el men´ auxiliar o u a u que aparece al pinchar con la tecla derecha del rat´n sobre la variable. o El gr´fico m´s utilizado para resumir datos de secci´n cruzada de una unica variable econ´mica a a o ´ o es el histograma, que aparece con la opci´n del men´ auxiliar Gr´fico de frecuencias. Se trata o u a de un diagrama de barras que en el eje horizontal o abscisa representa los valores de la variable divididos en intervalos. Sobre cada intervalo se dibuja una barra, cuya superficie refleja el n´mero u de observaciones que pertenecen a dicho intervalo. Si, por ejemplo, pinchamos con la tecla derecha del rat´n sobre la variable precios y vamos a Gr´fico de frecuencias, aparece el cuadro de opciones o a del histograma en la que fijamos: 1 Este apartado es un resumen de los conceptos m´ ınimos relevantes. Explicaciones m´s detalladas se encuentran a en manuales como Pe˜ a y Romo (1997). n 13
  • 24. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a • N´mero de intervalos: Por defecto aparecen 7 intervalos, que es un n´mero entero pr´xi- u √ u o mo a N , siendo N el n´mero de observaciones, en este caso 50. u • Valor m´ ınimo intervalo izquierdo y grosor del intervalo: todos los intervalos deben tener la misma amplitud. Por defecto, se eligen de manera que el punto central o marca de clase de los intervalos primero y ultimo sean, respectivamente, los valores m´ ´ ınimo y m´ximo a que toma la variable en el conjunto de datos. 0.3 0.25 Frecuencia relativa 0.2 0.15 0.1 0.05 0 0 200 400 600 800 1000 1200 precio Gr´fico 1.8: Histograma de frecuencias relativas a Usando las opciones est´ndar de Gretl obtenemos el Gr´fico 1.8. Si pinchamos sobre el gr´fico, a a a se despliega un men´ auxiliar que permite hacer cambios en el gr´fico (editar ) o guardarlo en u a diversos formatos (portapapeles, postcript, etc). La opci´n guardar a sesi´n como icono guarda o o el gr´fico a lo largo de la sesi´n de Gretl. Es decir, una vez cerrada la ventana del gr´fico, se a o a recupera pinchando en el cuarto s´ ımbolo de la barra de herramientas situada en parte inferior derecha de la ventana principal (vista iconos de sesi´n) y, a continuaci´n, pinchando dos veces o o en el icono gr´fico 1. a BARRA DE HERRAMIENTAS Gr´fico 1.9: Iconos de la sesi´n a o Para ver la tabla con la distribuci´n de frecuencias representada en el histograma, hay que o marcar la variable correspondiente e ir a la opci´n Variable →Distribuci´n de frecuencias. Por o o ejemplo, la tabla de distribuci´n de frecuencias de la variable precio es: o 14
  • 25. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Distribuci´n de frecuencias para precio, observaciones 1-50 n´mero o u de cajas = 7, media = 489,858, desv.t´p.=237,416 ı intervalo punto medio frecuencia rel acum. < 230,23 150,25 6 12,00% 12,00% **** 230,23 - 390,19 310,21 15 30,00% 42,00% ********** 390,19 - 550,15 470,17 9 18,00% 60,00% ****** 550,15 - 710,11 630,13 11 22,00% 82,00% ******* 710,11 - 870,06 790,08 6 12,00% 94,00% **** 870,06 - 1030,0 950,04 1 2,00% 96,00% >= 1030,0 1110,0 2 4,00% 100,00% * Tabla 1.2: Distribuci´n de frecuencias del precio de 50 pisos o En la primera columna aparecen los intervalos en que se han dividido los valores que toma la variable precio y la segunda incluye el punto medio o marca de clase del intervalo. La columna frecuencia es lo que se conoce como frecuencia absoluta de un intervalo, es decir, el n´merou de pisos con precio en ese intervalo. Por ejemplo, en la Tabla 1.1 hay 15 pisos cuyo precio se encuentra entre 230232e y 390190e. La columna, rel, contiene la frecuencia relativa de cada intervalo, es decir, la fracci´n de observaciones que hay en cada tramo. Con estas frecuencias o se ha construido el histograma anterior. Por ejemplo, los 15 pisos con precio en el intervalo [230,232; 390,190) constituyen el 30 % del total de los 50 pisos. Y, como todos los intervalos son de igual amplitud, la altura de la segunda barra del histograma es la frecuencia relativa asociada en tanto por uno, es decir, 0,3. Si a la frecuencia relativa de un intervalo se le suman las frecuencias relativas de los anteriores se obtiene la frecuencia relativa acumulada hasta cada intervalo, que aparece en la columna acum. Por ejemplo, en el conjunto de pisos que estudiamos, un 42 % de ellos tiene un precio inferior a 390190e. La descripci´n num´rica de una variable se encuentra en la opci´n del mismo men´ auxiliar o e o u Estad´ısticos descriptivos o en el men´ principal, Variable →Estad´ u ısticos principales. El resultado para la variable precio es la Tabla 1.3: Estad´sticos principales, usando las observaciones 1 - 50 ı para la variable ’precio’ (50 observaciones v´lidas) a Media 489,86 Desviaci´n t´pica o ı 237,42 Mediana 466,68 C.V. 0,48466 M´nimo ı 150,25 Asimetr´a ı 0,68052 M´ximo a 1110,0 Exc. de curtosis -0,19251 Tabla 1.3: Estad´ ısticos descriptivos del precio de 50 pisos Esta ventana tiene un nuevo men´. La opci´n Copiar permite importar la tabla a un fichero u o MS Word, Latex o simplemente, como aparece en pantalla (Texto plano). Estos estad´ ısticos descriptivos reflejan algunas caracter´ ısticas de la distribuci´n recogidas en el histograma. La o media y la mediana son medidas de posici´n, la desviaci´n t´ o o ıpica y el coeficiente de variaci´no son medidas de dispersi´n, mientras que la asimetr´ y exceso de curtosis son medidas de forma o ıa de la distribuci´n. o 15
  • 26. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Las medidas de posici´n dan una idea de la situaci´n o centro del conjunto de puntos. La o o media es el valor promedio. Si disponemos de N datos de una variable x1 , x2 , . . . , xN , la media, o tambi´n momento muestral de primer orden, se define como: e N x1 + x2 + . . . + xN 1 x= ¯ = xi N N i=1 La media es un estad´ıstico poco robusto frente a la presencia de valores extremos: observaciones an´malas van a tener una gran influencia en el valor que tome. Por ejemplo, si el piso n´mero o u 50 tuviera un precio muy alto, por ejemplo, 1350 miles de euros en lugar de 1051, entonces el precio medio aumentar´ en casi 6000 euros, situ´ndose en 495,84 miles de euros. ıa a En general, interesan estad´ ısticos cuyo valor no var´ mucho ante cambios en los valores de unas ıe pocas observaciones, por muy grandes que sean esas variaciones. La mediana, que es el valor cen- tral de la distribuci´n, posee esta propiedad. As´ la mediana del precio es 466, 68 miles de euros. o ı, Las medidas de posici´n proporcionan un valor representativo del conjunto de datos que debe o complementarse con una medida del error asociado. Para valorar la representatividad de este unico valor se utilizan las medidas de dispersi´n, que informan de si las observaciones est´n ´ o a poco concentradas (o muy dispersas) alrededor de su centro. Una medida sencilla es la diferencia entre los valores m´ximo y m´ a ınimo que toman los datos en la muestra, lo que se conoce como recorrido. Es decir, Recorrido = M´ximo - M´ a ınimo En el ejemplo, tenemos que el recorrido de los precios es 1110-150,25 = 959,75 miles de euros. Esta medida s´lo tiene en cuenta dos valores, los extremos. Otras medidas se elaboran con todos o los datos, por ejemplo, la desviaci´n t´ o ıpica, que es la ra´ cuadrada positiva de la varianza. La ız varianza de un conjunto de datos se define como un promedio de los cuadrados de las desviaciones de los datos a la media. Gretl calcula la varianza, S ∗2 o Sx , como: ∗2 N ∗2 (x1 − x)2 + (x2 − x)2 + . . . + (xN − x)2 ¯ ¯ ¯ 1 Sx = = (xi − x)2 ¯ N −1 N −1 i=1 Por tanto, la desviaci´n t´ ∗ o ıpica, Sx , se calcula seg´n: u N ∗ 1 Sx =+ (xi − x)2 ¯ N −1 i=1 Varianza y desviaci´n t´ o ıpica son medidas de la dispersi´n de los datos alrededor de la media. o Tiene el valor m´ ınimo cero cuando todos los datos de la variable toman el mismo valor. La ventaja de la desviaci´n t´ o ıpica es que tiene las mismas unidades de medida que la variable original. En a o e ∗ a general, cuanto m´s pr´xima a cero est´ Sx , m´s concentrados estar´n los datos alrededor de la a media y ´sta ser´ m´s representativa del conjunto de observaciones. Sin embargo, al depender Sx e a a ∗ de las unidades de medida, no es f´cil comparar su representatividad en dos conjuntos de datos. a Para solucionar este problema se utiliza el coeficiente de variaci´n, C.V., que es una medida o adimensional de la dispersi´n, y se define como: o Sx∗ C.V. = si x = 0 ¯ |¯| x 16
  • 27. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 En el ejemplo de precios tenemos que C.V. = 0, 485 < 1, la dispersi´n de los datos es peque˜a o n en relaci´n a su nivel, por lo que consideramos que la media s´ es bastante representativa del o ı conjunto de datos. Media y desviaci´n t´ o ıpica son los estad´ ısticos-resumen m´s conocidos. Se acompa˜an de las a n medidas de forma, que reflejan otras caracter´ ısticas del histograma. La asimetr´ de una ıa distribuci´n se refiere a si los datos se distribuyen de forma sim´trica alrededor de la media o o e no. El coeficiente de asimetr´ se define como: ıa N 3 1 N 1 xi − x ¯ N i=1 (xi − x)3 ¯ Coeficiente de asimetr´ = ıa = 3 N Sx Sx i=1 con Sx = (N − 1)/N × Sx = ∗ ¯2 i (xi − x) /N . El coeficiente de asimetr´ es cero cuando los ıa datos se distribuyen sim´tricamente alrededor de la media, es positivo cuando la cola derecha e (asociada a valores por encima de la media) es m´s larga que la izquierda siendo negativo en a caso contrario. En el ejemplo de los precios de los pisos, observamos que la asimetr´ es positiva, ıa lo que se corresponde con una media mayor que la mediana, es decir, x > M ediana(X). ¯ 0.25 0.2 0.2 0.18 0.16 0.15 0.14 0.12 0.1 0.1 0.08 0.06 0.05 0.04 0.02 0 0 0 5 10 15 20 25 -2 -1 0 1 2 3 Asimetra positiva Asimetra negativa Gr´fico 1.10: Tipos de asimetr´ a ıa El coeficiente de curtosis es una medida del apuntamiento de la distribuci´n y se define: o N 4 1 N 1 xi − x ¯ N i=1 (xi − x)4 ¯ Curtosis = = 4 N Sx Sx i=1 Este coeficiente mide la cantidad de observaciones que se encuentran en las colas en relaci´n con o las situadas alrededor de la media. El nivel de referencia es tres, que es el valor de la curtosis de la distribuci´n normal. As´ se define el exceso de curtosis como: o ı, 1 N N i=1 (xi − x)4 ¯ Exc. de curtosis = 4 −3 (1.1) Sx Un exceso de curtosis positivo indica mayor peso de observaciones en la cola y mayor apuntamien- to que la distribuci´n normal, mientras que si es negativo indica menor n´mero de observaciones o u en la cola y menor apuntamiento. Cuando tenemos un conjunto de variables, Gretl permite recoger en una unica tabla los estad´ ´ ısti- cos descriptivos de todas las variables. El proceso es el siguiente: 1. Seleccionar las variables de inter´s pinchando simult´neamente la tecla izquierda del rat´n e a o y la tecla Control. 17
  • 28. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 2. Ir a Ver →Estad´ısticos principales o utilizar Estad´ ısticos descriptivos en el men´ auxiliar u que aparece al pinchar la tecla derecha del rat´n sobre las variables seleccionadas. o As´ con los datos de la Tabla 1.1 se obtiene la siguiente tabla de estad´ ı, ısticos descriptivos: Estad´sticos principales, usando las observaciones 1 - 50 ı Variable MEDIA MEDIANA MIN MAX m2 127,34 105,00 55,000 250,00 Reforma 0,62000 1,0000 0,00000 1,0000 precio 489,86 466,68 150,25 1110,0 Variable D.T. C.V. ´ ASIMETRIA EXC.CURTOSIS m2 59,048 0,46370 0,67091 -0,77954 Reforma 0,49031 0,79083 -0,49445 -1,7555 precio 237,42 0,48466 0,68052 -0,19251 Tabla 1.4: Estad´ ısticos descriptivos del conjunto de datos donde D.T. indica desviaci´n t´ o ıpica, MIN es m´ ınimo y MAX denota el m´ximo. Al interpretar a estos resultados, hay que tener en cuenta que la variable Reforma no es una variable cuantitativa continua, sino una variable cualitativa discreta, que s´lo toma valores 1 ´ 0. o o 1.5.2. Relaciones entre variables Cuando el conjunto de datos contiene, por ejemplo, dos variables cuantitativas nos interesa estudiar la relaci´n o asociaci´n que existe entre ellas. En general, al analizar dos (o m´s) o o a variables, podemos establecer una relaci´n de causalidad entre ellas. Por ejemplo, podemos o pensar que el precio de un piso puede ser consecuencia del tama˜o de la vivienda, pero no al rev´s. n e Se llama variable independiente o ex´gena, x, a la que causa el efecto y variable dependiente o o end´gena, y, a la que lo recibe. La relaci´n entre estas variables puede estudiarse con gr´ficos o o a o expresarse num´ricamente mediante, por ejemplo, el coeficiente de correlaci´n. Todos estos e o elementos del an´lisis descriptivo de un conjunto de variables se realiza con el men´ que se a u despliega en la opci´n Ver de Gretl. o Representaci´n gr´fica. El diagrama de dispersi´n o scatterplot da una primera idea de la o a o relaci´n entre dos variables. Es el gr´fico que representa cada punto (xi , yi ), i = 1, . . . N en el o a plano: la variable x aparece en el eje de abscisas y la variable y en el eje de ordenadas. Por ejemplo, para obtener con Gretl el Gr´fico 1.11, precio sobre superficie, podemos seguir uno de a los siguientes pasos: • Ver →Gr´ficos →Gr´fico X-Y (scatter) y en el cuadro Definir el gr´fico marcar: a a a Variable de eje X Elegir −> m2 Variables de eje Y A˜adir −> precio n • O bien seleccionar las variables precio y m2 pinchando simult´neamente la tecla izquierda a del rat´n y la tecla Control e ir al men´ auxiliar, Gr´fico de dos variables XY. En el o u a siguiente cuadro, se selecciona la variable de la abscisa, m2. 18
  • 29. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Al pinchar en Aceptar aparece el Gr´fico 1.11 que, adem´s de la nube de puntos, incluye una a a recta-s´ ıntesis de la relaci´n, la recta de regresi´n m´ o o ınimo cuadr´tica que veremos m´s adelante. a a Precio con respecto a Superficie (con ajuste mco) 1200 Y = 44,9 + 3,49X 1100 1000 900 800 Precio (miles euros) 700 600 500 400 300 200 100 50 100 150 200 250 Superficie (m2) Gr´fico 1.11: Diagrama de dispersi´n superficie-precios (2) a o Al pinchar sobre el gr´fico aparece un men´ auxiliar que sirve para: a u • Exportar el gr´fico a ficheros en diferentes formatos en Guardar como Windows metafile a (EMF). . . , PNG. . . , postscript (EPS). . . , PDF. . . . • Copiar/exportar el gr´fico a otros ficheros con Copiar al portapapeles. a • Guardar el fichero en la sesi´n de Gretl en Guardar la sesi´n como icono. o o • Realizar cambios en el fichero con Editar. En la pesta˜a Principal se controla el t´ n ıtulo del gr´fico, el tama˜o y tipo de letra, el color de las l´ a n ıneas/puntos, el dibujo del marco completo, la situaci´n de texto explicativo de las variables representadas (posici´n de la o o clave) o la eliminaci´n de la recta-resumen. La escala y la explicaci´n de los ejes se modifica o o en Eje X y Eje Y. En l´ ıneas se controla la representaci´n de los datos, tipo de l´ o ınea o punto, y el texto explicativo de las variables. Etiquetas permite a˜adir texto en el gr´fico n a y salida a fichero incluye varios formatos para guardar el gr´fico. a El gr´fico de dispersi´n permite distinguir la posible relaci´n, lineal o no, que existe entre las a o o variables. Se dice que hay una relaci´n lineal positiva entre ambas variables cuando al o aumentar x, aumenta en promedio el valor de y (figura b en el Gr´fico 1.12). Diremos que hay a una relaci´n lineal negativa entre ambas variables cuando observamos que al aumentar x, o disminuye en promedio el valor de y (figura c). En el ejemplo, se observa una clara relaci´n lineal o positiva entre precio y tama˜o del piso. n 19
  • 30. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 3 4 (a) Sin relación lineal (b) Relacion lineal positiva 3 2 2 1 1 Y1 Y2 0 0 -1 -1 -2 -2 -3 -3 -4 -1.6 -1.2 -0.8 -0.4 0.0 0.4 0.8 1.2 1.6 -1.6 -1.2 -0.8 -0.4 0.0 0.4 0.8 1.2 1.6 X1 X2 3 6 (c) Relación lineal negativa (d) Relación no lineal 5 2 4 1 3 Y3 Y4 0 2 1 -1 0 -2 -1 -3 -2 -1.6 -1.2 -0.8 -0.4 0.0 0.4 0.8 1.2 1.6 -1.6 -1.2 -0.8 -0.4 0.0 0.4 0.8 1.2 1.6 X3 X4 Gr´fico 1.12: Diagramas de dispersi´n a o Covarianza y correlaci´n. La covarianza es una medida del grado de asociaci´n lineal entre o o dos variables. Si se tienen N pares de datos de dos variables, (x1 , y1 ) . . . (xN , yN ), la covarianza se denota por Sxy y se define: N 1 Sxy = cov(x, y) = (xi − x)(yi − y ) ¯ ¯ N i=1 siendo x e y las medias aritm´ticas de las variables. La covarianza depende de las unidades de ¯ ¯ e medida de las variables, lo que no permite comparar la relaci´n entre distintos pares de variables o medidas en unidades diferentes. En estos casos se utiliza el coeficiente de correlaci´n lineal o entre x e y, que se define: N Sxy i=1 (xi − x)(yi − y ) ¯ ¯ rxy = corr(x, y) = = Sx Sy N N i=1 (xi − x)2 ¯ i=1 (yi − y )2 ¯ El coeficiente de correlaci´n lineal y la covarianza tienen el mismo signo: son positivos si existe o relaci´n lineal directa o positiva (figura b en el Gr´fico 1.12), son negativos si existe relaci´n o a o lineal inversa o negativa (figura c) y toma valor cero si x e y son independientes (figura a) o cuando la relaci´n, si existe, es no lineal (figura d). Adem´s, su valor no depende del orden en o a que se consideren las variables, es decir, Sxy = Syx y rxy = ryx . A diferencia de la covarianza, el coeficiente de correlaci´n es una medida adimensional de la relaci´n que toma valores entre o o -1 y 1, −1 ≤ rxy ≤ 1: un coeficiente de correlaci´n igual a uno en valor absoluto indica que las o variables est´n relacionadas linealmente de forma exacta y los datos se sit´an sobre una l´ a u ınea. 20
  • 31. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 En Gretl, si se marcan las variables que interesan y se va a Ver →Matriz de correlaci´n se obtiene o una tabla (matriz) con los coeficientes de correlaci´n para cada par de variables consideradas. o El resultado para los datos de precios, tama˜o y reforma de los pisos es: n Coeficientes de correlaci´n, usando las observaciones 1 - 50 o valor cr´tico al 5% (a dos colas) = 0,2787 para n = 50 ı m2 Reforma precio 1,0000 0,0440 0,8690 m2 1,0000 0,2983 Reforma 1,0000 precio Tabla 1.5: Matriz de coeficientes de correlaci´n o Por ejemplo, el coeficiente de correlaci´n entre el precio y el tama˜o de los pisos se encuentra o n en la primera fila, columna tercera, (precio-m2). Es decir, rprecio,m2 = 0, 869, lo que indica que hay una fuerte relaci´n lineal positiva entre estas variables. Hay que tener en cuenta que o este coeficiente se define para variables cuantitativas, por lo que no lo aplicamos a la variable Reforma. 1.6. Ejercicio para practicar Se dispone de una base de datos para 51 observaciones en el Estado de Washington sobre el gasto en sanidad, exphlth, y la renta disponible, income, correspondientes al a˜o 19932 . Las variables n que se consideran son: exphlth Gasto personal en sanidad, en billones de d´lares, o (Rango 0,998 - 94,178). income Renta personal disponible, en billones de d´lares, o (Rango 9,3 - 64,1). 1. Describe los datos. 2. Haz el gr´fico de frecuencias de la variable exphlth. Interpr´talo. a e 3. Haz el gr´fico de frecuencias de la variable income. Interpr´talo. a e 4. Escribe la tabla de estad´ ısticos descriptivos de las variables exphlth e income. Interpreta los resultados. 5. Busca el coeficiente de correlaci´n entre las variables. Interpr´talo. o e 6. Realiza un an´lisis gr´fico de las relaci´n existente entre las variables. Interpreta el resul- a a o tado. 2 Fichero data3-2.gdt. Fuente: Statistical Abstract of U.S. (1995), recogida en Ramanathan, R. (2002), Intro- ductory econometrics with applications, 5th. Ed., South-Western. 21
  • 32. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 22
  • 33. Tema 2 Modelo de Regresi´n Lineal Simple o 2.1. Introducci´n. Un ejemplo o Supongamos que nos interesa conocer la relaci´n que hay entre el precio de una vivienda y o su superficie. Se trata de cuantificar la influencia que tiene el tama˜o de una vivienda en la n determinaci´n de su precio de venta mediante un modelo de regresi´n lineal simple. En este o o cap´ıtulo vamos a especificar, estimar y analizar el modelo de regresi´n lineal simple. La o teor´ necesaria para este fin ser´ ilustrada mediante el estudio simult´neo del conjunto de datos ıa a a data3-1 disponible en Gretl dentro del conjunto de datos correspondiente a Ramanathan. Este fichero contiene el precio de venta y la superficie de 14 viviendas vendidas en el ´rea de San a Diego. Vamos a comenzar realizando un an´lisis gr´fico. a a 1. Accedemos a este conjunto de datos en Archivo → Abrir datos →Archivo de muestra y en la carpeta de datos de Ramanathan seleccionamos data3-1 House prices and sqft: Gr´fico 2.1: Selecci´n de un fichero de muestra a o 23
  • 34. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Se abre un fichero que contiene tres variables, const, price y sqft. La Tabla 2.1 muestra los valores disponibles para cada variable. i Pi F2 i P F2 1 199,9 1065 8 365,0 1870 2 228,0 1254 9 295,0 1935 3 235,0 1300 10 290,0 1948 4 285,0 1577 11 385,0 2254 5 239,0 1600 12 505,0 2600 6 293,0 1750 13 425,0 2800 7 285,0 1800 14 415,0 3000 Tabla 2.1: Conjunto de datos incluidos en data3.1 House prices and sqft 2. En Datos →Leer informaci´n aparece la siguiente descripci´n del conjunto de datos: o o DATA3-1: Precio de venta y superficie h´bil de viviendas a unifamiliares en la comunidad universitaria de San Diego en 1990. price = Precio de venta en miles de d´lares (Rango 199.9 - 505) o sqft = Pies cuadrados de ´rea habitable (Rango 1065 - 3000) a 3. Seguidamente en Variable →Editar atributos cambiamos los nombres a las variables (P y F2 ), la descripci´n (Precio de venta en miles de d´lares y Pies cuadrados h´biles) y el o o a nombre a mostrar (Precio, P y Superficie, F2 ) 4. Guardamos los cambios en un fichero llamado datos-cap3.gdt con Archivo →Guardar datos. 5. Abrimos el diagrama de dispersi´n entre las dos variables (ver el Gr´fico 2.2). En ´l ob- o a e servamos una relaci´n lineal positiva entre P y F 2. o Precio, P con respecto a Superficie, F2 (con ajuste mnimo-cuadrÆtico) 550 Y = 52,4 + 0,139X 500 450 400 Precio, P 350 300 250 200 150 1500 2000 2500 3000 Superficie, F2 Gr´fico 2.2: Diagrama de dispersi´n precio-superficie de viviendas a o 24
  • 35. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Un modelo sencillo que recoge una relaci´n lineal causa-efecto entre superficie y precio es Pi = o α + βF 2i . Esto quiere decir que el precio de una vivienda depende unicamente de su superficie ´ y, por lo tanto, dos viviendas de igual tama˜o deben tener exactamente el mismo precio. Esta n hip´tesis es poco realista porque diferencias en otras caracter´ o ısticas, como la orientaci´n de la o casa o su estado de conservaci´n, tambi´n influyen en su precio. Este modelo que recoge una o e relaci´n lineal entre unicamente dos variables se denomina modelo de regresi´n lineal simple. o ´ o 2.2. Elementos del modelo de regresi´n simple o El modelo simple relaciona dos variables de forma lineal, Yi = α + βXi + ui i = 1, . . . , N (2.1) donde: - Y es la variable a explicar, variable dependiente o end´gena, es decir, la variable o que estamos interesados en explicar. - X es la variable explicativa, variable independiente o ex´gena. o - La ordenada α y la pendiente β del modelo son los coeficientes de la regresi´n. Si o definimos K como el n´mero de coeficientes desconocidos a estimar, en el modelo de u regresi´n simple tenemos K = 2 coeficientes a estimar. o - u es el t´rmino de error, variable aleatoria o perturbaci´n. e o - El sub´ ındice i denota observaci´n. En general, el sub´ o ındice i ser´ empleado cuando la a muestra contenga datos de secci´n cruzada y el sub´ o ındice t cuando tengamos observaciones correspondientes a series temporales, aunque esto no es de especial relevancia. - N es el tama˜ o muestral, n´mero de observaciones disponibles de las variables de estudio n u (Y, X). Cuando tratemos con datos temporales T denotar´ el tama˜o muestral1 . a n El error ui se introduce por varias razones, entre las cuales tenemos: • Efectos impredecibles, originados por las caracter´ısticas de la situaci´n econ´mica o del o o contexto de an´lisis, y efectos no cuantificables derivados de las preferencias y los gustos a de los individuos o entidades econ´micas. o • Errores de medida producidos a la hora de obtener datos sobre las variables de inter´s. e • Errores de especificaci´n ocasionados por la omisi´n de alguna variable explicativa o bien, o o por las posibles no linealidades en la relaci´n entre X e Y . o Modelo para la relaci´n precio-tama˜o del piso. En este caso planteamos el siguiente modelo o n de regresi´n lineal: o Pi = α + β F 2i + ui i = 1, . . . , N (2.2) donde 1 En este cap´ ıtulo y los siguientes, por simplicidad, no reservaremos la letra may´scula para variables aleatorias u X y las min´sculas para realizaciones (x) sino que utilizaremos may´sculas tanto para una variable aleatoria u u como para su realizaci´n, es decir, para los datos. o 25
  • 36. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a - Pi es la observaci´n i de la variable dependiente (end´gena o a explicar) precio de venta o o de un piso en miles de d´lares. o - F 2i es la observaci´n i de la variable independiente (ex´gena o explicativa) ´rea habitable o o a del piso en pies cuadrados. - Los dos coeficientes a estimar son α y β, y sospechamos que al menos β tiene valor positivo ya que a mayor superficie habitable de la vivienda su precio l´gicamente se esperar´ sea o a mayor. - En este modelo el t´rmino de error o perturbaci´n ui recoger´ caracter´ e o ıa ısticas espec´ ıficas de los pisos: lugar en el que se sit´a, orientaci´n de la casa, vistas, etc., es decir, caracter´ u o ısticas que diferencian el precio de los pisos que tienen la misma superficie habitable. Un primer objetivo del an´lisis econom´trico es conocer α y β, que son los par´metros de la a e a relaci´n entre P y F 2. Del total de viviendas del ´rea objeto de estudio, tenemos una muestra o a con datos de N= 14 pisos. Por tanto, el objetivo del estudio es inferir, a partir de la muestra, la relaci´n precio-tama˜o de una vivienda en la poblaci´n. Para llevar a cabo esta inferencia es o n o necesario determinar la naturaleza aleatoria de las variables que intervienen en el estudio. 2.3. Hip´tesis b´sicas o a El modelo (2.1) debe completarse con la especificaci´n de las propiedades estoc´sticas de la o a variable de inter´s Y . A partir de las propiedades de Y es posible conocer las propiedades de e los distintos m´todos de estimaci´n, elegir el mejor estimador en el modelo, realizar contrastes, e o etc. Las condiciones bajo las cuales vamos a trabajar en un principio se denominan hip´tesis o b´sicas. Bajo estas hip´tesis estimaremos y analizaremos el modelo para, finalmente, predecir a o Y . En una segunda etapa, podemos considerar otras situaciones, relajando algunas de estas hip´tesis, analizando si los procedimientos de estimaci´n y contraste anteriores siguen siendo o o v´lidos. Las hip´tesis b´sicas se refieren a los distintos elementos de la regresi´n. a o a o • Sobre la forma funcional 1. El modelo es lineal en los coeficientes. Los modelos a estimar que consideramos son linea- les en los coeficientes, Yi = α + βXi + ui . Sin embargo, podemos permitir no linealidades en las variables explicativas como puede ser la especificaci´n: o Pi = α + β (F 2i )2 + ui en la que la superficie habitable de los pisos no influye de forma lineal sobre el precio, sino de forma cuadr´tica. a • Sobre los coeficientes 2. Los coeficientes α y β se mantienen constantes a lo largo de la muestra. Vamos a conside- rar que la influencia de las variables explicativas es estable a lo largo de la muestra. Su- pongamos que estamos interesados en analizar, en t´rminos medios, el precio de los pisos e 26
  • 37. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 de Bilbao (P ) en funci´n de la superficie habitable en metros cuadrados (F 2). En este caso o interesar´ estimar la recta central representada en el caso 1 del Gr´fico 2.3. ıa a No obstante, supongamos que algunos de estos pisos est´n localizados en el centro de a Bilbao (representados en azul) y que otros est´n localizados en la periferia (en rojo). El a caso 2 del Gr´fico 2.3 muestra esta hipot´tica situaci´n: en general, para una determinada a e o superficie, los pisos del centro tienen mayor precio. As´ en el gr´fico es posible distinguir ı, a dos nubes de puntos, cada una asociada a pisos de una determinada zona. Si este fuera el caso, estar´ıamos dispuestos a creer que existen (y debemos estimar) dos rectas centrales (la azul y la roja) permitiendo que tanto la ordenada como la pendiente cambien a lo largo de la muestra, dependiendo de la zona en la que se localice el piso. Caso 1: Sin discriminar por localizaci´n o Caso 2: Discriminando por localizaci´n o P6 P 6 E(Pi /C) = α1 + β1 F 2i E(Pi ) = α + βF 2i E(Pi ) = α + βF 2i ∗ ∗∗ ∗∗ ∗ ∗ E(Pi /P ) = α2 + β2 F 2i ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗∗ ∗ ∗ ∗ ∗∗ ∗ - - F2 F2 Gr´fico 2.3: Precio de los pisos de Bilbao versus superficie habitable a • Sobre la variable end´gena o 3. La variable end´gena es cuantitativa. A lo largo de este curso b´sico vamos a suponer o a que la variable a explicar es cuantitativa. Lo contrario, una variable end´gena cualitativa, o requiere m´todos de estimaci´n alternativos al m´todo que se analiza en este curso. e o e • Sobre la variable explicativa 2 4. La variable explicativa X tiene varianza muestral SX no nula y adem´s N ≥ K = 2. Es- a tas hip´tesis son necesarias para poder identificar los coeficientes (ordenada y pendiente). o En primer lugar, si el n´mero de coeficientes a estimar fuera mayor que el n´mero de ob- u u servaciones disponibles en la muestra, no tenemos suficiente informaci´n para poder llevar o a cabo la estimaci´n. M´s adelante veremos que esta condici´n debe hacerse m´s estricta, o a o a N > 2, si adem´s de estimar los dos par´metros α y β que determinan el valor medio de a a Y , nos interesa estimar su variabilidad. 2 Por otra parte, si la variable explicativa tuviera varianza muestral nula (SX = 0), es decir, si la variable explicativa tomase un valor constante, por ejemplo, Xi = 5 ∀i, la pendiente y la ordenada no podr´ ser identificadas. Esto se debe a que la variable X es ıan una combinaci´n lineal del t´rmino constante, X = 5 × t´rmino constante = 5 × 1 = 5. De o e e hecho, tal y como se puede observar en el Gr´fico 2.4, una situaci´n de estas caracter´ a o ısticas no puede explicar las variaciones de la variable de inter´s Y . e 5. La variable ex´gena X es fija, no estoc´stica. Las observaciones del regresor X1 , . . . XN o a son valores fijos en muestras repetidas, es decir, suponemos que trabajamos en un con- texto de experimento controlado. Esta condici´n implica que la variable explicativa X no o 27
  • 38. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Yi 6 - Xi = 5 Xi 2 Gr´fico 2.4: Modelo Yi = α + β × 5 + ui , con SX = 0 a podr´ estar medida con error. En el caso pr´ctico que estamos considerando, esto significa a a que los metros cuadrados habitables est´n medidos con exactitud. En muchos casos es un a supuesto poco realista, pero lo utilizamos como punto de partida. El contexto en el que la variable explicativa X tiene car´cter aleatorio se estudia en textos m´s avanzados, por a a ejemplo, Wooldridge (2003) o Alonso et al. (2005). 6. El modelo est´ bien especificado. En general, esta hip´tesis requiere que en el modelo no a o se incluyan variables irrelevantes ni que se omitan variables relevantes para explicar Y . En el contexto del modelo de regresi´n simple, esto significa que la variable explicativa X es o la unica variable relevante para explicar y predecir la variable de inter´s Y . ´ e • Sobre la perturbaci´n o El t´rmino de error recoge aquellos elementos que afectan a la variable de inter´s y que no obser- e e vamos. Podemos hacer conjeturas sobre los valores que puede tomar, cu´les son m´s probables a a y cu´les menos. As´ consideramos que ui es aleatorio y tiene las siguientes propiedades. a ı, 7. La perturbaci´n tiene media cero. El error impredecible, la parte aleatoria del modelo, o tiene media cero. Esto implica que la parte sistem´tica del modelo (α + βXi ) puede ser a interpretada como el comportamiento medio a analizar, es decir, E(Yi ) = α + βXi . 8. La perturbaci´n tiene varianza constante. Suponemos que la variabilidad del error se man- o tiene constante, var(ui ) = σ 2 , ∀i (ver caso 1 del Gr´fico 2.5). De este modo, como puede a verse en la distribuci´n de la figura izquierda del Gr´fico 2.6, dados unos valores espec´ o a ıfi- cos de la variable explicativa, el rango de posibles valores que puede tomar la variable end´gena tiene la misma amplitud y la probabilidad de observar elementos alejados de la o media no depende del valor que tome la variable explicativa X. En el caso contrario, estar´ ıamos hablando de perturbaciones heteroced´sticas, cuya dis- a persi´n puede variar a lo largo de la muestra (ver caso 2 del Gr´fico 2.5). En el caso de o a los pisos, significar´ por ejemplo, que el rango de los precios de los pisos con menor su- ıa, perficie es m´s peque˜o que el de los pisos con mayor superficie habitable (ver la figura a n derecha en el Gr´fico 2.6). En otras palabras, los pisos peque˜os y con la misma superficie a n tienen los precios bastante parecidos. Sin embargo, a medida que aumenta la superficie, la holgura crece y podemos encontrar pisos grandes de igual tama˜o a diversos precios; es n decir, var(ui ) es una funci´n creciente en X. o 28
  • 39. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Caso 1: varianza constante Caso 2: varianza creciente con Xi ui ui 6 6 0 - 0 - Xi Xi ? ? Gr´fico 2.5: Ejemplos de realizaciones de u a Varianza constante Varianza no constante f(u) Y X1 X2 X Gr´fico 2.6: Ejemplos de distribuci´n de Y a o 9. La perturbaci´n no est´ autocorrelacionada. Por el momento vamos a suponer que la corre- o a laci´n entre dos observaciones distintas cualesquiera de la perturbaci´n es cero, corr(ui , uj ) = o o rui ,uj = 0; ∀i = j. Esto implica que las covarianzas entre dos perturbaciones tambi´n ese cero: cov(ui , uj ) = 0, ∀i = j. 10. La perturbaci´n sigue una distribuci´n normal. Este ultimo supuesto, como veremos m´s o o ´ a adelante, no se necesita para la estimaci´n ni para la obtenci´n de propiedades del es- o o timador2 . Sin embargo es necesario para poder realizar contraste de hip´tesis o calcular o intervalos de confianza. 2 Esto es as´ porque el m´todo de estimaci´n que se va a derivar es el de M´ ı e o ınimos Cuadrados Ordinarios. Sin embargo, si se estimase por m´xima verosimilitud el supuesto de normalidad sobre la distribuci´n de Y s´ es a o ı necesario para la obtenci´n del estimador. o 29
  • 40. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 2.3.1. Resumen: modelo de regresi´n lineal simple con hip´tesis b´sicas o o a Abreviadamente, el modelo con las hip´tesis b´sicas mencionadas se escribe: o a Yi = α + βXi + ui , Xi fija y ui ∼ N ID(0, σ 2 ) ∀i Es decir, Yi ∼ N ID(α + βXi , σ 2 ), siendo α, β y σ 2 par´metros desconocidos. En particular, nos a interesamos por los par´metros de la media y su interpretaci´n en este modelo es: a o • α = E(Yi |Xi = 0): valor medio o esperado de la variable end´gena cuando el valor que o toma la variable ex´gena es cero. o ∆E(Yi ) ∂E(Yi ) • β= = : un aumento unitario en la variable explicativa conlleva un aumen- ∆Xi ∂Xi to medio de β unidades en la variable end´gena. La pendiente mide el efecto de un aumento o marginal en la variable explicativa sobre E(Yi ). → As´ volviendo a nuestro ejemplo tenemos que: ı, α = E(Pi |F 2i = 0) es el precio medio de venta en miles de d´lares cuando el piso dispone de o una superficie de cero pies habitables, que tambi´n puede ser considerado como precio m´ e ınimo de partida. En este caso, esperar´ ıamos un coeficiente nulo dado que no tiene sentido hablar de un piso sin superficie h´bil o bien un precio de partida positivo. No obstante, aunque en este a contexto la ordenada no tiene en principio mucho sentido, no debemos de eliminarla a la ligera en aras de obtener resultados f´ciles de interpretar. a ∆E(Pi ) β = indica que, cuando un piso aumenta su superficie h´bil en un pie cuadrado, su a ∆F 2i precio medio aumenta en β miles $. 2.4. Estimaci´n por M´ o ınimos Cuadrados Ordinarios Una vez descrito el ´mbito en el que nos vamos a mover, vamos a obtener un estimador adecuado a de los coeficientes del modelo de regresi´n simple: el estimador de m´ o ınimos cuadrados ordinarios. En primer lugar, obtendremos el estimador y, a continuaci´n, justificaremos su uso en base a o sus propiedades. El modelo simple (2.1) nos indica que cada observaci´n Yi es una realizaci´n o o de una variable que tiene dos componentes: uno que depende del valor del regresor Xi , cuyo valor observamos, y un componente residual que no observamos. Esto significa que tenemos N igualdades con una misma estructura: Y1 = α + βX1 + u1 . . . Yi = α + βXi + ui . . . YN = α + βXN + uN 30
  • 41. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 El Gr´fico 2.7 representa gr´ficamente una posible muestra. Los puntos (Yi , Xi ) se sit´an o a a u distribuyen alrededor de la recta α + βXi . La desviaci´n de cada punto respecto a esta recta o central viene dada por el valor que tome el t´rmino de error no observable ui . Por ejemplo, en el e Gr´fico 2.7, la perturbaci´n es positiva para la primera observaci´n, de modo que Y1 se encuentra a o o por encima de la recta central. Por otro lado, el punto (Y2 , X2 ) se encuentra por debajo de la recta central, es decir, u2 toma un valor negativo. Yi 6 (Y1 , X1 ) 6 u1 E(Yi ) = α + βXi + E(ui ) ? =0 α 6u2 ? (Y2 ,X2 ) - Xi Gr´fico 2.7: Modelo de regresi´n simple a o As´ la recta central ser´ aquella recta que se obtiene cuando el valor de la perturbaci´n es cero. ı, ıa o Teniendo en cuenta que suponemos que la perturbaci´n tiene media cero, es decir, que no tiene o efectos sistem´ticos sobre Y , la recta central recoge el comportamiento medio de la variable de a inter´s. La estimaci´n de un modelo de regresi´n pretende obtener una aproximaci´n a esta e o o o recta central no observable. En t´rminos econom´tricos, queremos calcular el comportamiento e e medio de la variable de inter´s, α + βXi , a partir de observaciones provenientes de una muestra e (Y1 , X1 ), (Y2 , X2 ), . . . , (YN , XN ). Gr´ficamente, la estimaci´n consiste en calcular la pendiente y a o la ordenada que mejor se ajusta a la nube de puntos. Antes de proceder a la estimaci´n del modelo es preciso definir algunos nuevos conceptos. La o recta central objeto de estimaci´n se denomina Funci´n de Regresi´n Poblacional (FRP) o o o y depende de los coeficientes poblacionales desconocidos α y β. Se trata de la parte sistem´tica a o predecible del modelo y corresponde al comportamiento medio o esperado de la variable a explicar: E(Yi ) = E(α + βXi + ui ) = α + βXi + E(ui ) = α + βXi =0 La perturbaci´n del modelo recoge todo aquello que no ha sido explicado por la parte sis- o tem´tica del modelo y se obtiene como la diferencia entre la variable a explicar y la recta de a regresi´n poblacional: o ui = Yi − α − βXi El resultado final obtenido a partir de la informaci´n que ofrece una muestra dada se define o como la Funci´n de Regresi´n Muestral (FRM). Se obtiene una vez que los coeficientes o o o α, ˆ de la regresi´n hayan sido estimados (ˆ β) y tambi´n se conoce como modelo estimado: e ˆ ˆ ˆ Yi = E(Yi ) = α + βXi 31
  • 42. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a El residuo mide el error cometido al estimar la variable end´gena y se define como la diferencia o entre la variable a explicar y la recta de regresi´n muestral: o ˆ ˆ ˆ ˆ ˆ ui = Yi − Yi = Yi − α − βXi = α + βXi + ui − α − βXi ˆ (2.3) ˆ = (α − α) + (β − β)Xi + ui ˆ Este error proviene de dos fuentes: la primera, por el hecho de no poder obtener los valores de la perturbaci´n (ui ) y la segunda se debe a que la estimaci´n de los coeficientes desconocidos (α, β) o o introduce un error adicional. Es importante, por tanto, diferenciar y no confundir el residuo con la perturbaci´n. o Yi 6 ˆ ˆ ˆ Yi = α + βXi (Y1 , X1 ) Y1 6 6 u1 ˆ ˆ ˆ ˆ α + βX1 = Y1 ? E(Yi ) = α + βXi ?u1 6 α + βX1 α β ˆ β α ˆ ? - Xi X1 Gr´fico 2.8: Funci´n de regresi´n poblacional y funci´n de regresi´n muestral a o o o o En el Gr´fico 2.8 la funci´n de regresi´n poblacional est´ trazada en color negro as´ como los a o o a ı coeficientes poblacionales, la ordenada (α) y la pendiente (β). Podemos ver que el valor Yi se obtiene como la suma del valor que toma la parte sistem´tica α + βXi (situada sobre la FRP) a y del valor que toma la perturbaci´n ui , esto es, Yi = α + βXi + ui . o o o α ˆ La funci´n de regresi´n muestral y los coeficientes estimados (ˆ y β) est´n representados en color a rojo. La diferencia entre la FRP y la FRM se debe a los errores que se cometen en la estimaci´n o o α ˆ de los coeficientes de la regresi´n (ˆ = α, β = β). Bas´ndonos en la FRM podemos obtener el a ˆ ˆ ˆ valor del punto Yi como la suma del valor estimado de la parte sistem´tica Yi = α + βXi (situado a ˆ ˆ sobre la FRM) y del valor que toma el residuo ui , esto es, Yi = Yi + ui . ˆ 2.4.1. El criterio de estimaci´n m´ o ınimo-cuadr´tico a Dados el modelo y una muestra, debemos decidir c´mo obtener la funci´n de regresi´n muestral, o o o o ˆ ˆ es decir, c´mo calcular las estimaciones α y β a partir de los datos. Un m´todo muy utilizado por e su sencillez y buenas propiedades es el m´todo de m´ e ınimos cuadrados ordinarios. El estimador de M´ ınimos Cuadrados Ordinarios, o MCO, de los par´metros α y β se obtiene de minimizar a la suma de los residuos al cuadrado: N N N m´ ın u2 = m´ ˆi ın ˆ (Yi − Yi )2 = m´ ın ˆ ˆ (Yi − α − βXi )2 (2.4) ˆ ˆ α,β i=1 ˆ ˆ α,β i=1 ˆ ˆ α,β i=1 Las expresiones del estimador de α y β se obtienen de las condiciones de primer orden, para lo 32
  • 43. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 cual igualamos las primeras derivadas a cero: N ∂ ˆ2 i=1 ui = −2 N i=1 (Yi ˆ ˆ − α − βXi ) = 0 ∂α ˆ N ∂ ˆ2 i=1 ui = −2 N i=1 (Yi ˆ ˆ − α − βXi )Xi = 0 ˆ ∂β As´ obtenemos un sistema de ecuaciones, llamadas ecuaciones normales, que vienen dadas por: ı, N ˆ ˆ (Yi − α − βXi ) = 0 (2.5) i=1 ui N ˆ ˆ (Yi − α − βXi )Xi = 0 (2.6) i=1 ui Xi Las expresiones de los estimadores MCO para los coeficientes poblacionales α y β se obtienen ˆ ˆ de resolver las ecuaciones para α y β: N ¯ ¯ ˆ i=1 (Xi − X)(Yi − Y) SXY β = = 2 (2.7) N ¯ 2 SX i=1 (Xi − X) ¯ ˆ¯ α = Y − βX ˆ (2.8) 2.4.2. Propiedades de los estimadores MCO Necesitamos saber cu´les son las propiedades que justifican el uso de los estimadores MCO en a el modelo de regresi´n simple bajo las hip´tesis b´sicas. Los estimadores α y β son lineales en o o a la perturbaci´n, es decir, pueden expresarse como una combinaci´n lineal de las perturbaciones o o u1 , . . . , uN . En segundo lugar, los estimadores MCO son variables aleatorias cuya distribuci´n o est´ centrada alrededor del valor poblacional, esto es a E(ˆ ) = α α ˆ E(β) = β y, por tanto, son estimadores insesgados. Y en cuanto a la precisi´n, el Teorema de Gauss- o Markov prueba que los estimadores MCO tienen m´ ınima varianza dentro del conjunto de los estimadores lineales (en u) e insesgados. Las varianzas y covarianza para los estimadores son las siguientes: N 2 ¯ X2 i=1 Xi 1 var(ˆ ) = σ 2 α = σ2 + 2 (2.9) N N ¯ − X)2 N N SX i=1 (Xi ˆ 1 σ2 1 var(β) = σ 2 = 2 (2.10) N ¯ − X)2 N SX i=1 (Xi ¯ X ¯ σ2 X α ˆ cov(ˆ , β) = σ 2 − = − 2 (2.11) N ¯ − X)2 N SX i=1 (Xi Ambas varianzas dependen de la dispersi´n de la perturbaci´n var(ui ) = σ 2 , del tama˜o muestral o o n y de la dispersi´n del regresor X. En ambos casos, cuanto mayor sea N o la variabilidad de X, o 2 Sx , menor es la varianza de los estimadores MCO. En cuanto a la covarianza ser´ no nula a no a ser que la media muestral de la variable explicativa sea cero. 33
  • 44. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 2.4.3. La estimaci´n MCO en Gretl o → Como ejemplo, calcularemos las estimaciones MCO del modelo para el precio de la vivienda, Pi = α + βF 2i + ui , con la muestra del fichero datos-cap3.gdt. Una forma sencilla de obtener la FRM m´ ınimo-cuadr´tica es realizar el diagrama de dispersi´n en el cual la recta de regresi´n a o o aparece en la parte superior izquierda. En el ejemplo que nos ocupa tenemos que α = 52, 4 y ˆ ˆ β = 0, 139, como se puede ver en el Gr´fico 2.2. a Vamos a ver c´mo podemos obtener una tabla de resultados detallados. Una vez iniciada la o sesi´n de Gretl y abierto el fichero datos-cap3.gdt, vamos a o Modelo →M´ ınimos cuadrados ordinarios... Aparece la ventana donde se especifica la parte sistem´tica del modelo: a Gr´fico 2.9: Ventana de especificaci´n del modelo lineal a o • Escogemos la variable dependiente, el precio de venta: en el cuadro izquierdo pinchamos sobre P y luego Elegir − >. • Elegimos la variable independiente, el tama˜o: en el cuadro izquierdo pinchamos sobre n F 2 y luego A˜adir − >. La ventana de especificaci´n aparece en el Gr´fico 2.9. n o a Tras pinchar en Aceptar aparece la ventana de resultados del modelo (ver el Gr´fico 2.10). a MENÚ DEL MODELO Gr´fico 2.10: Ventana de resultados de estimaci´n MCO a o En esta ventana aparecen los resultados b´sicos para el an´lisis del modelo y que se explican a a 34
  • 45. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 detalladamente a lo largo del curso. La primera columna muestra las variables explicativas que se han incluido en el modelo, la constante (const) y la superficie que posee la vivienda (F 2). En la segunda columna tenemos los coeficientes estimados por MCO correspondientes a cada una de las variables. Como ya vimos, la estimaci´n de la ordenada es igual a α= 52,35 miles de o d´lares y la estimaci´n de la pendiente es β = 0, 138750 miles $ por pie cuadrado. As´ la funci´n o o ı o de regresi´n muestral es: o Pi = 52, 3509 + 0,138750 F 2i (2.12) Es decir, cuando la superficie de la vivienda aumenta en un pie cuadrado, el precio medio de venta estimado aumenta en β × 1000 = 138, 750 d´lares. Observar que esta interpretaci´n o o corresponde a la estimaci´n del coeficiente, no al par´metro poblacional β. o a Esta ventana de resultados del modelo tiene un men´ con siete opciones, Archivo, Editar, Con- u trastes, Guardar, Gr´ficos, An´lisis y Latex, que sirven para mostrar otro tipo de resultados de a a estimaci´n o guardarlos. Veamos algunas de estas utilidades. o ICONO DEL MODELO ESTIMADO Vista de iconos Gr´fico 2.11: Ventana de iconos: recuperar resultados estimaci´n a o Guardar resultados. Si en el men´ de resultados del modelo vamos a Archivo →Guardar a u sesi´n como icono, el modelo queda guardado dentro de la carpeta USER. As´ podemos recupe- o ı, rarlo siempre que queramos; basta con pinchar sobre el bot´n iconos de sesi´n, cuarto por la o o izquierda de la barra de herramientas (ver el Gr´fico 2.11), y en la ventana que aparece, pinchar a dos veces sobre el icono llamado Modelo 1. Si posteriormente estim´ramos otro modelo y lo a guard´ramos como icono, Gretl lo denominar´ Modelo 2. a ıa Algunos gr´ficos de inter´s. La opci´n Gr´ficos de la ventana de resultados del modelo a e o a incluye distintas representaciones gr´ficas tanto de la variable end´gena de inter´s, como de su a o e ajuste y de los errores de su ajuste. Veamos algunos de los m´s utilizados en regresi´n con datos a o de secci´n cruzada. o • En Gr´ficos → Gr´fico de variable estimada y observada →contra F2 obtenemos el gr´fico a a a de dispersi´n de las observaciones reales Pi frente a la variable explicativa F 2i junto con o la funci´n de regresi´n muestral (2.12). El resultado es la figura izquierda del Gr´fico 2.12. o o a • Si seleccionamos Gr´ficos →Gr´fico de residuos →contra F2, se representan los errores de a a ajuste ui sobre la variable explicativa F 2i , es decir, el diagrama de dispersi´n de los pares ˆ o de puntos (F 21 , u1 ), . . . , (F 214 , u14 ), como aparece en la figura derecha del Gr´fico 2.12. ˆ ˆ a Podemos apreciar que los residuos se distribuyen alrededor del valor cero (u ¯ = 0) y que la 35
  • 46. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Precio, P observada y estimada Residuos de la regresin (= P observada - estimada) 550 100 actual estimada 500 80 450 60 400 40 Precio, P residuo 350 20 300 0 250 -20 200 -40 150 -60 1500 2000 2500 3000 1500 2000 2500 3000 Superficie, F2 Superficie, F2 Gr´fico 2.12: Gr´ficos de resultados de regresi´n MCO a a o variaci´n con respecto a esta media crece a medida que aumenta el tama˜o de los pisos. o n Este ultimo resultado podr´ indicar que la hip´tesis b´sica de varianza constante quiz´s ´ ıa o a a no sea aceptable. ˆ Variables asociadas a la regresi´n. Para ver los valores que toman los ajustes Yi y los resi- o duos ui , debemos seleccionar An´lisis →Mostrar variable observada, estimada, residuos. ˆ a El resultado que obtenemos es la tabla 2.2. Podemos guardar cualquiera de estos valores selec- cionando la opci´n Guardar del men´ del modelo, tal como muestra el Gr´fico 2.13. o u a Rango de estimaci´n del modelo: 1--14 o Desviaci´n t´pica de los residuos = 39,023 o ı Observaciones P estimada residuos Observaciones P estimada residuos 1 199,9 200,1 −0,2 8 365,0 311,8 53,2 2 228,0 226,3 1,7 9 295,0 320,8 −25,8 3 235,0 232,7 2,3 10 290,0 322,6 −32,6 4 285,0 271,2 13,8 11 385,0 365,1 19,9 5 239,0 274,4 −35,5 12 505,0 413,1 91,9 6 293,0 295,2 −2,2 13 425,0 440,9 −15,9 7 285,0 302,1 −17,1 14 415,0 468,6 −53,6 Tabla 2.2: Residuos de la regresi´n MCO. o ˆ Para almacenar Pi hay que elegir Guardar →Valores estimados. Sale una ventanilla en la que, por defecto, el valor ajustado o estimado de la variable end´gena se llama yhat1 y en la descripci´n o o aparece valores estimados mediante el modelo 1. Dado que nuestra variable dependiente es el precio de venta P , cambiamos de nombre a la variable y la renombramos como phat1. Si repetimos los pasos anteriores pero escogemos Guardar →Residuos, en la ventanilla correspondiente se nombra a los residuos como uhat1 y la descripci´n es residuos del modelo 1. Una vez guardadas o estas dos series, las encontramos en la ventana principal junto a la variable independiente P y la variable explicativa F 2. 2.4.4. Propiedades de la recta m´ ınimo-cuadr´tica a Vamos a realizar un peque˜o an´lisis de las variables que intervienen en la regresi´n m´ n a o ınimo- cuadr´tica, con objeto de estudiar las similitudes y relaciones que pueden existir entre ellas. a 36
  • 47. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Gr´fico 2.13: Residuos MCO a Estad´sticos principales, usando las observaciones 1 - 14 ı Variable Media Mediana M´nimo ı M´ximo a P 317, 493 291, 500 199, 900 505, 000 F2 1910, 93 1835, 00 1065, 00 3000, 00 phat1 317, 493 306, 958 200, 120 468, 602 uhat1 0, 000000 −1, 1919 −53, 601 91, 8983 Variable Desv. T´p. ı C.V. Asimetr´a ı Exc. de curtosis precio 88, 4982 0, 278741 0, 653457 −0, 529833 F2 577, 757 0, 302344 0, 485258 −0, 672125 phat1 80, 1640 0, 252491 0, 485258 −0, 672125 uhat1 37, 4921 6, 15597e+15 1, 02687 0, 817927 Tabla 2.3: Estad´ ısticos descriptivos de variables de la FRM Finalmente, generalizaremos estos resultados, comprobando que estas propiedades se cumplen en cualquier regresi´n lineal m´ o ınimo-cuadr´tica. a Comenzaremos obteniendo los estad´ ısticos descriptivos del regresor F 2, la variable end´gena P , o ˆ y su residuo u en Ver →Estad´ su ajuste P ˆ ısticos principales de la ventana inicial de Gretl: Analizando esta tabla-resumen de los datos comprobamos que: ¯ i) La media de los residuos (uhat1 ) es cero, u = 0. ˆ ¯ ¯ ii) Las medias de la variable dependiente Pi y la estimada (phat1 ) coinciden, P = P . iii) Los coeficientes de asimetr´ y curtosis de la variable dependiente ajustada Pi coinciden ıa con las de la variable independiente F 2i . A continuaci´n, vamos a analizar las relaciones lineales existentes entre estas variables. Mediante o Ver →Matriz de correlaci´n obtenemos la siguiente matriz de correlaciones: o Podemos ver que: 37
  • 48. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Coeficientes de correlaci´n, usando las observaciones 1 - 14 o valor cr´tico al 5% (a dos colas) = 0,5324 para n = 14 ı P F2 uhat1 phat1 1, 0000 0, 9058 0, 4236 0, 9058 P 1, 0000 −0, 0000 1, 0000 F2 1, 0000 −0, 0000 uhat1 1, 0000 phat1 Tabla 2.4: Matriz de correlaciones iv) Los valores ajustados Pi y el regresor F 2i est´n perfectamente correlacionados, a rP F 2 = 1. v) La correlaci´n entre los valores observados Pi con los valores ajustados Pi y la va- o riable explicativa F 2i es la misma, rP P = rP F 2 . vi) Los residuos ui y la variable explicativa F 2i est´n incorrelacionados, ruF 2 = 0. a vii) Los residuos ui y la variable ajustada Pi est´n incorrelacionados, ruP = 0. a Justificaci´n de estos resultados: La propiedad i) se deriva de la primera ecuaci´n normal o o ¯ = 0. Notar que la (2.5), que nos indica que la suma de los residuos ha de ser cero, por lo que u ˆ primera ecuaci´n normal existe s´lo si el modelo tiene t´rmino independiente y no en otro caso. o o e Por lo tanto, los resultados que se obtienen derivados de ella solo se cumplen en el caso de que ¯ ¯ ¯ ¯ ˆ ˆ el t´rmino independiente exista. De u = 0 y como Y = Y + u, se obtiene la propiedad ii). e ˆ Las propiedades iii), iv) y v) se deben a que los valores de P se obtienen de un cambio de ˆ ˆ origen y escala de la variable F 2, P = α + βF 2. Esta relaci´n implica que sus distribuciones de o frecuencias tienen las mismas las medidas de forma, est´n perfectamente correlacionadas entre a s´ y tienen la misma correlaci´n lineal frente a terceras variables. ı o ¯ La propiedad vi) se deriva de las ecuaciones normales (2.5), que indica que u = 0, y (2.6), ˆ que implica que los residuos son ortogonales a la variable explicativa X, i Xi ui = 0. Como ˆ consecuencia, la covarianza muestral entre residuo y variable explicativa es cero: N N 1 ¯ u ¯ 1 ¯¯ SX u ˆ = (Xi − X)(ˆi − u) = ˆ Xi ui − X u = 0 ˆ ˆ N N i=1 i=1 y, por tanto, la correlaci´n entre ambas variables es: ruX = SuX /Su SX = 0. Esto nos viene a o ˆ ˆ ˆ decir que en la parte del modelo que queda sin explicar, el residuo u, ya no queda nada que la ˆ variable ex´gena X pueda explicar o aportar en t´rminos lineales. Finalmente, bas´ndonos en o e a ˆ ˆ que ruX = 0 y que el ajuste Y es una transformaci´n lineal de X, se demuestra la propiedad o o ˆ vii), ruY = 0. De esta condici´n y dado que Yi = Yi + ui , se deriva una ultima propiedad: ˆ ´ viii) La varianza muestral de Y puede descomponerse en dos t´rminos: la varianza explicada e por X y la varianza residual, es decir, 2 2 2 SY = SY + Su ˆ ˆ 2.4.5. La precisi´n de la estimaci´n y la bondad del ajuste o o Una vez realizada las estimaciones de los coeficientes del modelo, la siguiente etapa del an´lisis a consiste en el an´lisis y evaluaci´n de los resultados. Por ejemplo nos interesa, a o 38
  • 49. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 1. Obtener una medida de la precisi´n en la estimaci´n de α y β. o o 2. Evaluar la calidad del ajuste a los datos, es decir, si la funci´n de regresi´n muestral, o o ˆ ˆ ˆ Yi = α + βXi , resume bien el comportamiento observado de la variable end´gena. o 3. Evaluar si el modelo propuesto es correcto o si hay alg´n error en la especificaci´n del u o modelo, en las hip´tesis planteadas. o Este apartado desarrolla los puntos 1 y 2. La respuesta al punto 3 es m´s compleja, de modo a que el siguiente apartado introduce algunos aspectos de la evaluaci´n del modelo. o La precisi´n de la estimaci´n o o La desviaci´n t´ o ıpica de la distribuci´n muestral de los estimadores es un buen indicador de o la precisi´n. Sin embargo, habitualmente la desviaci´n t´ o o ıpica de los estimadores tiene alg´n u elemento desconocido. Esto sucede en este caso, como puede comprobarse en la expresi´n de las o varianzas (2.9) y (2.10), que dependen de la varianza de la perturbaci´n var(ui ) = σ 2 . Podemos o obtener una estimaci´n de la desviaci´n t´ o o ıpica sustituyendo el par´metro poblacional σ por un a estimador insesgado, σ. El resultado se conoce como errores t´ ıpicos de los coeficientes de la regresi´n, es decir, o σ ˆ ¯ X2 Error t´ ıpico (ˆ ) α = des(ˆ ) α = √ 1+ 2 N N SX ˆ ˆ σ 1 ˆ Error t´ ıpico (β) = des(β) = √ N SX Un estimador insesgado de la varianza σ 2 es: N N 2 1 1 ˆ σ = ˆ u2 ˆi = (Yi − Yi )2 N −2 N −2 i=1 i=1 donde i u2 es la suma de cuadrados residual, (o SCR), y N − 2 son los grados de liber- ˆi tad que tenemos tras estimar α y β. Su ra´ cuadrada σ se conoce como error t´ ız ˆ ıpico de los perturbaciones o error t´ıpico de la regresi´n. Por tanto, la precisi´n de las estimaciones de o o los coeficientes aumenta con el n´mero de observaciones N y la dispersi´n del regresor SX y u o disminuye cuando crece el error t´ ıpico σ . ˆ De forma similar, se construye el siguiente estimador insesgado de la matriz de las varianzas y la covarianza de los estimadores MCO:   1 ¯ X2 −X ¯ + α var(ˆ ) α α ˆ cov(ˆ , β)   N ¯ 2 i (Xi − X) ¯ 2 i (Xi − X)   V = = σ2  ˆ  β α ˆ cov(ˆ , β) ˆ var(β)  1  ¯ (Xi − X)2 i → Errores t´ ıpicos de estimaci´n y estimaci´n de las varianzas en Gretl. En los resultados o o de estimaci´n del caso pr´ctico aparecen los siguientes valores relacionados con la precisi´n: o a o 39
  • 50. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Modelo 1: estimaciones MCO utilizando las 14 observaciones 1-14 Variable dependiente: P VARIABLE COEFICIENTE ´ DESV.TIP. ESTAD T VALOR P const 52,3509 37,2855 1,404 0,18565 F2 0,138750 0,0187329 7,407 <0,00001*** Suma de cuadrados de los residuos = 18273,6 Desviaci´n t´pica del os residuos = 39,023 o ı La columna encabezada por DESV. T´ proporciona los errores t´ IP. ıpicos de estimaci´n, es decir, o α ˆ des(ˆ ) y des(β). Se observa que es m´s precisa la estimaci´n del efecto marginal de la superficie a o del piso β que la de la ordenada α ya que su varianza estimada es menor. La desviaci´n t´o ıpica ıpico σ y Suma de cuadrados de los residuos es SCR = i u2 . de los residuos es el error t´ ˆ ˆi En esta tabla no aparece la estimaci´n de la varianza de la perturbaci´n, pero se puede calcular: o o o o ıpica de los residuos: σ 2 = 39, 02302 = 1522, 8. • De su relaci´n con la desviaci´n t´ ˆ • Dividiendo la suma de cuadrados de los residuos entre los grados de libertad N − 2, as´ ı 18273, 6 σ2 = ˆ = 1522, 8 14 − 2 Tambi´n es posible obtener la estimaci´n de la matriz de varianzas y covarianzas de los coefi- e o cientes de regresi´n seleccionando en el men´ del modelo An´lisis →Matriz de covarianzas de o u a los coeficientes. El resultado para el conjunto de 14 observaciones es: Matriz de covarianzas de los coeficientes de regresi´n o const sqft 1390,21 -0,670583 const 3,50920e-04 sqft ˆ ˆ Tabla 2.5: Estimaci´n de varianzas y covarianza de α y β. o ˆ α ˆ es decir, var(ˆ ) = 1390, 21, var(β) = 3, 5092 × 10−4 y cov(ˆ , β) = −0, 670583. α Los errores t´ıpicos de estimaci´n y de la regresi´n dependen de las unidades de medida, es o o decir, las podemos reducir o agrandar cuanto queramos con s´lo cambiar de escala las variables o dependiente e independiente. Por otro lado, interesa tener una medida que nos indique, en la medida de lo posible, si estamos ante unos buenos resultados de ajuste a los datos de la funci´n o de regresi´n muestral. o Bondad del ajuste La medida de la bondad del ajuste que vamos a utilizar es el coeficiente de determinaci´n, o 2 ´ R-cuadrado. Este coeficiente tiene la siguiente expresi´n en el modelo de regresi´n lineal R o o o 40
  • 51. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 simple: ¯ ˆ ˆ − Yi )2 ˆ2 i ui i (Yi R2 = rXY = 1 − 2 ¯ = ¯ 2 (2.13) i (Yi − Y )2 i (Yi − Y ) Este coeficiente mide la ganancia obtenida al pasar de un modelo sin variable explicativa X: Yi = α + ui a otro en el que se incluye esta variable: Yi = α + βXi + ui Por tanto el R-cuadrado mide la proporci´n de la variabilidad observada de la variable depen- o diente Y que se ha podido explicar por incluir de forma lineal en el modelo la variable explicativa X. Normalmente se interpreta en porcentajes, por ejemplo, se dice que la regresi´n explica el o 100 × R 2 por ciento de la variaci´n observada en Y . Es f´cil comprobar que: o a - ınimo-cuadr´tico equivale a maximizar R2 . El criterio m´ a - R2 = rY Y , mide la correlaci´n entre el valor observado y el valor predicho o ajustado 2 ˆ o con la regresi´n. Como 0 ≤ rY Y ≤ 1, si R2 0 diremos que el ajuste es pobre y, por el o 2 ˆ contrario, ser´ un buen ajuste cuando este estad´ a ıstico est´ pr´ximo a la unidad. e o Esta propiedad no se cumple en modelos sin t´rmino independiente, es decir, Yi = e βXi + ui . → Si analizamos el caso pr´ctico, vemos que el coeficiente de determinaci´n aparece en la tabla a o de resultados de estimaci´n, R-cuadrado = 0,820522. Podemos decir que este ajuste es bueno, o ya que la variabilidad muestral de la superficie de la vivienda (F 2) ha explicado el 82 % de la variabilidad muestral de los precios de venta de dichas viviendas (P ). 2.5. Contrastes de hip´tesis e intervalos de confianza o Al proponer un modelo para el precio de los pisos hemos asumido que el tama˜o del piso es el n factor m´s relevante en la fijaci´n de su precio. Las conclusiones que obtengamos de la estima- a o ci´n y predicci´n depender´n del cumplimiento de esta hip´tesis. Por tanto, conviene valorar si o o a o este supuesto es sensato. Para ello vamos a utilizar los contrastes de hip´tesis y los intervalos de o confianza sobre la distribuci´n de los estimadores. El planteamiento es el siguiente: o • Si el precio de un piso no se ve afectado por su superficie, entonces su efecto marginal es cero, luego β = 0, y diremos que la variable explicativa no es significativa o relevante para explicar Y . Si esto es cierto, el modelo propuesto no tiene sentido y debemos reformularlo. • Por el contrario, si el precio est´ relacionado con la superficie del piso, entonces β = 0 y a decimos que el regresor X es significativo o relevante para explicar (y predecir) Y . 2.5.1. Contrastes de hip´tesis sobre β o Contraste de significatividad individual de X. Para verificar si la variable independiente F 2 es significativa para determinar el precio medio de la vivienda, podemos realizar un contraste. Planteamos las siguientes hip´tesis a contrastar: o H0 : β = 0 (X no es significativa o relevante para explicar Y ) Ha : β = 0 (X es significativa o relevante para explicar Y ) 41
  • 52. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Para obtener un estad´ ıstico de contraste partimos de la siguiente variable aleatoria: β−β ∼ t(N −K) (2.14) des(β) El estad´ ıstico del contraste se obtiene sustituyendo en esta variable el valor recogido en H0 : β−0 H0 t= ∼ t(N −K) des(β) Es un contraste bilateral, como se observa en el siguiente gr´fico de la distribuci´n del estad´ a o ıstico bajo H0 : Gr´fico 2.14: Criterio de decisi´n del contraste de significatividad individual a o la regla de decisi´n es la siguiente: fijado un nivel de significaci´n α, o o - Rechazamos H0 si el valor muestral del estad´ıstico tm pertenece a la regi´n cr´ o ıtica, es decir, si es menor que −c = −t(N −K)α/2 o bien mayor que c = t(N −K)α/2 y concluimos que la variable explicativa es relevante. - No rechazamos H0 en otro caso, es decir, si el valor muestral tm se sit´a en el intervalo u [−c, c] con c = t(N −K)α/2 . Concluimos que la variable X no es relevante o significativa para explicar la variable dependiente Y . → Veamos si la superficie de la vivienda es un factor relevante para determinar su precio: H0 : β = 0 β H0 t= ∼ t(14−2) Ha : β = 0 des(β) ıstico tm se incluye en los resultados de estimaci´n, es la cuarta El valor muestral del estad´ o columna, encabezada por ESTAD T. Es decir, columna COEF ICIEN T E 0, 13875 EST AD T = tm = 7, 4068 = = columna DESV.T IP. 0, 0187329 El valor cr´ ıtico del contraste para el nivel de significaci´n del 5 % es c = t(14−2)0,05/2 = 2, 179. o Como resultado tenemos que 7, 4068 > 2, 179, por lo que tm pertenece a la regi´n cr´ o ıtica y, en consecuencia, rechazamos H0 a un nivel de significaci´n del 5 %. Podemos concluir que la o variable F 2 es significativa o relevante para determinar el precio medio de la vivienda. En el 42
  • 53. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 tema siguiente, veremos c´mo la columna VALOR P de la tabla de resultados de Gretl informa o sobre la conclusi´n del contraste. o Otros contrastes sobre β. Como hay evidencia estad´ ıstica de que β es distinto de cero y, por lo tanto, la variable explicativa X es significativa, nos puede interesar saber qu´ valor puede e tomar. Vamos a generalizar el procedimiento de contraste anterior. Veamos dos ejemplos. → Ejemplo 1. Ante un aumento de la superficie de la vivienda de un pie cuadrado, ¿podr´ el ıa precio medio de venta de la vivienda aumentar en 100 d´lares? Planteamos el contraste: o H0 : β = 0, 1 Ha : β = 0, 1 Sustituyendo en la variable (2.14) el valor bajo H0 , obtenemos el estad´ ıstico de contraste: β − 0, 1 H0 t= ∼ t(N −K) des(β) Hay que tener en cuenta que la columna ESTAD T de los resultados de estimaci´n de Gretl, o corresponde al valor muestral del estad´ıstico para H0: β = 0. Por tanto, tenemos que calcular el valor muestral del estad´ ıstico de contraste, que en este caso es: 0, 138750 − 0, 1 tm = = 2, 068 0, 0187329 El valor cr´ ıtico para α = 5 % es c = t(14−2)0,05/2 = 2, 179. Como el valor calculado cae fuera de la regi´n cr´ o ıtica, −2, 179 < 2, 068 < 2, 179, no rechazamos la H0 a un nivel de significaci´n del o 5 %. Por tanto, es posible un incremento de 100 d´lares en el precio medio de la vivienda ante o un aumento unitario en la superficie. → Ejemplo 2. Ante el mismo aumento unitario en la superficie, ¿podr´ el precio medio de ıa venta de la vivienda aumentar en 150 d´lares? Planteamos el contraste y, al igual que en el caso o anterior, llegamos al estad´ ıstico de contraste: H0 : β = 0, 15 β − 0, 15 H0 t= ∼ t(N −K) Ha : β = 0, 15 des(β) El estad´ ıstico de contraste en este caso toma el valor 0, 138750 − 0, 15 tm = = −0, 6005 ⇒ −c = −2, 179 < −0, 6005 < 2, 179 = c 0, 0187329 con c = t(12)0,025 . As´ no rechazamos H0 a un nivel de significaci´n del 5 % y tambi´n es posible ı, o e que si ∆F 2 = 1, entonces el precio medio de la vivienda aumente en 150$. Si observamos los contrastes anteriores, siempre y cuando el valor del estad´ ıstico calculado tm est´ fuera de la regi´n cr´ e o ıtica, es decir, en el intervalo [−2, 179; 2, 179] no rechazaremos la hip´tesis o nula propuesta. 43
  • 54. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 2.5.2. Intervalos de confianza Un intervalo de confianza est´ definido por dos valores entre los cuales se encuentra el valor del a par´metro con un determinado nivel de confianza que se denota (1−α). Para obtener el intervalo a de confianza del coeficiente β, definimos el intervalo de valores que tiene una probabilidad (1−α) en la distribuci´n (2.14) asociada al estimador. As´ o ı β−β P rob −t(N −2)α/2 ≤ ≤ t(N −2)α/2 = 1−α des(β) Reordenamos en funci´n del par´metro desconocido β: o a P rob β − t(N −2)α/2 des(β) ≤ β ≤ β + t(N −2)α/2 des(β) = 1−α y obtenemos el intervalo de confianza (1−α) para el par´metro β. Observamos que est´ centrado a a en la estimaci´n puntual y que se desv´ en una cantidad que est´ dada por t(N −K)α/2 veces su o ıa a error t´ ıpico de estimaci´n, des(β). Si estimamos con muy poca precisi´n, este intervalo ser´ am- o o a plio. Esto quiere decir que la variabilidad muestral del estimador acota a β en un intervalo m´s a amplio. En lo que sigue del curso emplearemos la siguiente notaci´n para expresar el intervalo o de confianza: ˆ ˆ IC(β)1−α = β ± t(N −2)α/2 des(β) El correspondiente intervalo de confianza para α se obtiene de forma similar: IC(α)1−α = α ± t(N −2)α/2 des(ˆ ) ˆ α → Continuando con la pr´ctica, vamos a obtener los intervalos de confianza para los dos coefi- a cientes de regresi´n. Para ello, vamos a An´lisis →Intervalos de confianza para los coeficientes. o a El resultado es: t(12, .025) = 2,179 VARIABLE COEFICIENTE INTERVALO DE CONFIANZA 95% const 52,3509 (-28,8872, 133,589) F2 0,138750 (0,0979349, 0,179566) Tabla 2.6: Estimaci´n por intervalo o En esta tabla de resultados, la segunda columna ofrece las estimaciones por punto, esto es, α = 52, 3509 y β = 0, 138750. La tercera indica los l´ ımites de los intervalos a una confianza del 95 %, esto es: IC(α)0,95 = [−28, 887 ; 133, 587] IC(β)0,95 = [0, 0979349 ; 0, 179566] Por tanto, podemos afirmar con un nivel de confianza del 95 % que, ante un aumento de la superficie de la vivienda de un pie cuadrado, el precio medio de venta de dicha vivienda aumen- tar´ entre 97,9349 y 179,566 d´lares. a o 44
  • 55. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 2.6. Resumen. Presentaci´n de los resultados o Los resultados de la estimaci´n de un modelo se suelen presentar de forma resumida, incluyendo o tanto la recta de regresi´n como un conjunto de estad´ o ısticos utiles para evaluar los resultados. ´ Una forma habitual de presentar la estimaci´n es la siguiente: o P = 52, 3509 + 0, 138750 F 2 (des) (37,285) (0,018733) 2 N = 14 R = 0, 82 σ = 39, 023 ˆ Bajo cada coeficiente estimado aparece su error t´ ıpico de estimaci´n. Otra opci´n es incluir los o o ısticos tm de significatividad individual o los grados de libertad. Por ejemplo, estad´ P = 52, 3509 + 0, 138750 F 2 (estad. t) (1,404) (7,407) 2 Grados libertad = 12 R = 0, 82 σ = 39, 023 ˆ 2.7. Ejercicios para practicar Ejercicio 1: Se quiere analizar los costes acumulados de reparaci´n de los coches Toyota (cost) en funci´n o o de la edad del coche (age). Para realizar este ejercicio deb´is utilizar los datos contenidos en el e archivo de muestra en Gretl data3-7 de Ramanathan, Toyota station wage repairs: 1. Con los datos del fichero, rellena los valores del cuadro siguiente: i 1 2 3 4 5 ... N costi ... agei ... 2. ¿Los datos son de secci´n cruzada o series temporales? ¿Cu´l es el tama˜o muestral? o a n 3. ¿Cu´l es el coste de reparaci´n del cuarto coche? ¿Cu´ntos a˜os tiene? a o a n 4. Obt´n los estad´ e ısticos principales de las variables cost y age. Com´ntalos. e 5. ¿Cu´l es la edad media muestral de los coches? a 6. Especifica un modelo para analizar los costes de reparaci´n de los coches. o 7. ¿Cu´l es la variable end´gena? ¿Y la explicativa? ¿Qu´ elementos de este modelo son a o e aleatorios? 8. Escribe la funci´n objetivo a minimizar para estimar este modelo por M´ o ınimos Cuadrados Ordinarios. 9. Escribe la Funci´n de Regresi´n Muestral. o o 45
  • 56. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 10. ¿Cu´l es el coste estimado para el primer coche de la muestra? ¿Y el residuo? a 11. Interpreta los coeficientes estimados. ¿Tienen los signos esperados? 12. El coche A tiene un a˜o m´s que el coche B (52 semanas). ¿Cu´l es la diferencia estimada n a a en el coste de reparacion de uno y otro? 13. Si la edad de un coche aumenta un mes (4 semanas), ¿en cu´nto se espera que incremente a su coste acumulado estimado? 14. ¿Cu´l es la expresi´n del coeficiente de determinaci´n? Interpreta el valor obtenido. a o o 15. Estima la varianza de las perturbaciones. 16. Estima la matriz de varianzas y convarianzas de los estimadores MCO de los coeficientes del modelo. 17. Calcula el intervalo de confianza del 95 % para el coeficiente de la variable age. 18. Contrasta la significatividad de la variable age. 19. ¿Crees que de una semana a la siguiente el coste medio acumulado de reparaci´n de un o Toyota puede aumentar 10 d´lares? o 20. Obt´n los siguientes gr´ficos y com´ntalos: e a e a) Los residuos a lo largo de la muestra. b) La variable end´gena y la estimada a lo largo de la muestra. o Ejercicio 2: Se dispone de una base de datos para 51 estados de E.E.U.U. sobre el gasto agregado en trans- porte urbano (EXP T RAV ) y la renta disponible agregada (IN COM E) correspondientes al a˜o 19933 . Las variables que se consideran son: n EXPTRAV Gasto agregado en transporte urbano, en billones de d´lares, (Rango 0,708 - 42,48). o INCOME Renta disponible agregada, en billones de d´lares, o (Rango 9,3 - 683,5). POP Poblaci´n, en millones, o (Rango 0,47 - 31,217). 1. Especifica un modelo para analizar si la renta disponible agregada explica el gasto agregado en transporte urbano. Interpreta sus coeficientes. 2. Estima el modelo por M´ ınimos Cuadrados Ordinarios. Comenta los resultados obtenidos en t´rminos de bondad de ajuste, significatividad y signos de los coeficientes estimados. e Razona si te parecen adecuados los resultados. 3. Obt´n e interpreta los siguientes gr´ficos: e a 3 Fichero data8-2.gdt. Fuente: Statistical Abstract of U.S. (1995), recogida en Ramanathan, R. (2002), Intro- ductory econometrics with applications, 5th. Ed., South-Western. 46
  • 57. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 • Gr´fico de la serie de residuos MCO. a • Gr´fico de residuos MCO sobre la variable P OP . a 4. ¿Podr´ un aumento de un mill´n de d´lares en la renta disponible agregada producir un ıa o o aumento, en media, de un bill´n de d´lares en el gasto en transporte urbano agregado? o o 5. Define e indica que miden las siguientes variables: EXP T RAV IN COM E EXP OP = y IN CP OP = . P OP P OP 6. Regresa la variable EXP OP sobre la variable IN CP OP y un t´rmino independiente. e a) Interpreta los coeficientes estimados. b) Contrasta la significatividad de la variable IN CP OP . c) Compara los resultados de ambos modelos, ¿cu´l te parece m´s razonable? a a 47
  • 58. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 48
  • 59. Tema 3 Modelo de Regresi´n Lineal M´ltiple o u 3.1. Introducci´n. Un ejemplo o En este tema consideramos introducir en el modelo de regresi´n, adem´s del t´rmino constante, o a e m´s de una variable explicativa por lo que pasamos del llamado modelo de regresi´n lineal simple a o al modelo de regresi´n lineal m´ltiple. o u Comenzamos con el ejemplo que se ha seguido en el tema sobre el Modelo de Regresi´n Lineal o Simple. El precio de una casa, en miles de d´lares, (P) era la variable dependiente y la variable o explicativa era el tama˜o de la casa o el n´mero de pies cuadrados del ´rea habitable (F2). n u a Ampliaremos el modelo incluyendo dos variables explicativas m´s, el n´mero de habitaciones a u (BEDRMS) y el n´mero de ba˜os (BATHS) siendo el modelo de regresi´n lineal m´ltiple1 u n o u Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui i = 1, 2, . . . , N (3.1) El modelo de regresi´n lineal general (MRLG), con K variables explicativas o Yi = β1 + β2 X2i + . . . + βK XKi + ui i = 1, 2, . . . , N. (3.2) se puede escribir en notaci´n matricial: o Y = X β + u (N ×1) (N ×K) (K×1) (N ×1) donde cada uno de los elementos se definen:         Y1 1 X21 · · · XK1 β1 u1  Y2   1 X22 · · · XK2   β2   u2          Y = .  X= . . .. .  β= .  u= .   .  .  .. . . . . .   . .   . .  YN 1 X2N · · · XKN βK uN Por el momento, seguimos suponiendo las mismas hip´tesis b´sicas sobre el t´rmino de pertur- o a e baci´n y sobre las variables explicativas o regresores, a saber: o i) E(ui ) = 0 ∀ i, E(u2 ) = σ 2 i ∀ i, E(ui uj ) = 0 ∀i = j. 1 Dado que seguimos con los mismos datos de secci´n cruzada utilizamos el sub´ o ındice i = 1, . . . , N . La notaci´n o para datos de series temporales suele ser t = 1, . . . , T . 49
  • 60. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a ii) La perturbaci´n sigue una distribuci´n normal. o o iii) Las variables X2 a Xk no son estoc´sticas, son fijas. Esto quiere decir que en muestras a repetidas de N observaciones de Yi , X2i , . . . , Xki , las variables X2i , . . . , Xki , i = 1, . . . , N tomar´ siempre los mismos valores. Este supuesto, junto a E(ui ) = 0, implica que los ıan regresores y el t´rmino de perturbaci´n est´n incorrelacionados. e o a iv) Los regresores son linealmente independientes, esto quiere decir que el rango de la ma- triz de datos de los regresores X es K tal que no tiene columnas repetidas ni unas son combinaciones lineales de otras. v) Adem´s se supone que se dispone de un n´mero suficiente de observaciones para estimar a u los par´metros βj , j = 1, . . . , K, esto es K < N . a Interpretaci´n de cada uno de los coeficientes de regresi´n: o o • Los par´metros βj , j = 2, . . . , K: a Manteniendo constante el valor del resto de variables explicativas, si Xji cambia en una unidad, Yi se espera que cambie en media βj unidades. • El par´metro β1 que acompa˜a al t´rmino constante recoge el valor esperado de la variable a n e dependiente cuando el resto de variables explicativas o regresores incluidos toman el valor cero. Siguiendo con el ejemplo, el modelo (3.1) se puede escribir en notaci´n matricial: o Y = X β + u (N ×1) (N ×4) (4×1) (N ×1) donde cada uno de los elementos se definen:         P1 1 F 21 BEDRM S1 BAT HS1 β1 u1  P2   1 F 22 BEDRM S2 BAT HS2   β2   u2        Y = . .  X= . . . . . . . .  β=   β3  u =  .   .   . . . .   ..  PN 1 F 2N BEDRM SN BAT HSN β4 uN Interpretaci´n de los coeficientes: o • El coeficiente β1 es el valor medio esperado de aquellas viviendas que no tienen ning´n pie u cuadrado de ´rea habitable, ni habitaciones ni ba˜os. a n • El coeficiente β2 : Considerando dos casas con el mismo n´mero de habitaciones y de ba˜os, para aquella u n casa que tenga un pie cuadrado m´s de ´rea habitable se espera que cambie en media su a a precio de venta en β2 miles de d´lares. o • El coeficiente β3 : Considerando dos casas con el mismo n´mero de pies cuadrados de ´rea habitable y n´mero u a u de ba˜os, para aquella casa que tenga una habitaci´n m´s se espera que cambie en media n o a su precio de venta en β3 miles de d´lares. o 50
  • 61. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 • El coeficiente β4 : Considerando dos casas con el mismo n´mero de pies cuadrados de ´rea habitable y n´mero u a u de habitaciones, para aquella casa que tenga un ba˜o m´s se espera que cambie en media n a su precio de venta en β4 miles de d´lares. o El an´lisis de regresi´n m´ltiple nos permite examinar el efecto marginal de una variable a o u explicativa en particular, una vez hemos controlado por otras caracter´ ısticas recogidas en el resto de variables explicativas que mantenemos constantes. Por eso a veces al resto de regresores se les llama variables de control. Veremos m´s adelante cu´ndo es importante controlar por otras a a variables y qu´ problemas tendremos si las omitimos. e 3.2. Estimaci´n de M´ o ınimos Cuadrados Ordinarios utilizando Gretl Se dispone de una base de datos sobre el precio de venta de una vivienda y distintas caracter´ ısti- cas de 14 viviendas vendidas en la comunidad universitaria de San Diego en 1990. Son datos de secci´n cruzada y las variables que se consideran son: o P: Precio de venta en miles de d´lares (Rango 199.9 - 505) o F2: Pies cuadrados de ´rea habitable (Rango 1065 - 3000) a BEDRMS: N´mero de habitaciones (Rango 3 - 4) u BATHS: N´mero de ba˜os (Rango 1,75 - 3) u n Los datos para P y F2 son los mismos que los utilizados en el ejemplo del Tema 2 sobre el modelo de regresi´n lineal simple. Adem´s tenemos informaci´n sobre dos nuevas variables que vamos o a o a considerar incluir como explicativas en el modelo para el precio de la vivienda. Comenzamos una sesi´n en Gretl para estimar este modelo con la muestra de 14 viviendas: o Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui i = 1, . . . , 14 En la parte de arriba de la ventana principal de Gretl tenemos distintas opciones. Si posicionamos el cursor podemos ir eligiendo dentro de ellas. 1. Leemos los datos que est´n disponibles en Gretl como archivo de muestra: a Archivo → Abrir datos → Archivo de muestra Elegir de Ramanathan el fichero data4-1 proporcionados en el cuarto cap´ ıtulo del libro de Ramanathan (2002). Abrir. 2. Podemos ver los datos de todas las variables, que aparecen en la Tabla 3.1. Las dos primeras columnas coinciden con los datos utilizados en el Tema 2. 3. Estimaci´n por M´ o ınimos Cuadrados Ordinarios (MCO). Modelo → M´ ınimos Cuadrados Ordinarios Se abre una nueva ventana. Utilizando el cursor, seleccionar de la lista de variables de la izquierda: • La variable dependiente (P) y pulsar elegir. 51
  • 62. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a P F2 BEDRMS BATHS 199.9 1065 3 1.75 228.0 1254 3 2.00 235.0 1300 3 2.00 285.0 1577 4 2.50 239.0 1600 3 2.00 293.0 1750 4 2.00 285.0 1800 4 2.75 365.0 1870 4 2.00 295.0 1935 4 2.50 290.0 1948 4 2.00 385.0 2254 4 3.00 505.0 2600 3 2.50 425.0 2800 4 3.00 415.0 3000 4 3.00 Tabla 3.1: Modelo (3.1). Datos de caracter´ ısticas de viviendas • Las variables independientes o regresores de esta especificaci´n y pulsar a˜adir cada o n vez. La variable Const es el t´rmino constante o variable que toma siempre valor uno. e Por defecto ya est´ incluida pero si no se quisiera poner se podr´ excluir. Simplemente a ıa habr´ que seleccionarla con el cursor y dar a Quitar. ıa Pinchar en Aceptar. Aparece una nueva ventana con los resultados de la estimaci´n2 . Iremos comentando los o resultados mostrados. Situando el cursor en la parte de arriba de esta ventana podremos ver que hay distintos men´s cuyas funciones estar´n asociadas a esta regresi´n. u a o 4. Hay varios formatos para guardar los resultados, como por ejemplo un formato compatible con Microsoft Word mediante: Editar → Copiar → RTF(Ms Word) Abrir un documento con Microsoft Word. Elegir Edici´n → Pegar. Se pegar´n todos los o a resultados de la ventana anterior. Guardar el documento y minimizar si se quiere volver a utilizar m´s tarde para pegar y guardar otros resultados. a 3.3. An´lisis de los resultados mostrados a En esta secci´n vamos a ir comentando los resultados que nos muestra el programa cuando o utilizamos la opci´n de estimaci´n por M´ o o ınimos Cuadrados Ordinarios. Algunos de estos resul- tados ya han sido comentados en el Tema 2 sobre el modelo de regresi´n lineal simple, pero o nos servir´ tambi´n de repaso. Una vez especificado el modelo, el programa Gretl muestra en la a e ventana gretl:modelo1 la siguiente informaci´n sobre la estimaci´n MCO del modelo con los o o datos del fichero elegido: 2 Recordar que esta ventana puede ser minimizada para su posible utilizaci´n posterior o el modelo puede o guardarse en la sesi´n como icono. Si la cerramos tendr´ o ıamos que volver a hacer lo mismo para obtener de nuevo esta ventana y poder elegir dentro de las opciones asociadas a esta regresi´n. o 52
  • 63. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Modelo 1: estimaciones MCO utilizando las 14 observaciones 1–14 Variable dependiente: P Variable Coeficiente Desv. t´ ıpica Estad´ ıstico t valor p const 129,062 88,3033 1,4616 0,1746 F2 0,154800 0,0319404 4,8465 0,0007 BEDRMS −21,587 27,0293 −0,7987 0,4430 BATHS −12,192 43,2500 −0,2819 0,7838 Media de la var. dependiente 317,493 D.T. de la variable dependiente 88,4982 Suma de cuadrados de los residuos 16700,1 Desviaci´n t´ o ıpica de los residuos (ˆ ) σ 40,8657 R2 0,835976 ¯ R2 corregido 0,786769 F (3, 10) 16,9889 valor p para F () 0,000298587 Log-verosimilitud −69,453 Criterio de informaci´n de Akaike o 146,908 Criterio de informaci´n Bayesiano de Schwarz o 149,464 Criterio de Hannan–Quinn 146,671 Algunos Gr´ficos a En la ventana de resultados de estimaci´n, Gretl nos ofrece la posibilidad de analizar el gr´fico o a de residuos as´ como el gr´fico de la variable observada y estimada tanto por observaci´n como ı a o sobre las distintas variables que hay en la especificaci´n del modelo. Por ejemplo elegimos o Gr´ficos → Gr´fico de residuos → Por n´mero de observaci´n a a u o y obtenemos el gr´fico de los residuos del modelo estimado para el precio de la vivienda a lo largo a de las 14 observaciones de la muestra En el gr´fico 3.1 se observa que los residuos se disponen a Residuos de la regresión (= price observada − estimada) 80 60 40 20 residuo 0 −20 −40 −60 2 4 6 8 10 12 14 Gr´fico 3.1: Gr´fico de residuos por n´mero de observaci´n a a u o alrededor del valor cero ya que esta es su media muestral. La dispersi´n de estos residuos es o mayor para las ultimas viviendas en la muestra. Si elegimos ´ 53
  • 64. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Gr´ficos → Gr´fico de residuos → Contra F2 a a obtenemos el gr´fico de los residuos sobre la variable F2. Este gr´fico muestra que la dispersi´n a a o de los residuos alrededor de su media muestral, que es cero, aumenta a mayor valor de F2. Esto sugiere que la hip´tesis b´sica sobre la varianza de la perturbaci´n constante pueda no ser o a o adecuada. Residuos de la regresión (= price observada − estimada) 80 60 40 20 residuo 0 −20 −40 −60 1500 2000 2500 3000 F2 Gr´fico 3.2: Gr´fico de residuos contra la variable F2 a a Otro gr´fico que ilustra la bondad del ajuste de nuestro modelo relativamente a los datos obser- a vados, es el gr´fico de la variable estimada y observada por n´mero de observaci´n. Para obtener a u o este gr´fico elegimos a Gr´ficos → Gr´fico de variable estimada y observada → por n´mero de observaci´n a a u o De esta forma obtenemos el siguiente gr´fico a price observada y estimada 1100 estimada observada 1000 900 800 price 700 600 500 400 300 2 4 6 8 10 12 14 observación Gr´fico 3.3: Gr´fico de la variable estimada y observada por n´mero de observaci´n a a u o En este gr´fico se puede observar el valor estimado del precio de las viviendas en la muestra, a dados los valores observados de las variables explicativas y el modelo estimado, en relaci´n al o precio observado. El ajuste parece empeorar para las ultimas viviendas en la muestra. Si hacemos ´ 54
  • 65. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 el gr´fico de la variable estimada y observada contra la variable F2 que recoge el tama˜o de las a n viviendas Gr´ficos → Gr´fico de variable estimada y observada → Contra F2 a a price con respecto a sqft, observada y estimada 550 estimada observada 500 450 400 price 350 300 250 200 150 1500 2000 2500 3000 F2 Gr´fico 3.4: Gr´fico de la variable estimada y observada contra F2 a a En el gr´fico 3.4 se observa que el modelo se ajusta mejor a las observaciones asociadas a las a viviendas de menor tama˜o, ya que los valores estimados est´n m´s concentrados alrededor n a a de los observados para esas viviendas. El ajuste es peor para viviendas de m´s de 2000 pies a cuadrados. 3.3.1. Coeficientes estimados Las estimaciones obtenidas de los coeficientes que se muestran en la segunda columna est´n a asociados a cada una de las variables explicativas que figuran al lado en la primera columna. Dadas las realizaciones muestrales de la variable dependiente Yi ≡ Pi , y explicativas, X2i ≡ F 2i , X3i ≡ BEDRM Si , X4i ≡ BAT HSi , las estimaciones se obtienen de minimizar la suma ˆ ˆ ˆ ˆ de cuadrados de los residuos con respecto a los coeficientes desconocidos β1 , β2 , β3 , β4 . Estos coeficientes estimados se han obtenido de utilizar el siguiente criterio de estimaci´n por el m´todo o e de M´ ınimos Cuadrados Ordinarios N m´ ın ˆ ˆ ˆ ˆ (Yi − β1 − β2 X2i − β3 X3i − β4 X4i )2 ˆ ˆ ˆ ˆ β1 ,β2 ,β3 ,β4 i=1 Las condiciones de primer orden de este problema resultan en cuatro ecuaciones con cuatro inc´gnitas. o Yi = ˆ ˆ N β1 + β2 ˆ X2i + β3 ˆ X3i + β4 X4i Yi X2i = ˆ β1 ˆ X2i + β2 2 ˆ X2i + β3 ˆ X3i X2i + β4 X4i X2i Yi X3i = ˆ β1 ˆ X3i + β2 ˆ X2i X3i + β3 2 ˆ X3i + β4 X4i X3i Yi X4i = ˆ β1 ˆ X4i + β2 ˆ X2i X4i + β3 ˆ X3i X4i + β4 2 X4i 55
  • 66. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Estas ecuaciones se conocen con el nombre de Ecuaciones Normales. Al igual que en el modelo de regresi´n lineal simple, la primera ecuaci´n o primera condici´n asociada al t´rmino constante o o o e implica que la suma de los residuos debe de ser cero. El resto de ecuaciones implican que los residuos tienen que ser ortogonales a cada una de las variables explicativas. En conjunto, estas condiciones implican que los residuos de la estimaci´n MCO est´n incorrelacionados con los o a regresores. En t´rminos matriciales se pueden escribir como: e ˆ X Y = (X X)β ⇔ ˆ X (Y − X β) = 0 ⇔ Xu=0 ˆ Si las cuatro ecuaciones son linealmente independientes, el rango de (X X) es igual a K = 4, y por lo tanto existe una unica soluci´n a este sistema de ecuaciones. La soluci´n ser´ el estimador ´ o o a MCO del vector de par´metros β. a ˆ βM CO = (X X)−1 X Y Sustituyendo los valores muestrales del fichero data4-1 para Y y X dar´ lugar a las estima- ıan ciones obtenidas de los coeficientes. Para el modelo especificado en la ecuaci´n (3.1), la relaci´n estimada es o o Pi = 129, 062 + 0, 1548 SQFTi − 21, 588 BEDRMSi − 12, 193 BATHSi (3.3) Aunque hemos utilizado los mismos datos para P y F2 que en el Tema 2, el incluir las dos nuevas variables explicativas en el modelo ha hecho que las estimaciones de los coeficientes asociados al t´rmino constante y a F2 hayan cambiado3 . e Esto ocurre porque las nuevas variables BEDRMS y BATHS est´n correlacionadas con la ya a incluida F2 y su media es distinta de cero4. Si esto no ocurriera y X3i = X4i = X2i X3i = X2i X4i = 0, las ecuaciones normales quedar´ de la siguiente forma ıan Yi ˆ ˆ = N β1 + β2 X2i ⇔ ˆ ˆ (Yi − β1 − β2 X2i ) = 0 Yi X2i ˆ = β1 ˆ X2i + β2 2 X2i ⇔ ˆ ˆ (Yi − β1 − β2 X2i )X2i = 0 Yi X3i ˆ = β3 2 ˆ X3i + β4 X4i X3i Yi X4i ˆ = β3 ˆ X3i X4i + β4 2 X4i 3 En el caso de considerar un MRLS solamente con F2 adem´s de la constante se obten´ a ıa P = 52, 3509 + 0, 138750 F2 (37,285) (0,018733) T = 14 ¯ R2 = 0, 8056 F (1, 12) = 54, 861 σ = 39, 023 ˆ (Desviaciones t´ ıpicas entre par´ntesis) e 4 Usando las observaciones 1 - 14, la matriz de correlaciones entre BEDRMS, BATHS y F 2 es F2 BEDRMS BATHS 1, 0000 0, 4647 0, 7873 F2 1, 0000 0, 5323 BEDRMS 1, 0000 BATHS Variable Media y las medias muestrales de BEDRMS y BATHS son: BEDRMS 3, 64286 BATHS 2, 35714 56
  • 67. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 ˆ ˆ Dadas esas condiciones, las dos ultimas ecuaciones no dependen de β1 ni de β2 y las dos primeras ´ ecuaciones normales coinciden con las que se obten´ en el Tema 2 para el modelo de regresi´n ıan o lineal simple. Por lo tanto, en ese caso se obtendr´ la misma soluci´n para β ıa o ˆ1 y β2 que en el ˆ MRLS inlcuyendo solamente el t´rmino constante y F 2 ≡ X2 y entonces las mismas estimaciones e de esos coeficientes. Por lo tanto, en general no da lo mismo incluir o no otras variables en el modelo a la hora de estimar el efecto de una variable sobre la variable dependiente. Interpretaci´n de los coeficientes estimados. o El coeficiente estimado que acompa˜a a la variable F2, variable que recoge el tama˜o total de la n n vivienda, es positivo y parece ser el signo adecuado. Si consideramos dos viviendas con el mismo n´mero de ba˜os y habitaciones, parece razonable pensar que aquella con mayor ´rea habitable u n a tenga un precio mayor. Esto indica que las habitaciones ser´n m´s grandes. a a Los signos de los coeficientes asociados a BEDRMS y BATHS son negativos. Podemos pensar que si aumenta el n´mero de habitaciones o el n´mero de ba˜os, esto indicar´ una vivenda m´s u u n ıa a lujosa y por lo tanto deber´ de aumentar el valor de la vivienda. Pero hay que tener en cuenta ıa que a la hora de interpretar un coeficiente de regresi´n asociado a uno de los regresores estamos o manteniendo constante el resto de variables explicativas. Si la misma superficie habitable se tiene que dividir para poder incluir una nueva habitaci´n, el o resultado ser´ que cada habitaci´n ser´ m´s peque˜a. El signo del coeficiente estimado indica que a o a a n un comprador medio valora negativamente tener m´s habitaciones a costa de un menor tama˜o a n de ´stas. Lo mismo se puede interpretar en el caso del coeficiente que acompa˜a a BATHS. e n Interpretaci´n de los coeficientes estimados: o ˆ • El coeficiente estimado β1 = 129, 062 indica el precio medio estimado en miles de euros, de aquellas viviendas que no tienen ning´n pie cuadrado de ´rea habitable, ni habitaciones u a ni ba˜os. n ˆ • El coeficiente estimado β2 = 0, 154800: Considerando dos casas con el mismo n´mero de habitaciones y de ba˜os, para aquella u n casa que tenga un pie cuadrado m´s de ´rea habitable se estima que en media su precio a a de venta se incremente en 154.800 d´lares. o ˆ • El coeficiente estimado β3 = −21, 5875: Si aumenta el n´mero de habitaciones, manteniendo constante el tama˜o de la vivienda y u n el n´mero de ba˜os, el precio medio se estima disminuir´ en 21.588 d´lares. u n a o ˆ • El coeficiente β4 = −12, 1928: Manteniendo el tama˜o de la vivienda y el n´mero de habitaciones constante, a˜adir un n u n ba˜o completo m´s significa tener habitaciones m´s peque˜as, por lo que el precio medio n a a n se estima disminuir´ en 12.193 d´lares. a o ¿Se mantendr´ el signo del coeficiente que acompa˜ a a BEDRMS si no incluimos ıa n la variable F2 ni BATHS? Pues seguramente no, porque en ese caso no estamos controlando por esa variable en la regre- si´n, y como hemos visto F2 y BEDRMS est´n correlacionados. Por lo tanto m´s habitaciones o a a implicar´ mayor superficie de piso, y por lo tanto m´s precio en media. Lo mismo ocurrir´ si ıa a ıa solamente incluimos BATHS. Ahora bien, ¿qu´ ocurrir´ si excluimos solamente F2 y dejamos e ıa 57
  • 68. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a las otras dos variables explicativas? Veremos las implicaciones que tiene omitir o no controlar por variables relevantes en un tema posterior. Estimaci´n del incremento medio en el precio de la vivienda ante cambios en las o variables explicativas. Utilizando los resultados (3.3) de la estimaci´n del modelo (3.1), si manteniendo el n´mero de o u ba˜os tenemos dos habitaciones m´s y aumenta el ´rea habitable en 500 pies cuadrados, el n a a cambio en el precio medio estimado de una vivienda ser´ de 34.224 d´lares, esto es a o Pi = 0, 1548 F2i − 21, 588 BEDRMSi = (0, 1548 × 500) − (21, 588 × 2) = 34, 224 miles de d´lares o 3.3.2. Desviaciones t´ ıpicas e intervalos de confianza Por el momento nos hemos centrado en la interpretaci´n de las estimaciones puntuales. Pero o tambi´n tenemos que tener en cuenta que estas estimaciones son realizaciones muestrales de e un estimador, que es una variable aleatoria. Por lo tanto, pueden estar sujetas a variaci´n o muestral ya que distintas muestras puedan dar lugar a distintas realizaciones muestrales. Estas estimaciones de un mismo vector de par´metros β estar´n distribuidas con mayor o menor a a variaci´n alrededor de su valor poblacional siguiendo cierta distribuci´n de probabilidad. o o Bajo las hip´tesis b´sicas que hemos enumerado al principio de este tema, el valor poblacional o a a o ˆ del vector de par´metros β es la media de la distribuci´n ya que βM CO es un estimador insesgado. Su distribuci´n es una Normal y la matriz de varianzas y covarianzas viene dada por la expresi´n o o ˆM CO ) = σ 2 (X X)−1 . Esto se suele denotar como V (β ˆ βM CO ∼ N (β, σ 2 (X X)−1 ) (3.4) La varianza de las perturbaciones, σ 2 , es un par´metro desconocido. Un estimador insesgado de a la misma bajo las hip´tesis b´sicas es o a uu ˆˆ σ2 = ˆ N −K ˆ donde u = Y −X βM CO es el vector de residuos. El programa, en la ventana gretl:modelo1 muestra ˆ las realizaciones muestrales de la suma de cuadrados de los residuos (SCR), u u = 16700, 1 y de √ ˆˆ o ıpica de los residuos σ 2 = 40, 8657. la desviaci´n t´ ˆ Un estimador insesgado, bajo las hip´tesis b´sicas, de la matriz de varianzas y covarianzas de o a ˆM CO es β ˆ ˆ V (βM CO ) = σ 2 (X X)−1 ˆ En la ventana de resultados de la estimaci´n del modelo por MCO, gretl:modelo1, podemos o o ˆ ˆ obtener la realizaci´n muestral de este estimador V (βM CO ) = σ 2 (X X)−1 eligiendo: ˆ An´lisis → Matriz de covarianzas de los coeficientes a Se abre una nueva ventana, gretl:covarianzas de los coeficientes, donde se muestra la es- timaci´n de las varianzas (elementos de la diagonal principal) y covarianzas (elementos fuera o o ˆ de la diagonal principal) de los coeficientes de regresi´n β, como se muestra en la Tabla 3.2. Dado que es una matriz sim´trica, solamente aparecen los valores por encima de la diagonal e 58
  • 69. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Matriz de covarianzas de los coeficientes const F2 BEDRMS BATHS 7797, 47 0, 670891 −1677, 1 −1209, 3 const 0, 00102019 −0, 0754606 −0, 995066 F2 730, 585 −356, 40 BEDRMS 1870, 56 BATHS ˆ Tabla 3.2: Modelo (3.1). Estimaci´n de la matriz de covarianzas de β o principal. La ra´ cuadrada de los elementos de la diagonal principal son los mismos valores que ız los mostrados en la tercera columna de la ventana gretl:modelo1. Por ejemplo, la varianza ˆ ˆ estimada del coeficiente β2 asociado a F2 es var(β2 ) = 0, 00102019 y su ra´ cuadrada es su ız desviaci´n t´ ˆ o ıpica estimada des(β2 ) = 0, 0319404. Tambi´n podemos obtener estimaciones de las covarianzas entre los coeficientes estimados. Por e ˆ ˆ ejemplo, la covarianza estimada entre los coeficientes β2 asociado a F2 y β4 asociado a BAT HS ˆ ˆ ˆ es igual a cov(β2 , β4 ) = −0, 995066. Intervalos de confianza: Seguidamente vamos a ver c´mo podemos obtener intervalos de confianza para cada coeficiente o individual. ¿Qu´ nos indican estos intervalos? ¿Cu´l es su utilidad? e a Bajo las hip´tesis b´sicas, se puede demostrar que la variable aleatoria o a ˆ βj − βj ∼ t(N − K) (3.5) ˆ des(βj ) ˆ donde des(βj ) es la desviaci´n t´ ˆ o ıpica estimada del estimador βj y t(N −K) denota la distribuci´n o t de Student de (N − K) grados de libertad. Esto es v´lido para cualquiera de los coeficientes a βj , j = 1, . . . , K. Denotamos por c = t(N −K)α/2 la ordenada de la distribuci´n t de Student con N − K grados o de libertad, tal que deja a la derecha una probabilidad de α/2, esto es P (t > c) = α/2. Esto implica que: ˆ βj − βj P r −c ≤ ≤c = ˆ des(βj ) ˆ ˆ ˆ ˆ P rob βj − c des(βj ) ≤ βj ≤ βj + c des(βj ) = 1 − α (3.6) Por lo tanto, un intervalo de confianza del (1 − α) por ciento para un coeficiente cualquiera βj viene dado por ˆ ˆ IC(βj )1−α = βj ± c des(βj ) El c´lculo de los intervalos de confianza para los coeficientes de regresi´n del modelo se conoce a o con el nombre de estimaci´n por intervalo. Un intervalo de confianza nos dice que, con o probabilidad (1 − α) se estima que el par´metro βj estar´ dentro de ese rango de valores. Este a a intervalo puede ser demasiado amplio, y esto depender´ de la precisi´n con la que estimemos los a o ˆ par´metros recogido en des(βj ). Es importante tener en cuenta que la validez de estos intervalos a de confianza depende de que se satisfagan las hip´tesis b´sicas. o a 59
  • 70. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Siguiendo con el ejemplo del modelo (3.1) para el precio de la vivienda, Gretl nos permite obtener directamente los intervalos de confianza del 95 por ciento para los coeficientes. El resultado mostrado en la Tabla 3.3 se obtiene eligiendo en la ventana gretl:modelo1 An´lisis → Intervalos de confianza para los coeficientes a Variable Coeficiente Intervalo de confianza 95 % bajo alto const 129,062 −67,690 325,814 F2 0,154800 0,0836321 0,225968 BEDRMS −21,587 −81,812 38,6376 BATHS −12,192 −108,56 84,1742 Tabla 3.3: Modelo (3.1): Estimaci´n por intervalo de los coeficientes. o A su vez, utilizando los resultados mostrados en la ventana gretl:modelo1 Modelo 1: estimaciones MCO utilizando las 14 observaciones 1–14 Variable dependiente: P Variable Coeficiente Desv. t´ ıpica Estad´ ıstico t valor p const 129,062 88,3033 1,4616 0,1746 F2 0,154800 0,0319404 4,8465 0,0007∗∗∗ BEDRMS −21,587 27,0293 −0,7987 0,4430 BATHS −12,192 43,2500 −0,2819 0,7838 podemos obtener intervalos de confianza para cada uno de los coeficientes, dado un nivel de confianza (1 − α), por ejemplo del 95 por ciento5 . Los intervalos de confianza obtenidos son: β1 : 129, 0620 ± (2, 228 × 88, 3033) β2 : 0, 1548 ± (2, 228 × 0, 0319404) β3 : −21, 5875 ± (2, 228 × 27, 0293) β4 : −12, 1928 ± (2, 228 × 43, 2500) El intervalo de confianza adem´s se puede utilizar para contrastar la hip´tesis de que el par´metro a o a βj tome determinado valor. Si el valor del par´metro bajo la hip´tesis nula est´ dentro del a o a intervalo de confianza, no podemos rechazar esa hip´tesis al nivel de significaci´n α. Dada la o o muestra y nuestra especificaci´n del modelo, no podemos rechazar con una confianza del 95 por o ciento, excepto para el par´metro asociado a F2, que el coeficiente asociado a cada una de estas a variables sea igual a cero ya que este valor est´ dentro del intervalo de confianza. ¿Quiere decir a entonces que el valor poblacional de cada uno de esos par´metros es cero? La respuesta es NO, a ya que por esa misma regla de tres el par´metro βj deber´ de tomar cada uno de los valores en a ıa el intervalo. 5 Al 95 por ciento de confianza, (α/2 = 0, 025), el valor en las tablas de la distribuci´n t de Student con 10 o grados de libertad es c = t(10)0,025 = 2, 228. Recordar que Gretl permite acceder a algunos valores tabulados de distintas distribuciones, Normal, t-Student, Chi-cuadrado, F de Snedecor. En la ventana principal gretl en Herramientas → Tablas estad´ ısticas. En el caso de la t de Student hay que introducir los grados de libertad (gl). Los valores mostrados corresponden a los valores de α/2 de 0,10-0,05-0,025-0,01-0,001. 60
  • 71. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 3.3.3. Significatividad individual y conjunta Contrastes de significatividad individual Uno de los principales objetivos de un primer an´lisis de regresi´n es la de contrastar si son a o o no estad´ısticamente relevantes los factores que hemos considerado como explicativos de la variable dependiente en cuesti´n, dada la especificaci´n de nuestro modelo. Podemos considerar o o individualmente cada regresor y contrastar: H0 : βj = 0 Ha : βj = 0 donde la hip´tesis nula implica que, dada la especificaci´n del modelo una vez se ha controlado o o por el resto de factores incluidos como variables explicativas, el efecto marginal de la variable Xj sobre el valor medio de la variable dependiente es cero. Dado que en la hip´tesis alternativa se contempla la posibilidad de que el coeficiente, de ser o distinto de cero, pueda ser indistintamente negativo o positivo, el contraste es a dos colas. Normalmente en estos contrastes, conocidos con el nombre de contrastes de significatividad individual, se considera esta alternativa. El estad´ ıstico de contraste y su distribuci´n bajo la hip´tesis nula es: o o ˆ βj H0 tj = ∼ t(N − K) (3.7) des(βˆj ) ıstico, tm , ¿c´mo decidimos si rechazar o no la Una vez obtenido el valor muestral del estad´ j o hip´tesis nula? o • Se elige un nivel de significaci´n α que indicar´ nuestra elecci´n de la probabilidad de o ıa o error de tipo I (rechazar la hip´tesis nula cuando esta fuera cierta) o tama˜o del contraste. o n Obtenemos el valor cr´ ıtico o umbral c = t(N −K)α/2 tal que P r(tj > c) = α/2. • Rechazamos la hip´tesis nula a un nivel de significaci´n α, si en valor absoluto la realizaci´n o o o muestral del estad´ ıtico |tm | > c. No rechazamos la hip´tesis ıstico es mayor que el valor cr´ j o nula en caso contrario. Si no se rechaza la hip´tesis nula, en el lenguaje econom´trico se dice que la variable que o e acompa˜a al coeficiente en cuesti´n no es significativa o que el coeficiente no es significativamente n o distinto de cero al α por ciento de significaci´n. Si por el contrario se rechaza la hip´tesis nula, o o se dice que la variable es significativa o que el coeficiente es significativamente distinto de cero. Otra forma de llevar a cabo el contraste es utilizar el valor-p. Este valor es una probabilidad e indica cu´l ser´ el menor nivel de significaci´n que se tendr´ que elegir para rechazar la hip´tesis a ıa o ıa o nula, dada la realizaci´n muestral del estad´ o ıstico. Si el contraste es a dos colas, el valor-p es dos veces el ´rea a la derecha de la realizaci´n muestral del estad´ a o ıstico en valor absoluto, en la distribuci´n de ´ste bajo la hip´tesis nula, esto es o e o valor-p = 2 Pr(tj > tm |H0 ) j Si el contraste es a una cola, el valor-p ser´ el ´rea a la derecha de la realizaci´n muestral del ıa a o estad´ıstico en valor absoluto, en la distribuci´n de ´ste bajo la hip´tesis nula, esto es P r(tj > o e o tm |H0 ). A mayor valor-p, mayor ser´ la probabilidad de error de tipo I si elegimos rechazar la j ıa 61
  • 72. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a hip´tesis nula. Luego a mayor valor-p menor evidencia contra la hip´tesis nula y por el contrario o o a menor valor-p mayor evidencia contra la hip´tesis nula. o ¿Cu´l ser´ la regla de decisi´n del contraste mirando al valor-p? a a o Rechazar la hip´tesis nula si el valor-p es menor que el nivel de significaci´n elegido y no o o rechazarla en caso contrario. Esta es exactamente la misma regla de decisi´n que antes. Elegido un nivel de significaci´n, si o o el valor muestral es mayor en valor absoluto que el valor cr´ıtico c, querr´ decir que dos veces la a probabilidad que deja a la derecha el valor muestral es m´s peque˜o que ese nivel de significaci´n. a n o Siguiendo con nuestro ejemplo, vamos a comentar qu´ nos indican la cuarta y quinta columna e que aparec´ en la ventana de resultados de la estimaci´n por MCO del modelo (3.1) gre- ıan o tl:modelo1. Modelo 1: estimaciones MCO utilizando las 14 observaciones 1–14 Variable dependiente: P Variable Coeficiente Desv. t´ ıpica Estad´ ıstico t valor p const 129,062 88,3033 1,4616 0,1746 F2 0,154800 0,0319404 4,8465 0,0007∗∗∗ BEDRMS −21,587 27,0293 −0,7987 0,4430 BATHS −12,192 43,2500 −0,2819 0,7838 Los valores obtenidos en la cuarta columna se obtienen de dividir los correspondientes valores de la segunda y tercera columnas esto es, la estimaci´n del coeficiente dividida por su desviaci´n o o t´ ıpica estimada. Esta ser´ la realizaci´n muestral del estad´ ıa o ıstico tj bajo la hip´tesis nula de que o el valor poblacional del par´metro βj asociado a esa variable es igual a cero. a La quinta columna es el valor-p asociado a cada coeficiente, siendo el contraste de significatividad individual a dos colas. Habitualmente se eligen como niveles de significaci´n el 1 %, 5 % y 10 % o siendo el 5 % el m´s utilizado. Gretl indica con uno, dos o tres asteriscos cuando se rechaza la a hip´tesis nula al 10 %, al 5 %, o al 1 % respectivamente. o En este caso solamente es significativa la variable F2 al 1 % y se indica con tres asteriscos. El valor-p asociado a esta variable es m´s peque˜o que 0,01 y por lo tanto que 0,05 y que 0,1. a n Para el resto de coeficientes no se rechazar´ la hip´tesis nula. Los coeficientes asociados al ıa o t´rmino constante, BEDRMS y BATHS no ser´ significativamente distintos de cero ni siquiera e ıan al 10 %. El valor-p asociado es mayor que 0,1. Estos valores oscilan entre 0,175 y 0,784 por lo que, si rechaz´semos la hip´tesis nula de que cada uno de estos coeficientes es cero, habr´ desde a o ıa un 17,5 a un 78,4 por ciento de probabilidad de cometer el error de rechazar esa hip´tesis siendo o cierta. Si miramos a los valores cr´ ıticos en cada uno de estos niveles de significaci´n tenemos que: o α = 0, 01 t(10)0,005 = 3, 169 α = 0, 05 t(10)0,025 = 2, 228 α = 0, 1 t(10)0,05 = 1, 812 ısticos tm en valor absoluto Excepto en el caso de la variable F2, el valor muestral de los estad´ j es m´s peque˜o que cualquiera de estos valores cr´ a n ıticos. Por lo tanto solamente se rechaza la hip´tesis nula de que el coeficiente asociado a la variable SQFT sea igual a cero. Esto parece o 62
  • 73. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 indicar que dado que el n´mero de habitaciones y de ba˜os est´ ya recogido en el tama˜o de la u n a n vivienda, una vez incluimos esta variable el tener m´s o menos habitaciones o ba˜os no tiene un a n efecto marginal significativo en el precio medio de ´sta. Lo normal es tener una vivienda con un e n´mero de habitaciones y ba˜os proporcional a su tama˜o. u n n Esto mismo concluimos mirando a los intervalos de confianza, aunque en ese caso el nivel de significaci´n elegido s´lo fue del 5 por ciento. o o Contraste de significaci´n conjunta o Otro estad´ ıstico que se muestra en la ventana de resultados de la estimaci´n es el valor del o estad´ ıstico F (3, 10) = 16,9889 con valor-p = 0, 000299. ¿Qu´ hip´tesis nula se est´ contrastando? e o a ¿C´mo se calcula este estad´ o ıstico? La hip´tesis nula que se est´ contrastando es que conjuntamente todos lo coeficientes, excepto o a el asociado al t´rmino constante, sean cero. En nuestro ejemplo en concreto e H0 : β2 = β3 = β4 = 0 Ha : alguna de las igualdades no se cumple Este estad´ıstico se puede considerar como un contraste general de bondad de ajuste del modelo. Si la hip´tesis nula no se rechaza podemos concluir que ninguna de las variables en conjunto o puede explicar la variaci´n en el precio de la vivienda. Esto significa que es un modelo muy o pobre y que debiera de ser reformulado. Estamos excluyendo de la hip´tesis nula el par´metro que acompa˜a al t´rmino constante. El o a n e modelo bajo la hip´tesis nula, al que llamaremos Modelo Restringido es: o Modelo Restringido Pi = β1 + ui i = 1, 2, . . . , N (3.8) Este modelo incluye solamente un t´rmino constante como regresor y le compararemos con el e Modelo No Restringido (3.1). El estimador MCO del par´metro β1 en el modelo restringido es a aqu´l que e N m´ ın ˆ (Yi − β1 )2 ˆ β1 i=1 En este caso tenemos solamente un par´metro a estimar por lo que s´lo hay una ecuaci´n normal, a o o ˆ Yi = N β1 (3.9) i cuya soluci´n es o ˆ 1 ¯ β1,R = Yi = Y N i El coeficiente estimado que acompa˜a al t´rmino constante nos recoge simplemente la me- n e dia muestral de la variable dependiente. El residuo correspondiente al modelo restringido es ˆ ¯ ui,R = Yi − β1,R = Yi − Y , por lo que la suma de cuadrados residual coincide con la suma ˆ de cuadrados total o variaci´n total de la variable dependiente. Esto implica que la suma de o cuadrados explicada o variaci´n explicada con la estimaci´n de este modelo (3.8) es nula o o SCRR = u2 = ˆi,R (Yi − Y )2 = SCT ⇒ SCER = 0 i i 63
  • 74. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Por ultimo, y teniendo en cuenta como se define el coeficiente de determinaci´n R2 ´ o ˆ2 i ui R2 = 1 − ¯ i (Yi − Y )2 para este modelo el coeficiente de determinaci´n es igual a cero6 . Dado que en el modelo solamen- o te incluimos un regresor que no var´ ´ste no puede explicar variaci´n o varianza de la variable ıa, e o dependiente. Si estimamos con Gretl el modelo (3.8) obtenemos los siguientes resultados: Modelo 2: estimaciones MCO utilizando las 14 observaciones 1–14 Variable dependiente: P Variable Coeficiente Desv. t´ ıpica Estad´ ıstico t valor p const 317,493 23,6521 13,4234 0,0000 Media de la var. dependiente 317,493 D.T. de la variable dependiente 88,4982 Suma de cuadrados de los residuos 101815, Desviaci´n t´ o ıpica de los residuos (ˆ ) σ 88,4982 R2 0,000000 ¯ R2 corregido 0,000000 Grados de libertad 13 Log-verosimilitud −82,108 Criterio de informaci´n de Akaike o 166,216 Criterio de informaci´n Bayesiano de Schwarz o 166,855 Criterio de Hannan–Quinn 166,157 Podemos comprobar que la estimaci´n del coeficiente que acompa˜a al t´rmino constante coin- o n e cide con la media muestral de la variable dependiente (P ¯ = 317, 493). La desviaci´n t´ o ıpica de los residuos coincide con la desviaci´n t´ o ıpica de la variable dependiente, ya que la suma de cuadrados residual coincide con la suma de cuadrados total, SCRR = i u2 = i (Yi − Y )2 = 101815, y ˆi,R tambi´n los grados de libertad de ambas, T − K = T − 1 = 13. Por lo tanto, e ˆ2 i ui,R − Y )2 i (Yi = = 88, 4982 13 13 Por ultimo, el coeficiente de determinaci´n R2 es igual a cero. ´ o Un estad´ıstico general de contraste de restricciones lineales es aqu´l que compara las sumas e de cuadrados de residuos de la estimaci´n del modelo restringido y del modelo no restringi- o do, teniendo en cuenta los grados de libertad en la estimaci´n de cada modelo,(glR ) y (glN R ) o respectivamente 7 (SCRR − SCRN R )/q H0 F = ∼ F(q, N − K) (3.10) SCRN R /(N − K) donde q = (glR − glN R ) es el n´mero de restricciones bajo la hip´tesis nula y N − K = glN R . u o Si dividimos numerador y denominador por la suma de cuadrados total SCT y utilizamos los siguientes resultados: 2 6 ¯ i ui,R ˆ Esto es as´ dado que i u2 = i (Yi − Y )2 ⇒ RR = 1 − ı ˆi,R 2 ¯ 2 = 1 − 1 = 0. i (Yi −Y ) 7 En temas posteriores veremos la utilizaci´n de este estad´ o ıstico para contrastar otro tipo de restricciones lineales. 64
  • 75. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 a) 1 − R2 = SCRN R / SCT y en este caso 1 − RR = 1 − 0 = 1. 2 b) glR − glN R = (N − 1) − (N − K) = K − 1 que es el n´mero de restricciones bajo la hip´tesis u o nula. el estad´ ıstico general (3.10) nos queda para este contraste en concreto igual a R2 /(K − 1) R2 (N − K) H0 F = 2 = 2 (K − 1) ∼ F(K − 1, N − K) (3.11) (1 − R )/(N − K) (1 − R ) En nuestro ejemplo sobre el precio de la vivienda, K − 1 = 3 que es el n´mero de restricciones u bajo la hip´tesis nula y N − K = 14 − 4 = 10. Dado el resultado mostrado F (3, 10) = 16, 9889 o (valor p = 0, 000299), si consideramos el valor-p se rechazar´ la hip´tesis nula a cualquier nivel ıa o de significaci´n razonable, en particular al α = 0, 05 ya que este valor es mayor que el valor-p o obtenido. Si utilizamos el valor cr´ ıtico F(3,10)0,05 = 3, 71 obtenemos el mismo resultado ya que el valor muestral del estad´ıstico es mayor que el valor cr´ ıtico. Esto indica que al menos uno de los coeficientes, aparte del asociado al t´rmino constante, es distinto de cero. e Aunque hemos utilizado en esta secci´n el coeficiente de determinaci´n en relaci´n al estad´ o o o ıstico de significaci´n conjunta, en la siguiente secci´n vamos a hablar de su utilizaci´n junto con o o o el coeficiente de determinaci´n corregido y otros estad´ o ısticos para la selecci´n entre distintos o modelos. 3.4. Bondad de ajuste y selecci´n de modelos o En los temas anteriores se ha presentado el coeficiente de determinaci´n como una medida de o bondad de ajuste que es invariante a unidades de medida8 . Este coeficiente se define como la proporci´n de variaci´n explicada por la regresi´n del total de variaci´n a explicar en la muestra o o o o de la variable dependiente. Si hay t´rmino constante en el modelo, e ˆ − Y )2 ¯ ˆ2 i (Yi i ui R2 = ¯ 2 =1− ¯ 2 0 ≤ R2 ≤ 1 i (Yi − Y ) i (Yi − Y ) Este indicador tiene que ser considerado como uno m´s a tener en cuenta a la hora de valorar a si un modelo es adecuado, pero no debemos darle m´s importancia de la que tiene. Obtener a un valor del R 2 cercano a 1 no indica que nuestros resultados puedan ser fiables. Por ejemplo, podemos tener problemas de no satisfacerse alguna hip´tesis b´sica y nuestra inferencia no ser o a v´lida. a Por otro lado, obtener un valor m´s o menos alto del coeficiente de determinaci´n puede estar a o influido por el tipo de datos que estemos analizando. Normalmente con datos de series tempora- les, donde las variables pueden presentar tendencias similares en el tiempo, es f´cil obtener R2 a altos, mientras que con datos de secci´n cruzada eso no suele ocurrir ya que normalmente las o variables presentan mayor dispersi´n. o Por otro lado, si queremos utilizar el R2 para comparar distintos modelos, estos deben de tener la misma variable dependiente ya que as´ tendr´n igual suma de cuadrados total. A´n as´ esta ı a u ı, medida adolece del problema de aumentar su valor al a˜adir una nueva variable explicativa, sea n 8 Esto no ocurre con otras medidas como puede ser la desviaci´n t´ o ıpica de los residuos, σ = SCR/N − K) ˆ ya que la suma de cuadrados de los residuos no es invariante a un cambio de escala en las variables. 65
  • 76. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a cual sea su aportaci´n al modelo. Adem´s no tiene en cuenta que hay que estimar un nuevo o a par´metro con el mismo n´mero de observaciones. a u Para tener en cuenta este problema se suele utilizar el R2 corregido por grados de libertad. Esta medida tiene en cuenta los grados de libertad tanto de la suma de cuadrados residual, (N − K), como de la suma de cuadrados total, (N − 1). Se define como u2 /(N − K) ˆi N −1 ¯ R2 = 1 − =1− (1 − R2 ) ¯ − ∞ < R2 ≤ R2 ¯ 2 (Yi − Y ) /(N − 1) N −K ¯ El R2 puede disminuir si el incluir una nueva variable no compensa la p´rdida de grados de e libertad al tener que estimar un nuevo par´metro9 . El coeficiente de determinaci´n corregido a o R¯ 2 no tomar´ valores mayores que el R2 pero s´ puede tomar valores negativos. Esto ultimo a ı ´ indicar´ que el modelo no describe adecuadamente el proceso que ha generado los datos. ıa Hasta el momento hemos ido comentado los resultados que normalmente se muestran en la estimaci´n de un modelo. Una forma de presentarlos es la siguiente: o P = 129, 062 + 0, 154800 F2 − 21, 5875 BEDRMS − 12, 1928 BATHS (estad. t) (1,462) (4,847) (−0,799) (−0,282) 2 ¯2 N = 14 R = 0, 8359 R = 0, 7868 F (3, 10) = 16, 989 Una alternativa a presentar los estad´ ısticos t de significatividad individual, aunque suele ser lo m´s habitual, es mostrar las desviaciones t´ a ıpicas estimadas de los coeficientes o los valores p correspondientes. Otros criterios de selecci´n de modelos que muestra Gretl son los criterios de informaci´n de o o Akaike (AIC), Bayesiano de Schwarz (BIC) y de Hannan-Quinn (HQC). Estos criterios se calcu- lan en funci´n de la suma de cuadrados residual y de alg´n factor que penalice por la p´rdida de o u e grados de libertad. Un modelo m´s complejo, con m´s variables explicativas, reducir´ la suma a a a de cuadrados residual pero aumentar´ el factor de penalizaci´n. Utilizando estos criterios se a o escoger´ aquel modelo con un menor valor de AIC, BIC o HQC. Normalmente no suelen dar ıa la misma elecci´n, siendo el criterio AIC el que elige un modelo con mayor n´mero de par´metros. o u a Selecci´n de un modelo para el precio de la vivienda. o Vamos a continuar con nuestro ejemplo sobre el precio de la vivienda y comparar distintas es- pecificaciones, para seleccionar una especificaci´n entre varias propuestas. Para ello, utilizamos o distintos indicadores que hemos visto hasta ahora, significatividad individual, conjunta, coefi- cientes de determinaci´n y criterios de informaci´n. Podemos considerar que estos indicadores o o nos ayudan a valorar la especificaci´n en t´rminos de la contribuci´n de las variables explicativas o e o incluidas en el modelo 10 . Vamos a estimar las siguientes especificaciones o modelos alternativos para explicar el precio de la vivienda: 9 Se puede demostrar que si el valor absoluto del estad´ ıstico t de significatividad individual asociado a una ¯ variable es menor que la unidad, eliminar esta variable del modelo aumentar´ el R2 mientras que si es mayor que a la unidad lo reducir´.a 10 Estos no son los unicos indicadores. Por ejemplo, analizar el gr´fico de residuos o utilizar diversos contrastes de ´ a algunas de las hip´tesis b´sicas son elementos importantes a la hora de evaluar los resultados de la especificaci´n o a o y estimaci´n de un modelo. o 66
  • 77. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Modelo 1 Pi = β1 + β2 F 2i + ui Modelo 2 Pi = β1 + β2 F 2i + β3 BEDRM Si + ui Modelo 3 Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui Modelo 4 Pi = β1 + β3 BEDRM Si + β4 BAT HSi + ui Estos cuatro modelos difieren en las variables explicativas incluidas. El Modelo 3 es el m´s a general e incluye al resto de modelos. Esto quiere decir que cada uno de los restantes se obtiene imponiendo una o m´s restricciones sobre los coeficientes de este modelo. En este caso son a restricciones de exclusi´n, es decir que alg´n coeficiente o coeficientes son iguales a cero. A este o u tipo de modelos se les llama modelos anidados. Los resultados de la estimaci´n del Modelo 3 o con Gretl son los siguientes: Modelo 3: estimaciones MCO utilizando las 14 observaciones 1–14 Variable dependiente: P Variable Coeficiente Desv. t´ ıpica Estad´ ıstico t valor p const 129,062 88,3033 1,4616 0,1746 F2 0,154800 0,0319404 4,8465 0,0007 BEDRMS −21,587 27,0293 −0,7987 0,4430 BATH −12,192 43,2500 −0,2819 0,7838 Media de la var. dependiente 317,493 D.T. de la variable dependiente 88,4982 Suma de cuadrados de los residuos 16700,1 Desviaci´n t´ o ıpica de los residuos (ˆ ) σ 40,8657 R2 0,835976 ¯ R2 corregido 0,786769 F (3, 10) 16,9889 valor p para F () 0,000298587 Log-verosimilitud −69,453 Criterio de informaci´n de Akaike o 146,908 Criterio de informaci´n Bayesiano de Schwarz o 149,464 Criterio de Hannan–Quinn 146,671 El Modelo 1 es el m´s reducido y tambi´n est´ incluido en los modelos 2 y 3, no as´ en el 4. a e a ı Estos son los resultados de su estimaci´n: o 67
  • 78. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Modelo 1: estimaciones MCO utilizando las 14 observaciones 1–14 Variable dependiente: P Variable Coeficiente Desv. t´ ıpica Estad´ ıstico t valor p const 52,3509 37,2855 1,4041 0,1857 F2 0,138750 0,0187329 7,4068 0,0000 Media de la var. dependiente 317,493 D.T. de la variable dependiente 88,4982 Suma de cuadrados de los residuos 18273,6 Desviaci´n t´ o ıpica de los residuos (ˆ ) σ 39,0230 R2 0,820522 ¯ R2 corregido 0,805565 Grados de libertad 12 Log-verosimilitud −70,084 Criterio de informaci´n de Akaike o 144,168 Criterio de informaci´n Bayesiano de Schwarz o 145,447 Criterio de Hannan–Quinn 144,050 El Modelo 2 est´ anidado en el 3. Los resultados de la estimaci´n de este modelo se muestran a o a continuaci´n: o Modelo 2: estimaciones MCO utilizando las 14 observaciones 1–14 Variable dependiente: P Variable Coeficiente Desv. t´ ıpica Estad´ ıstico t valor p const 121,179 80,1778 1,5114 0,1589 F2 0,148314 0,0212080 6,9933 0,0000 BEDRMS −23,910 24,6419 −0,9703 0,3527 Media de la var. dependiente 317,493 D.T. de la variable dependiente 88,4982 Suma de cuadrados de los residuos 16832,8 Desviaci´n t´ o ıpica de los residuos (ˆ ) σ 39,1185 R2 0,834673 ¯ R2 corregido 0,804613 F (2, 11) 27,7674 valor p para F () 5,02220e-05 Log-verosimilitud −69,509 Criterio de informaci´n de Akaike o 145,019 Criterio de informaci´n Bayesiano de Schwarz o 146,936 Criterio de Hannan–Quinn 144,841 68
  • 79. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Finalmente el Modelo 4 solamente est´ anidado en el modelo 3. Los resultados de la estimaci´n a o por MCO son: Modelo 4: estimaciones MCO utilizando las 14 observaciones 1–14 Variable dependiente: P Variable Coeficiente Desv. t´ ıpica Estad´ ıstico t valor p const 27,2633 149,652 0,1822 0,8588 BEDRMS −10,137 46,9811 −0,2158 0,8331 BATHS 138,795 52,3450 2,6515 0,0225 Media de la var. dependiente 317,493 D.T. de la variable dependiente 88,4982 Suma de cuadrados de los residuos 55926,4 Desviaci´n t´ o ıpica de los residuos (ˆ ) σ 71,3037 R 2 0,450706 ¯ R2 corregido 0,350834 F (2, 11) 4,51285 valor p para F () 0,0370619 Log-verosimilitud −77,914 Criterio de informaci´n de Akaike o 161,829 Criterio de informaci´n Bayesiano de Schwarz o 163,746 Criterio de Hannan–Quinn 161,651 Comparaci´n de los resultados para los modelos 1,2 y 3. o • Se observa que a medida que se introducen m´s variables explicativas, la suma de cuadrados a residual va disminuyendo y el coeficiente de determinaci´n R2 aumenta. o • En t´rminos del coeficiente de determinaci´n R2 , en el Modelo 1 el tama˜o de la vivienda e o n (F2) explica el 82, 1 % de la variaci´n en los precios de la vivienda, pasando a ser de un o 83, 6 % al incluir el n´mero de habitaciones (BEDRMS) y n´mero de ba˜os (BATHS). u u n • A medida que se incluyen m´s variables explicativas, primero BEDRMS y luego BATHS, a o ¯ el coeficiente de determinaci´n corregido R2 disminuye y la desviaci´n t´ o ıpica de los resi- duos aumenta 11 . Esto indica que la ganancia en un mayor valor del R2 o menor suma de cuadrados residual no se compensa en ning´n caso por la p´rdida de grados de libertad. u e • En cuanto a la significatividad individual, en los tres modelos la unica variable significativa ´ a los niveles de significaci´n habituales es F2 o 12 . As´ una vez hemos controlado por el ı, tama˜o de la vivienda, las variables BEDRMS y BATHS no afectan significativamente el n precio de la vivienda. • El estad´ ıstico F de significaci´n conjunta se˜ala en los tres casos no aceptar la hip´tesis nula o n o de que todos los coeficientes excepto el asociado al t´rmino constante son igual a cero. Al e menos hay un coeficiente que es significativamente distinto de cero. Por lo obtenido en los 11 Notar que los estad´ ısticos t asociados a cada coeficiente son menores que uno en valor absoluto. 12 Por ejemplo, con nivel de significaci´n del 5 por ciento los valores cr´ o ıticos ser´ para el modelo 1 t(12)0,025 = ıan 2, 179, para el Modelo 2 t(11)0,025 = 2, 201 y para el Modelo 3 t(10)0,025 = 2, 228. 69
  • 80. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a contrastes de significatividad individual, sabemos que ´ste es el coeficiente que acompa˜a e n a F2. Si nos fijamos, a medida que vamos del Modelo 1 al 3, el valor muestral del estad´ ıstico F disminuye. Esto es l´gico, ya que este estad´ o ıstico es funci´n del R2 pero tambi´n de los o e grados de libertad. Otra vez estar´ recogiendo que, a medida que aumenta el n´mero de ıa u par´metros a estimar K, las diferencias en R2 son demasiado peque˜as para compensar a n la disminuci´n en el ratio (N − K)/(K − 1). Ahora bien, en general, las diferencias en el o estad´ıstico F no son relevantes. Lo que es de inter´s es el resultado del contraste. e • Si consideramos los criterios de informaci´n AIC, BIC y HQC, de los tres modelos el elegido o ¯ es el Modelo 1, reafirmando lo que indica el R2 . La ganancia en un mejor ajuste, o una menor suma de cuadrados residual, no es suficiente para compensar el factor que penaliza en funci´n de grados de libertad. o Dado que el tama˜o de la vivienda depende del n´mero de habitaciones y de ba˜os, este n u n resultado parece indicar que una vez se controla por F2 indirectamente esta variable incluye casi todo lo que pueden aportar BEDRMS y BATHS. ¿Qu´ ocurre con el Modelo 4? e En este modelo no hemos incluido la variable F2, que en el an´lisis anterior era la variable que a m´s explica el precio de la vivienda y hemos dejado las variables que no eran significativas una a vez que inclu´ ıamos esta variable. Podr´ıamos argumentar que de esta forma se podr´ analizar el ıa efecto de BEDRMS y BATHS, ya que F2 parec´ recoger la informaci´n relevante de estas dos ıa o variables. Si lo comparamos con el Modelo 3, que es en el que est´ anidado el Modelo 4, se obtiene a menor valor de R ¯ 2 y R2 , mayor valor de AIC, BIC y HQC, mayor suma de cuadrados residual y mayor desviaci´n t´ o ıpica de los residuos. Todos ellos se˜alan en la misma direcci´n siendo, n o en t´rminos de estos criterios, peor modelo el 4. Vemos que el omitir F2 empeora mucho el e ajuste sin compensar por la ganancia en grados de libertad. Adem´s cambia sustancialmente la a estimaci´n y la significatividad del coeficiente que acompa˜a a BATHS, pasando la estimaci´n o n o de signo positivo a negativo y ser significativamente distinto de cero al 5 % de significaci´n. o ¿Qu´ puede estar ocurriendo? ¿Ser´n esta estimaci´n y este contraste fiables si hemos omitido e a o una variable que parece ser relevante? ¿Se ver´n afectadas las propiedades del estimador MCO a por esta omisi´n? Todo esto lo veremos en el tema de error de especificaci´n. o o 3.5. Ejercicios para practicar Ejercicio 1: El Departamento de Sanidad de E.E.U.U. quiere estudiar la relaci´n entre el gasto sanitario agre- o gado en billones de d´lares (exphlth), la renta personal disponible agregada tambi´n en billones o e de d´lares (income), el porcentaje de poblaci´n que supera los 65 a˜os en el a˜o 2005 (seniors) o o n n y la poblaci´n en millones (pop). Para ello encarga un estudio a dos becarios de la facultad de o Econ´micas de Harvard poniendo a su disposici´n datos de 2005 para dichas variables sobre 51 o o 70
  • 81. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 estados americanos13 . 1. Escribe la ecuaci´n del modelo que te permita analizar la influencia de las variables expli- o cativas income, seniors y pop sobre la variable exphlth. 2. Interpreta los coeficientes del modelo anterior. 3. Estima la ecuaci´n propuesta por MCO. Interpreta los coeficientes estimados del modelo. o ¿Son sus signos coherentes con la teor´ econ´mica? ıa o 4. Contrasta la significatividad individual de las variables explicativas del modelo. Escribe los supuestos necesarios sobre la perturbaci´n para que los estad´ o ısticos tengan validez. 5. Contrasta la significatividad conjunta de las variables explicativas. 6. Interpreta el coeficiente de determinaci´n del modelo. o 7. Obt´n los siguientes gr´ficos y comenta la informaci´n que te proporcionan: e a o a) Gr´fico de la serie de residuos MCO. a b) Gr´fico de residuos MCO sobre la variable pop. a c) Gr´fico de residuos MCO sobre la variable income. a Ejercicio 2: Se quiere analizar la demanda de helado de mediados del siglo pasado en un estado de EEUU. Para ello se dispone de una base de datos de 30 observaciones recogidos cada cuatro semanas durante los a˜os 1951 a 1953, concretamente desde el 18 de marzo hasta el 11 de julio14 . Las n variables que se consideran son: Q Consumo per capita de helado en pintas, (Rango 0,256 - 0,548) P Precio por pinta de helado en d´lares, (Rango 0,26 - 0,292) o I Renta familiar disponible semanal, en d´lares (Rango 76 - 96) o F Temperatura media en grados Fahrenheit, (Rango 24 - 72) 1. Dado que no se est´ acostumbrado a las unidades de medida americanas y sabiendo que a una pinta equivale a 0,473 litros, un grado cent´ ıgrado son 1,8 grados Fahrenheit y que el d´lar est´ a 0,766 euros, cambia las unidades de las variables de forma que est´n en o a e unidades espa˜olas. n 2. Especifica un modelo en el que relaciones el consumo de helado (Q) con el precio (P), la renta (I) y el cuadrado de la temperatura (F 2 ). 3. Interpreta los coeficientes del modelo. 13 Fichero data8-3.gdt. Fuente: Statistical Abstract of U.S. (1995), recogida en Ramanathan, R. (2002), Intro- ductory econometrics with applications, 5th. Ed., South-Western. 14 Fichero data9-1.gdt. Fuente: Datos del art´ ıculo de Hildreth, C. y J. Lu (1960), “Demand relations with autocorrelated disturbances”, Technical Bulletin No 2765, Michigan State University, recogida en Ramanathan, R. (2002), Introductory econometrics with applications, 5th. Ed., South-Western. 71
  • 82. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 4. Estima el modelo por M´ ınimos Cuadrados Ordinarios (MCO). ¿Son los signos de los coe- ficientes estimados los esperados? 5. Si la temperatura media de las cuatro primeras semanas hubiese aumentado un grado cent´ ıgrado manteni´ndose constantes los valores del resto de las variables, ¿en cu´nto esti- e a mas la variaci´n del consumo per capita de helados correspondiente a ese mismo periodo? o ¿Y si la temperatura en ese periodo hubiera sido de 25 grados cent´ ıgrados? ¿Y si hubiera sido de 40 grados cent´ıgrados? 6. Comenta los resultados obtenidos en cuanto a la significatividad de las variables y la bondad de ajuste. 7. Si la renta disponible semanal aumentara en un euro manteni´ndose constantes las dem´s e a variables: a) ¿En cu´nto estimas que se incremente la demanda de helados semanal? a b) ¿Es posible que dicho incremento fuera de un mililitro? 72
  • 83. Tema 4 Contrastes de restricciones lineales y predicci´n o 4.1. Contrastes de restricciones lineales En el Tema 3 hemos estudiado la forma m´s com´n de realizar los contrastes de significatividad a u individual y el contraste de significatividad conjunta sobre los coeficientes que acompa˜an an las variables explicativas en un modelo de regresi´n lineal general. Estos contrastes son los o m´s habituales y en general cualquier programa econom´trico, como tambi´n es el caso de a e e Gretl, muestra por defecto los valores de los estad´ ısticos correspondientes para contrastar estas restricciones en el mismo output de estimaci´n. o En ocasiones, adem´s de ´stas, tambi´n podemos estar interesados en contrastar hip´tesis que a e e o implican otro tipo de restricciones lineales en los coeficientes poblacionales del modelo. En general, podemos denotar la hip´tesis nula y la alternativa como: o H0 : R · β = r (q × K) (K × 1) (q × 1) Ha : Rβ = r siendo q el n´mero de restricciones bajo la hip´tesis nula y K el n´mero de par´metros en el u o u a modelo no restringido. La hip´tesis alternativa implicar´ que al menos una de las igualdades o ıa no se satisface 1. Por ejemplo en el modelo sobre el precio de la vivienda que hemos visto ya en temas anteriores, Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui (4.1) podemos expresar de esta forma los siguientes contrastes: 1. Contraste de significaci´n individual de la variable BEDRM S: H0 : β3 = 0 o   β1  β2  H0 : Rβ = r ⇒ 0 0 1 0    β3  = 0 β4 1 Cuidado que esto no es lo mismo que todas las igualdades no se satisfagan. 73
  • 84. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 2. Contraste de significaci´n conjunta: H0 : β2 = β3 = β4 = 0 o    β1    0 1 0 0   0 β H0 : Rβ = r ⇒  0 0 1 0   2  =  0   β3  0 0 0 1 0 β4 3. Contraste de un subconjunto de coeficientes igual a cero, por ejemplo los que acompa˜an n a las variables BEDRMS y BATHS: H0 : β3 = β4 = 0   β1 0 0 1 0  β2  0 H0 : Rβ = r ⇒   0 0 0 1  β3  = 0 β4 Podemos ilustrar el inter´s de contrastar otro tipo de restricciones lineales en el siguiente modelo e para la inversi´n agregada de un pa´ o ıs, IN V ERRt = β1 + β2 t + β3 P N BRt + β4 IN T ERESt + β5 IN F LACIONt + ut (4.2) donde las variables implicadas son: INVERR: Inversi´n agregada,, en t´rminos reales. o e t: Tiempo t = 1, 2, . . . , T PNBR: Producto Nacional Bruto, en t´rminos reales. e INTERES: Tipo de Inter´s nominal. e INFLACION: Tasa de Inflaci´n. o Adem´s de realizar los contrastes de significatividad individual y conjunta, podr´ a ıamos estar interesados en contrastar las siguientes restricciones lineales: 1. H0 : β3 = 1, la propensi´n marginal a invertir es igual a 1, esto es, si aumenta el PNB real o en una unidad, la inversi´n aumentar´ en la misma proporci´n, manteniendo el valor del o a o resto de variables constante.   β1  β2    H0 : Rβ = r ⇒ 0 0 1 0 0  β3 =1    β4  β5 2. H0 : β4 + β5 = 0, los inversores tienen en cuenta el tipo de inter´s real. Esto es, la inversi´n e o no variar´ si un aumento del tipo de inter´s nominal viene acompa˜ado por un aumento a e n de la misma magnitud de la tasa de inflaci´n, manteniendo el resto de factores constantes. o   β1  β2    H0 : Rβ = r ⇒ 0 0 0 1 1  β3  = 0    β4  β5 74
  • 85. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 3. H0 : β2 = 0, β3 = 1, β4 + β5 = 0. Contraste conjunto de las dos restricciones anteriores adem´s de la restricci´n de que la inversi´n en media no presenta una tendencia lineal. a o o     β1   0 1 0 0 0  β2   0 H0 : Rβ = r ⇒  0 0 1 0 0  β3 = 1    0 0 0 1 1  β4  0 β5 El siguiente estad´ ıstico, conocido como estad´ıstico F de Wald, se puede utilizar para contrastar una o m´s restricciones lineales en el contexto de un MRLG. Esta forma de realizar el contraste a solamente requiere estimar el modelo sin restringir. Como ya hemos visto en el Tema 3, bajo las hip´tesis b´sicas la distribuci´n del estimador MCO o a o ˆ ∼ N (β, σ 2 (X X)−1 ). Por lo tanto, dado que R es una matriz de del modelo sin restringir es: β constantes de rango q, se tiene que bajo la hip´tesis nula: o ˆ Rβ ∼ N ( r , σ 2 R(X X)−1 R ) (4.3) (q × 1) (q × 1) (q×q) Utilizando este resultado y el estimador σ 2 = Tu u del par´metro σ 2 , tenemos que el estad´ ˆ ˆ ˆ −K a ıstico de contraste y su distribuci´n bajo la hip´tesis nula es el siguiente: o o ˆ ˆ (Rβ − r) [R(X X)−1 R ]−1 (Rβ − r)/q H0 F = ∼ F(q, T − K) (4.4) u u/(T − K) ˆˆ ˆ Si no es cierta la H0 , la diferencia (Rβ −r) ser´ grande por lo que el estad´ a ıstico F tomar´ valores a grandes en ese caso. Rechazaremos la H0 con un nivel de significatividad α si el valor muestral del estad´ıstico es mayor que el valor cr´ ıtico, F > F(q, T − K)α , no rechazando H0 en caso contrario. 4.2. Contrastes utilizando Gretl En esta secci´n vamos a utilizar Gretl para contrastar las restricciones vistas en los ejemplos o anteriores utilizando ese estad´ ıstico. En general, una vez que hemos le´ los datos de las variables ıdo de inter´s la forma de proceder es la siguiente: e • Especificar y estimar por MCO el modelo sin imponer las restricciones o el modelo no restringido en Modelo ⇒ M´ ınimos cuadrados ordinarios • En la ventana donde se muestran los resultados de la estimaci´n del modelo no restringido, o gretl: modelo1 elegir Contrastes ⇒ Restricciones lineales • Dentro de la ventana que aparece gretl: restricciones lineales podemos escribir las restric- ciones a contrastar. Cada restricci´n del conjunto de restricciones tiene que ir en una l´ o ınea como una ecuaci´n, o donde a la izquierda del signo igual tiene que ir la combinaci´n lineal de los par´metros y a o a la derecha el valor num´rico correspondiente. Los par´metros en la restricci´n se denotan e a o 75
  • 86. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a de la forma bJ donde J representa la posici´n en la lista de regresores comenzando por o J= 1. Lo que nosotros hemos denotado en el MRLG como β1 , coeficiente que normalmente, aunque no necesariamente, acompa˜a a la constante, en Gretl se denomina b1, nuestro β2 n es b2, β3 es b3 y as´ sucesivamente con todos los coeficientes del modelo. ı En el ejemplo del modelo para el precio de la vivienda, que hemos utilizado en el Tema 3, vamos a contrastar la hip´tesis de que conjuntamente variaciones en el n´mero de habitaciones y o u el n´mero de ba˜os, manteniendo el tama˜o de la vivienda constante, no influyen en el precio de u n n la vivienda. Vamos a denotar los coeficientes como Gretl lo har´ suponiendo que al especificar ıa, el modelo mantenemos el mismo orden en el listado de variables explicativas Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui (4.5) Una vez estimado el modelo con Modelo ⇒ M´ ınimos cuadrados ordinarios, en la ventana de resultados de la estimaci´n gretl:modelo1 seleccionamos con el cursor o Contrastes ⇒ Restricciones lineales Aparecer´ la ventana gretl: restricciones lineales. Dentro de la ventana escribimos a b3=0 b4=0 Al seleccionar Aceptar en esta ventana obtenemos los siguientes resultados: Conjunto de restricciones 1: b[BEDRMS] = 0 2: b[BATHS] = 0 Estad´stico de contraste: ı F(2, 10) = 0,471106, con valor p = 0,637492 Estimaciones restringidas: VARIABLE COEFICIENTE DESV.T´P. I ESTAD T VALOR P const 52,3509 37,2855 1,404 0,18565 F2 0,138750 0,0187329 7,407 <0,00001 BEDRMS 0,000000 0,000000 indefinido BATHS 0,000000 0,000000 indefinido Desviaci´n t´pica de los residuos = 39,023 o ı No rechazamos la hip´tesis nula al nivel de significaci´n por ejemplo del 5 % ya que el valor o o p = 0, 637492 > 0, 05. Si miramos a las tablas de la distribuci´n F con 2 y 10 grados de libertad, o eligiendo en la ventana principal de Gretl Herramientas → Tablas estad´ ısticas → F con gln 2 y gld 10 obtenemos la siguiente informaci´n, o 76
  • 87. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Valores cr´ticos aproximados de F(2, 10) ı 10% en la cola derecha 2,92 5% 4,10 1% 7,56 De igual forma vemos que, para los tres niveles de significaci´n del 1, 5 y 10 % no se rechaza o la hip´tesis nula, ya que el valor muestral del estad´ o ıstico es menor que el valor cr´ ıtico corres- pondiente. Adem´s tambi´n se muestran las estimaciones del modelo restringido bajo esas dos a e restricciones. Notar que los coeficientes que acompa˜an a BEDRMS y BATHS son igual a cero n y sus desviaciones t´ ıpicas tambi´n. La raz´n es que esos coeficientes no son estimaciones ya que e o toman un valor dado conocido. Cuando las restricciones a contrastar son simplemente de exclusi´n de uno o m´s regresores del o a modelo de partida, otra forma de llevar a cabo este contraste en Gretl es elegir en el men´ de u la ventana de estimaci´n del modelo de partida, o Contrastes ⇒ Omitir variables Seguidamente en la ventana que surge, gretl: contrastes del modelo, se seleccionan las va- riables que acompa˜an a los coeficientes que bajo la hip´tesis nula son cero. En el ejemplo en n o concreto que estamos viendo, ser´ elegir las variables BEDRMS y BATHS. Al pulsar Aceptar se ıa muestra una nueva ventana con la estimaci´n del modelo restringido bajo esas dos restricciones o Pi = β1 + β2 F 2i + ui (4.6) que implican excluir de la regresi´n a BEDRMS y BATHS, o Modelo Restringido: estimaciones MCO utilizando las 14 observaciones 1-14 Variable dependiente: P VARIABLE COEFICIENTE ´ DESV.TIP. ESTAD T VALOR P const 52,3509 37,2855 1,404 0,18565 F2 0,138750 0,0187329 7,407 <0,00001 *** Media de la var. dependiente = 317,493 Desviaci´n t´pica de la var. dependiente. = 88,4982 o ı Suma de cuadrados de los residuos = 18273,6 Desviaci´n t´pica de los residuos = 39,023 o ı R-cuadrado = 0,820522 R-cuadrado corregido = 0,805565 Grados de libertad = 12 Log-verosimilitud = -70,0842 Criterio de informaci´n de Akaike (AIC) = 144,168 o Criterio de informaci´n Bayesiano de Schwarz (BIC) = 145,447 o Criterio de Hannan-Quinn (HQC) = 144,05 Comparaci´n entre el modelo restringido y no o restringido: 77
  • 88. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Hip´tesis nula: los par´metros de regresi´n son cero para las o a o variables BEDRMS BATHS Estad´stico de contraste: ı F(2, 10) = 0,471106, con valor p = 0,637492 La ventaja de realizar de esta forma el contraste es que, adem´s de tener la estimaci´n del a o modelo restringido (4.6), en esta nueva ventana tenemos otra vez todos los men´s que Gretl u ofrece para el an´lisis de esta nueva especificaci´n2 . a o En esta ventana tambi´n se muestra el resultado del contraste, esto es, el valor muestral del e estad´ ıstico F que contrasta esas dos restricciones de exclusi´n, y el valor-p. Como se puede o observar, el resultado que se obtiene es exactamente el mismo que el que se ofrece en la ventana gretl: restricciones lineales. Seguidamente vamos a utilizar el ejemplo del modelo de la Funci´n de Inversi´n, para ilustrar o o otro tipo de restricciones lineales que no sean simplemente de exclusi´n. o Escribimos el modelo no restringido IN V ERRt = β1 + β2 t + β3 P N BRt + β4 IN T ERESt + β5 IN F LACIONt + ut (4.7) y para el an´lisis usamos los datos3 de la Tabla 4.1. a Las series de Inversi´n y Producto Nacional Bruto en t´rminos reales, INVERR y PNBR, se o e han obtenido de dividir las series nominales por el IPC con a˜o base en 1972 y multiplicar por n 10−1 , tal que est´n medidas en trillones de d´lares. La tasa de inflaci´n se ha calculado como el a o o porcentaje de variaci´n del IPC. Por lo tanto, los datos utilizados para estimar el modelo, son o finalmente los que aparecen en la Tabla 4.2. 2 a ˆ ˆ ˆ El estimador restringido ser´ βR = βR,1 βR,2 0 0 ˆ ˆ donde βR,1 y βR,2 son los obtenidos de la regresi´n o excluyendo BEDRMS y BATHS. 3 Corresponden a la Tabla F3.1 publicada en Greene (2008), p.1082 y disponible en: http://pages.stern.nyu.edu/∼wgreene/Text/econometricanalysis.htm. Fuente: Economic Report of the Pre- sident, U.S. Government Printing Office, Washington, D.C., 1983. El IPC de 1967 es 79,06. El tipo de inter´s es e el promedio anual de la tasa de descuento del Banco de la Reserva Federal de Nueva York. 78
  • 89. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 A˜o n PNB nominal Inversi´n nominal o IPC Tipo de Inter´s e 1968 73,4 133,3 82,54 5,16 1969 944,0 149,3 86,79 5,87 1970 992,7 144,2 91,45 5,95 1971 1077,6 166,4 96,01 4,88 1972 1185,9 195,0 100,00 4,50 1973 1326,4 229,8 105,75 6,44 1974 1434,2 228,7 115,08 7,83 1975 1549,2 206,1 125,79 6,25 1976 1718,0 257,9 132,34 5,50 1977 1918,3 324,1 140,05 5,46 1978 2163,9 386,6 150,42 7,46 1979 2417,8 423,0 163,42 10,28 1980 2633,1 402,3 178,64 11,77 1981 2937,7 471,5 195,51 13,42 1982 3057,5 421,9 207,23 11,02 Tabla 4.1: Datos para el estudio de la Funci´n de Inversi´n o o A˜o n INVERR PNBR INFLACION INTERES 1968 0,161 1,058 4,40 5,16 1969 0,172 1,088 5,15 5,87 1970 0,158 1,086 5,37 5,95 1971 0,173 1,122 4,99 4,88 1972 0,195 1,186 4,16 4,50 1973 0,217 1,254 5,75 6,44 1974 0,199 1,246 8,82 7,83 1975 0,163 1,232 9,31 6,25 1976 0,195 1,298 5,21 5,50 1977 0,231 1,370 5,83 5,46 1978 0,257 1,439 7,40 7,46 1979 0,259 1,479 8,64 10,28 1980 0,225 1,474 9,31 11,77 1981 0,241 1,503 9,44 13,42 1982 0,204 1,475 5,99 11,02 Tabla 4.2: Datos en t´rminos reales e Primeramente creamos el fichero de datos a partir de la tabla anterior incluyendo la variable t = 1, . . . , 15, con la opci´n de Gretl o Archivo → Nuevo conjunto de datos Seguidamente estimamos por MCO el modelo no restringido arriba especificado, eligiendo en el men´ Modelo → M´ u ınimos Cuadrados ordinarios y obtenemos los siguientes resultados 79
  • 90. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Modelo 1: estimaciones MCO utilizando las 15 observaciones 1968–1982 Variable dependiente: INVERR Variable Coeficiente Desv. t´ıpica Estad´ ıstico t valor p const −0,509071 0,0551277 −9,2344 0,0000 t −0,0165804 0,00197176 −8,4089 0,0000 PNBR 0,670383 0,0549972 12,1894 0,0000 INTERES −0,00232593 0,00121887 −1,9083 0,0854 INFLACION −9,40107e-05 0,00134748 −0,0698 0,9458 Media de la var. dependiente 0,203333 D.T. de la variable dependiente 0,0341774 Suma de cuadrados de los residuos 0,000450812 Desviaci´n t´ o ıpica de los residuos (ˆ ) σ 0,00671425 R2 0,972433 ¯ R2 corregido 0,961406 F (4, 10) 88,1883 Estad´ıstico de Durbin–Watson 1,96364 Coef. de autocorr. de primer orden −0,0981367 Criterio de informaci´n de Akaike o −103,62 Criterio de informaci´n Bayesiano de Schwarz o −100,07 Contrastes de restricciones lineales: a) Contraste de que la propensi´n marginal a invertir es la unidad, H0 : β3 = 1, frente a o la hip´tesis alternativa de que es distinto de la unidad. En la ventana gretl: modelo1 o seleccionamos Contrastes → Restricciones lineales y en la ventana que surge escribimos b3 = 1. Al aceptar se obtiene el siguiente resultado, Restricci´n: o b[PNBR] = 1 Estad´stico de contraste: ı F(1, 10) = 35,92, con valor p = 0,000133289 Estimaciones restringidas: VARIABLE COEFICIENTE ´ DESV.TIP. ESTAD T VALOR P const -0,837112 0,0134320 -62,322 <0,00001 *** t -0,0276707 0,00139136 -19,888 <0,00001 *** PNBR 1,00000 0,000000 indefinido INTERES -0,00311914 0,00247563 -1,260 0,23377 INFLACION -0,000342359 0,00275183 -0,124 0,90323 Desviaci´n t´pica de los residuos = 0,0137184 o ı Se muestran tambi´n las estimaciones de los coeficientes del modelo restringido, donde se e ha impuesto que el coeficiente que acompa˜a a PNBR es igual a la unidad. Como damos n ese valor a β3 , no estamos estimando ese coeficiente, por lo tanto su desviaci´n t´ o ıpica es cero y el estad´ıstico t no est´ definido. a Dado que el valor-p, asociado al valor muestral del estad´ ıstico de contraste, es m´s peque˜o a n que 0, 01 se rechaza la hip´tesis nula al 1 % de significaci´n. o o 80
  • 91. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 b) Contraste de que la inversi´n real responde al tipo de inter´s real, H0 : β4 + β5 = 0, frente o e a Ha : β4 + β5 = 0. De la misma forma que antes, en la ventana gretl: modelo1 seleccio- namos Contrastes → Restricciones lineales. En la nueva ventana que aparece escribimos b4+b5= 0. Al aceptar se obtiene el siguiente resultado Restricci´n: o b[INTERES] + b[INFLACION] = 0 Estad´stico de contraste: ı F(1, 10) = 3,25354, con valor p = 0,10143 Estimaciones restringidas: VARIABLE COEFICIENTE ´ DESV.TIP. ESTAD T VALOR P const -0,505855 0,0604801 -8,364 <0,00001 *** t -0,0170255 0,00214732 -7,929 <0,00001 *** PNBR 0,657533 0,0598599 10,985 <0,00001 *** INTERES -0,00133784 0,00119517 -1,119 0,28683 INFLACION 0,00133784 0,00119517 1,119 0,28683 De nuevo se muestran las estimaciones del modelo restringido. En este caso se estiman todos los coeficientes bajo la restricci´n de que β4 = −β5 . El coeficiente estimado que o acompa˜a a INTERES es el mismo valor pero con signo contrario que el obtenido para el n coeficiente de INFLACION. Este resultado surge de la restricci´n impuesta (β4 = −β5 ). o De igual forma coinciden las varianzas estimadas y las desviaciones t´ ıpicas. Dado que el valor-p, asociado al valor muestral del estad´ ıstico de contraste, es mayor que 0, 1 no se rechaza la hip´tesis nula al 10 % (ni al 5 % o 1 %) de significaci´n. o o c) Por ultimo, realizamos el contraste conjunto de estas dos restricciones lineales, la propen- ´ si´n marginal a invertir es la unidad y la inversi´n real responde al tipo de inter´s real. o o e Esto es H0 : β3 = 1, β4 + β5 = 0 frente a la alternativa de que al menos una de ellas no se satisface, Ha : β3 = 1, y o β4 + β5 = 0. De nuevo, en la ventana gretl: modelo1 seleccionamos Contrastes → Restricciones lineales y escribimos b3=1 b4+b5=0 Al aceptar se obtiene el siguiente resultado: Conjunto de restricciones 1: b[PNBR] = 1 2: b[INTERES] + b[INFLACION] = 0 Estad´stico de contraste: ı F(2, 10) = 21,3453, con valor p = 0,000246226 Estimaciones restringidas: 81
  • 92. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a VARIABLE COEFICIENTE DESV.T´P. I ESTAD T VALOR P const -0,851039 0,00799803 -106,406 <0,00001 *** t -0,0289471 0,000989688 -29,249 <0,00001 *** PNBR 1,00000 0,000000 indefinido INTERES -0,00172664 0,00227790 -0,758 0,46308 INFLACION 0,00172664 0,00227790 0,758 0,46308 Desviaci´n t´pica de los residuos = 0,0140693 o ı Se rechaza la hip´tesis nula al 1 % de significaci´n, ya que el valor-p es menor que 0,01. o o Por lo tanto, al menos una de las restricciones parece no satisfacerse. Viendo los resultados de los contrastes individuales, parece que la evidencia es contra la primera restricci´n. o 4.3. Estimaci´n bajo restricciones lineales o El estimador resultante de minimizar la suma de los residuos al cuadrado sujeto a restricciones lineales del tipo Rβ = r, esto es N m´ ın ˆ ˆ ˆ ˆ (Yi − βR,1 − βR,2 X2i − βR,3 X3i − · · · − βR,K XKi )2 ˆ βR i=1 sujeto a ˆ RβR = r se puede expresar como: ˆ ˆ −1 ˆ βR = β − (X X)−1 R R(X X)−1 R (Rβ − r) (4.8) ˆ donde β = (X X)−1 X Y es el estimador de los par´metros β sin imponer las restricciones. Dado a ˆ que el estimador no restringido β se ha obtenido sin imponer que ´ste satisfaga tales restricciones, e en general (Rβ ˆ − r) = 0. La soluci´n restringida, βR , es igual a la soluci´n no restringida, β, o ˆ o ˆ menos un t´rmino de ajuste que tiene en cuenta en qu´ medida la soluci´n no restringida no e e o ˆ satisface las restricciones. Si hemos obtenido ya β podemos utilizar directemente la expresi´n o (4.8) para obtener el estimador de β restringido, es decir βˆR . Hemos visto en la secci´n anterior que el programa Gretl muestra las estimaciones del modelo o restringido cuando se selecciona la opci´n de contrastar restricciones lineales, a la vez que el o valor muestral del estad´ ıstico de contraste. Otra posibilidad es la de estimar el modelo imponiendo la o las restricciones. Cuando las res- tricciones implican solamente la exclusi´n de variables explicativas del modelo de partida, no o hay mayor problema en llevar a cabo la estimaci´n del modelo restringido. Bien se realiza la o regresi´n eliminando del listado de regresores esas variables o, como hemos visto antes en Gretl, o se puede utilizar la opci´n Contrastes ⇒ Omitir variables a la vez que se contrasta. o Si las restricciones no son simplemente de exclusi´n, entonces se pueden sustituir en el modelo de o partida y reorganizarlo en funci´n del conjunto de (K −q) par´metros que quedan sin determinar. o a Una ventaja de proceder as´ es que se dispone de las mismas opciones que en la ventana de ı estimaci´n de un modelo por m´ o ınimos cuadrados ordinarios. Por ejemplo, se pueden hacer otro tipo de contrastes en el modelo restringido, guardar sus residuos, etc. 82
  • 93. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Por ejemplo, si queremos obtener el estimador de los par´metros bajo la restricci´n de a o que la propensi´n marginal a invertir sea la unidad, podemos hacerlo sustituyendo en el o modelo IN V ERRt = β1 + β2 t + β3 P N BRt + β4 IN T ERESt + β5 IN F LACIONt + ut (4.9) la restricci´n β3 = 1 y reorganizar tal que nos quedar´ la siguiente regresi´n: o ıa o IN V ERRt − P N BRt = β1 + β2 t + β4 IN T ERESt + β5 IN F LACIONt + ut (4.10) en funci´n de K − q = 5 − 1 = 4 par´metros a estimar. El quinto ya est´ determinado por la res- o a a tricci´n. Definimos una nueva variable llam´mosla R, calculada como Rt = IN V ERRt −P N BRt , o e utilizando la opci´n en Gretl de o Variable → Definir nueva variable y en la ventana que aparece escribimos R = INVERR-PNBR. De esta forma se a˜ade la variable n R al conjunto de variables disponibles que aparecen en la ventana principal o de inicio. Segui- damente, se realiza la regresi´n de esta variable sobre la constante, t, INTERES e INFLACION o con Modelo → M´ ınimos cuadrados ordinarios y se obtienen los siguientes resultados: Modelo Restringido (4.10): estimaciones MCO utilizando las 15 observaciones 1968–1982 Variable dependiente: R Variable Coeficiente Desv. t´ ıpica Estad´ ıstico t valor p const −0,837112 0,0134320 −62,3223 0,0000 t −0,0276707 0,00139136 −19,8875 0,0000 INTERES −0,00311914 0,00247563 −1,2599 0,2338 INFLACION −0,000342359 0,00275183 −0,1244 0,9032 Media de la var. dependiente −1,0840 D.T. de la variable dependiente 0,131901 Suma de cuadrados de los residuos 0,00207013 Desviaci´n t´ o ıpica de los residuos (ˆ ) σ 0,0137184 R2 0,991501 ¯ R2 corregido 0,989183 F (3, 11) 427,751 Estad´ ıstico de Durbin–Watson 0,995558 Coef. de autocorr. de primer orden. 0,441936 Log-verosimilitud 45,3774 Criterio de informaci´n de Akaike o −82,754 Criterio de informaci´n Bayesiano de Schwarz o −79,922 Criterio de Hannan–Quinn −82,784 Recordamos lo que se obten´ al realizar el contraste de esa restricci´n en la ventana de estima- ıa o ci´n por MCO del modelo no restringido mediante Contrastes → Restricciones Lineales: o Restricci´n: b[PNBR] = 1 o Estad´stico de contraste: F(1, 10) = 35,92, con valor p = 0,000133289 ı 83
  • 94. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Estimaciones restringidas: VARIABLE COEFICIENTE DESV.T´P. I ESTAD T VALOR P const -0,837112 0,0134320 -62,322 <0,00001 *** t -0,0276707 0,00139136 -19,888 <0,00001 *** PNBR 1,00000 0,000000 indefinido INTERES -0,00311914 0,00247563 -1,260 0,23377 INFLACION -0,000342359 0,00275183 -0,124 0,90323 Desviaci´n t´pica de los residuos = 0,0137184 o ı Los coeficientes estimados corresponden a las realizaciones del estimador de M´ınimos Cuadrados Restringidos para los cuatro coeficientes que quedaban sin determinar por la restricci´n4 . El valor o para el coeficiente de PNBR viene dado por la restricci´n y es igual a la unidad. Su varianza o por lo tanto es igual a cero ya que su valor est´ dado. a Hay que notar que el R2 , y por lo tanto el corregido, obtenidos en este ajuste no son comparables con los resultantes de estimar el modelo no restringido, ya que en este caso la Suma de Cuadrados Total corresponde a la variable R = IN V ERR −P N BR que es el regresando de esta regresi´n y o no a IN V ERR que es realmente la variable end´gena de inter´s a explicar. Para que los R2 sean o e comparables entre el modelo no restringido y el restringido la Suma de Cuadrados Total tiene que ser la misma. Veremos en la secci´n siguiente los que s´ son comparables y un estad´ o ı ıstico de contraste basado en ellos. 4.4. Estad´ ısticos equivalentes Partimos del modelo Y = Xβ + u donde se quiere contrastar las restricciones lineales H0 : Rβ = r. Podemos obtener la suma de los residuos al cuadrado y el coeficiente de determinaci´n o correspondientes a la estimaci´n del modelo sin restringir y al modelo restringido, de la siguiente o forma: ˆ ˆ 2 uu ˆˆ SCRN R = u u = (Y − X β) (Y − X β) ˆˆ RN R = 1 − (Yt − Y )2 ˆ ˆ 2 uR uR ˆ ˆ SCRR = uR uR = (Y − X βR ) (Y − X βR ) ˆ ˆ RR = 1 − (Yt − Y )2 Por otra parte, utilizando las sumas de cuadrados de los residuos correspondientes a la estimaci´n o del modelo restringido y no restringido, SCRR y SCRN R respectivamente y sus grados de libertad, glR y glN R , es posible realizar el contraste de las restricciones lineales con el siguiente estad´ıstico: (SCRR − SCRN R )/q H0 F = ∼ F(q, T − K) (4.11) SCRN R /(T − K) N´tese que los grados de libertad de la distribuci´n del estad´ o o ıstico bajo la hip´tesis nula son o en el numerador glR − glN R = (T − (K − q)) − (T − K) = q, el n´mero de restricciones, y u en el denominador glN R = T − K. Se puede demostrar que este estad´ ıstico es el mismo que el estad´ıstico anterior (4.4). La diferencia radica en que calcularlo de esta forma requiere estimar tanto el modelo sin restringir como el restringido. 4 a ˆ ˆ ˆ ˆ El estimador restringido ser´ βR = βR,1 βR,2 1 βR,4 βR,5 ˆ ˆ ˆ ˆ ˆ donde βR,1 , βR,2 , βR,4 y βR,5 , son los obteni- dos de la regresi´n bajo la restricci´n de que el coeficiente que acompa˜a al PNBR en el modelo para la Inversi´n o o n o real es igual a 1. 84
  • 95. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Su interpretaci´n puede ser m´s intuitiva. Imponer restricciones en la estimaci´n siempre empeo- o a o ra el ajuste tal que la diferencia de las sumas de cuadrados residuales del modelo restringido y no restringido, (SCRR − SCRN R ), es mayor o igual a cero. Ahora bien, cuanto m´s grande sea esta a diferencia m´s evidencia habr´ de que las restricciones no sean ciertas, es decir contra la hip´te- a a o sis nula. Se rechazar´ esta hip´tesis nula si el valor muestral del estad´ a o ıstico es suficientemente grande como para caer en una regi´n cr´o ıtica establecida. Si dividimos numerador y denominador por la suma de cuadrados total SCT = t (Yt − Y )2 ıstico en t´rminos de los coeficientes de determinaci´n5 : podemos expresar el estad´ e o 2 2 (RN R − RR )/q H0 F = 2 )/(T − K) ∼ F(q,T −K) (4.12) (1 − RN R El contraste se realizar´ del mismo modo que con los otros estad´ a ısticos equivalentes. Vamos a ilustrar esta forma de realizar el contraste en el ejemplo del modelo para la inversi´n o agregada. Para realizar el contraste de la restricci´n de que la propensi´n marginal a invertir o o es igual a la unidad, utilizamos las sumas de cuadrados residuales de la estimaci´n del modelo o restringido (4.10) y el modelo no restringido (4.9). Esto ya lo obtuvimos en la secciones anteriores. En la ventana donde hemos realizado la regresi´n en cada caso podemos guardar las sumas de o cuadrados residuales y a˜adirlo a las variables ya definidas con Guardar → Suma de cuadrados n de lo residuos. En concreto se obtienen las siguientes sumas de cuadrados residuales: SCRR = 0, 00207013 SCRN R = 0, 000450812 ıstico (4.11) obtenemos el siguiente valor muestral6 : Sustituyendo en el estad´ (0, 00207013 − 0, 000450812)/(15 − 4) − (15 − 5) F = = 35, 92 0, 000450812/(15 − 5) siendo este el mismo valor que obtuvimos anteriormente con el estad´ ıstico utilizando Contrastes → Restricciones lineales, y por lo tanto obtenemos la misma conclusi´n del contraste, se rechaza o la hip´tesis nula de que la propensi´n marginal a invertir sea la unidad. o o A su vez, utilizando el dato que nos da Gretl de la Desviaci´n t´ o ıpica para la variable dependiente IN V ERR, podemos obtener la Suma de Cuadrados Total como, SCT = (IN V ERRt − IN V ERR)2 = = (15 − 1)(D.T. IN V ERR)2 = 14(0, 0341774)2 2 obteniendo el valor SCT = 0, 016353325. Por lo tanto la realizaci´n de RR es en este caso, o 2 uR uR ˆ ˆ RR = 1 − = 1 − (0, 00207013/0, 016353325) = 0, 87341 SCT que no coincide con el que muestra la regresi´n del modelo (4.10). Esta vez este valor s´ es o ı comparable con el valor obtenido para el coeficiente de determinaci´n de estimar el modelo no o 5 Este es el estad´ ıstico que se introdujo en el Tema 3. En ese tema se vi´ como caso particular el estad´ o ıstico de significaci´n conjunta o R2 /(K − 1) R2 (T − K) H0 F = 2 = ∼ F (K − 1, T − K) (1 − R )/(T − K) (1 − R2 ) (K − 1) 2 En ese caso RR = 0 6 Se puede hacer el c´lculo con Gretl utilizando Datos → Definir nueva variable y escribiendo la f´rmula del a o estad´ıstico en t´rminos de los nombres asignados a las variables sumas de cuadrados residuales. e 85
  • 96. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 2 restringido, RN R = 0, 972433. Se puede apreciar, como era de esperar, que el valor obtenido del RR2 es menor que el del R2 , el ajuste empeora al imponer la restricci´n. La cuesti´n es si esto o o NR es aceptable, con un nivel de confianza elegido, para aceptar la hip´tesis nula como cierta o no. o El valor del estad´ ıstico (4.12) para este caso es, 2 2 (RN R − RR )/q (0, 972433 − 0, 87341)/1 F = 2 )/(T − K) = F = (1 − 0, 972433)/(15 − 5) = 35, 92 (1 − RN R obteniendo de nuevo el mismo valor para el estad´ ıstico y la misma conclusi´n del contraste. o 4.5. Predicci´n o Uno de los objetivos de la econometr´ consiste en predecir. Una vez estimado un modelo que ıa se considera que recoge bien el comportamiento de una variable en funci´n de otros factores o o variables explicativas, se quiere determinar con cierta confianza el valor o intervalo de valores que puede tomar la variable dependiente, supuestos unos valores para esos factores. Supongamos que se ha estimado el siguiente modelo7 : Yt = β1 + β2 X2t + . . . + βK XKt + ut con una muestra de tama˜o T , obteniendo la siguiente funci´n de regresi´n muestral (FRM): n o o ˆ ˆ ˆ ˆ Yt = β1 + β2 X2t + . . . + βK XKt Entonces, disponiendo de nuevas observaciones de las variables explicativas, Xp = 1 X2p . . . XKp p ∈ {1, 2, . . . , T } podemos utilizar el modelo estimado por MCO para predecir el valor que tomar´ la variable a end´gena en el periodo de predicci´n p. A este proceso se le llama predicci´n por punto, donde el o o o valor estimado para la variable end´gena Y en el periodo de predicci´n se obtiene sustituyendo o o estos valores de las variables ex´genas en la FRM. o ˆ ˆ Yp = Xp βM CO Equivalentemente: ˆ ˆ ˆ ˆ Yp = β1 + β2 X2p + . . . + βK XKp . ˆ ˆ El error de predicci´n se define como ep = Yp − Yp = −Xp (β − β) + up . Para obtener la o predicci´n por intervalo, nos basaremos en la distribuci´n del error de predicci´n, ya que si up o o o ˆ y β son variables aleatorias normales, el error de predicci´n tambi´n lo ser´: o e a −1 ep ∼ N (0, σ 2 ( 1 + Xp X X Xp )) Sin embargo, en general, σ 2 es desconocido por lo que utilizaremos su estimador insesgado propuesto en temas anteriores obteniendo el siguiente resultado: ep ∼ t(T −K) σ ˆ 1 + Xp ( X X )−1 Xp 7 En lo que sigue, como siempre, se satisfacen las hip´tesis b´sicas tanto en el periodo de estimaci´n como de o a o predicci´n o 86
  • 97. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 A partir de este estad´ ıstico podemos obtener un intervalo con un nivel de confianza del 1 − α alrededor de la predicci´n por punto para la variable end´gena en el momento p. o o ˆ ˆ IC1−α (Yp ) = Yp − t α (T −K) σep , Yp + t α (T −K) σep ˆ ˆ 2 2 donde σep = σ 2 ( 1 + Xp ( X X )−1 Xp ). ˆ2 ˆ ¿C´mo utilizar Gretl para predecir por punto y por intervalo? o Utilizaremos el ejemplo de los precios de las viviendas para analizar los pasos a seguir en el programa Gretl. Uno de los modelos propuestos era Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui Supongamos que tenemos informaci´n de una nueva vivienda, por ejemplo, F 2 = 3200, BEDRM S = o 5 y BAT HS = 3 y nos piden P = 500, en miles de euros, por ella. Mediante este modelo, po- demos obtener una predicci´n del precio que tendr´ una vivienda con estas caracter´ o ıa ısticas y analizar si el precio solicitado es razonable o no. Para ello, incorporamos los nuevos datos (Xp ) a la base de datos mediante Datos → Seleccionar todos A continuaci´n, pincharemos la opci´n o o Datos → A˜adir Observaciones n indicando el n´mero de observaciones que queremos a˜adir, en este caso 1. En la fila correspon- u n diente incluimos los valores de las variables explicativas en el periodo de predicci´n, en este caso o la observaci´n 15, incorporando cada observaci´n en la casilla correspondiente. Si no incorpo- o o ramos el valor para la variable P que es la que vamos a predecir, gretl nos mostrar´ un aviso a (Atenci´n: hab´ observaciones perdidas). Podemos simplemente ignorarlo y darle a aceptar. o ıa Posteriormente, estimaremos el modelo sin considerar esta nueva observaci´n (recordar que o inicialmente ten´ ıamos 14 observaciones en la muestra). Para ello, tenemos que especificar el rango muestral, es decir, en la opci´n o Muestra → Establecer rango especificaremos del rango de observaciones de la muestra para estimar el modelo, en nuestro caso de la 1 a la 14 y elegimos Aceptar. Tal y como explicamos en los temas anteriores, estimaremos el modelo por MCO y en la ventana de los resultados elegimos An´lisis → Predicciones a En la nueva ventana podemos determinar el dominio de predicci´n, es decir el Inicio y Fin que o en este caso es en ambos la observaci´n n´mero 15, y tambi´n cuantas observaciones se quieren o u e representar antes de la prediccion8 . Los resultados que muestra Gretl son los siguientes: 8 En este caso hemos elegido todas pero esto es opcional. 87
  • 98. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Para intervalos de confianza 95%, t(10, .025) = 2,228 Obs price predicci´n o desv. t´pica ı Interv. de confianza 95% 1 199,9 207,8 2 228,0 234,0 3 235,0 241,2 4 285,0 256,3 5 239,0 287,6 6 293,0 289,2 7 285,0 287,8 8 365,0 307,8 9 295,0 311,8 10 290,0 319,9 11 385,0 355,1 12 505,0 436,3 13 425,0 439,6 14 415,0 470,5 15 479,9 55,39 356,5 - 603,3 650 price predicción 600 Intervalo de confianza 95 por ciento 550 500 450 400 350 300 250 200 150 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 El gr´fico que se obtiene junto a los resultados muestra la serie de precios (P) observada en a color rojo y estimada con el modelo para las 14 observaciones anteriores a la predicci´n y la o predicci´n en color azul, junto con su intervalo de confianza en color verde. o La predicci´n por punto del precio de una vivienda con estas caracter´ o ısticas es de 479, 905 miles de euros, mientras que la predicci´n por intervalo con un nivel de confianza del 95 % es o (356, 5; 603, 3) en miles de euros, por lo que el precio que nos piden, que era de 500 miles de euros por la vivienda, est´ dentro del intervalo. Este precio para una vivienda de esas caracter´ a ısticas se aceptar´ como razonable dado nuestro modelo y la informaci´n muestral utilizada para su ıa o estimaci´n, con un nivel de confianza del 95 %. o 88
  • 99. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 4.6. Ejercicios para practicar Ejercicio 1: Se dispone de 14 observaciones sobre precios de viviendas y sus caracter´ ısticas para la comunidad de la Ciudad Universitaria de San Diego correspondientes a 19909 . Las variables que se consideran son: price Precio de venta en cientos de d´lares o (Rango 199,9 - 505) sqft Superficie de la vivienda en pies cuadrados (Rango 1065 - 3000) bedrms N´mero de habitaciones (Rango 3 - 4) u baths N´mero de ba~os (Rango 1,75 - 3) u n Se define el siguiente modelo para determinar el precio de venta de la vivienda: pricei = β1 + β2 sqf ti + β3 bedrmsi + β4 bathsi + ui (4.13) 1. Estima el modelo por MCO. 2. Bas´ndote en el modelo que has estimado, ¿en cu´nto estimas que cambie el precio medio a a de una vivienda si, junto a un incremento de 350 pies cuadrados del ´rea habitable (sqft) a se le a˜aden una habitaci´n (bedrms) y un ba˜o (baths) m´s? n o n a 3. Utilizando Gretl, contrasta las siguientes restricciones lineales: a) H0 : β3 = β4 b) H0 : β3 = 2β4 Escribe en cada caso la hip´tesis alternativa, el estad´ o ıstico utilizado y la regla de decisi´n. o Considera realizar el contraste utilizando todas las posibilidades que dispone Gretl que sean equivalentes. 4. Estima por MCO tres especificaciones del modelo para el precio de la vivienda, incluyendo en todos los casos adem´s de un t´rmino constante: a e a) la variable bedrms (Modelo 2). b) la variable baths (Modelo 3). c) las variables bedrms y baths (Modelo 4). Completa la tabla que se adjunta con los resultados de estimaci´n obtenidos. Comenta o todos los resultados obtenidos y compara las distintas especificaciones. ¿Te parecen ra- zonables los signos obtenidos? Razona teniendo en cuenta en cada caso qu´ recogen los e coeficientes. 9 Fichero data4-1.gdt. Recogido en Ramanathan, R. (2002), Introductory econometrics with applications, 5th. Ed., South-Western. 89
  • 100. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Tabla 4.3: Resultados de estimaci´n obtenidos para los distintos modelos. o Variable dependiente: Variables explicativas Modelo 2 Modelo 3 Modelo 4 CONSTANT ······ ······ ······ ( ) ( ) ( ) BEDRMS ······ ······ ( ) ( ) BATHS ······ ( ) Suma de cuadrados de los residuos ······ ······ ······ Desviaci´n t´ o ıpica de los residuos (ˆ ) σ ······ ······ ······ R2 ······ ······ ······ ¯ R2 ······ ······ ······ F de significaci´n conjunta o ······ ······ ······ Grados de libertad ······ ······ ······ Criterio de Akaike (AIC) ······ ······ ······ Criterio de Schwarz (BIC) ······ ······ ······ Criterio de Hannan-Quinn (HQC) ······ ······ ······ (*) Entre par´ntesis, los estad´ e ısticos t Ejercicio 2: Para la realizaci´n de este ejercicio utiliza el archivo de muestra greene5-1.gdt disponible en o gretl.10 Este archivo contiene datos de series temporales a frecuencia trimestral desde 1950:1 a 2000:4 de las siguientes variables para la econom´ americana: ıa realgdp Producto interior bruto real(en billones de d´lares) o realcons Gastos de consumo real realinvs Inversi´n real en el sector privado o realgovt Gasto p´blico real u realdpi Renta personal disponible real cpi_u Indice de precios al consumo M1 Stock nominal de dinero tbilrate Tipo de inter´s (media trimestral) e unemp Tasa de desempleo 10 Fuente: Greene, W. (2008), Econometrics Analysis, 6th Ed., Prentice-Hall, Tabla F5.1: Macroeconomics Data Set, Quarterly, 1950I to 2000IV, 204 Quarterly Observations Source: Department of Commerce, BEA website and www.economagic.com. 90
  • 101. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 pop Poblaci´n (en miles) o infl Tasa de inflaci´n (primera observaci´n no disponible) o o realint Tipo de inter´s real ex-post = Tbilrate - Infl e Ten en cuenta que la primera observaci´n para la variable infl no est´ disponible. Ajusta entonces o a el rango muestral para tener observaciones para todas las variables. Considera la siguiente especificaci´n para la funci´n de Inversi´n: o o o realinvst = β1 + β2 time + β3 realgdpt + β4 tbilratet + β5 inf lt + ut (4.14) 1. Muestra los resultados de la estimaci´n del modelo por MCO. Recuerda que antes de o estimar tienes que a˜adir una nueva variable, una tendencia temporal (time). n 2. Utilizando las opciones de Contrastes → Restricciones lineales y Contrastes → Omitir variables, realiza el contraste de significaci´n individual para la variable realgdp. o 3. Verifica que el valor del estad´ıstico F obtenido de esta forma, coincide con el valor del estad´ıstico t al cuadrado que se muestra en el resultado de la estimaci´n del modelo no o restringido. 4. De igual forma que en el segundo apartado, realiza el contraste de significaci´n conjunta. o Verifica que el valor coincide con el que se muestra en los resultados de la estimaci´n del o modelo no restringido. 5. Obt´n la estimaci´n de los par´metros del modelo para la inversi´n real bajo la restricci´n e o a o o de que los coeficientes que acompa˜an al tipo de inter´s (tbilrate) y a la inflaci´n (infl ) n e o suman cero. Para ello estima directamente el Modelo Restringido incorporando la restric- ci´n. Escribe el modelo restringido y muestra los resultados de su estimaci´n. ¿Qu´ recoge o o e esta restricci´n? ¿Para qu´ sirve la variable realint? o e 6. Para la hip´tesis nula de que los coeficientes que acompa˜an al tipo de inter´s (tbilrate) o n e y a la inflaci´n (infl ) suman cero, obt´n el valor del estad´ o e ıstico basado en comparar las sumas de cuadrados residuales del modelo restringido y no restringido. Calcula tambi´n el e estad´ ıstico en funci´n de los coeficientes de determinaci´n de ambos modelos. o o 7. Comprueba que el valor obtenido en el apartado anterior del estad´ ıstico de contraste, es el mismo valor que el obtenido con el estad´ ıstico equivalente utilizando la opci´n Contrastes o → Restricciones lineales 8. Utilizando los datos del fichero greene5-1.gdt como muestra para el rango de estimaci´n, o predice el valor que tomar´ la inversi´n real en el trimestre 2001:1 por punto y por intervalo a o (al 95 % de confianza), basando esta predicci´n en las previsiones para el realgdp de 1000 o billones de d´lares, tipo de inter´s tbilrate del 10 % e inflaci´n del 4 % para 2001:1. Ten o e o en cuenta que los valores que tomar´ la variable time en el periodo de predicci´n vienen a o determinados por el n´mero correspondiente de observaci´n posterior al utilizado para u o estimar. 91
  • 102. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Ejercicio 3: Para la realizaci´n de este ejercicio utiliza el archivo de muestra en gretl greene8-3.gdt. 11 Son o datos de series temporales para los a˜os 1966 a 1985 de las siguientes variables: n q Producci´n agregada por trabajador-hora o k Ratio capital/trabajo agregado A ´ndice tecnol´gico I o 1. Se especifica un primer modelo para la funci´n de producci´n agregada: o o qt = β1 + β2 kt + ut (4.15) Interpreta sus coeficientes. 2. Estima el modelo por M´ ınimos Cuadrados Ordinarios. Comenta los resultados obtenidos en t´rminos de bondad de ajuste, significatividad y signos de los coeficientes estimados. e Razona si te parecen adecuados los resultados. 3. Obt´n e interpreta los siguientes gr´ficos: e a • Gr´fico de los residuos MCO contra el tiempo. a • Gr´fico de la serie estimada y observada contra el tiempo. a 4. Obt´n el gr´fico de residuos MCO sobre la variable que no ha sido incluida, el ´ e a ındice tecnol´gico A. Comenta el gr´fico obtenido. ¿Puedes encontrar alguna relaci´n con lo o a o encontrado en el gr´fico de residuos contra el tiempo? a 5. Realiza el contraste de Engle para analizar si en el modelo (4.15) ser´ relevante controlar ıa por el cambio tecnol´gico incluyendo la variable A. Para ello calcula el estad´ o ıstico NR2, donde R2 es el coeficiente de determinaci´n de la regresi´n de los residuos del modelo o o (4.15) sobre una constante y la variable A. ¿Qu´ evidencia se obtiene del contraste? e 6. Se considera ampliar la especificaci´n del modelo (4.15) incluyendo el ´ o ındice de cambio tecnol´gico, o qt = β1 + β2 kt + β3 At + ut (4.16) a) Interpreta los coeficientes estimados. b) Contrasta la significatividad de las variables explicativas. ¿Es consistente el resultado obtenido con la evidencia encontrada utilizando el contraste de Engle? c) Compara los resultados de la estimaci´n de los modelos (4.15) y (4.16), ¿cu´l te o a parece mejor? Razona tus conclusiones utilizando todos los criterios que consideres oportunos. d ) Realiza el contraste de las siguientes restricciones lineales en el modelo (4.16): H0 : β2 = 1 H0 : β3 = β2 H0 : β2 = 1, β3 = 2 No olvides escribir la hip´tesis alternativa, estad´ o ıstico de contraste y criterio de deci- si´n. o 11 Fuente: Greene, W. (2008), Econometrics Analysis, 6th Ed., Prentice-Hall, Tabla F6.3: Datos sobre cambio tecnol´gico de Solow (1957), p. 314. o 92
  • 103. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 e) Utilizando los datos del fichero greene8-3.gdt como muestra para el rango de esti- maci´n, predice el valor que tomar´ la producci´n agregada q por trabajador-hora o ıa o en el a˜o 1987, por punto y por intervalo (al 95 % de confianza). Basa esta predicci´n n o en las previsiones para el ratio capital/trabajo k de 3 unidades e ´ ındice tecnol´gico o A de 2 unidades. Ejercicio 4: Para la realizaci´n de este ejercicio utiliza el archivo de muestra en gretl greene9-1.gdt. o 12 El archivo contiene datos de secci´n cruzada para 25 estados americanos sobre manufacturas de o equipamiento del sector transporte. Las variables consideradas son. valadd Valor a~adido en millones de d´lares de 1957 n o capital Capital en millones de d´lares de 1957 o labor Trabajo en millones de d´lares de 1957 o nfirm N´mero de empresas del sector en ese estado u valadd capital labor 1. Define las nuevas variables V = nf irm , K= nf irm y L= nf irm . 2. Especifica un primer modelo para la funci´n de producci´n por establecimiento: o o Vi = β1 + β2 Li + ui (4.17) Interpreta sus coeficientes. 3. Estima el modelo por M´ ınimos Cuadrados Ordinarios. Comenta los resultados obtenidos en t´rminos de bondad de ajuste, significatividad y signos de los coeficientes estimados. e Razona si te parecen adecuados los resultados. 4. Obt´n e interpreta los siguientes gr´ficos: e a • Gr´fico de los residuos MCO. a • Gr´fico de la serie estimada y observada. a 5. Obt´n el gr´fico de residuos MCO sobre la variable que no ha sido incluida, el factor capital e a K. Comenta el gr´fico obtenido. a 6. Realiza el contraste de Engle para analizar si en el modelo (4.17) ser´ relevante controlar ıa por el factor capital incluyendo la variable K. Para ello calcula el estad´ ıstico NR2, donde R2 es el coeficiente de determinaci´n de la regresi´n de los residuos del modelo (4.17) sobre o o una constante y la variable K. ¿Qu´ evidencia se obtiene del contraste? e 7. Se considera ampliar la especificaci´n del modelo (4.17) incluyendo el factor capital, o Vi = β1 + β2 Li + β3 Ki + ui (4.18) a) Interpreta los coeficientes estimados. b) Contrasta la significatividad de las variables explicativas, ¿Es consistente el resultado obtenido con la evidencia encontrada utilizando el contraste de Engle? 12 Fuente: Greene, W. (2008), Econometrics Analysis, 6th Ed., Prentice-Hall, Tabla F14.1: Statewide Data on Transportation Equipment Manufacturing, Fuente: A. Zellner and N. Revankar (1970, p. 249). 93
  • 104. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a c) Compara los resultados de la estimaci´n de los modelos (4.17) y (4.18), ¿cu´l te o a parece mejor? Razona tus conclusiones utilizando todos los criterios que consideres oportunos. d ) Realiza el contraste de las siguientes restricciones lineales: H0 : β3 = 1 H0 : β2 + β3 = 1 H0 : β1 = 0, β3 = β2 Ejercicio 5: Para la realizaci´n de este ejercicio utiliza el archivo de muestra en gretl greene10-3.gdt. 13 o El archivo contiene datos de serie temporal de frecuencia anual para los a˜os 1966 a 1985. Las n variables que se consideran son: r Tipo de descuento a final de a~o, Reserva Federal de NY n M Oferta Monetaria M2 Y Producto Nacional Bruto, en d´lares de 1982 o 1. Se especifica un primer modelo para la demanda de dinero: Mt = β1 + β2 Yt + ut (4.19) Interpreta sus coeficientes. 2. Estima el modelo por M´ ınimos Cuadrados Ordinarios. Comenta los resultados obtenidos en t´rminos de bondad de ajuste, significatividad y signos de los coeficientes estimados. e Razona si te parecen adecuados los resultados. 3. Obt´n e interpreta los siguientes gr´ficos: e a • Gr´fico de los residuos MCO contra el tiempo. a • Gr´fico de la serie estimada y observada contra el tiempo. a 4. Obt´n el gr´fico de residuos MCO sobre la variable que no ha sido incluida, el tipo de e a descuento r. Comenta el gr´fico obtenido. a 5. Realiza el contraste de Engle para analizar si en el modelo (4.19) ser´ relevante controlar ıa por el tipo de descuento incluyendo la variable r. Para ello calcula el estad´ ıstico NR2, donde R2 es el coeficiente de determinaci´n de la regresi´n de los residuos del modelo o o (4.19) sobre una constante y la variable r. ¿Qu´ evidencia se obtiene del contraste? e 6. Se considera ampliar la especificaci´n del modelo (4.19) incluyendo el tipo de descuento o Mt = β1 + β2 Yt + β3 rt + ut (4.20) a) Interpreta los coeficientes estimados. b) Contrasta la significatividad de las variables explicativas, ¿Es consistente el resultado obtenido con la evidencia encontrada utilizando el contraste de Engle? c) Compara los resultados del modelo (4.19) y modelo (4.20), ¿cu´l te parece mejor? a Razona tus conclusiones utilizando todos los criterios que consideres oportunos. 13 Fuente: Greene, W. (2008), Econometrics Analysis, 6th Ed., Prentice-Hall. 94
  • 105. Tema 5 Errores de especificaci´n en la elecci´n o o de los regresores 5.1. Introducci´n o La primera especificaci´n de un modelo de regresi´n implica tomar varias decisiones, a menudo o o previas a la confrontaci´n de ´ste con los datos. Algunas de estas decisiones son: o e • Elecci´n de la variable dependiente. o • Elecci´n de las variables explicativas. o • Medici´n de las variables. o • Forma funcional de la relaci´n. Estabilidad. o • Especificaci´n de las propiedades del t´rmino de error. o e En los temas anteriores hemos especificado un modelo de regresi´n donde se satisfacen una serie o de hip´tesis b´sicas. Algunas de estas hip´tesis pueden no mantenerse si las decisiones adoptadas o a o son err´neas o porque simplemente, dadas las caracter´ o ısticas de las variables del modelo y de los datos a utilizar, estas hip´tesis pudieran no ser adecuadas. Esto puede influir negativamente en o las propiedades del estimador utilizado y en la inferencia, siendo las decisiones posteriores sobre el modelo err´neas. En muchos casos la evaluaci´n de un modelo puede estar influenciada por o o esta primera especificaci´n. Por ello, es importante disponer de instrumentos o contrastes que nos o permitan hacer un diagn´stico sobre si son aceptables ciertas decisiones o hip´tesis adoptadas. o o Estos instrumentos pueden ser un an´lisis gr´fico de los residuos o contrastes estad´ a a ısticos donde se traten de detectar problemas de mala especificaci´n.o En este tema nos vamos a centrar en ilustrar las implicaciones que pueden tener decisiones err´neas en t´rminos de la elecci´n de las variables explicativas o regresores. Para ello vamos a o e o proponer que conocemos el modelo correcto y consideramos separadamente dos situaciones: a) Omisi´n de variables explicativas relevantes. Analizaremos las implicaciones en el estima- o dor MCO y en la validez de los contrastes de significatividad. Veremos la utilizaci´n del o gr´fico de residuos y alg´n contraste de mala especificaci´n con algunos ejemplos emp´ a u o ıricos. 95
  • 106. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a b) Inclusi´n de variables irrelevantes. En este caso nos interesaremos por los efectos de haber o incluido variables que sabemos no tendr´ que estar en el modelo. La cuesti´n es c´mo ıan o o detectar y decidir en la pr´ctica qu´ variables son o no relevantes. Tambi´n discutiremos a e e estas cuestiones utilizando un caso pr´ctico. a Aunque te´ricamente analizaremos cada uno de estos efectos por separado y asumiremos que o conocemos la especificaci´n correcta, en la pr´ctica podemos tener combinados estos efectos. o a 5.2. Efectos de omisi´n de variables relevantes o Podemos seguir con nuestro ejemplo sobre el precio de la vivienda en el que quer´ ıamos explicar esta variable, medida en miles de d´lares, en funci´n de una serie de variables explicativas como o o pod´ ser el tama˜o de la vivienda F 2, el n´mero de habitaciones BEDRM S y el n´mero de ıan n u u ba˜os BAT HS. En principio, vamos a considerar que el modelo correcto para explicar el precio n de la vivienda es Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui i = 1, . . . , N (5.1) donde se satisfacen las hip´tesis b´sicas pero se estima por MCO el siguiente, o a Pi = β1 + β3 BEDRM Si + β4 BAT HSi + vi i = 1, . . . , N (5.2) En el modelo considerado a la hora de estimar se ha omitido la variable F2 o tama˜o de la n vivienda. Si esta variable es relevante entonces β2 = 0 por lo que el error vi recoger´ la variable a omitida, esto es vi = β2 F 2i + ui , siendo E(vi ) = β2 F 2i = 0. Luego en el modelo mal especificado no se satisface una de las hip´tesis b´sicas. Esto a su vez implica que la covarianza entre las o a variables incluidas y el error del modelo (5.2) depender´ de la covarianza entre la variable a omitida F 2i y cada una de las incluidas BEDRM Si y BAT HSi . Si estas no son cero, esto introducir´ un sesgo en los coeficientes estimados que ser´ funci´n de estas covarianzas. El signo a a o del sesgo depender´ del signo del coeficiente β2 y de los signos de estas covarianzas. Se puede a demostrar que los sesgos de estimar por MCO β3 y β4 en el modelo (5.2) son ˆ S23 S44 − S24 S34 ˆ S24 S33 − S23 S34 E(β3 ) − β3 = β2 2 E(β4 ) − β4 = β2 2 (5.3) S33 S44 − S34 S33 S44 − S34 donde Sjs = ¯ ¯ i (Xji − Xj )(Xis − Xs ), siendo la covarianza muestral entre dos variables j, s si j = s, y la varianza muestral de la variable j si j = s. Como se puede apreciar, el sesgo en la estimaci´n de ambos coeficientes depende de las covarianzas entre las variables relevante o excluida F 2 y cada una de las variables incluidas BEDRM S y BAT HS 1 . Adem´s depende a 1 Si el modelo de partida correcto hubiera sido Pi = β1 + β2 F 2i + β3 BEDRM Si + ui i = 1, . . . , N (5.4) pero hubi´ramos considerado para estimar e Pi = β1 + β3 BEDRM Si + vi i = 1, . . . , N (5.5) entonces el sesgo en estimar β3 en (5.5) ser´ simplemente ıa ˆ S23 E(β3 ) − β3 = β2 (5.6) S33 El sesgo sigue dependiendo de la covarianza entre la variable omitida F 2 y la incluida BEDRM S dada por S23 . En este caso se puede esperar que el sesgo fuera positivo ya que tanto S23 como β2 se esperan sean positivos. El 96
  • 107. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 del coeficiente β2 que en el modelo correcto (5.1) se esperaba fuera positivo, pero la direcci´n o del signo de cada sesgo no es clara ya que depende del signo del cociente que acompa˜a a n β2 . Para que no hubiera sesgo en la estimaci´n de cualquiera de estos dos coeficientes ambas o variables incluidas, BEDRM S y BAT HS tendr´ que estar incorreladas con el tama˜o ıan n de la vivienda o variable excluida, cosa poco probable en este ejemplo. En cuanto al sesgo en la estimaci´n del coeficiente que acompa˜a al t´rmino constante se puede o n e demostrar que es2 ˆ ¯ S23 S44 − S24 S34 ¯ S24 S33 − S23 S34 ¯ E(β1 ) − β1 = β2 X2 − 2 X3 − 2 X4 (5.7) S33 S44 − S34 S33 S44 − S34 Vemos que en este caso a´n siendo S23 = S24 = 0 el sesgo no se anular´ ya que todav´ depende u ıa, ıa ¯ 2 , que generalmente no va a ser cero. De este resultado se de la media de la variable omitida X puede argumentar que el coeficiente que acompa˜a al t´rmino constante, generalmente va a n e recoger efectos de variables omitidas a´n cuando esto no influya en la estimaci´n del resto u o de par´metros o pendientes por estar estas variables incorreladas con las incluidas. Por ello, a normalmente es conveniente no excluir el t´rmino constante, a no ser que se tengan fuertes e razones te´ricas para hacerlo. o Si se estiman con sesgo los coeficientes βj , tambi´n ser´n incorrectos los contrastes de significati- e a vidad individual, conjunta y otro tipo de contrastes sobre los coeficientes del modelo utilizando estas estimaciones sesgadas. Ahora bien, ¿ser´n fiables los contrastes sobre las pendientes si se a dan las condiciones para que los estimadores de estos par´metros no sean sesgados? La respuesta a es que no, ya que a´n dandose las condiciones de incorrelaci´n entre regresores incluidos y varia- u o bles relevantes excluidas, el estimador de la matriz de varianzas y covarianzas de esos coeficientes estimados seguir´ siendo sesgada. Esto se debe a que el estimador del par´metro σ 2 utilizando a a la suma de cuadrados residual de la estimaci´n del modelo mal especificado estar´ sesgado en o a cualquiera de los casos. Luego vemos que en general las consecuencias de omitir variables relevantes en la especificaci´n o de un modelo son serias, especialmente en la inferencia. ¿C´mo detectar que esto pueda estar ocurriendo? Una primera cuesti´n es tener en cuenta o o el modelo te´rico de inter´s y pensar qu´ variables pueden faltar en el modelo emp´ o e e ırico. Por otro lado, podemos ayudarnos de contrastes que puedan se˜alar la existencia de alg´n problema de n u mala-especificaci´n3 . o Adem´s, el an´lisis de los residuos nos puede ayudar a ver si hemos dejado fuera factores relevan- a a tes. Por ejemplo, podemos ver el gr´fico de los residuos por observaci´n y ver si estos presentan a o efecto de omitir F 2 o no controlar por el tama˜o de la vivienda en el modelo (5.5) ser´ sobreestimar el efecto n a marginal de tener una habitaci´n m´s en la vivienda sobre el precio de ´sta. Por tanto, el n´mero de habitaciones o a e u estar´ tambi´n de alguna forma representando el papel del tama˜o de la vivienda, que no se ha incluido en ıa e n el modelo. No se estimar´ con sesgo si S23 = 0, cosa que no parece factible ya que el n´mero de habitaciones ıa u estar´ correlacionado con el tama˜ o de la vivienda. a n 2 Ocurre lo mismo si consideramos que el modelo estimado es (5.5) y el verdadero modelo es (5.4). 3 En este tema ilustraremos alguno de estos contrastes, aunque no todos. Incluso algunos contrastes dise˜ados n para analizar si el t´rmino de error no est´ autocorrelacionado, puede capturar tambi´n otro tipo de cuestiones e a e de mala especificaci´n. o 97
  • 108. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a alg´n comportamiento sistem´tico que pueda apuntar en esa direcci´n. u a o Por ejemplo, consideremos los resultados de la estimaci´n de los modelos (5.1) y (5.2) para o explicar el precio de la vivienda4 Variable Modelo (5.1) Modelo (5.2) Supuestamente Correcto CONSTANT 129,062 27,2633 (1,462) (0,182) F2 0,1548 (4,847) BEDRMS -21,588 -10,1374 (-0,799) (-0,216) BATHS -12,193 138,795 (-0,282) (2,652) Suma de cuadrados de los residuos 16700,1 55926,4 Desviaci´n t´ o ıpica de los residuos (ˆ ) σ 40,8657 71,3037 R2 0,836 0,450706 ¯ R2 0,787 0,350834 F de significaci´n conjunta o 16,989 4,51285 Grados de libertad 10 11 Criterio de Akaike (AIC) 146,908 161,829 Criterio de Schwarz (BIC) 149,464 163,746 Tabla 5.1: Modelos (5.1) y (5.2) estimados para el precio de la vivienda Como ya comentamos en el cap´ ıtulo anterior, la omisi´n de la variable F 2 empeora bastante o el ajuste tanto en t´rminos del R e ¯ 2 como del R2 , AIC y BIC. El coeficiente estimado que m´s a ha cambiado es el que acompa˜a a la variable BAT HS pasando a tener signo positivo y ser n significativamente distinto de cero. Parece que, dado que ambas variables representan tambi´n e tama˜o de la vivienda, el efecto indirecto de la omisi´n de esta variable puede estar siendo n o capturando m´s por el coeficiente de BAT HS que por el de BEDRM S. a Podemos mirar a las correlaciones entre la variable excluida F 2 y las incluidas BEDRM S y BAT HS. En la ventana principal de Gretl donde tenemos estas variables, las seleccionamos con el bot´n izquierdo del rat´n, mientras mantenemos la tecla de may´sculas ⇑, y en Ver → matriz o o u de correlaci´n obtenemos o Coeficientes de correlaci´n, usando las observaciones 1 - 14 o valor cr´ ıtico al 5 % (a dos colas) = 0,5324 para n = 14 F2 BEDRMS BATHS 1, 0000 0, 4647 0, 7873 F2 1, 0000 0, 5323 BEDRMS 1, 0000 BATHS 4 Los valores entre par´ntesis son los correspondientes estad´ e ısticos t de significatividad individual. 98
  • 109. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Vemos que, aunque tanto el n´mero de habitaciones BEDRM S como el n´mero de ba˜os u u n BAT HS presenta una correlaci´n positiva con la variable excluida, tama˜o de la vivienda F 2, o n es la variable BAT HS la que presenta una mayor correlaci´n con esta ultima. o ´ Seguidamente vamos a analizar diversos gr´ficos de los residuos del ajuste del modelo (5.2) donde a hemos omitido F 2 que parece ser relevante. De la estimaci´n de este modelo en la ventana de o estimaci´n gretl:modelo2 elegimos o Gr´ficos → Grafico de residuos → Por n´mero de observaci´n a u o que nos muestra el gr´fico de residuos por observaci´n seg´n est´n las 14 observaciones ordenadas a o u a en la muestra. Lo podemos guardar posicionando el cursor dentro de la ventanta del gr´fico y a pinchando con el bot´n derecho del rat´n, aparece un men´ con distintas opciones y formatos o o u para guardarlo. 200 150 100 residuo 50 0 -50 -100 2 4 6 8 10 12 14 observacion Gr´fico 5.1: Gr´fico de los residuos del Modelo (5.2) por observaci´n a a o En el gr´fico se puede apreciar que hay demasiados residuos negativos juntos al comienzo de la a muestra y a medida que vamos hacia las ultimas observaciones o viviendas, estos se concentran ´ m´s en la parte positiva. Si observamos la disposici´n de las viviendas en la muestra, veremos a o que est´n ordenadas en funci´n creciente del tama˜o de la vivienda. Luego los residuos negativos a o n estar´ asociados en general con viviendas de menor tama˜o y los positivos con viviendas de ıan n mayor tama˜o. Esto sugiere un comportamiento sistem´tico en la disposici´n de los residuos n a o alrededor de su media muestral que es cero. El gr´fico de los residuos sobre la variable F 2 puede ayudar a ver si hay alguna relaci´n. De hecho a o el gr´fico nos mostrar´ la recta de regresi´n de los residuos sobre esta variable si es que existe a a o una relaci´n significativa. Para obtener el gr´fico primero tenemos que guardar los residuos de o a la estimaci´n del modelo (5.2). Para ello, en la ventana de estimaci´n gretl:modelo2 elegimos o o Guardar → Residuos 99
  • 110. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a y le damos un nombre a la serie de residuos. Esta serie aparecer´ en la ventana principal gretl a y la podremos utilizar posteriormente. En esta misma ventana elegimos Ver → Gr´ficos → Grafico X-Y (scatter) a 200 Y = -112, + 0,0584X 150 100 Residuo modelo (5.2) 50 0 -50 -100 1500 2000 2500 3000 F2 Gr´fico 5.2: Gr´fico de los residuos del Modelo (5.2) sobre F2 a a En la ventana que aparecer´ posteriormente, especificamos que variable se representa en el eje a de ordenadas eje X, en este caso F 2, y en el eje de abcisas o eje Y, en este caso los residuos de la estimaci´n del Modelo (5.2). En este gr´fico podemos apreciar que hay una relaci´n positiva o a o significativa entre los residuos de la estimaci´n del modelo (5.2) y la variable F 2 omitida en o ese modelo. De hecho, la l´ınea que aparece en el gr´fico representa la recta de regresi´n de los a o residuos sobre esa variable. Esto indica que cierto componente residual puede ser explicado por la variable que no hemos incluido. Lo detectado en estos gr´ficos puede ser contrastado utilizando el siguiente contraste que se debe a a Engle (1982). Este contraste utiliza el R2 de la regresi´n auxiliar de los residuos del modelo o que se est´ analizando sobre la variable o variables que sospechamos puedan ser candidatas a a ser incluidas en ´l por ser relevantes. En nuestro caso ser´ realizar la regresi´n e ıa o ui = δ1 + δ2 F 2i + ξi ˆ i = 1, . . . , N (5.8) El estad´ıstico de contraste es N R2 donde el R2 es el coeficiente de determinaci´n de esta regresi´n o o auxiliar. La distribuci´n exacta del estad´ o ıstico, bajo la hip´tesis nula de que la variable F 2 no o es una variable relevante a incluir en el modelo, no es conocida pero se puede aproximar por la distribuci´n χ2 con un grado de libertad5 . Esta aproximaci´n ser´ mejor cuanto mayor sea el o o a tama˜o muestral. n En el ejemplo que nos ocupa esta regresi´n auxiliar la podemos obtener con Gretl eligiendo o 5 En general, los grados de libertad ser´n el n´ mero de regresores de la regresi´n auxiliar sin contar el t´rmino a u o e constante. 100
  • 111. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Modelo → Minimos Cuadrados Ordinarios y en la ventana que emerge elegir como variable dependiente la serie de residuos de la estimaci´n o del modelo (5.2) que ten´ ıamos guardada y como regresores a F 2 adem´s de la constante. Los a resultados de esta regresi´n auxiliar (5.8) para el ejemplo que nos ocupa son o ui = −111, 588 + 0, 0583946 F2i (−1,995) (2,078) 2 N = 14 R = 0, 264584 Si queremos guardar el valor muestral N R2 podemos hacerlo en esa misma ventana eligiendo Guardar → T ∗ R-cuadrado ıstico N R2 = 3, 70417 se muestra en la ventana principal con el resto El valor muestral del estad´ de variables. Este valor habr´ que compararlo en este caso con el valor cr´ a ıtico χ2 (1)α utilizando en el contraste un nivel de significaci´n α concreto. o Para buscar el valor cr´ ıtico en las tablas de la Chi-cuadrado con 1 grado de libertad podemos elegir en la ventana principal de Gretl, Herramientas → Tablas Estad´ ısticas y en la ventana que aparece seleccionar la chi-cuadrado especificando 1 grado de libertad. Aparece una ventana con los valores cr´ ıticos de la distribuci´n Chi-cuadrado para distintos niveles de significaci´n. o o Tambi´n podemos obtener el valor-p dado el valor muestral del estad´ e ıstico. En la ventana prin- cipal de nuevo en Herramientas → Buscador de valores-p, y en la ventana que aparece seleccio- nar la chi-cuadrado especificando en la primera casilla 1 grado de libertad y el valor muestral del estad´ıstico en la segunda casilla. Aparece una ventana con la siguiente informaci´n: Chi- o cuadrado(1): ´rea a la derecha de 3,70417 = 0,0542767 (a la izquierda: 0,945723). a Por lo tanto, como el valor-p obtenido es 0, 0542767 que, aunque poco, es algo mayor que 0, 05, no se rechazar´ la hip´tesis nula de que F 2 sea una variable importante a a˜adir al modelo ıa o n al 5 %, pero s´ al 10 % al ser el valor-p en ese caso menor que ese nivel de significaci´n. Vemos ı o que la hip´tesis nula se rechazar´ al 10 % de significaci´n ya que el valor muestral en ese caso o ıa o N R2 = 3, 70417 ser´ mayor que el valor cr´ ıa ıtico χ2 (1)0,1 = 2, 706, aunque no se rechazar´ al 5 %. ıa Luego existe cierta evidencia de que F 2 sea una variable relevante a a˜adir en el modelo. n ¿C´mo cambiar´ los gr´ficos (5.1) y (5.2) si consideramos los residuos del modelo (5.1) que o ıan a incluye a la variable F2? Estos corresponden a los gr´ficos de la Figura (5.3). En este caso la a disposici´n de los residuos positivos y negativos es m´s aleatoria alrededor de su media muestral. o a Por otro lado, el gr´fico de los residuos del modelo (5.1) sobre la variable F 2 ya no muestra esa a relaci´n positiva entre ambas variables. o 5.3. Efectos de inclusi´n de variables irrelevantes o Supongamos ahora que el modelo correcto para el precio de la vivienda es Pi = β1 + β2 F 2i + ui i = 1, . . . , N (5.9) donde se satisfacen las hip´tesis b´sicas, pero incluimos en la regresi´n una variable m´s que no o a o a es relevante, BEDRM S. El modelo que ajustamos es Pi = β1 + β2 F 2i + β3 BEDRM Si + ui i = 1, . . . , N (5.10) 101
  • 112. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 80 80 60 60 40 40 Residuos del Modelo (5.1) Residuos del Modelo (5.1) 20 20 0 0 −20 -20 −40 -40 −60 -60 2 4 6 8 10 12 14 1500 2000 2500 3000 Observación F2 Gr´fico 5.3: Gr´ficos de los residuos del Modelo (5.1) sobre observaci´n y sobre F2 a a o En este modelo se siguen satisfaciendo las hip´tesis b´sicas, ya que el valor poblacional del o a coeficiente que acompa˜a a la variable BEDRM S es cero al no ser una variable relevante, por n lo que el t´rmino de error no cambia. Pero en la regresi´n se estimar´n todos los coeficientes, e o a tambi´n los de las variables irrelevantes y la estimaci´n puntual de β3 no ser´ en general cero. e o a ¿Qu´ consecuencias tendr´ este error de especificaci´n? e a o ˆ • En este caso, los estimadores de todos los coeficientes son insesgados, por lo que E(βj ) = βj ∀j. En particular, E(βˆ3 ) = 0. • La matriz de varianzas y covarianzas se estimar´ correctamente con el estimador habitual. a Por lo que tanto los intervalos de confianza como los procedimientos habituales de contraste sobre los coeficientes βj siguen siendo v´lidos. a • El coste de este error de especificaci´n es la p´rdida de eficiencia en la estimaci´n. Si se o e o comparan las varianzas de los coeficientes estimados en el modelo incorrecto relativamente al correctamente especificado, estas ser´n mayores en el primero. Por ejemplo, se puede a demostrar que esta p´rdida de eficiencia depende de la correlaci´n entre F 2 y BEDRM S e o siendo mayor cuanto mayor sea esta correlaci´n. o En particular, para β2 el ratio de la varianza del estimador de este coeficiente en el modelo incorrecto (5.10) sobre la varianza del estimador en el modelo correcto (5.9) es ˆ var(β2 )(10) 1 = ≥1 (5.11) var(βˆ2 )(9) 1 − ρ2 23 siendo 0 ≤ ρ2 ≤ 1 el coeficiente de correlaci´n al cuadrado entre F 2 y BEDRM S. 23 o En el caso de los datos que estamos utilizando data4-1 sobre 14 viviendas este ratio es 1/ 1 − (0, 5323)2 = 1, 4, luego hay cierta p´rdida de eficiencia en la estimaci´n de e o β2 en el modelo (5.10) relativamente a (5.9). La inclusi´n de la variable supuestamente o irrelevante BEDRM S hace que estimemos con menor precisi´n el coeficiente β2 . Lo mismo o ocurre con el coeficiente β1 . 102
  • 113. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 ¿C´mo podemos detectar la presencia de variables innecesarias? o Una posibilidad es comenzar por un modelo relativamente general y utilizar los contrastes de ¯ significatividad individual, as´ como las medidas de bondad de ajuste R2 o los criterios de ı informaci´n AIC o BIC por ejemplo. Estos indicadores nos pueden ayudar en la toma de esta o decisi´n. Los resultados obtenidos de la estimaci´n de los modelos (5.9) y (5.10) se muestran en o o la tabla (5.2)6 . Considerando que nuestro modelo de partida es el modelo m´s general, Modelo a (5.10), y utilizando el contraste de significatividad individual para el coeficiente que acompa˜an a BEDRM S, podr´ ıamos considerar que esta variable no es relevante en explicar la variaci´n o en el precio de la vivienda una vez hemos incluido el tama˜o de ´sta. Eliminar esta variable n e ¯ del modelo tambi´n mejora el resto de indicadores de ajuste, mayor R2 , menores AIC y BIC. e Se puede observar tambi´n que las desviaciones t´ e ıpicas estimadas se reducen bastante. Por otro lado, tanto en el modelo (5.10) como en el (5.9), la variable F 2 es significativa indicando su relevancia en explicar la variaci´n en el precio de la vivienda. o Variable Modelo (5.9) Modelo (5.10) supuestamente correcto CONSTANT 52,351 121,179 (1,404) (1,511) [37,28] [80,1778] F2 0,13875 0,14831 (7,407) (6,993) [0,0187] [0,0212] BEDRMS -23,911 (-0,970) [24,642] Suma de cuadrados de los residuos 18273,6 16832,8 Desviaci´n t´ o ıpica de los residuos (ˆ ) σ 39,023 39,1185 R2 0,821 0,835 ¯ R2 0,806 0,805 F de significaci´n conjunta o 54,861 27,767 Grados de libertad 12 11 Criterio de Akaike (AIC) 144,168 145,019 Criterio de Schwarz (BIC) 145,447 146,936 Tabla 5.2: Modelos estimados para el precio de la vivienda. La aproximaci´n de ir de un modelo m´s general a uno m´s restringido suele ser m´s conveniente o a a a que la aproximaci´n contraria. En el caso de comenzar por un modelo m´s reducido e ir a˜adiendo o a n variables secuencialmente, decidiendo mantenerlas o no en funci´n de si son o no significativas, o se corre el peligro de lo que se conoce con el nombre ingl´s de data mining o torturar a los datos. e El problema en la aproximaci´n contraria es que, si el modelo de partida es demasiado general o y los regresores est´n muy correlacionados, la precisi´n con la que estimemos los par´metros a o a puede ser poca. Por esa falta de precisi´n en la estimaci´n podemos tener coeficientes no signifi- o o cativamente distintos de cero, no siendo capaces de identificar el efecto de esas variables ya que la potencia de los contrastes de significaci´n puede ser muy poca7 . No rechazar en ese caso la o 6 Entre par´ntesis estad´ e ısticos t y entre corchetes las desviaciones t´ ıpicas estimadas. 7 Este problema ser´ tratado m´s en detalle en el tema de Multicolinealidad. a a 103
  • 114. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a hip´tesis nula no es evidencia de que esas variables no sean relevantes sino de que el contraste o tiene poca potencia. 104
  • 115. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 5.4. Ejercicios para practicar Ejercicio 1: Realiza exclusivamente los apartados 1 a 6 Para la realizaci´n de este ejercicio utiliza el archivo greene 7-8.gdt de muestra en gretl8 El o archivo contiene datos de serie temporal para los a˜os 1953 a 2004 de las siguientes variables n sobre el mercado de la gasolina en Estados Unidos: G Consumo total de gasolina en Estados Unidos. Se obtiene de dividir el gasto en gasolina entre el ´ndice de precios al ı consumo Pg ´ndice de precios para la gasolina I Y Renta disponible per capita Pnc ´ndice de precios para coches nuevos I Puc ´ndice de precios para coches usados I Ppt ´ndice de precios para transporte p´blico I u Pd ´ndice de precios agregado para bienes de consumo duradero I Pn ´ndice de precios agregado para bienes de consumo no duradero I Ps ´ndice de precios agregado para servicios de consumo I Pop Poblaci´n total en Estados Unidos en millones de personas o 1. Define una nueva variable, el gasto per c´pita Gpc, como Gpc = G/P op. a 2. Especifica un primer modelo para la funci´n de consumo de gasolina: o Gpct = β1 + β2 Yt + β3 P gt + ut (5.12) Interpreta sus coeficientes. 3. Estima el modelo (6.3) por M´ ınimos Cuadrados Ordinarios. Comenta los resultados obteni- dos en t´rminos de bondad de ajuste, significatividad y signos de los coeficientes estimados. e Razona si te parecen adecuados los resultados. 4. Obt´n e interpreta los siguientes gr´ficos: e a • Gr´fico de los residuos MCO contra el tiempo. a • Gr´fico de la serie estimada y observada contra el tiempo. a 5. Se considera ampliar la especificaci´n del modelo (6.3) incluyendo otros ´ o ındices de precios. Estima las siguientes especificaciones: MODELO 2 Gpct = β1 + β2 Yt + β3 P gt + β4 P nct + ut MODELO 3 Gpct = β1 + β2 Yt + β3 P gt + β4 P nct + β5 P uct + ut MODELO 4 Gpct = β1 + β2 Yt + β3 P gt + β4 P nct + β5 P uct + β6 P dt + ut a) Muestra en el siguiente cuadro los resultados obtenidos para cada especificaci´n. o 8 Fuente: Greene, W. (2008), Econometrics Analysis, 6th Ed., Prentice-Hall, Tabla F2.2: Source: These data were compiled by Professor Chris Bell, Department of Economics, University of North Carolina, Asheville. Sources: www.bea.gov and www.bls.gov. 105
  • 116. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Tabla 5.3: Modelos estimados para el Consumo de Gasolina en Estados Unidos Variable dependiente Gpc ∗ Variables Explicativas Modelo 2 Modelo 3 Modelo 4 Constant ······ ······ ······ ( ) ( ) ( ) Y ······ ······ ······ ( ) ( ) ( ) Pg ······ ······ ······ ( ) ( ) ( ) Pnc ······ ······ ······ ( ) ( ) ( ) Puc ······ ······ ( ) ( ) Pd ······ ( ) Suma de cuadrados de los residuos ······ ······ ······ Desviaci´n t´ o ıpica de los residuos (ˆ ) σ ······ ······ ······ R2 ······ ······ ······ ¯ R2 ······ ······ ······ F de significaci´n conjunta o ······ ······ ······ Grados de libertad ······ ······ ······ Criterio de Akaike (AIC) ······ ······ ······ Criterio de Schwarz (BIC) ······ ······ ······ Criterio de Hannan-Quinn (HQC) ······ ······ ······ (*)Valores entre par´ntesis son los estad´ e ısticos t b) Comenta los resultados mostrados en la Tabla 6.1 en t´rminos de significatividad e individual, conjunta, coeficiente de determinaci´n y distintos criterios de selecci´n de o o modelos. c) ¿Consideras que alguna de las especificaciones es mejor? Razona tus conclusiones. 6. Calcula la matriz de correlaci´n entre las variables de precios Pg, Pnc, Puc y Pd. ¿Crees o que puede haber alg´n problema en la estimaci´n de los modelos anteriores? Interpreta u o los valores de la matriz. 7. Calcula el Factor de Inflaci´n de Varianza y el Factor de Tolerancia para los regresores del o Modelo 3 y el Modelo 4. Interpreta los resultados. 106
  • 117. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 8. ¿Qu´ conclusiones extraes? e 9. Contrasta al 5 % en el Modelo 3, la hip´tesis nula de que los coeficientes asociados a las va- o riables individualmente no significativas no son significativas conjuntamente. ¿Qu´ puedes e concluir? 10. Contrasta al 5 % en el Modelo 4, las siguientes restricciones lineales: a) H0 : β4 = β5 b) H0 : β3 = −β4 c) H0 : β4 = β5 = β6 Ejercicio 2: Realiza exclusivamente los apartados 1 y 2 Se dispone de un conjunto de observaciones sobre el n´mero total de viviendas de nueva cons- u trucci´n y sus determinantes para el periodo de 1963 a 19949 . Las variables que se consideran o son: housing No total de viviendas de nueva construcci´n (en miles) o pop Poblaci´n de Estados Unidos (en millones) o gdp Producto interior bruto (en billones de $ de 1992) unemp Tasa de desempleo intrate Tipo de inter´s sobre la hipoteca de nueva vivienda e 1. Considera una primera especificaci´n (Modelo A) de la demanda de nueva vivienda, donde o la variable dependiente es housing y las explicativas son gdp, intrate, adem´s de incluir un a t´rmino constante: e a) Escribe el modelo te´rico que se ha estimado. Explica qu´ son cada uno de sus ele- o e mentos y las hip´tesis b´sicas de partida. o a b) Muestra los resultados de la estimaci´n de este modelo. o c) Interpreta qu´ recoge cada uno de los coeficientes estimados y si te parecen razonables e los resultados obtenidos. d ) Realiza los contrastes de significatividad individual utilizando el valor-p. Explica qu´ es el valor-p. Razona la respuesta. e 2. Posteriormente se decide excluir del Modelo A la variable intrate, definimos como Modelo B al modelo resultante. a) Obt´n los resultados de su estimaci´n. ¿Te parecen razonables? Razona tu respuesta. e o b) Explica c´mo afectar´ a la fiabilidad de los resultados obtenidos en la estimaci´n del o ıa o Modelo B el que la variable intrate fuera relevante para explicar el total de nuevas viviendas construidas. 9 Fichero data4-3a.gdt. Recogido en Ramanathan, R. (2002), Introductory econometrics with applications, 5th. Ed., South-Western. 107
  • 118. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 3. Seguidamente se estiman dos especificaciones. Una, en la que en el Modelo B se incluye a la variable pop y otra con todas las variables disponibles para explicar housing. a) Indica con Modelo C y Modelo D estas dos ultimas especificaciones y muestra los ´ resultados de la estimaci´n de estos dos nuevos modelos. o b) Valora los resultados de las cuatro especificaciones (A, B, C y D), utilizando todos los criterios mostrados, significatividad, coeficientes de determinaci´n, criterios de o informaci´n. ¿Qu´ especificaci´n te parece la m´s adecuada? ¿Por qu´? Razona tu o e o a e respuesta. c) ¿Qu´ es el VIF? ¿Qu´ te indica? Calcula este factor para el Modelo D y analiza si en e e ese modelo hay evidencia del problema que este factor trata de detectar. d ) Realiza el contraste de Chow en el Modelo D ¿Qu´ te indica? ¿Hay evidencia de lo e que el contraste trata de detectar dados los resultados obtenidos en la realizaci´n del o contraste? 108
  • 119. Tema 6 Multicolinealidad A la hora de estimar un modelo econ´mico, los datos disponibles sobre las variables explicativas o o regresores pueden presentar un alto grado de correlaci´n, especialmente en un contexto de o series temporales y con series macroecon´micas. Por ejemplo, la poblaci´n y el PIB en general o o suelen estar altamente correlacionados. A este fen´meno se le conoce como multicolinealidad. o En alg´n caso puede que los datos de una variable se obtengan como resultado de una identidad u contable o de una combinaci´n lineal exacta entre otros regresores. Este ultimo caso se denomina o ´ de multicolinealidad exacta o perfecta. Cuando dos o m´s variables explicativas en un modelo est´n altamente correlacionadas en la a a muestra, es muy dif´ separar el efecto parcial de cada una de estas variables sobre la variable ıcil dependiente. La informaci´n muestral que incorpora una de estas variables es casi la misma que o el resto de las correlacionadas con ella. En el caso extremo de multicolinealidad exacta no es posible estimar separadamente estos efectos sino una combinaci´n lineal de ellos. En este tema o analizaremos las implicaciones que tiene en la estimaci´n por el m´todo de M´ o e ınimos Cuadrados Ordinarios este fen´meno muestral. o 6.1. Multicolinealidad perfecta Dada la especificaci´n del modelo y los datos de las variables, si al menos una de las variables o explicativas se puede obtener como combinaci´n lineal exacta de alguna o algunas de las o restantes, diremos que existe multicolinealidad exacta o perfecta. Consideremos el siguiente ejemplo. ¿Qu´ ocurrir´ si definimos una nueva variable F 25 que es una e a combinaci´n lineal exacta de otra variable explicativa en el modelo, F 25 = 5×F 2 y pretendemos o estimar los par´metros del siguiente modelo? a Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 F 25i + ui i = 1, 2, . . . , N (6.1) Las variables F 25 y F 2 son combinaci´n lineal exacta por lo que el rango de la matriz X es o 3 = K − 1, menor que el n´mero de par´metros a estimar, ya que la cuarta columna se obtiene u a de multiplicar por 5 la segunda columna. El sistema de ecuaciones normales que se obtiene del criterio de estimaci´n del m´todo de M´ o e ınimos Cuadrados Ordinarios ser´ un sistema de cuatro ıa ecuaciones pero solamente tres ser´n linealmente independientes1 . a 1 La notaci´n utilizada es Yi ≡ Pi , X2i ≡ F 2i , X3i ≡ BEDRM Si , X4i ≡ F 25i . o 109
  • 120. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Yi = ˆ ˆ N β1 + β2 ˆ X2i + β3 ˆ X3i + β4 X4i Yi X2i = ˆ β1 ˆ X2i + β2 2 ˆ X2i + β3 ˆ X3i X2i + β4 X4i X2i Yi X3i = ˆ β1 ˆ X3i + β2 ˆ X2i X3i + β3 2 ˆ X3i + β4 X4i X3i Yi X4i = ˆ β1 ˆ X4i + β2 ˆ X2i X4i + β3 ˆ X3i X4i + β4 2 X4i Si sustituimos en estas ecuaciones la relaci´n lineal exacta X4i = 5X2i y reorganizamos, obte- o nemos: Yi = ˆ ˆ ˆ N β1 + (β2 + 5β4 ) ˆ X2i + β3 X3i Yi X2i = ˆ β1 ˆ ˆ X2i + (β2 + 5β4 ) 2 ˆ X2i + β3 X3i X2i Yi X3i = ˆ β1 ˆ ˆ X3i + (β2 + 5β4 ) ˆ X2i X3i + β3 2 X3i 5[ Yi X2i = ˆ β1 ˆ ˆ X2i + (β2 + 5β4 ) 2 ˆ X2i + β3 X3i X2i ] Se puede observar que la cuarta ecuaci´n es la misma que la segunda excepto por un factor o ˆ ˆ ˆ ˆ de escala igual a 5. Por lo tanto, hay cuatro inc´gnitas β1 , β2 , β3 y β4 pero solamente tres o ecuaciones linealmente independientes. Consecuentemente, no es posible estimar de forma unica ´ todos los coeficientes del modelo. Ahora bien, las tres primeras ecuaciones si podemos resolverlas ˆ ˆ ˆ ˆ para β1 , β3 y la combinaci´n lineal (β2 + 5β4 ). Esto mismo se puede comprobar sustituyendo o F 25i = 5 × F 2i en el modelo (6.1). Pi = β1 + (β2 + 5β4 ) F 2i + β3 BEDRM Si + ui i = 1, 2, . . . , N (6.2) Vemos que en esta regresi´n son estimables de forma separada y unica los coeficientes β1 y β3 o ´ pero no β2 y β4 . El coeficiente que acompa˜a a F 2i recoger´ la combinaci´n lineal β2 + 5β4 . n ıa o ¿Qu´ hace el programa GRETL si hay multicolinealidad perfecta? Elimina una variable cual- e quiera de las que forman parte de esa relaci´n exacta, mostrando el siguiente resultado. o Modelo 8: estimaciones MCO utilizando las 14 observaciones 1-14 Variable dependiente: P Omitidas debido a colinealidad exacta: F25 VARIABLE COEFICIENTE DESV.T´P. I ESTAD T VALOR P const 121,179 80,1778 1,511 0,15888 F2 0,148314 0,0212080 6,993 0,00002 *** BEDRMS -23,9106 24,6419 -0,970 0,35274 Media de la var. dependiente = 317,493 Desviaci´n t´pica de la var. dependiente. = 88,4982 o ı Suma de cuadrados de los residuos = 16832,8 Desviaci´n t´pica de los residuos = 39,1185 o ı R-cuadrado = 0,834673 R-cuadrado corregido = 0,804613 Estad´stico F (2, 11) = 27,7674 (valor p = 5,02e-005) ı Log-verosimilitud = -69,5093 Criterio de informaci´n de Akaike (AIC) = 145,019 o 110
  • 121. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Criterio de informaci´n Bayesiano de Schwarz (BIC) = 146,936 o Criterio de Hannan-Quinn (HQC) = 144,841 Por lo tanto, avisa de que ha eliminado una variable explicativa de la regresi´n, en este caso o F 25, y muestra los resultados de la regresi´n excluyendo esa variable. De hecho, el coeficiente o que acompa˜a a F2 podr´ considerarse como (β2 + 5β4 ). Este ha sido un ejemplo ilustrativo de n ıa las implicaciones que tiene el problema de multicolinealidad perfecta. 6.2. Multicolinealidad de grado alto En general es dif´ tener en un modelo de regresi´n variables explicativas o regresores que ıcil o no presenten cierta correlaci´n muestral. La multicolinealidad, de no ser perfecta, se puede o considerar un problema cuando la correlaci´n entre los regresores es tan alto que se hace casi o imposible estimar con precisi´n los efectos individuales de cada uno de ellos. o Si la correlaci´n entre la variables explicativas es alta, es com´n tener los siguientes s´ o u ıntomas: • Peque˜os cambios en los datos o en la especificaci´n provocan grandes cambios en las n o estimaciones de los coeficientes. • La estimaciones de los coeficientes suelen presentar signos distintos a los esperados y magnitudes poco razonables. • El efecto m´s pernicioso de la existencia de un alto grado de multicolinealidad es el de a incrementar las varianzas de los coeficientes estimados por MCO. Es decir, es dif´ estimar ıcil separadamente los efectos marginales o individuales de cada variable explicativa por lo que estos se estiman con poca precisi´n.2 Como consecuencia, el valor del estad´ o ıstico para realizar contrastes de significatividad individual tiende a ser peque˜o y aumenta n la probabilidad de no rechazar la hip´tesis nula, por lo que se tiende a concluir que las o variables no son significativas individualmente. El problema no reside en que los contrastes no sean correctos estad´ısticamente, sino en que no estimamos con suficiente precisi´n estos o efectos individuales. • Se obtienen valores altos del R2 a´n cuando los valores de los estad´ u ısticos t de significati- vidad individual son bajos. El problema reside en la identificaci´n del efecto individual de o cada variable explicativa, no tanto en su conjunto. Por eso, si se realiza un contraste de sig- nificatividad conjunta de las variables explicativas, el resultado normalmente ser´ rechazar a la hip´tesis nula por lo que conjuntamente son significativas aunque individualmente cada o una de ellas no lo sea. Si se presentan estos s´ ıntomas se puede sospechar que el problema de multicolinealidad est´ afec- e tando a nuestros resultados, especialmente a la inferencia sobre los efectos individuales de cada variable explicativa. De todas formas es importante analizar e interpretar adecuadamente los resultados obtenidos sin tomar conclusiones precipitadamente. ¿C´mo podemos analizar si existe un problema de multicolinealidad? o 2 Los estimadores MCO siguen siendo los de menor varianza dentro de la clase de lineales e insesgados si las hip´tesis b´sicas se satisfacen. Luego no es un problema de p´rdida de eficiencia relativamente a otro estimador o a e lineal e insesgado. 111
  • 122. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 1) Una primera aproximaci´n consiste en obtener los coeficientes de correlaci´n muestral o o simples para cada par de variables explicativas y ver si el grado de correlaci´n entre estas o variables es alto. Utilizando el ejemplo de los precios de los pisos (Fichero de muestra del Ramanathan data4-1 ) con las variables que ya analizamos en temas anteriores, Pi = β1 + β2 F 2i + β3 BEDRM Si + β4 BAT HSi + ui obtenemos los siguientes valores de los coeficientes de correlaci´n: o Coeficientes de correlaci´n, usando observaciones 1 - 14 o valor cr´tico al 5% (a dos colas) = 0,5324 para n = 14 ı P F2 BEDRMS BATHS 1,0000 0,9058 0,3156 0,6696 P 1,0000 0,4647 0,7873 F2 1,0000 0,5323 BEDRMS 1,0000 BATHS Como podemos observar, todas las variables explicativas presentan cierto grado de corre- laci´n dos a dos, siendo la correlaci´n mayor entre F2 y BATH con un coeficiente igual a o o 0,7873. Excepto por este valor, no parece que los coeficientes de correlaci´n simple sean o demasiado grandes para sospechar que haya un problema de multicolinealidad. De todas formas, aunque es condici´n suficiente para que exista este problema que todos estos coefi- o cientes fueran altos, lo contrario no necesariamente es cierto. Se puede dar el caso de tener una relaci´n lineal casi perfecta entre tres o m´s variables y sin embargo las correlaciones o a simples entre pares de variables no ser mayores que 0, 5. 2) Otra forma de detectar la multicolinealidad consiste en realizar la regresi´n de cada o una de las variables explicativas sobre el resto3 y analizar los coeficientes de determinaci´n o de cada regresi´n. Si alguno o algunos de estos coeficientes de determinaci´n (Rj o o 2 ) son altos, estar´ se˜alando la posible existencia de un problema de multicolinealidad. ıa n Siguiendo con el ejemplo sobre el modelo del precio de la vivienda, esto consistir´ en ıa realizar las siguientes regresiones: Modelo 1: estimaciones MCO utilizando las 14 observaciones 1-14 Variable dependiente: F2 VARIABLE COEFICIENTE ´ DESV.TIP. ESTAD T VALOR P const -657,612 809,640 -0,812 0,43389 BEDRMS 73,9671 254,175 0,291 0,77646 BATHS 975,371 283,195 3,444 0,00548 *** R-cuadrado = 0,622773 Modelo 2: estimaciones MCO utilizando las 14 observaciones 1-14 3 En cada regresi´n se incluye el t´rmino constante como regresor pero no como variable dependiente. o e 112
  • 123. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Variable dependiente: BEDRMS VARIABLE COEFICIENTE DESV.T´P. I ESTAD T VALOR P const 2,29560 0,700852 3,275 0,00739 *** F2 0,000103288 0,000354931 0,291 0,77646 BATHS 0,487828 0,459485 1,062 0,31113 R-cuadrado = 0,288847 Modelo 3: estimaciones MCO utilizando las 14 observaciones 1-14 Variable dependiente: BATHS VARIABLE COEFICIENTE ´ DESV.TIP. ESTAD T VALOR P const 0,646527 0,583914 1,107 0,29182 F2 0,000531961 0,000154452 3,444 0,00548 *** BEDRMS 0,190531 0,179461 1,062 0,31113 R-cuadrado = 0,655201 Los resultados parecen mostrar que las variaciones muestrales de las variables F 2 y BAT HS son las m´s explicadas por el resto de variables explicativas, aunque los coeficientes de de- a terminaci´n de esas dos regresiones no son excesivamente altos; alrededor de un 60 % de o la variaci´n de F 2 y de BAT HS vienen explicadas por variaciones en el resto de variables o explicativas. Si recordamos los resultados obtenidos en el Tema 3, donde al estimar el modelo 3 una vez que inclu´ ıamos F 2 en la regresi´n, obten´ o ıamos que las variables BAT H y BEDRM S no eran significativas. ¿Puede ser este hecho consecuencia de un problema de multicolinealidad? ¿Podr´ ıamos tener problemas de multicolinealidad entre las varia- bles F 2, BAT HS y BEDRM S? Vamos a utilizar alg´n procedimiento m´s formal para u a detectar si existe este problema. 3) Neter et al. (1990) consideran una serie de indicadores para analizar el grado de multico- linealidad entre los regresores de un modelo, como por ejemplo los llamados Tolerancia (TOL) y Factor de Inflaci´n de la Varianza (VIF) que se definen: o 1 1 V IFj = T OLj = 2 1 − Rj V IFj 2 siendo Rj el coeficiente de determinaci´n de la regresi´n auxiliar de la variable Xj sobre o o el resto de las variables explicativas y 1 ≤ V IFj ≤ ∞. ˆ La varianza de cada uno de los coeficientes de la regresi´n MCO (βj ) de un modelo de o regresi´n lineal general se puede expresar como: o ˆ σ2 1 σ2 var(βj ) = 2 = 2 V IFj N ¯ Xji − Xj 2 1 − Rj N ¯ Xji − Xj i=1 i=1 2 donde βj , es el coeficiente que acompa˜a a la variable Xj y Rj es el coeficiente de deter- n minaci´n de la regresi´n auxiliar de la variable Xj en funci´n del resto de las variables o o o 113
  • 124. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a explicativas. Como vemos existe una relaci´n inmediata entre el valor V IFj y la varianza o 2 del coeficiente estimado. Cuanto m´s se acerque Rj a la unidad, es decir, cuanto mayor a sea la colinealidad de la variable Xj con el resto, mayor es el valor de V IFj y mayor es la varianza del coeficiente estimado, porque tal y como hemos dicho, la multicolineali- dad “infla” la varianza. Seg´n estos autores, si V IFj > 10, entonces concluiremos que la u colinealidad de Xj con las dem´s variables es alta. a La utilizaci´n de los coeficientes T OL y V IF para detectar la presencia de la multicolineali- o dad ha recibido m´ltiples cr´ u ıticas, porque la conclusi´n obtenida con estos valores no siem- o pre recoge adecuadamente la informaci´n y problema de los datos. Tal y como hemos visto o anteriormente, las varianzas de los estimadores depende del V IFj , σ 2 y ¯ 2 Xji − Xj , por lo que un alto V IFj no es condici´n suficiente ni necesaria para que dichas varianzas sean o elevadas ya que es posible que σ 2 sea peque˜ o o n ¯ 2 Xji − Xj grande y se compensen. Los indicadores T OL y V IF se pueden obtener con el programa GRETL de forma muy sencilla. Siguiendo con el ejemplo de los precios de las viviendas, calcularemos la Inflaci´n o de la Varianza para analizar la posible presencia de multicolinealidad. Para ello, en la ventana de la estimaci´n por MCO del modelo de inter´s, elegimos la opci´n o e o Contrastes → Colinealidad obteniendo la siguiente informaci´n: o Factores de inflaci´n de varianza (VIF) o M´nimo valor posible = 1.0 ı Valores mayores que 10.0 pueden indicar un problema de colinealidad 2) F2 2,651 3) BEDRMS 1,406 4) BATHS 2,900 VIF(j) = 1/(1 - R(j)^2), donde R(j) es el coeficiente de correlaci´n m´ltiple entre la variable j y las dem´s variables o u a independientes Como podemos observar, seg´n los valores del V IFj , podr´ u ıamos concluir que no existen problemas de multicolinealidad. Aunque no es f´cil, se pueden considerar las siguientes “soluciones” para intentar resolver el a problema: • Si realmente es un problema muestral, una posibilidad es cambiar de muestra porque puede ser que con nuevos datos el problema se resuelva, aunque esto no siempre ocurre. La idea consiste en conseguir datos menos correlacionados que los anteriores, bien cambiando toda la muestra o simplemente incorporando m´s datos en la muestra inicial. De todas formas, a no siempre resulta f´cil obtener mejores datos por lo que muy probablemente debamos a convivir con el problema teniendo cuidado con la inferencia realizada y las conclusiones de la misma. 114
  • 125. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 • En ocasiones, si se incorpora informaci´n a priori sobre los coeficientes del modelo desapa- o rece el problema. A´n as´ ser´ conveniente tener en cuenta dicha informaci´n antes de la u ı, ıa o detecci´n del problema de multicolinealidad y no posteriormente, ya que as´ estimaremos o ı el modelo m´s eficientemente. a • Quitar del modelo alguna de las variables colineales. Es una medida que puede provocar otro tipo de problemas, ya que si la variable que eliminamos del modelo realmente s´ esı significativa, estaremos omitiendo una variable relevante. Por consiguiente, los estimadores de los coeficientes del modelo y de su varianza ser´ sesgados por lo que la inferencia ıan realizada no ser´ v´lida. ıa a • Existen otros m´todos de estimaci´n sugeridos en la literatura econom´trica que mejorar´ e o e ıan la estimaci´n en t´rminos de eficiencia o precisi´n, pero los estimadores as´ obtenidos ser´ o e o ı ıan sesgados. Explicar estos m´todos no entran dentro de los objetivos de este curso. e 115
  • 126. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 6.3. Ejercicios para practicar Ejercicio 1: Se dispone de una base de datos anuales sobre las tasas de mortalidad por enfermedades coro- ıodo de 1947 a 1980 en U.S.4 . narias y sus determinantes para el per´ chd Tasa de mortalidad por cada 100.000 individuos de poblaci´n (Rango 321,2 - 375,4) o cal Consumo, per c´pita, de calcio diario en gramos (Ran a go 0,9 - 1,06) unemp Tanto por ciento de fuerza de mano de obra desemplea- da en miles de personas mayores de 16 a~os n (Rango 2,9 - 8,5) cigs Consumo de cigarrillos, per c´pita, en libras de ta- a baco, por persona mayor de 18 a~os. Aproximadamente n 339 cigarrillos por libra de tabaco (Rango 6,75 - 10,46) edfat Ingesti´n de comestibles grasos y aceites, per c´pita, o a incluyendo manteca, margarina y mantequilla (Rango 42 - 56,5) meat Ingesti´n de carne en libras, incluyendo carne de vaca, o ternera, cordero y oveja (Rango 138 - 194,8) spirits Consumo per c´pita de licores destilados, en galones a fiscales, para mayores de 18 a~os (Rango 1 - 2,9) n beer Consumo per c´pita de licor de malta en galones a fiscales para mayores 18 a~os (Rango 15,04 - 34,9) n wine Consumo per c´pita de vino, en galones fiscales, en a mayores de 18 a~os (Rango 0,77 - 2,65) n 1. Especifica un modelo que explique la tasa de mortalidad por enfermedades coronarias en el periodo 1947-1980. 2. Interpreta los coeficientes del modelo anterior. 3. Estima el modelo por M´ ınimos Cuadrados Ordinarios. Interpreta los par´metros estimados. a 4. Comenta los resultados obtenidos de la estimaci´n en t´rminos de bondad de ajuste, sig- o e nificatividad y signos de los coeficientes estimados. Razona si te parecen adecuados los resultados. 5. Calcula la matriz de correlaci´n entre las variables y comenta lo obtenido. ¿Crees que o puede haber alg´n problema? u a) Calcula el Factor de Inflaci´n de Varianza y el Factor de Tolerancia para los regresores. o Interpreta los resultados. b) ¿Conoces otra forma de detectar la multicolinealidad? Apl´ ıcala. c) ¿Qu´ conclusiones extraes? e 4 Fichero de datos: data4-7.gdt. Recogido en Ramanathan, R. (2002), Introductory econometrics with applica- tions, 5th. Ed., South-Western. 116
  • 127. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 6. Realiza un contraste de significatividad conjunta de aquellas variables que sean individual- mente no significativas. Ejercicio 2: Se dispone de una base de datos anuales sobre el consumo real y sus determinantes para el ıodo de 1959 a 1994 en U.S. 5 . Las variables que se consideran son: per´ Ct Consumo real en billones de d´lares de 1992, o (Rango 1393,6-4471,1) Yt Producto interior bruto en billones de d´lares de o 1992 (Rango 2212,3 - 6604,2) WAGES Salarios en billones de d´lares corrientes o (Rango 281,2 - 4008,3) PRDEFL Deflactor impl´cito de los precios para el gasto ı en consumo, 1992 = 100, (Rango 22,8 - 105,1) 1. ¿Qu´ quiere decir: “Deflactor impl´ e ıcito de los precios para el gasto en consumo, 1992=100”? 2. Crea las siguientes variables: 100×W AGES a) Salario en t´rminos reales, W = e P RDEF L . b) Beneficios y otras rentas del capital, P = Y − W . 3. ¿Qu´ quiere decir que las variables est´n medidas en t´rminos reales? e a e 4. Especifica un modelo para la evoluci´n del consumo en funci´n del salario real y los bene- o o ficios y otras rentas del capital, para el periodo de 1959-1994. 5. Interpreta los coeficientes del modelo anterior. 6. Estima el modelo por M´ ınimos Cuadrados Ordinarios. Interpreta los coeficientes estimados que acompa˜an a las variables explicativas. n 7. Comenta los resultados obtenidos de la estimaci´n en t´rminos de bondad de ajuste, sig- o e nificatividad y signos de los coeficientes estimados. Razona si te parecen adecuados los resultados. 8. Calcula y comenta la matriz de correlaci´n entre las variables. ¿Crees que puede haber o alg´n problema? u a) Calcula el Factor de Inflaci´n de Varianza y el Factor de Tolerancia para los regresores. o Interpreta los resultados. b) ¿Conoces otra forma de detectar la multicolinealidad? Apl´ ıcala. c) ¿Qu´ conclusiones extraes? e Ejercicio 3: Se dispone de una base de datos anuales sobre ´ ındices de producci´n y factores de producci´n o o agr´ ıodo de 1948 a 1993 en U.S. 6 . Las variables que ıcolas y ganaderos con base 1982, para el per´ se consideran son 5 Fichero de datos: data4-2.gdt. Recogido en Ramanathan, R. (2002), Introductory econometrics with applica- tions, 5th. Ed., South-Western. 6 Fichero de datos: data9-5.gdt. Fuente: Economic report of the President, 1996, Tablas B-95 y B-96, recogidas en Ramanathan, R. (2002), Introductory econometrics with applications, 5th. Ed., South-Western. 117
  • 128. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a year 1948-1993 (n=46) output Producci´n agr´cola y ganadera o ı labor Factor trabajo land Tama~o de la explotaci´n n o machines Gasto en equipamiento energy Energ´a utilizada ı fert Gasto en fertilizantes qu´micos ı seedfeed Gasto en semillas, forrajes y compra de ganado others Otros gastos 1. ¿Qu´ quiere decir que los ´ e ındices tienen la base en el a˜o 1982? Si la base no fuese la n misma para todos los ´ ındices ¿tendr´ sentido el an´lisis?, ¿por qu´?, ¿qu´ tendr´ que ıa a e e ıas hacer para solucionar tu problema? 2. Especifica un modelo doblemente logar´ ıtmico en el que relaciones el logaritmo de la pro- ducci´n con el logaritmo de todos los inputs, para analizar si los factores de producci´n o o tenidos en cuenta son utiles para explicar o no la producci´n agr´ ´ o ıcola-ganadera en U.S. en el per´ ıodo de 1948 a 1993. 3. Interpreta los coeficientes del modelo anterior. 4. Estima el modelo por M´ınimos Cuadrados Ordinarios. Interpreta los par´metros que acom- a pa˜an al factor trabajo y al factor tama˜o de la explotaci´n. n n o 5. Comenta los resultados obtenidos de la estimaci´n en t´rminos de bondad de ajuste, sig- o e nificatividad y signos de los coeficientes estimados. Razona si te parecen adecuados los resultados. 6. Calcula la matriz de correlaci´n entre las variables y comenta lo obtenido. ¿Crees que o puede haber alg´n problema? u a) Calcula el Factor de Inflaci´n de Varianza y el Factor de Tolerancia para los regresores. o Interpreta los resultados. b) ¿Conoces otra forma de detectar la multicolinealidad? Apl´ ıcala. c) ¿Qu´ conclusiones extraes? e 7. Realiza un contraste de significatividad conjunta de aquellas variables que sean individual- mente no significativas. 118
  • 129. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Ejercicio 5: Para la realizaci´n de este ejercicio utiliza el archivo greene 7-8.gdt de muestra en gretl7 El o archivo contiene datos de serie temporal para los a˜os 1953 a 2004 de las siguientes variables n sobre el mercado de la gasolina en Estados Unidos: G Consumo total de gasolina en Estados Unidos. Se ob- tiene de dividir el gasto en gasolina entre el ´ndi- ı ce de precios al consumo Pg Indice de precios para la gasolina Y Renta disponible per capita Pnc Indice de precios para coches nuevos Puc Indice de precios para coches usados Ppt Indice de precios para transporte p´blico u Pd Indice de precios agregado para bienes de consumo duradero Pn Indice de precios agregado para bienes de consumo no duradero Ps Indice de precios agregado para servicios de consumo Pop Poblaci´n total en EE.UU en millones de personas o 1. Define una nueva variable, el gasto per c´pita Gpc, como Gpc = G/P op. a 2. Especifica un primer modelo para la funci´n de consumo de gasolina: o Gpct = β1 + β2 Yt + β3 P gt + ut (6.3) Interpreta sus coeficientes. 3. Estima el modelo (6.3) por M´ ınimos Cuadrados Ordinarios. Comenta los resultados obteni- dos en t´rminos de bondad de ajuste, significatividad y signos de los coeficientes estimados. e Razona si te parecen adecuados los resultados. 4. Obt´n e interpreta los siguientes gr´ficos: e a • Gr´fico de los residuos MCO contra el tiempo. a • Gr´fico de la serie estimada y observada contra el tiempo. a 5. Se considera ampliar la especificaci´n del modelo (6.3) incluyendo otros ´ o ındices de precios. Estima las siguientes especificaciones: MODELO 2 Gpct = β1 + β2 Yt + β3 P gt + β4 P nct + ut MODELO 3 Gpct = β1 + β2 Yt + β3 P gt + β4 P nct + β5 P uct + ut MODELO 4 Gpct = β1 + β2 Yt + β3 P gt + β4 P nct + β5 P uct + β6 P dt + ut 7 Fuente: Greene, W. (2008), Econometrics Analysis, 6th Ed., Prentice-Hall, Tabla F2.2: Source: These data were compiled by Professor Chris Bell, Department of Economics, University of North Carolina, Asheville. Sources: www.bea.gov and www.bls.gov. 119
  • 130. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a a) Muestra en el siguiente cuadro los resultados obtenidos para cada especificaci´n. o Tabla 6.1: Modelos estimados para el Consumo de Gasolina en Estados Unidos Variable dependiente Gpc ∗ Variables Explicativas Modelo 2 Modelo 3 Modelo 4 Constant ······ ······ ······ ( ) ( ) ( ) Y ······ ······ ······ ( ) ( ) ( ) Pg ······ ······ ······ ( ) ( ) ( ) Pnc ······ ······ ······ ( ) ( ) ( ) Puc ······ ······ ( ) ( ) Pd ······ ( ) Suma de cuadrados de los residuos ······ ······ ······ Desviaci´n t´ o ıpica de los residuos (ˆ ) σ ······ ······ ······ R2 ······ ······ ······ ¯ R2 ······ ······ ······ F de significaci´n conjunta o ······ ······ ······ Grados de libertad ······ ······ ······ Criterio de Akaike (AIC) ······ ······ ······ Criterio de Schwarz (BIC) ······ ······ ······ Criterio de Hannan-Quinn (HQC) ······ ······ ······ (*)Valores entre par´ntesis son los estad´ e ısticos t b) Comenta los resultados mostrados en la Tabla 6.1 en t´rminos de significatividad e individual, conjunta, coeficiente de determinaci´n y distintos criterios de selecci´n de o o modelos. c) ¿Consideras que alguna de las especificaciones es mejor? Razona tus conclusiones. 6. Calcula la matriz de correlaci´n entre las variables de precios Pg, Pnc, Puc y Pd. ¿Crees o que puede haber alg´n problema en la estimaci´n de los modelos anteriores? Interpreta u o los valores de la matriz. 7. Calcula el Factor de Inflaci´n de Varianza y el Factor de Tolerancia para los regresores del o Modelo 3 y el Modelo 4. Interpreta los resultados. 120
  • 131. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 8. ¿Qu´ conclusiones extraes? e 9. Contrasta al 5 % en el Modelo 3, la hip´tesis nula de que los coeficientes asociados a las va- o riables individualmente no significativas no son significativas conjuntamente. ¿Qu´ puedes e concluir? 10. Contrasta al 5 % en el Modelo 4, las siguientes restricciones lineales: a) H0 : β4 = β5 b) H0 : β3 = −β4 c) H0 : β4 = β5 = β6 121
  • 132. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 122
  • 133. Tema 7 Variables Cualitativas 7.1. Introducci´n. Un ejemplo o A lo largo del curso unicamente se han especificado modelos con variables de naturaleza cuan- ´ titativa, es decir, aqu´llas que toman valores num´ricos. Sin embargo, las variables tambi´n e e e pueden ser cualitativas, es decir, pueden tomar valores no num´ricos como categor´ clases o e ıas, atributos. Por ejemplo, son variables cualitativas el g´nero de las personas, el estado civil, la e raza, el pertenecer a diferentes zonas geogr´ficas, momentos hist´ricos, estaciones del a˜o, etc. a o n De esta forma, el salario de los trabajadores puede depender del g´nero de los mismos; la tasa e de criminalidad puede venir determinada por la zona geogr´fica de residencia de los individuos; a el PIB de los pa´ puede estar influenciado por determinados acontecimientos hist´ricos como ıses o las guerras; las ventas de un determinado producto pueden ser significativamente distintas en funci´n de la ´poca del a˜o, etc. o e n En este tema, aunque seguimos manteniendo que la variable dependiente es cuantitativa, vamos a considerar que ´sta puede venir explicada por variables cualitativas y/o cuantitativas. e Dado que las categor´ de las variables no son directamente cuantificables, las vamos a cuan- ıas tificar construyendo unas variables artificiales llamadas ficticias, binarias o dummies, que son num´ricas. Estas variables toman arbitrariamente el valor 1 si la categor´ est´ presente en el e ıa a individuo y 0 en caso contrario1. 1 si la categor´ est´ presente ıa a Di = 0 en caso contrario En este tema estudiamos la estimaci´n, interpretaci´n de los coeficientes y contrastes de hip´tesis o o o en modelos con presencia de variables cualitativas como regresores. 7.2. Modelo con una variable cualitativa Consideremos el caso m´s sencillo, una variable cualitativa como unico regresor del modelo. a ´ Vamos a suponer que queremos explicar el precio de la vivienda bas´ndonos unicamente en si a ´ 1 Las variables ficticias pueden tomar dos valores cualesquiera, sin embargo, la interpretaci´n de los coeficientes o es m´s sencilla si se consideran los valores 0 y 1. a 123
  • 134. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a la vivienda tiene piscina o no2 . Para ello, definimos la siguiente variable ficticia: 1 si la vivienda i-´sima tiene piscina e P OOLi = 0 en caso contrario Abrimos el fichero de datos data7-3 de Ramanathan (2002), que contiene datos para 14 viviendas sobre el precio de venta de la vivienda (PRICE), pies cuadrados habitables (SQFT), n´mero u de habitaciones (BEDRMS) y n´mero de ba˜os (BATHS), utilizados en cap´ u n ıtulos anteriores y a˜ade una variable ficticia que toma el valor 1 si la vivienda tiene piscina y 0 en caso contrario n (POOL), una variable ficticia que toma el valor 1 si la vivienda tiene sala de estar y 0 en caso contrario (FAMROOM) y una variable ficticia que toma el valor 1 si la vivienda tiene chimenea y 0 en caso contrario (FIREPL). Seleccionamos las variables PRICE y POOL y observamos los valores de estas dos variables: Obs price pool 1 199,9 1 2 228,0 0 3 235,0 1 4 285,0 0 5 239,0 0 6 293,0 0 7 285,0 0 8 365,0 1 9 295,0 0 10 290,0 0 11 385,0 1 12 505,0 1 13 425,0 0 14 415,0 0 Por ejemplo, la primera vivienda de la muestra tiene un precio de 199.900 d´lares y tiene piscina o (ya que la variable POOL toma el valor 1), mientras que la segunda no tiene piscina (la variable POOL toma el valor 0) y su precio de venta es de 228.000 d´lares, etc. o Con los datos anteriores podemos obtener f´cilmente que el precio medio de la vivienda es a 317.493 d´lares: o Estad´ ısticos principales, usando las observaciones 1 - 14 para la variable price (14 observaciones v´lidas) a Media Mediana M´ ınimo M´ximo a 317, 49 291, 50 199, 90 505, 00 Desv. T´ ıp. C.V. Asimetr´ ıa Exc. de curtosis 88, 498 0, 27874 0, 65346 −0, 52983 2 Por simplicidad vamos a ignorar el efecto del resto de variables que afectan al precio de la vivienda. 124
  • 135. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Sin embargo, tambi´n es posible obtener el precio medio para las viviendas que tienen piscina, e por un lado, y para las que no la tienen, por otro. Para ello, en primer, lugar se selecciona el precio para aquellas viviendas con piscina. Para ello, seleccionamos la variable PRICE, pinchamos en Muestra → Definir a partir de v. ficticia..., seleccionamos la variable POOL y aceptamos. De esta forma hemos seleccionado el precio para aquellas viviendas que tienen piscina3 . A continuaci´n, o se obtienen los estad´ısticos principales: Estad´ ısticos principales, usando las observaciones 1 - 5 para la variable price (5 observaciones v´lidas) a Media Mediana M´ ınimo M´ximo a 337, 98 365, 00 199, 90 505, 00 Desv. T´ ıp. C.V. Asimetr´ ıa Exc. de curtosis 122, 99 0, 36390 0, 15896 −1, 2798 Para seleccionar el precio de las viviendas que no tienen piscina, pinchamos en Muestra → Res- tringir a partir de criterio, introducimos la condici´n P OOL = 0 y aceptamos. Los estad´ o ısticos principales son los siguientes: Estad´ ısticos principales, usando las observaciones 1 - 9 para la variable price (9 observaciones v´lidas) a Media Mediana M´ ınimo M´ximo a 306, 11 290, 00 228, 00 425, 00 Desv. T´ ıp. C.V. Asimetr´ ıa Exc. de curtosis 68, 959 0, 225275 0, 87575 −0, 52255 Por tanto, el precio medio de las viviendas con piscina es de 337.980 d´lares frente a los 306.110 o de las viviendas sin piscina. Dado el modelo una vivienda con piscina es en promedio 31.869 d´lares m´s cara que la que no tiene piscina. Notar que no se est´n teniendo en cuenta otros o a a factores que pueden afectar al precio de la vivienda (n´mero de pies cuadrados habitables, u n´mero de habitaciones, etc.). u El sencillo an´lisis anterior podemos realizarlo mediante un an´lisis de regresi´n. Podemos es- a a o pecificar un modelo econom´trico utilizando la variable ficticia POOL como regresor, estimarlo, e hacer inferencia e ir incorporando otras caracter´ısticas que pueden afectar a los precios de las viviendas. Para comenzar, consideramos el siguiente modelo de regresi´n lineal simple: o P RICEi = α1 + α2 P OOLi + ui i = 1, . . . , 14 (7.1) Interpretaci´n y estimaci´n de los coeficientes o o En nuestro ejemplo, la funci´n de regresi´n poblacional var´ en funci´n de si la vivienda tiene o o ıa o piscina o no: 3 Para restablecer el tama˜ o muestral inicial pinchar en Muestra → Recuperar el rango completo. n 125
  • 136. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a • E(P RICEi |i es una vivienda con piscina) = α1 + α2 , puesto que la variable POOL toma el valor 1 y E(ui ) = 0. • E(P RICEi |i es una vivienda sin piscina) = α1 , puesto que la variable POOL toma el valor 0 y E(ui ) = 0. Por tanto, los coeficientes se interpretan como sigue: • α1 : precio medio de una vivienda sin piscina. • α1 + α2 : precio medio de una vivienda con piscina. • α2 : diferencia en el precio medio de una vivienda con piscina con respecto a una que no la tiene. Utilizando las ecuaciones normales que derivamos en el Tema 2 para estimar el modelo de regresi´n simple y teniendo en cuenta que al ser POOL una variable ficticia que toma valores 0 o y 1 coincide con su cuadrado, obtenemos que los estimadores de los coeficientes del modelo (7.1) se pueden calcular a partir de simples medias muestrales4 : • α1 = P RICE nopool = 306,111 ˆ ⇒ precio estimado medio de las viviendas sin piscina. • α2 = P RICE pool − P RICE nopool = 337,980 − 306,111 = 31,869 ˆ ⇒ diferencia estimada en el precio medio de las viviendas con piscina con respecto a las que no la tienen. En efecto, si estimamos el modelo por M´ınimos Cuadrados Ordinarios utilizando Gretl obtenemos que las estimaciones de los coeficientes son las siguientes: Modelo (7.1): estimaciones MCO utilizando las 14 observaciones 1–14 Variable dependiente: price Variable Coeficiente Desv. t´ ıpica Estad´ ıstico t valor p const 306,111 30,2077 10,1335 0,0000 pool 31,8689 50,5471 0,6305 0,5402 Media de la var. dependiente 317,493 D.T. de la variable dependiente 88,4982 Suma de cuadrados de los residuos 98550,5 Desviaci´n t´ o ıpica de los residuos (ˆ ) σ 90,6231 R 2 0,0320632 ¯ R2 corregido −0,0485982 Grados de libertad 12 Log-verosimilitud −81,880 Criterio de informaci´n de Akaike o 167,760 Criterio de informaci´n Bayesiano de Schwarz o 169,038 4 P RICE pool es la media muestral del precio de las viviendas con piscina, de igual forma P RICE nopool es la media muestral del precio de las viviendas sin piscina. 126
  • 137. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Que coinciden con las calculadas utilizando los valores obtenidos en ambas submuestras mediante los Estad´ ısticos Principales: P RICE i = 306, 111 + 31, 869P OOLi i = 1, . . . , 14 (estad. t) (10,13) (0,63) El modelo (7.1) no es la unica especificaci´n correcta posible para explicar las variaciones del ´ o precio de la vivienda en funci´n de si tiene piscina o no. Al igual que hemos definido la variable o ficticia POOL, podemos crear la variable NOPOOL, tomando el valor 1 si la vivienda no tiene piscina y 0 en caso contrario. Con esta nueva variable podemos especificar los dos modelos siguientes: P RICEi = γ1 + γ2 N OP OOLi + ui i = 1, . . . , 14 (7.2) P RICEi = β1 P OOLi + β2 N OP OOLi + ui i = 1, . . . , 14 (7.3) La interpretaci´n de los coeficientes se har´ de forma an´loga a como hemos visto para el o ıa a modelo (7.1). Notar que la equivalencia entre los coeficientes de los distintos modelos (7.1), (7.2) y (7.3) es la siguiente: • E(P RICEi |i es una vivienda con piscina) = α1 + α2 = γ1 = β1 • E(P RICEi |i es una vivienda sin piscina) = α1 = γ1 + γ2 = β2 Una especificaci´n que no ser´ adecuada es la siguiente: o ıa P RICEi = α + β1 P OOLi + β2 N OP OOLi + ui i = 1, . . . , 14 ya que si analizamos la matriz de datos X para este modelo observamos que la suma de la segunda y tercera columnas es igual a la primera y tendr´ıamos un problema de multicolinealidad exacta, por lo que la matriz X X no ser´ invertible. En estas circunstancias no se podr´ obtener una ıa ıa unica soluci´n para α, β ´ o ˆ ˆ1 y β2 del sistema de ecuaciones normales. ˆ   1 1 0  1 0 1     1 1 0     1 0 1     1 0 1     1 0 1       1 0 1  X=   1 1 0     1 0 1     1 0 1     1 1 0     1 1 0     1 0 1  1 0 1 127
  • 138. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Contraste de hip´tesis o Los contrastes de hip´tesis se realizan con la metodolog´ estudiada en los cap´ o ıa ıtulos previos. Por ejemplo, si quisi´ramos contrastar en el modelo (7.1) si hay diferencias significativas en el precio e medio de la vivienda entre aqu´llas que tienen piscina y las que no, la hip´tesis de contraste es e o H0 : α2 = 0.5 Este contraste se puede realizar utilizando el estad´ ıstico t habitual cuyo valor-p es 0,5402, por lo que no se rechaza la hip´tesis nula para un nivel de significaci´n del 5 %, es decir, o o el precio medio de la vivienda no es significativamente diferente por el hecho de tener piscina. Alternativamente, se puede realizar el contraste utilizando el estad´ ıstico F basado en las sumas de cuadrados de los residuos siendo en este caso el modelo (7.1) el modelo no restringido mientras que el modelo restringido es P RICEi = α1 + ui i = 1, . . . , 14. 7.2.1. Incorporaci´n de variables cuantitativas o En el modelo (7.1) el unico regresor para explicar el precio de la vivienda es una caracter´ ´ ıstica cualitativa, el hecho de tener o no piscina sin embargo, en un modelo pueden convivir variables cualitativas y cuantitativas. Vamos a comenzar a˜adiendo un regresor cuantitativo, la variable n SQFT (n´mero de pies cuadrados habitables de la vivienda) y manteniendo la variable ficticia u POOL afectando a la ordenada. Cambio en la ordenada Suponer que el precio de la vivienda unicamente depende de si tiene piscina o no es poco realista, ´ por lo que a˜adimos como regresor a la variable cuantitativa SQFT (n´mero de pies cuadrados n u habitables de la vivienda) de la siguiente manera: P RICEi = α1 + α2 P OOLi + β SQF Ti + ui i = 1, . . . , 14 (7.4) Estimaci´n e interpretaci´n de los coeficientes: o o La funci´n de regresi´n poblacional se puede expresar como: o o • E(P RICEi |i es una vivienda con piscina) = α1 + α2 + β SQF Ti • E(P RICEi |i es una vivienda sin piscina) = α1 + β SQF Ti Por tanto podemos interpretar α1 como el precio esperado de una vivienda sin piscina y cero pies cuadrados, α2 como el diferencial en el precio esperado en una vivienda por el hecho de tener piscina, manteniendo el n´mero de pies cuadrados habitables constante. A igual n´mero u u de pies cuadrados habitables el hecho de tener piscina se puede considerar una mejora en la vivienda por lo que ser´ preferida, as´ tener piscina es una caracter´ ıa ı ıstica que sube el precio de la vivienda y esperar´ ıamos que α2 tuviese signo positivo. Finalmente interpretamos β como la variaci´n en el precio esperado de una vivienda por incrementar su superficie en un pie cua- o drado. Esperar´ıamos signo positivo, a mayor superficie mayor precio esperado para la vivienda. Gr´ficamente, obtenemos dos rectas con igual pendiente, β, y distinta ordenada como podemos a observar en el Gr´fico 7.1: a 5 Equivalentemente, H0 : γ2 = 0 ´ H0 : β1 = β2 para los modelos (7.2) y (7.3), respectivamente. o 128
  • 139. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 price α1 + α2 + βsqf t α1 + βsqf t α1 + α2 α1 sqf t Gr´fico 7.1: Cambio en ordenada a El resultado de la estimaci´n del modelo (7.4) por M´ o ınimos Cuadrados Ordinarios es: Modelo (7.4): estimaciones MCO utilizando las 14 observaciones 1–14 Variable dependiente: price Variable Coeficiente Desv. t´ ıpica Estad´ ıstico t valor p const 22,6728 29,5058 0,7684 0,4584 pool 52,7898 16,4817 3,2029 0,0084 sqft 0,144415 0,0141849 10,1809 0,0000 Media de la var. dependiente 317,493 D.T. de la variable dependiente 88,4982 Suma de cuadrados de los residuos 9455,36 Desviaci´n t´ o ıpica de los residuos (ˆ ) σ 29,3186 R 2 0,907132 ¯ R2 corregido 0,890247 F (2, 11) 53,7238 Log-verosimilitud −65,472 Criterio de informaci´n de Akaike o 136,944 Criterio de informaci´n Bayesiano de Schwarz o 138,861 El modelo estimado es: P RICE i = 22, 673 + 52, 790P OOLi + 0,144 SQF Ti (estad. t) (0,768) (3,203) (10,181) donde se puede observar que ambos regresores son significativos para explicar el precio medio de la vivienda y tienen los signos adecuados6 . Por tanto, existen diferencias significativas en el precio medio de la vivienda que tiene piscina con respecto a la que no la tiene. Los coeficientes estimados se interpretan como sigue: • α1 = 22, 673 ⇒ el precio medio estimado de las viviendas sin piscina y con cero pies ˆ cuadrados habitables es 22.673 d´lares. o 6 El valor de los estad´ ısticos t para los coeficientes de ambos regresores es superior al valor cr´ ıtico de una distribuci´n t de Student de N − K = 14 − 3 = 11 grados de libertad para un nivel de significaci´n del 5 %, que o o es 2,201. 129
  • 140. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a • α2 = 52, 790 ⇒ se estima que entre dos viviendas con el mismo n´mero de pies cuadrados ˆ u habitables el precio medio de una con piscina es 52.790 d´lares m´s caro que el de una sin o a piscina. ˆ • β = 0, 144 ⇒ el precio medio estimado de una vivienda se incrementa en 144 d´lares al o aumentar en un pie cuadrado habitable la vivienda. Cambio en la ordenada y en la pendiente Tambi´n es posible pensar que la variaci´n en el precio de las viviendas ante el incremento e o en un pie cuadrado habitable sea diferente para aqu´llas que tienen piscina. En este caso se e especifica el siguiente modelo, donde la variable ficticia POOL afecta tanto a la ordenada como a la pendiente de la recta: P RICEi = α1 + α2 P OOLi + β1 SQF Ti + β2 P OOL · SQF Ti + ui i = 1, . . . , 14 (7.5) La interacci´n P OOL · SQF T mide el n´mero de pies cuadrados habitables para las viviendas o u que tienen piscina, mientras que toma el valor 0 para las que no la tienen. Estimaci´n e interpretaci´n de los coeficientes: o o Una vez definida la interacci´n P OOL · SQF T en Gretl, estimamos el modelo (7.5): o Modelo (7.5): estimaciones MCO utilizando las 14 observaciones 1–14 Variable dependiente: price Variable Coeficiente Desv. t´ ıpica Estad´ıstico t valor p const 77,1332 25,6379 3,0086 0,0131 pool −82,648 39,7759 −2,0779 0,0644 sqft 0,116667 0,0125934 9,2641 0,0000 pool· sqft 0,0722955 0,0203274 3,5566 0,0052 Media de la var. dependiente 317,493 D.T. de la variable dependiente 88,4982 Suma de cuadrados de los residuos 4174,72 Desviaci´n t´ o ıpica de los residuos (ˆ ) σ 20,4321 R 2 0,958997 ¯ R2 corregido 0,946696 F (3, 10) 77,9615 Log-verosimilitud −59,749 Criterio de informaci´n de Akaike o 127,499 Criterio de informaci´n Bayesiano de Schwarz o 130,055 La funci´n de regresi´n poblacional se puede expresar como: o o • E(P RICEi |i es una vivienda con piscina) = α1 + α2 + (β1 + β2 )SQF Ti • E(P RICEi |i es una vivienda sin piscina) = α1 + β1 SQF Ti El par´metro poblacional α1 se interpreta como el precio esperado de una vivienda sin piscina y a con cero pies cuadrados habitables. α2 mide el diferencial en el precio esperado de una vivienda 130
  • 141. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 con cero pies cuadrados habitables por el hecho de tener piscina. Esperar´ ıamos que ambos coeficientes tuviesen signo positivo por las razones argumentadas anteriormente. β1 se interpreta como la variaci´n en el precio esperado de una vivienda sin piscina por in- o crementar su superficie en un pie cuadrado habitable mientras que β2 mide el diferencial en la variaci´n en el precio esperado de una vivienda ante un incremento de su superficie en un o pie cuadrado por el hecho de tener piscina. Esperar´ıamos que ambos coeficientes tuviesen signo positivo, a mayor superficie de la vivienda mayor precio esperado. Si adem´s la vivienda tiene a piscina el cambio en el precio esperado por pie cuadrado m´s de superficie ser´ mayor ya que la a a posesi´n de piscina es una mejora. o La representaci´n gr´fica corresponde a dos rectas que var´ tanto en el punto de corte con el o a ıan eje de ordenadas como en la pendiente: price α1 + α2 + (β1 + β2 )sqf t α1 + β1 sqf t α1 + α2 α1 sqf t Gr´fico 7.2: Cambio en ordenada y en pendiente a Interpretaci´n de los coeficientes estimados: o • α1 = 77, 133 ⇒ el precio medio estimado de las viviendas que no tienen piscina y con cero ˆ pies cuadrados habitables es 77.133 d´lares. o • α2 = −82, 648 ⇒ entre dos viviendas con 0 pies cuadrados habitables el precio medio ˆ estimado de una con piscina es 82.648 d´lares m´s barato que el de una sin piscina. o a ˆ • β1 = 0, 117 ⇒ al incrementar en un pie cuadrado la superficie habitable, el precio medio estimado de una vivienda sin piscina aumenta en 117 d´lares. o ˆ • β2 = 0, 072 ⇒ al incrementar en un pie cuadrado la superficie habitable, el precio medio estimado de una vivienda con piscina aumenta en 72 d´lares. o Contraste de hip´tesis o La hip´tesis nula para contrastar si tener piscina influye significativamente en el precio medio o de las viviendas es H0 : α2 = β2 = 0. El resultado del contraste es: 131
  • 142. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Contraste de omisi´n de variables – o Hip´tesis nula: los par´metros son cero para las variables o a pool poolsqft Estad´ ıstico de contraste: F (2, 10) = 16,886 con valor p = P (F (2, 10) > 16,886) = 0,000622329 por lo que se rechaza la hip´tesis nula para un nivel de significaci´n del 5 % y por lo tanto tener o o piscina es una variable significativa para explicar el precio de las viviendas. Tambi´n se puede contrastar mediante un contraste de significatividad individual si el incremento e en un pie cuadrado de superficie afecta al precio de manera diferente seg´n la vivienda tenga u o no piscina, para ello podemos contrastar H0 : β2 = 0. Como vemos en los resultados de la estimaci´n del modelo este coeficiente es significativo, como esper´bamos la influencia de o a la superficie habitable de una vivienda en su precio var´ si la vivienda tiene piscina o no. ıa Por otro lado, α2 no tiene el signo esperado y a su vez no es significativo a nivel individual, ˆ aparentemente el hecho de incluir la variable ficticia en la pendiente ha restado significatividad a la discriminaci´n en la ordenada. o 7.3. Modelo con dos o m´s variables cualitativas a Al igual que ocurr´ con los regresores cuantitativos sobre una variable end´gena pueden influir ıa o m´s de una variable cualitativa. Por ejemplo en el precio de una vivienda podr´ influir no s´lo a ıa o el hecho de tener o no piscina, su superficie habitable, el n´mero de habitaciones, el n´mero de u u ba˜os, si no tambi´n si tiene o no chimenea, si tiene o no ascensor o la zona de la ciudad donde n e est´ situada. e 7.3.1. Varias categor´ ıas Supongamos que creemos que la zona de la ciudad donde est´ situada la vivienda es un de- e terminante de su precio. Pensemos por ejemplo en precios de viviendas situadas en una gran ciudad en la que podemos distinguir como zonas a la zona centro, zona norte, zona sur, zona este y zona oeste. En general el centro de las ciudades es una zona valorada por ser el centro neur´lgico econ´mico-comercial y el resto de zonas se valorar´ en funci´n del tipo de viviendas a o a o que recoja y sus comunicaciones, por ejemplo en una ciudad como Madrid esperar´ ıamos mayor precio en el centro, norte y oeste que en el sur o en el este que agrupan a barrios, en general, con menor nivel econ´mico y peor comunicados. Para el ejemplo necesitamos definir cinco variables o ficticias una para cada zona ya que la situaci´n geogr´fica de la vivienda la hemos dividido en o a cinco categor´ıas7. Definimos las siguiente variables: 1 si la vivienda i-´sima est´ situada en la zona centro e a D1i = 0 en caso contrario 1 si la vivienda i-´sima est´ situada en la zona norte e a D2i = 0 en caso contrario 7 En el ejemplo anterior la vivienda ten´ o no piscina, solo hab´ dos casos posibles y por tanto s´lo hab´ dos ıa ıa o ıa categor´ ıas. 132
  • 143. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 1 si la vivienda i-´sima est´ situada en la zona sur e a D3i = 0 en caso contrario 1 si la vivienda i-´sima est´ situada en la zona este e a D4i = 0 en caso contrario 1 si la vivienda i-´sima est´ situada en la zona oeste e a D5i = 0 en caso contrario Si adem´s de la situaci´n geogr´fica de la vivienda creemos que la superficie habitable influye a o a en su precio podemos definir, por ejemplo, el siguiente modelo: P RICEi = α1 D1i + α2 D2i + α3 D3i + α4 D4i + α5 D5i + β SQF Ti + ui i = 1, . . . , N (7.6) Donde β se interpreta de la forma habitual y α1 se interpreta como el precio esperado de una vi- vienda con cero pies cuadrados situada en la zona centro, as´ αi i = 1, . . . , 5 se interpretan como ı el precio esperado de una vivienda con cero pies cuadrados situadas en la zona correspondiente, centro, norte, sur, este u oeste. En la especificaci´n (7.6) se ha optado por no incluir t´rmino independiente en el modelo e incluir o e las cinco variables ficticias para no incurrir en un problema de multicolinealidad exacta como se expuso en el punto anterior pero, podr´ ıamos especificar un modelo con t´rmino independiente e siempre y cuando dejemos fuera una de las variables ficticias o categor´ para no tener dicho ıas problema. Por ejemplo una especificaci´n alternativa ser´ o ıa: P RICEi = α + α2 D2i + α3 D3i + α4 D4i + α5 D5i + β SQF Ti + ui i = 1, . . . , N (7.7) En el modelo anterior la interpretaci´n del par´metro poblacional β no var´ α se interpreta o a ıa, como el precio esperado de una vivienda con cero pies cuadrados situada en la zona centro, αi i = 2, . . . , 5 se interpretan como el diferencial en el precio esperado de una vivienda, a igual superficie habitable, por estar situada en la zona norte, (sur, este y oeste respectivamente) con respecto a una vivienda situada en la zona centro. Qu´ variable ficticia (o categor´ dejemos e ıa) fuera no es relevante siempre y cuando interpretemos adecuadamente los par´metros. Natural- a mente podemos afectar las variables ficticias a la variable cuantitativa como en el caso anterior siempre y cuando no incurramos en multicolinealidad exacta. Contraste de hip´tesis o Para contrastar en el modelo (7.6) que por ejemplo no existen diferencias significativas en el precio medio de la vivienda por su situaci´n la hip´tesis de contraste es H0 : α1 = α2 = α3 = o o α4 = α5 . Hip´tesis que podemos contrastar utilizando el estad´ o ıstico F basado en las sumas de cuadrados de los residuos siendo en este caso el modelo (7.6) el modelo no restringido mientras que el modelo restringido ser´ P RICEi = α1 +β SQF Ti +ui ıa i = 1, . . . , N . El mismo contraste puede llevarse a cabo en el modelo (7.7) con la hip´tesis H0 : α2 = α3 = α4 = α5 = 0 siendo o el modelo no restringido el modelo (7.7) y el restringido P RICEi = α + β SQF Ti + ui i= 1, . . . , N . 133
  • 144. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 7.3.2. Varios conjuntos de variables ficticias Supongamos que ampliamos el modelo (7.4) incorporando regresores que podr´ explicar el ıan precio de la vivienda como por ejemplo el n´mero de habitaciones, el n´mero de ba˜os, que la u u n vivienda tenga sala de estar o no y que tenga chimenea o no. Las dos primeras son variables ficticias que pueden definirse as´ ı: 1 si la vivienda i-´sima tiene chimenea e F IREP Li = 0 en caso contrario 1 si la vivienda i-´sima tiene sala de estar e F AM ROOMi = 0 en caso contrario Mientras que el n´mero de ba˜os y el n´mero de habitaciones se definen como en los temas u n u anteriores: BEDRM S n´mero de habitaciones de la vivienda i-´sima u e BAT HS n´mero de cuartos de ba˜o de la vivienda i-´sima u n e Con todas ellas podemos definir el siguiente modelo para explicar el precio de la vivienda: P RICEi = γ1 + γ2 P OOLi + γ3 F AM ROOMi + γ4 F IREP Li +β1 SQF Ti + β2 BEDRM Si + β3 BAT HSi + ui i = 1, . . . , 14 (7.8) Donde lo primero a notar es que en el modelo (7.8), afectando a la ordenada, conviven tres conjuntos de variables ficticias con dos categor´ cada una, el hecho de tener o no piscina, el ıas hecho de tener o no chimenea y el hecho de tener o no sala de estar, de las cuales s´lo se incluye o una de cada conjunto y se mantiene el t´rmino independiente. e Esta forma de definir el modelo es muy c´moda ya que sigue manteniendo los resultados de o los modelos con t´rmino independiente y permite una f´cil interpretaci´n de los coeficientes que e a o acompa˜an a las variables ficticias. As´ γi i = 2, 3, 4 recogen el diferencial en el valor esperado de n ı, una vivienda por el hecho de poseer la caracter´ ıstica correspondiente manteni´ndose constante e el resto de variables. El resultado de la estimaci´n es: o Modelo (7.8): estimaciones MCO utilizando las 14 observaciones 1–14 Variable dependiente: price Variable Coeficiente Desv. t´ ıpica Estad´ ıstico t valor p const 39,0571 89,5397 0,4362 0,6758 pool 53,1958 22,0635 2,4110 0,0467 famroom −21,344 42,8734 −0,4979 0,6338 firepl 26,1880 53,8454 0,4864 0,6416 sqft 0,146551 0,0301014 4,8686 0,0018 bedrms −7,0455 28,7363 −0,2452 0,8134 baths −0,263691 41,4547 −0,0064 0,9951 134
  • 145. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Media de la var. dependiente 317,493 D.T. de la variable dependiente 88,4982 Suma de cuadrados de los residuos 9010,24 Desviaci´n t´ o ıpica de los residuos (ˆ ) σ 35,8773 R2 0,911504 ¯ R2 corregido 0,835650 F (6, 7) 12,0166 valor p para F () 0,00221290 Log-verosimilitud −65,134 Criterio de informaci´n de Akaike o 144,269 Criterio de informaci´n Bayesiano de Schwarz o 148,743 La interpretaci´n de los coeficientes estimados es la siguiente: o • γ1 = 39, 057: el precio medio estimado de las viviendas sin piscina, ba˜os, habitaciones, ˆ n sala de estar ni chimenea y con 0 pies cuadrados habitables es de 39.057 d´lares. o • γ2 = 53, 1958: la diferencia estimada en el precio medio de las viviendas con piscina con ˆ respecto a las que no la tienen, siendo iguales en el resto de caracter´ ısticas (pies cuadrados habitables, n´mero de habitaciones, n´mero de ba˜os, existencia de sala de estar y/o u u n chimenea) es de 53.196 d´lares. o • γ3 = −21, 34: el precio medio estimado de una vivienda con sala de estar es 21.340 d´lares ˆ o inferior al de una sin sala de estar, siendo id´nticas en el resto de caracter´ e ısticas. Esto se debe a que, al mantener constante el n´mero de pies cuadrados de la vivienda y el n´mero u u de habitaciones y ba˜os, incluir una sala de estar har´ que el resto de habitaciones o ba˜os n a n sean de menor tama˜o.n • γ4 = 26, 188: el precio medio estimado de una vivienda con chimenea es 26.188 d´lares ˆ o m´s caro que el de una sin chimenea, siendo id´nticas en el resto de caracter´ a e ısticas. ˆ • β1 = 0, 147: el precio medio estimado de una vivienda se incrementa en 147.000 d´lares al o aumentar en 1 pie cuadrado habitable su superficie, permaneciendo constantes el n´mero u de ba˜os y habitaciones y el resto de caracter´ n ısticas de la vivienda. ˆ • β2 = −7, 046: el precio medio estimado de una vivienda disminuye en 7.046 d´lares alo aumentar en 1 el n´mero de habitaciones, permaneciendo constantes el n´mero de ba˜os u u n y los pies cuadrados habitables y el resto de caracter´ ısticas de la vivienda. Esto se debe a que las habitaciones ser´n de menor tama˜o . a n ˆ • β3 = −0, 264: el precio medio estimado de una vivienda disminuye en 264 d´lares al o aumentar en 1 el n´mero de ba˜os, permaneciendo constantes el n´mero de habitaciones u n u y los pies cuadrados habitables el resto de caracter´ ısticas de la vivienda. De nuevo, las habitaciones ser´n de menor tama˜o. a n 135
  • 146. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Contraste de hip´tesis o Para contrastar, por ejemplo, que no existen diferencias significativas en el precio medio de la vivienda por el hecho de tener chimenea, se realiza un contraste de significatividad individual de la variable FIREPL. En este caso, observando el valor-p correspondiente, 0,6416, se puede concluir que a un nivel de significaci´n del 5 %, no existen diferencias significativas en el precio o medio de una vivienda por el hecho de tener chimenea. Si comparamos los modelos (7.4) y (7.8), ninguna de las variables a˜adidas en el ultimo modelo n ´ es significativa individualmente a ¯ 8 . Adem´s, el R2 es inferior. El contraste de significatividad conjunta para las variables a˜adidas se puede realizar con el estad´ n ıstico F basado en las sumas de cuadrados residuales de los modelos restringido (modelo (7.4)) y no restringido (modelo (7.8)). En este caso, el resultado es: Contraste de omisi´n de variables – o Hip´tesis nula: los par´metros son cero para las variables o a bedrms baths famroom firepl Estad´ıstico de contraste: F (4, 7) = 0,0864517 con valor p = P (F (4, 7) > 0,0864517) = 0,983881 por lo que no se rechaza la hip´tesis nula de que las variables a˜adidas al modelo (7.4) son o n conjuntamente no significativas. Al omitir dichas variables el modelo mejora en cuanto a la ¯ significaci´n de sus coeficientes y el R2 . Por tanto, manteniendo las variables POOL y SQFT, la o inclusi´n del resto (FIREPL, FAMROOM, BATHS, BEDRMS) no a˜ade capacidad explicativa o n al modelo. 7.4. Contraste de cambio estructural En ocasiones puede ocurrir que la relaci´n entre la variable dependiente y los regresores cambie o a lo largo del periodo muestral, es decir, puede que exista un cambio estructural. Por ejemplo, si estamos analizando el consumo de tabaco y durante el per´ ıodo muestral se ha producido una campa˜a de salud p´blica informando sobre los peligros que conlleva el consumo de tabaco, n u podemos pensar que tras dicha campa˜a el comportamiento de la demanda de tabaco haya n cambiado, reduci´ndose significativamente. Si esto ocurre no podemos especificar una unica e ´ funci´n de demanda para todo el per´ o ıodo muestral si no que deber´ıamos especificar dos funciones, una hasta la campa˜a antitabaco y otra para el per´ n ıodo siguiente. Por tanto, ante sospechas de que exista un cambio estructural, debemos de contrastar la estabilidad de los par´metros de a nuestra relaci´n. o El contraste de cambio estructural, llamado habitualmente contraste de Chow, puede realizarse de manera sencilla mediante el estad´ ıstico de sumas de cuadrados de los residuos sin m´s que a 8 Un problema a˜ adido es que tenemos un bajo tama˜o muestral, T=14, y hemos aumentado significativamente n n el n´ mero de par´metros a estimar, K=7, por lo que tenemos muy pocos grados de libertad. u a 136
  • 147. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 especificar adecuadamente el modelo restringido y el no restringido. Tambi´n podemos llevarlo e a cabo utilizando variables ficticias. Veamos un ejemplo. El fichero data7-19 contiene datos para 1960-1988 sobre la demanda de tabaco y sus determi- nantes en Turqu´ Las variables de inter´s para el ejemplo son las siguientes: ıa. e Q: consumo de tabaco por adulto (en kg). Y : PNB real per c´pita en liras turcas de 1968. a P : precio real del kilogramo de tabaco, en liras turcas. D82: variable ficticia que toma valor 1 a partir de 1982. A mediados de 1981 el gobierno turco lanza una campa˜a de salud p´blica advirtiendo de los n u peligros de salud que conlleva el consumo de tabaco. Nuestro objetivo es determinar si existen cambios en la demanda de tabaco tras la campa˜a institucional en cuyo caso la especificaci´n: n o LnQt = α + βLnYt + γLnPt + ut t = 1960, . . . , 1988 (7.9) no es correcta para todo el per´ ıodo muestral y deber´ ıamos especificar dos ecuaciones: LnQt = α1 + β1 LnYt + γ1 LnPt + u1t t = 1960, . . . , 1981 (7.10) LnQt = α2 + β2 LnYt + γ2 LnPt + u2t t = 1982, . . . , 1988 (7.11) Si existe cambio estructural rechazar´ ıamos H0 : α1 = α2 , β1 = β2 y γ1 = γ2 Este contraste podemos llevarlo a cabo utilizando el estad´ıstico F basado en las sumas de cua- drados de los residuos siendo en este caso el modelo restringido el recogido en la ecuaci´n (7.9) o mientras que el modelo no restringido est´ constituido por las ecuaciones (7.10) y (7.11). Utili- a zando Gretl una vez abierto el fichero de datos y tomado las correspondientes transformaciones estimar´ ıamos el modelo (7.9) por MCO y en la ventana de resultados de la estimaci´n elegimos: o Contrastes −→ Contraste de Chow A la pregunta Observaci´n en la cual dividir la muestra contestar´ o ıamos 1982 y la correspon- diente devoluci´n es: o Modelo (7.9): estimaciones MCO utilizando las 29 observaciones 1960-1988 Variable dependiente: lnQ Variable Coeficiente Desv. t´ ıpica Estad´ ıstico t valor p const −4,58987 0,724913 −6,332 0,00001∗∗∗ lnY 0,688498 0,0947276 7,268 0,00001∗∗∗ lnP 0,485683 0,101394 −4,790 0,00006∗∗∗ Media de la var. dependiente = 0,784827 Desviaci´n t´ o ıpica de la var. dependiente. = 0,108499 Suma de cuadrados de los residuos = 0,0949108 Desviaci´n t´ o ıpica de los residuos = 0,0604187 R-cuadrado = 0,712058 R-cuadrado corregido = 0,689908 Estad´ıstico F (2, 26) = 32,148 (valor p < 0,00001) Estad´ıstico de Durbin-Watson = 1,00057 Coef. de autocorr. de primer orden. = 0,489867 137
  • 148. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Log-verosimilitud = 41,8214 Criterio de informaci´n de Akaike (AIC) = -77,6429 o Criterio de informaci´n Bayesiano de Schwarz (BIC) = -73,541 o Criterio de Hannan-Quinn (HQC) = -76,3582 Contraste de Chow de cambio estructural en la observaci´n 1982 - o Hip´tesis nula: no hay cambio estructural o Estad´ ıstico de contraste: F(3, 23) = 20,1355 con valor p = P(F(3, 23) > 20,1355) = 1,25619e-006 El estad´ıstico calculado es Fc = 20, 135 > F0,05(3,23) por lo que rechazamos H0 para un nivel de significatividad del 5 %, es decir existe cambio estructural, la campa˜a institucional ha tenido n efecto y la demanda de tabaco en Turqu´ de 1960 a 1988 queda especificada por las ecuaciones ıa (7.10) y (7.11). Los resultados de la estimaci´n m´ o ınimo cuadr´tica de estas ecuaciones son los a siguientes: LnQt = −5, 024 + 0, 735 LnYt − 0, 381 LnPt t = 1960, . . . , 1981 (estad. t) (−10,614) (11,587) (−4,227) SCR1 = 0, 01654 LnQt = 8, 837 − 0, 953 LnYt + 0, 108LnPt t = 1982, . . . , 1988 (estad. t) (2,170) (−1,941) (0,654) SCR2 = 0, 00965 7.4.1. Cambio estructural utilizando variables ficticias Alternativamente, el contraste anterior podr´ ıamos haberlo realizado mediante la variable ficticia D82 especificando el siguiente modelo donde t = 60, . . . , 88: LnQt = β1 + β2 LnYt + β3 LnPt + β1 D82t + β2 D82t · LnYt + (7.12) +β3 D82t · LnPt + ut (7.13) En el cual, si existe cambio estructural rechazar´ ıamos H0 : β1 = β2 = β3 = 0. De nuevo el contraste puede realizarse con el estad´ıstico F habitual de sumas residuales donde el modelo no restringido es el (7.13) y el modelo restringido es LnQt = β1 + β2 LnYt + β3 LnPt + ut (7.14) Utilizando Gretl, el proceso despu´s de abierto el fichero de datos, tomado logaritmos y cons- e truido las interacciones D82 · LnY y D82 · LnP , ser´ estimar´ ıa: ıamos el modelo (7.13) por MCO y en la ventana de resultados de la estimaci´n har´ o ıamos Contrastes −→ Omitir variables elegir´ ıamos D82, D82 · LnY y D82 · LnP y obtendr´ ıamos el siguiente resultado: Modelo 1: estimaciones MCO utilizando las 29 observaciones 1960-1988 Variable dependiente: lnQ 138
  • 149. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Variable Coeficiente Desv. t´ ıpica Estad´ ıstico t valor p const −4,58987 0,724913 −6,332 0,00001∗∗∗ lnY 0,688498 0,0947276 7,268 0,00001∗∗∗ lnP 0,485683 0,101394 −4,790 0,00006∗∗∗ Media de la var. dependiente = 0,784827 Desviaci´n t´ o ıpica de la var. dependiente. = 0,108499 Suma de cuadrados de los residuos = 0,0949108 Desviaci´n t´ o ıpica de los residuos = 0,0604187 R-cuadrado = 0,712058 R-cuadrado corregido = 0,689908 Estad´ıstico F (2, 26) = 32,148 (valor p < 0,00001) Estad´ıstico de Durbin-Watson = 1,00057 Coef. de autocorr. de primer orden. = 0,489867 Log-verosimilitud = 41,8214 Criterio de informaci´n de Akaike (AIC) = -77,6429 o Criterio de informaci´n Bayesiano de Schwarz (BIC) = -73,541 o Criterio de Hannan-Quinn (HQC) = -76,3582 Comparaci´n entre el modelo (7.13) y el modelo (7.14): o Hip´tesis nula: los par´metros de regresi´n son cero para las variables o a o D82 D82Y D82P Estad´ıstico de contraste: F(3, 23) = 20,1355, con valor p = 1,25619e-006 De los 3 estad´ısticos de selecci´n de modelos, 0 han mejorado. o Dado el valor-p rechazamos la hip´tesis nula para un nivel de significatividad del 5 % y existe o cambio estructural. La demanda de tabaco en Turqu´ de 1960 a 1988 queda mejor especificada ıa por el modelo (7.13). O lo que es lo mismo las ecuaciones (7.10) y (7.11) si no utilizamos la variable ficticia D82 en la especificaci´n del modelo. Notar que ambas especificaciones son o id´nticas, son dos formas alternativas y por lo tanto equivalentes de especificar la demanda de e tabaco en Turqu´ para ese periodo temporal. ıa 7.5. Ejercicios para practicar Ejercicio 1: Se dispone de una base de datos sobre el precio de venta y distintas caracter´ ısticas de 224 viviendas pertenecientes a dos ´reas residenciales del condado de Orange en California (USA), a Dove Canyon y Coto de Caza 9 . Dove Canyon es una zona de viviendas relativamente peque˜as n construidas alrededor de un campo de golf. Coto de Caza es un ´rea de mayor nivel de vida a aunque m´s rural con viviendas m´s grandes. Las variables que se consideran son: a a salepric Precio de venta de la vivienda en miles de d´lares o sqft Tama~o de la vivienda en pies cuadrados n age Edad de la vivienda en a~os n 9 Fichero data7-24.gdt. Recogido en Ramanathan, R. (2002), Introductory econometrics with applications, 5th. Ed., South-Western. 139
  • 150. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a city 1 si est´ en Coto de Caza, 0 si est´ en Dove Canyon a a 1. Especifica un primer modelo (Modelo 1) para analizar si el tama˜o y la edad de la vivienda n son factores que explican o no el precio de la vivienda. 2. Interpreta los coeficientes del modelo. 3. Estima el modelo por M´ ınimos Cuadrados Ordinarios. Interpreta los coeficientes estimados. 4. Comenta los resultados obtenidos en t´rminos de bondad de ajuste, significatividad y e signos de los coeficientes estimados. Razona si te parecen adecuados los resultados. 5. Introduce como variable explicativa en el modelo la variable city (Modelo 2). Interpreta el coeficiente que la acompa˜a. n 6. Estima el Modelo 2 por MCO. Comenta los resultados y compara estos con los obtenidos en el Modelo 1. ¿Ha mejorado la especificaci´n? Razona tu respuesta. o 7. Obt´n el gr´fico de los residuos de la estimaci´n MCO del Modelo 2. ¿Qu´ te sugiere este e a o e gr´fico? Comenta si crees que existe alg´n problema de mala especificaci´n. a u o 8. Utilizando el Modelo 2, obt´n e interpreta los siguientes gr´ficos. e a • Gr´fico de la serie de residuos MCO. a • Gr´fico de residuos MCO sobre la variable age. a • Gr´fico de residuos MCO sobre la variable sqf t. a Ejercicio 2: Se quiere estudiar la relaci´n entre el salario (W ) y las horas trabajadas (H ). Para ello se dispone o de observaciones de secci´n cruzada para 8 individuos, mujeres y hombres, por lo que tambi´n o e se dispone de la informaci´n del sexo del individuo a trav´s de una variable ficiticia (S ) que o e toma el valor 1 si el individuo es Mujer y 0 si es Hombre. Considera el siguiente modelo: Wi = β1 + β2 Hi + ui (7.15) 1. Edita en Gretl un archivo con los siguientes datos a utilizar en el ejercicio: W H S 170 40 0 180 50 0 165 30 0 165 40 0 105 50 1 95 35 1 100 40 1 90 35 1 2. Muestra los resultados de la estimaci´n del Modelo (7.15) y comenta los resultados. ¿Te o parecen los esperados? 140
  • 151. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 3. Contrasta la significatividad individual de las variables explicativas del modelo. Escribe los supuestos necesarios sobre la perturbaci´n para que los estad´ o ısticos tengan validez. 4. Contrasta la significatividad conjunta de las variables explicativas. 5. Interpreta el coeficiente de determinaci´n del modelo. o 6. Obt´n el gr´fico de residuos. Teniendo en cuenta que las primeras cuatro observaciones e a son hombres y las siguientes cuatro son mujeres, ¿qu´ te sugiere el gr´fico? e a 7. Realiza el contraste de Engle para analizar si en el modelo (7.15) ser´ relevante controlar ıa por el sexo, incluyendo la variable ficticia S. Para ello calcula el estad´ ıstico NR2, donde R2 es el coeficiente de determinaci´n de la regresi´n de los residuos del modelo (7.15) sobre o o una constante y la variable S. ¿Qu´ te sugiere el contraste? e 8. Dado el resultado del contraste y lo analizado en el gr´fico de residuos, ¿c´mo cambiar´ la a o ıas especificaci´n del modelo (7.15)? Estima esa nueva especificaci´n incluyendo en el modelo o o la variable que recoge el sexo y comenta los resultados. Compara los resultados obtenidos de estimar ambos modelos. 9. ¿Cu´l es el sesgo en la estimaci´n del efecto de las horas trabajadas sobre el salario si se a o elige la especificaci´n del modelo (7.15) y la correcta es la del modelo que incluye el sexo? o ¿Qu´ signo esperas que tenga ese sesgo? e Ejercicio 3: Para la realizaci´n de este ejercicio utilizamos el fichero smoke del libro de Wooldridge (2003), o Introductory Econometrics. A Modern Approach, que ten´is como archivo de muestra en gretl10 . e Son datos para 807 individuos varones residentes en distintos estados americanos en el a˜o 1979. n Las variables que est´n en este fichero son: a educ A~os de escolarizaci´n n o cigpric Precio de un paquete de cigarrillos en centavos white Variable ficticia que es igual a la unidad si el individuo es blanco, cero en otro caso. age Edad del individuo en a~os n income Renta anual, en d´lares o cigs Cigarrillos fumados al d´a ı restaurn Variable ficticia que es igual a la unidad si una persona reside en un estado donde hay restricciones al tabaquismo en los restaurantes, cero en otro caso. lincome log(income) agesq Edad al cuadrado cigpric log(cigprice) Considera la siguiente especificaci´n: o lincomei = β1 + β2 cigsi + β3 educi + β4 agei + β5 agesqi + ui i = 1, . . . , 807 (7.16) 1. Muestra los resultados de la estimaci´n por MCO del Modelo (7.16). o 10 Wooldrige, J. M. (2003), Introductory Econometrics. A Modern Approach, 2sd. Ed., South-Western. 141
  • 152. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 2. Comenta los resultados obtenidos sobre la bondad de ajuste, los signos de los coeficientes estimados y su significatividad. ¿Puedes justificar el signo del coeficiente estimado que acompa˜a a la variable cigs? n 3. ¿Hay evidencia de que la relaci´n entre la variable lincome y age sea cuadr´tica, mante- o a niendo constante el resto de las variables explicativas? Muestra los resultados del contraste utilizado para tus conclusiones. 4. Incluye la variable restaurn en la ecuaci´n (7.16). Interpreta el par´metro asociado a la o a variable. Estima el modelo y contrasta si la existencia de restricciones al consumo de tabaco en los restaurantes aumenta significativamente el logaritmo de la renta familiar anual. 5. Incluye la variable white en el modelo correspondiente al apartado anterior. Interpreta el par´metro asociado a la variable. Contrasta si la raza es una variable significativa para a explicar a la variable lincome. 6. Prop´n y estima un modelo que permita contrastar que el n´mero medio de cigarrillos o u fumados al d´ var´ con la raza del individuo. Realiza el contraste. ıa ıa 7. F´ıjate en los valores de la variable cigs, esta variable est´ discriminando entre individuos a fumadores y no fumadores. Utilizando la variable cigs construye una variable ficticia que tome valor 1 si el individuo es fumador y cero en otro caso. ¿Dir´ que ambas varia- ıas bles est´n perfectamente correlacionadas? Calcula la correlaci´n entre ambas variables. a o Interpreta el resultado. 8. Suponiendo que la variable lincome s´lo depende de las variables educ y age. Contrasta la o posibilidad de que la funci´n de renta anual sea distinta para aquellos individuos fumadores o respecto de los que no lo son. 9. Escribe una secci´n de conclusiones donde finalices proponiendo una especificaci´n sen- o o sata para el logaritmo de la renta familiar anual teniendo en cuenta todos los resultados anteriores. 142
  • 153. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Ejercicio 4: Se dispone de una base de datos sobre sistemas de televisi´n por cable y sus determinantes para o 101 ciudades estadounidenses. Las primeras cuarenta observaciones corresponden a 1979 y las ultimas 61 observaciones corresponden a 199411 . Las variables que se consideran son: ´ sub El n´mero de suscriptores de cada sistema u (en miles)(Rango 1 - 462) homes El n´mero de hogares conectados a cada sistema u (en miles) (Rango 1,7 - 1201,09) inst Cuota de instalaci´n en d´lares (Rango 5,95 - 75) o o svc Cuota mensual de cada sistema (Rango 5,08 - 24,93) cblchanl N´mero de se~ales de televisi´n llevadas por cada u n o sistema de cable (Rango 6 - 120) tvchanl N´mero de se~ales de televisi´n recibidas u n o (Rango 3 - 15) pcincome Renta per c´pita para cada mercado de televisi´n a o con cable, en d´lares (Rango 7,683 - 28,597) o D 1 para 1994 y 0 para 1979 1. Para la especificaci´n: o subi = β1 + β2 homesi + β3 insti + β4 svci + β5 cblchanli +β6 tvchanli + β7 pcincomei + ui i = 1, . . . , 101 (7.17) Contrasta, sin utilizar la variable D, si existe un comportamiento distinto en 1979 que en 1994 en la determinaci´n del n´mero de suscriptores de cada sistema. o u 2. Como consecuencia de los resultados del contraste, ¿c´mo especificar´ un modelo para o ıas el n´mero de suscriptores? u 3. Repite el contraste realizado utilizando la variable D. 4. Restringe la muestra a las observaciones de 1979. a) Analiza si las variables homes, inst, svc, cblchanl, tvchanl y pcincome son individual y conjuntamente significativas para explicar la evoluci´n del n´mero de subscriptores o u de cada sistema. b) Prop´n una especificaci´n realista para el n´mero de suscriptores de cada sistema en o o u 1979. 5. Restringe ahora la muestra a las observaciones correspondientes al a˜o 1994 y repite el n an´lisis realizado en el apartado anterior. a 6. Dados los resultados obtenidos para los a˜os 1979 y 1994, ¿te parece sorprendente lo n obtenido en el primer apartado? 11 Fichero data7-22.gdt. Recogido en Ramanathan, R. (2002), Introductory econometrics with applications, 5th. Ed., South-Western. 143
  • 154. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 144
  • 155. Ap´ndice A e A.1. Repaso de probabilidad Las variables econ´micas tienen un componente sistem´tico y otro aleatorio, ya que con ante- o a rioridad a su observaci´n no podemos predecir con certeza los valores que van a tomar. Este o apartado revisa los conceptos de probabilidad que aplicaremos este curso: qu´ es una variable e aleatoria o estoc´stica, cu´les son sus propiedades y, finalmente, se presentan las distribuciones a a de probabilidad m´s usuales. a A.1.1. Una variable aleatoria Una variable aleatoria, que denotamos por X, es aquella cuyo valor no es conocido con ante- rioridad a su observaci´n. La probabilidad es un medio para expresar la incertidumbre sobre el o resultado. Se distinguen dos tipos de variables aleatorias: discretas, cuando el conjunto de todos sus posibles valores es finito o infinito numerable, y continuas, cuando el conjunto de realiza- ciones es infinitamente divisible y, por tanto, no numerable. Por ejemplo, la superficie de una vivienda es una variable continua mientras que el n´mero de ba˜os es una variable discreta. En u n general, en este curso nos ocuparemos de variables continuas. Si X es una variable discreta, podemos asignar una probabilidad p(xi ) = P rob(X = xi ) a cada posible resultado xi . El conjunto de probabilidades, que se denomina funci´n de probabilidad, o debe cumplir que p(xi ) ≥ 0 y i p(xi ) = 1. Si X es continua, la probabilidad asociada a cualquier punto en particular es cero, por lo que nos referimos a la probabilidad de que X tome valores en un intervalo [a, b]. La funci´n de densidad o f (x) de una variable aleatoria continua X es una funci´n tal que o b P robabilidad(a ≤ X ≤ b) = f (x) dx a Es decir, el ´rea por debajo de la funci´n entre dos puntos a y b es la probabilidad de que la a o variable tome valores en el intervalo [a, b] (ver panel izquierdo del Gr´fico A.3). La funci´n de a o densidad toma valores no negativos, f (x) ≥ 0, y el ´rea total por debajo de la funci´n es la a o ∞ unidad, −∞ f (x)dx = 1. Un ejemplo de variable aleatoria continua es la distribuci´n normal. Su funci´n de densidad o o tiene forma de campana (ver panel izquierdo del Gr´fico A.3). Es muy utilizada en la pr´ctica a a para modelar variables que se distribuyen sim´tricamente alrededor de un valor central, con e mucha probabilidad acumulada en valores cercanos a dicho punto central y poca en valores alejados. 145
  • 156. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Gr´fico A.3: La funci´n de densidad normal y el histograma a o El panel derecho del Gr´fico A.3 ilustra la relaci´n entre la funci´n de densidad y el histograma a o o de los datos. Tal y como mencionan Pe˜a y Romo (1997): “La funci´n de densidad constituye n o una idealizaci´n de los histogramas de frecuencia o un modelo del cual suponemos que proceden o las observaciones. El histograma representa frecuencias mediante ´reas; an´logamente, la fun- a a ci´n de densidad expresa probabilidades por ´reas. Adem´s, conserva las propiedades b´sicas del o a a a histograma: es no negativa y el ´rea total que contiene es uno. ” a La distribuci´n de una variable aleatoria puede resumirse utilizando medidas de posici´n (me- o o dia, mediana y moda), dispersi´n (varianza, desviaci´n t´ o o ıpica y coeficiente de variaci´n) o forma o (coeficiente de asimetr´ y coeficiente de curtosis). Estos conceptos se definen de forma similar a ıa los utilizados para resumir las caracter´ ısticas de un conjunto de datos. Definiremos los elementos que utilizaremos a lo largo del curso. La media o valor esperado, µ, de una variable aleatoria X se define como el promedio ponderado de todos los posibles valores que puede tomar X, donde la ponderaci´n es la probabilidad de o cada valor. Si la variable es continua se define: ∞ µ = E(X) = x f (x)dx −∞ donde E se conoce como el operador de esperanzas matem´ticas o, simplemente, esperanzas. La a media recoge el centro de gravedad sobre el que se distribuye la variable. As´ cuanto mayor sea ı, la media, mayor es el valor que se espera que tomen las realizaciones del experimento (ver panel izquierdo del Gr´fico A.4). a La varianza de una variable aleatoria X es su momento central, o respecto a la media, de orden 2. Es decir, var(X) = σX = E[(X − µ)2 ] ≥ 0 2 La varianza es una medida de dispersi´n de la distribuci´n. Su ra´ cuadrada positiva se conoce o o ız como desviaci´n t´ o ıpica o desviaci´n est´ndar de la variable aleatoria X, es decir: o a des(X) = σX = var(X) El panel derecho del Gr´fico A.4 muestra que cuanto menor es la varianza de la variable, mayor a es la probabilidad concentrada alrededor de la media. 146
  • 157. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Distinta media y σ = 1 Distinta dispersi´n y µ = 6 o Gr´fico A.4: Ejemplos de distribuci´n normal a o Distribuci´n normal est´ndar. La distribuci´n normal se caracteriza por el valor de su o a o media y su varianza. Si Z es una variable aleatoria normal de media igual a 0 y varianza igual a la unidad, se dice que Z es una variable normal est´ndar y se denota Z ∼ N (0, 1). Existen a tablas de esta distribuci´n que a cada posible resultado z le asigna la probabilidad acumulada o hasta ese punto, P rob(Z ≤ z). En general, si X es una variable normal con media µ y varianza σ 2 se denota X ∼ N (µ, σ 2 ). Dado que la transformaci´n Z = (X − µ)/σ es una normal est´ndar, con la tabla de esta distribuci´n o a o normal se obtiene la probabilidad acumulada P rob(X ≤ x). Ejercicio 1: simulaci´n normal est´ndar. Crea un conjunto de datos artificiales o a (N =250 observaciones), generados a partir de variables aleatorias normales est´ndar a independientes. El proceso es el siguiente: 1. En Gretl, crea el conjunto de datos siguiendo los pasos: Archivo →Nuevo con- junto de datos, en N´mero de observaciones: escribe 250, elige la estructura de u datos de secci´n cruzada y pincha en No desea empezar a introducir los valores. o Se crea un conjunto de datos con dos variables que genera Gretl autom´ticamen- a te: la constante const y la variable ´ ındice index, que toma valores 1,2,3,...,250. 2. Crea una serie de 250 realizaciones independientes de una variable normal con: A˜adir →Variable aleatoria →Normal ... n Aparece un cuadro titulado gretl: variable normal donde debes indicar el nombre de la variable, su media y su desviaci´n t´ o ıpica σ. Por ejemplo, para generar observaciones de una variable que llamamos z1 y que se distribuye como una N(0,1), escribimos: z1 0 1 Tras pinchar en Aceptar, en la ventana principal de Gretl aparece la variable creada, z1, con la nota explicativa z1 = normal(). 3. Repitiendo el paso 2, crea una nueva realizaci´n de la normal est´ndar y ll´mala o a a z2. 4. Haz dos gr´ficos, uno con z1 y otro con z2, sobre la variable ´ a ındice con la opci´n: o Ver →Gr´ficos →Gr´fico X-Y (scatter). Observa sus caracter´ a a ısticas comunes: 147
  • 158. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a los datos oscilan en torno al valor cero, y la mayor parte de ellos se encuentra en el intervalo (-2, 2). 5. Compara el histograma de las frecuencias relativas con la funci´n de densidad o normal. Para ello debes situar el cursor sobre una de las variables y seguir la ruta: Variable →Gr´fico de frecuencias →contra la normal a El resultado es un gr´fico similar (no id´ntico) al Gr´fico A.5. a e a 0.4 Estadstico para el contraste de normalidad: z1 Chi-cuadrado(2) = 2,893, valor p = 0,23543 N(-0,031699 1,0189) 0.35 0.3 0.25 Densidad 0.2 0.15 0.1 0.05 0 -3 -2 -1 0 1 2 3 z1 Gr´fico A.5: Simulaci´n 1: histograma a o En este gr´fico aparece el histograma junto con la funci´n de densidad de la a o distribuci´n normal de media µ = 0, 1087 y desviaci´n t´ o o ıpica σ = 1, 0055. Estos valores aparecen en la parte superior derecha del gr´fico y se eligen en funci´n a o de la media y varianza de los datos. Ejercicio 2: simulaci´n normal general. En el mismo fichero crea dos series de o datos: • x3= 250 datos generados con una variable normal de media 25 y desviaci´n o ıpica 6 (es decir, σ 2 = 36). En A˜adir →Variable aleatoria →Normal ... escribir t´ n x3 25 6. • x4, generados a partir de una distribuci´n normal de media 50 y desviaci´n o o t´ ıpica 0. Haz el gr´fico de los datos sobre la variable index y su distribuci´n de frecuencias a o frente a la normal. ¿Hay alg´n problema al crear o representar la distribuci´n de x4? u o ¿Por qu´?e Ejercicio 3: transformaci´n lineal. Se trata de construir una nueva serie de datos, o que llamaremos z3 y que se define a partir de la variable x3 del ejercicio anterior: x3 − 25 z3 = 6 1. Pincha en la opci´n A˜adir →Definir nueva variable. o n 2. En la siguiente ventana escribe el nombre de la nueva serie y su f´rmula de o c´lculo, es decir z3=(x3-25)/6. a Si has realizado el proceso correctamente, en la ventana principal de Gretl aparece la variable creada, z3. Haz el histograma de z3, compar´ndola con la de la variable a inicial x3. Compara sus estad´ ısticos descriptivos, en particular, las medias y las varianza. ¿Cambian mucho? 148
  • 159. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 A.1.2. Dos o m´s variables aleatorias a Para responder a preguntas relativas a dos o m´s variables aleatorias debemos conocer su funci´n a o de densidad conjunta. Si las variables aleatorias X e Y son discretas, a cada posible par de resultados (xi , yj ) podemos asignar una probabilidad p(xi , yj ). El conjunto de probabilidades es la funci´n de probabilidad conjunta, cumpli´ndose que 0 ≤ p(xi , yj ) ≤ 1 y i j p(xi , yj ) = 1. o e Si las variables aleatorias son continuas, su distribuci´n conjunta se recoge mediante la funci´n o o de densidad conjunta f (x, y). Si las dos variables siguen una distribuci´n normal, la forma t´ o ıpica de su funci´n de densidad conjunta se encuentra en el Gr´fico A.6. o a Gr´fico A.6: Distribuci´n normal bivariante a o El volumen total recogido bajo esta superficie es la masa de probabilidad total que es igual a la unidad, es decir, x y f (x, y) dx dy = 1. Adem´s, la funci´n no toma valores negativos, f (x, y) ≥ a o 0. As´ el volumen debajo del rect´ngulo definido por dos puntos (a, b) mide la probabilidad de ı, a que X tome valores por debajo de a e Y por debajo de b. Es decir, a b P robabilidad(X ≤ a, Y ≤ b) = f (x, y)dx dy −∞ −∞ Por ejemplo, el volumen recogido bajo la superficie marcada en el Gr´fico A.6 es la probabilidad a de que X ≤ −2 e Y ≤ 4,5. La funci´n de densidad marginal de cada variable puede obtenerse o mediante integraci´n. As´ o ı: ∞ ∞ f (x) = f (x, y) dy f (y) = f (x, y) dx (A.18) −∞ −∞ La distribuci´n conjunta de dos variables aleatorias se puede resumir mediante: o • El centro de gravedad de cada variable, es decir, las medias (µX , µY ), que se obtienen de las distribuciones marginales (A.18). • Medidas de dispersi´n de cada variable alrededor de su media, por ejemplo, las varianzas o 2 2 de X e Y , σX y σY , que se derivan de las distribuciones marginales (A.18). • Medida de la relaci´n lineal entre las dos variables aleatorias, para lo que se utiliza la o covarianza σXY : cov(X, Y ) = σXY = E[(X − µX )(Y − µY )] 149
  • 160. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a o bien el coeficiente de correlaci´n entre las variables, o σXY corr(X, Y ) = ρXY = ∈ [−1, 1] σX σY Covarianza y correlaci´n de las variables aleatorias tienen una interpretaci´n similar a sus o o hom´logas en los datos. As´ si σXY = ρXY = 0 se dice que las variables X e Y est´n o ı, a incorrelacionadas. La distribuci´n conjunta se resume en el vector de medias µ y la matriz de varianzas y covarianzas o Σ ´ V: o var(X) cov(X, Y ) 2 σX σXY µX µ= Σ= = 2 µY cov(X, Y ) var(Y ) σXY σY Distribuci´n condicionada. Al estudiar un conjunto de variables, interesa evaluar la posibi- o lidad de que un suceso ocurra dado que otro suceso ha tenido lugar. Por ejemplo, ¿cu´l es la a probabilidad de que una mujer casada y con hijos en edad escolar participe en el mercado de trabajo? La probabilidad condicionada permite responder este tipo de preguntas. Si las va- riables son discretas, se define la distribuci´n condicional de Y dado que la variable aleatoria X o toma el valor xi como: P rob(Y = yj , X = xi ) p(xi , yj ) P rob(Y = yj |X = xi ) = = P rob(X = xi ) j p(xi , yj ) para P rob(X = xi ) > 0 Si las variables son continuas, se define la funci´n de densidad de Y condicionada a que la o variable aleatoria X tome el valor x (para f (x) > 0): f (x, y) f (y|X = x) = f (x) De esta forma se obtiene una nueva distribuci´n, con las propiedades ya vistas. Los momentos o de inter´s de esta distribuci´n se denominan media y varianza condicionada de Y para el valor e o dado de X = x, y se denotan E(Y |X = x) y var(Y |X = x). Independencia. Dos variables aleatorias X y Y son estad´ ısticamente independientes o est´n a independientemente distribuidas si conocido el valor que toma una de ellas, no aporta ninguna informaci´n sobre el valor que puede tomar la segunda. Si las variables X e Y son independientes, o entonces su funci´n de densidad conjunta puede descomponerse seg´n: o u f (x, y) = f (x) × f (y) − ∞ < x, y < ∞ Adem´s, se tiene que f (y|X = x) = f (y). Se demuestra que si X e Y son independientes, a entonces Cov(X, Y ) = 0. Tambi´n se demuestra que, si las variables X e Y se distribuyen e conjuntamente seg´n una normal y Cov(X, Y ) = 0, entonces X e Y son independientes. u 150
  • 161. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 M´s de dos variables. Los resultados anteriores se pueden generalizar a un conjunto de n a variables, X1 , X2 , . . . , Xn , que se recogen en un vector   X1  X2    X= .   . .  Xn La distribuci´n conjunta de estas variables se resume en el vector de medias E(X) ´ µ y la o o matriz de varianzas y covarianzas V (X) ´ ΣX . As´ o ı:     E(X1 ) µ1  E(X2 )   µ2      E(X) = µ =  . = .  y  . .   . .  E(Xn ) µn    2  var(X1 ) cov(X1 , X2 ) . . . cov(X1 , Xn ) σ1 σ1,2 . . . σ1,n  cov(X1 , X2 ) var(X2 ) . . . cov(X2 , Xn )   σ1,2 σ22 . . . σ2,n      ΣX =  . . .. . = . . .. .   . . . . . . .   . . . . . . .  2 cov(X1 , Xn ) cov(X2 , Xn ) ... var(Xn ) σ1,n σ2,n . . . σn donde ΣX es una matriz cuadrada de orden n, sim´trica y definida no negativa. Esto implica e 2 que los elementos de la diagonal principal son no negativos, σi ≥ 0, ∀i. Si las variables son mutuamente independientes, entonces est´n incorrelacionadas, es decir, σi,j = a 0, ∀i = j, por lo que la matriz ΣX es diagonal:  2  σ1 0 . . . 0  2   0 σ2 . . . 0   ΣX =  .  . .. .   . . . . . . .  0 0 . . . σn 2 Si, adem´s, X1 , . . . , Xn siguen la misma distribuci´n, a o con la misma media y la misma varianza:    2  µ σ 0 ... 0  µ       0 σ2 . . . 0  E(X) =  .  ΣX =  .  . . ..  . =σ I 2  .  .  . . . .  . . µ 0 0 . . . σ2 entonces se dice que son variables aleatorias id´ntica e independientemente distribuidas con e media µ y varianza σ 2 y se denota X ∼ iid(µ, σ 2 ), ∀i = 1, . . . , n. i Si X1 , . . . , Xn son variables aleatorias normales, se dice que el vector X sigue una distribuci´n o normal multivariante, y queda caracterizada por su vector de medias µ y su matriz de va- rianzas y covarianzas ΣX . Se denota X ∼ N (µ, ΣX ). Si adem´s las variables son independientes, a con media y varianza com´n, se denota Xi ∼ N ID(µ, σ 2 ), i = 1, . . . , n. u Adem´s de la distribuci´n normal, a lo largo del curso utilizaremos otras distribuciones, todas a o ellas relacionadas con la distribuci´n normal. Veamos sus propiedades. o 151
  • 162. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Gr´fico A.7: Funci´n de densidad de la distribuci´n Chi-cuadrado a o o A.1.3. Algunas distribuciones de probabilidad La distribuci´n Chi-cuadrado. Si (Z1 , . . . , Zn ) son variables aleatorias independientes con o distribuci´n normal est´ndar, es decir, Zi ∼ N ID(0, 1), se dice que X = n Zi2 es una variable o a i=1 aleatoria chi-cuadrado de n grados de libertad y se denota X ∼ χ2 (n). Para valores negativos de X, f (x) = 0 y la forma general de su funci´n de densidad se recoge en el Gr´fico A.7. o a Es una distribuci´n asim´trica, con media igual a n y varianza 2n. Existen tablas que propor- o e cionan la probabilidad acumulada hasta un punto P rob(X ≤ x), es decir, el ´rea rayada del a gr´fico, en funci´n de los grados de libertad, n. a o Ejercicio 4: transformaci´n no lineal. Siguiendo el procedimiento del ejercicio o 3, crea una nueva serie de datos, y = z12 + z22 + z32 . En este caso debes escribir: y = z1ˆ 2 + z2ˆ 2 + z3ˆ 2 Haz la representaci´n gr´fica de la distribuci´n de frecuencias de esta variable frente o a o a la normal. El histograma que obtengas tendr´ un patr´n bastante diferente a a o la distribuci´n normal. ¿Puedes justificar el resultado? ¿Con qu´ distribuci´n la o e o comparar´ ıas? La distribuci´n F de Snedecor. Si Z1 ∼ χ2 (n1 ) y Z2 ∼ χ2 (n2 ) y adem´s se distribuyen o a independientemente, entonces la distribuci´n X = (n2 /n1 )(Z1 /Z2 ) se conoce como distribuci´n o o F de n1 , n2 grados de libertad y se escribe: Z1 /n1 X= ∼ F(n1 , n2 ) Z2 /n2 El Gr´fico A.8 muestra su funci´n de densidad para distintos grados de libertad. a o La probabilidad se acumula en la parte positiva de la recta real, x > 0. A medida que aumentan los grados de libertad del denominador, n2 → ∞, la distribuci´n de n1 F(n1 , n2 ) converge a la o 2 (n ). distribuci´n χ 1 o La distribuci´n t de Student. Si Z ∼ N (0, 1) e Y ∼ χ2 (n) y adem´s, Z e Y se distribuyen o a independientemente, entonces la distribuci´n de X = Z/ Y /n se denomina distribuci´n t de o o 152
  • 163. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Gr´fico A.8: Funci´n de densidad de la distribuci´n F-Snedecor a o o Student de n grados de libertad y se denota: Z X= ∼ t(n) Y /n El Gr´fico A.9 incluye ejemplos de la funci´n de densidad de la t-Student compar´ndolas con la a o a distribuci´n normal est´ndar: o a Gr´fico A.9: Funci´n de densidad de la distribuci´n t-Student a o o Se trata de una distribuci´n sim´trica alrededor de 0. Para n > 1, la media de la distribuci´n o e o es cero y para n > 2 su varianza es igual a n/(n − 2). Esta distribuci´n tiene las colas m´s o a gruesas que la normal, es decir, su exceso de curtosis es positivo, pero, a medida que aumentan sus grados de libertad, la distribuci´n t converge a la normal est´ndar. o a A.2. Repaso de inferencia estad´ ıstica Supongamos que interesa conocer cu´l es el salario medio de los reci´n licenciados. Se trata a e de una poblaci´n o conjunto de individuos muy amplio, por lo que se recoge la informaci´n o o unicamente de una muestra o un subconjunto de reci´n licenciados seleccionados al azar. Con esta ´ e informaci´n, ¿qu´ es posible inferir del salario esperado de un reci´n licenciado? Para responder o e e a esta pregunta y, en general, saber usar los datos para examinar conjeturas y relaciones sobre la poblaci´n repasaremos algunos conceptos de inferencia estad´ o ıstica. El objetivo de la inferencia estad´ ıstica es aprender determinadas caracter´ ısticas de una poblaci´n o a partir del an´lisis de una muestra. La poblaci´n es un conjunto bien definido de elementos que a o 153
  • 164. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a son el objeto del estudio, por ejemplo, el conjunto de familias de un pa´ el conjunto de viviendas ıs, de una ciudad o los clientes de una empresa de telecomunicaciones. La muestra est´ formada a por un subconjunto representativo de elementos de la poblaci´n. o Una vez definida la poblaci´n, hay que especificar un modelo para los datos que recoja las carac- o ter´ısticas poblacionales que interesan. En Econometr´ suponemos que los datos y1 , y2 , . . . , yN ıa son realizaciones de N variables aleatorias cuya distribuci´n conjunta depende de varios par´me- o a tros desconocidos Θ. Un modelo para los datos especifica las caracter´ ısticas generales de la distribuci´n junto con el vector de par´metros desconocidos Θ. Por ejemplo, supongamos que o a nos interesa conocer el precio medio del metro cuadrado de un piso en una ciudad y la muestra est´ formada por 50 pisos. Suponemos que los valores recogidos del precio por m2 de los 50 pisos, a y1 , . . . , y50 , son realizaciones de variables normales id´ntica e independientemente distribuidas. e Por tanto, el modelo especificado para los datos es: Yi ∼ N ID(µ, σ 2 ) Los par´metros que determinan la distribuci´n son la media y la varianza del precio del m2 , a o que son desconocidos, es decir, Θ = (µ, σ 2 ). Adem´s, la media es el par´metro de inter´s en el a a e estudio y queremos aprender sobre ella a partir de los datos. En grandes l´ıneas, aplicaremos dos herramientas de la estad´ ıstica, la estimaci´n y el contraste de o hip´tesis. En la estimaci´n se trata de calcular posibles valores para par´metros de inter´s, por o o a e ejemplo, una elasticidad o el precio medio por metro cuadrado de la vivienda. En el contraste de hip´tesis hay que establecer una hip´tesis o conjetura espec´ o o ıfica sobre la poblaci´n, por ejemplo, o que no hay discriminaci´n salarial por sexo o que el estado de un piso es un factor determinante o de su precio, y analizar los datos para decidir si la hip´tesis es correcta. o A.2.1. Estimaci´n o El objetivo de la estimaci´n es aproximar el valor de un conjunto de par´metros desconocidos o a de una distribuci´n a partir de las observaciones muestrales de la misma. Denotaremos como θ o a un par´metro desconocido y Θ = (θ1 , θ2 , . . . , θK ) a un vector de K par´metros desconocidos. a a Un estad´ ıstico es una funci´n de los datos, g(y1 , . . . , yN ). Un estimador puntual de θ es un o estad´ıstico que pretende ser un aproximaci´n al par´metro desconocido y se denota por θ. Por o a ˆ ejemplo, la media de los datos puede ser un estimador de la media de una variable aleatoria y la varianza de los datos un estimador de su varianza. Es decir, N N 1 2 ∗2 1 µ=y= ˆ ¯ yi σ = ˆ Sy = (yi − y )2 ¯ N N −1 i=1 i=1 Un estimador es una regla que est´ definida antes de que los datos se observen. El valor num´rico a e que se obtiene al aplicarlo a los datos se denomina estimaci´n. Por ejemplo, la estimaci´n de la o o media del precio por metro cuadrado de un piso con la muestra de la Tabla 1.1 es: 3, 82 + 5, 246 + . . . + 3, 434 + 4, 20 µ= ˆ = 3, 91 miles de euros 50 Es decir, se estima que el precio de un piso oscila alrededor de 3910 euros/m2 . Sin embargo, ¿qu´ confianza podemos tener en este resultado? Por ejemplo, ¿valorar´ e ıamos igual esta cantidad si se hubiera calculado con una muestra de 5 observaciones? La respuesta obvia es NO, sino que consideramos m´s fiables los resultados con 50 datos que con 5. Por tanto, un estimador (y sus a estimaciones) deben complementarse con una medida de su fiabilidad o precisi´n.o 154
  • 165. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Un estimador es una variable aleatoria que depende de las variables Yi , i = 1, . . . , N . Su distri- buci´n de probabilidad se denomina distribuci´n muestral o distribuci´n emp´ o o o ırica del estimador. En el ejemplo anterior, si Yi ∼ N ID(µ, σ 2 ), entonces el estimador µ = y es una combinaci´n ˆ ¯ o lineal de N variables normales independientes, por lo que su distribuci´n muestral es: o µ = y ∼ N (µ, σ 2 /N ) ˆ ¯ (A.19) La media muestral se distribuye alrededor de la media poblacional y se concentra m´s probabi- a lidad alrededor de µ cuanto mayor es N (es decir, menor es la varianza). Por tanto, hay mayor probabilidad de obtener una estimaci´n cercana a µ con 50 datos que con N = 5. En este caso, o √ es sensato utilizar como indicador de la precisi´n la desviaci´n t´ o o ıpica σ/ N : menor desviaci´n o t´ ıpica indica mayor precisi´n. Normalmente, σ es desconocido, por lo que sustituimos su valor o ∗ poblacional por el correspondiente muestral, Sy . La estimaci´n de la desviaci´n t´ o o ıpica de la distribuci´n muestral de y , o ¯ ∗ √ σy = Sy = Sy / N ˆ¯ ¯ se conoce como error t´ıpico de y . √ el ejemplo del precio del m2 , obtenemos que el error ¯ En t´ ıpico de estimaci´n es 0, 993341/ 50 = 0, 14. Es f´cil comprobar que si obtuvi´ramos los o a e mismos valores √ y y Sy con una muestra de 5 observaciones, el error t´ de ¯ ıpico se triplicar´ ıa, Sy = 0, 993341/ 5 = 0, 44 miles de euros. ¯ Ejercicio 5. Estimaci´n de la media y la varianza del precio por m2 de un o piso. 1. Abre el fichero de datos de Gretl pisos.gdt. 2. Crea la variable precio por metro cuadrado, que denotaremos pr m2 : a) Usa las opci´n definir nueva variable que est´ en el men´ A˜adir o en o a u n Variable. b) En la nueva ventana escribe nombre de la nueva variable = f´rmula, es o decir, pr m2 = precio/m2 3. Una vez creados los nuevos datos, las estimaciones de la media, m, y la desvia- ci´n t´ o ıpica, S, se obtienen de la tabla de estad´ ısticos descriptivos. La estimaci´n √ o de la varianza es el cuadrado de S. El error t´ ıpico de estimaci´n es S/ 50. o Ejercicio 6: Estimaci´n de media y varianza. Utilizando la opci´n de estad´ o o ısti- cos descriptivos o estad´ ısticos principales, obt´n las medias y las desviaciones t´ e ıpicas de z1, z2, x3 y x4 generados en el ejercicio 1. Completa la siguiente tabla, incluyendo junto con los momentos poblacionales las estimaciones que has obtenido, es decir, correspondientes los momentos muestrales. 155
  • 166. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Modelo 1 µ= σ= Muestra: z1 Estimaci´n = o Estimaci´n = o Modelo 2 µ= σ= Muestra: z2 Estimaci´n = o Estimaci´n = o Modelo 3 µ= σ= Muestra: x3 Estimaci´n = o Estimaci´n = o Modelo 4 µ= σ= Muestra: x4 Estimaci´n = o Estimaci´n = o Criterios para comparar estimadores Para un problema determinado existen distintos m´todos de estimaci´n y, obviamente, unos son e o mejores que otros. En algunos casos, distintos m´todos pueden dar lugar a un mismo estimador e de un par´metro. Es posible elegir entre distintos m´todos de estimaci´n bas´ndonos en ciertas a e o a propiedades de la distribuci´n muestral del estimador. En general, buscamos los estimadores que o m´s se aproximen a los verdaderos valores. As´ exigimos que los estimadores cumplan una serie a ı, ˆ de propiedades basadas en una medida de la distancia entre θ y θ. En este curso nos fijamos en tres propiedades: insesgadez, eficiencia y el error cuadr´tico medio m´ a ınimo. Insesgadez. Un estimador es insesgado si la media de su distribuci´n emp´ o ırica es el verdadero valor del par´metro, es decir, a ˆ E(θ) = θ ˆ Si se pudieran obtener todas las posibles realizaciones muestrales de θ, el promedio de todas estas estimaciones ser´ el valor del par´metro. Es una propiedad deseable porque indica que si ıa a o ˆ un estimador es insesgado, el error de estimaci´n, θ − θ, se anula en promedio. Un ejemplo de estimador insesgado de la media poblacional de una distribuci´n normal es y , ya que de (A.19) o ¯ tenemos que E(¯) = µ. Un estimador insesgado de la varianza de una distribuci´n es la varianza y o muestral, S 2 . En caso contrario, se dice que el estimador es sesgado. Se define el sesgo de un estimador como ˆ ˆ Sesgo(θ) = E(θ) − θ. La parte izquierda del Gr´fico A.10 representa las distribuciones de 3 a ˆ ˆ estimadores de un mismo par´metro, θ: el estimador θ1 es insesgado; θ2 , tiene sesgo negativo, a ˆ es decir, en promedio subestima el valor del par´metro; finalmente el sesgo de θ3 es positivo, es a decir, este estimador en promedio sobrevalora el valor del par´metro. a Eficiencia. Si nos fijamos unicamente en los estimadores insesgados, nos interesa establecer un ´ criterio para elegir un estimador dentro de esta clase de estimadores. En la parte derecha del Gr´fico A.10 se representa la distribuci´n de dos estimadores, ambos insesgados. Claramente, a o el estimador con menor varianza, θ ˆ1 , tiene una probabilidad menor de obtener realizaciones ˆ alejadas del verdadero valor del par´metro. Por tanto, se considera que θ1 supera al estimador a ˆ2 y se dice que θ1 es m´s eficiente que θ2 . θ ˆ a ˆ 156
  • 167. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Gr´fico A.10: Sesgo y varianza de estimadores a En general, si un estimador es el que tiene menor varianza dentro de una clase de estimadores se dice que es el estimador eficiente dentro de esa clase. As´ se dice que un estimador θ es ı, ˆ ˜ eficiente dentro de la clase de estimadores insesgados si no hay otro estimador insesgado θ con una varianza menor: ˜ ˆ var(θ) ≥ var(θ) ˜ ∀θ insesgado Por ejemplo, la media de los datos es un estimador eficiente dentro de la clase de estimadores insesgados de la media poblacional µ de una variable normal. Es decir, se demuestra que, si Yi ∼ N ID(µ, σ 2 ), i = 1, . . . , N , entonces para todo estimador insesgado de µ, µ con E µ = µ: ˜ ˜ σ2 var(¯) = y ≤ var(˜) µ N Si se trata de estimar un conjunto de K par´metros Θ, se dice que un estimador insesgado Θ a ˜ ˜ es m´s eficiente que otro estimador insesgado Θ si la diferencia [V (Θ) − V (Θ)] es una matriz a semidefinida positiva. Esto implica que cada elemento de Θ tiene una varianza menor o igual ˜ que el correspondiente elemento de Θ. Error cuadr´tico medio Aunque la insesgadez es una propiedad deseable, esto no implica a que un estimador insesgado siempre sea preferible a uno sesgado. El Gr´fico A.11 ilustra una a ˆ ˆ situaci´n en la que un estimador insesgado θ1 puede descartarse frente a otro sesgado, θ2 . El o ˆ estimador θ1 tiene mucha varianza, por lo que tiene una probabilidad mayor de obtener errores o a ˆ de estimaci´n m´s grandes que el estimador con menor varianza, θ2 , aunque este sea sesgado. Gr´fico A.11: Ejemplos de distribuci´n de estimadores a o Esto sugiere utilizar como criterio de elecci´n de estimadores una medida del error del estimador. o Se define el error cuadr´tico medio de un estimador: a ˆ ˆ ˆ ˆ ECM (θ) = E[(θ − θ)2 ] = var(θ) + [sesgo(θ)]2 157
  • 168. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a que se descompone en un t´rmino de varianza y otro de sesgo. As´ entre un conjunto de esti- e ı, madores se elige aquel que tiene menor error cuadr´tico medio. a A.2.2. Contraste de hip´tesis o Como ya se mencion´, uno de los objetivos de la Econometr´ es el de contrastar hip´tesis. o ıa o Por ejemplo, nos planteamos si los datos del precio del m2 de la vivienda son compatibles con una determinada distribuci´n con media 3000 euros/m2 . En un contraste de hip´tesis se trata o o de establecer si la diferencia entre la hipot´tica media poblacional (en el ejemplo, 3000 e) y la e media muestral (3910 e) se debe unicamente a la naturaleza aleatoria de los datos. ´ Un contraste de hip´tesis tiene tres etapas (Ramanathan, 2002): (1) Formulaci´n de dos hip´te- o o o sis opuestas; (2) derivaci´n de un estad´ o ıstico de contraste y su distribuci´n muestral; y (3) o determinaci´n de un criterio de decisi´n para elegir una de las dos hip´tesis planteadas. o o o Una hip´tesis estad´ o ıstica es una afirmaci´n sobre la distribuci´n de una o varias variables alea- o o torias. En un contraste se trata de decidir cu´l, entre dos hip´tesis planteadas, es la que mejor a o se adec´a a los datos. La hip´tesis de inter´s se denomina hip´tesis nula, H0 , mientras que u o e o la hip´tesis frente a la que se contrasta se llama hip´tesis alternativa, Ha . En el ejemplo, o o consideramos que el precio del m2 es una variable aleatoria normal y planteamos la hip´tesis o nula de que la media de Y sea igual a 3 (miles e) frente a la alternativa de que no lo sea, es decir, H0 : µ = 3 frente a Ha : µ = 3 Normalmente, la hip´tesis nula es una hip´tesis simple, es decir, s´lo se plantea un valor para µ. o o o La hip´tesis alternativa suele ser una hip´tesis compuesta, que especifica un intervalo de valores. o o En el ejemplo, Ha es la negaci´n de H0 y se dice que es un contraste bilateral o a dos colas. Si o la hip´tesis alternativa se especifica Ha : µ < 3, o bien Ha : µ > 3, se dice que el contraste es o unilateral o a una cola. La elecci´n entre las hip´tesis se basa en un estad´ o o ıstico de contraste, que es una funci´n de o los datos que mide la discrepancia entre estos y H0 . Por ejemplo, en el contraste bilateral sobre la media, se define la siguiente medida de la discrepancia: y−3 ¯ Sy ¯ Esta discrepancia, que utilizaremos como estad´ ıstico de contraste, no depende de las unidades de medida y tiene en cuenta la diferencia entre los datos (resumidos en y ) y el valor establecido ¯ en H0 . Adem´s, debe conocerse la distribuci´n de esta variable aleatoria cuando la hip´tesis a o o nula es correcta. En el ejemplo, se demuestra que si los datos y1 , y2 , . . . , yN son una muestra aleatoria de un conjunto de variables Yi ∼ N ID(µ, σ 2 ) ∀i, con µ y σ 2 desconocidas, entonces: y−µ ¯ ∼ t(N − 1) Sy ¯ y sustituyendo µ = 3, tenemos la distribuci´n muestral del estad´ o ıstico bajo H0 : y − 3 H0 ¯ t= ∼ t(N − 1) (A.20) Sy ¯ Este estad´ ıstico se aplica mucho en la pr´ctica y se denomina estad´ a ıstico t de la media. Finalmente, para determinar el criterio de decisi´n del contraste se divide el conjunto de o posibles resultados del estad´ ıstico de contraste en dos zonas, la regi´n cr´ o ıtica y su comple- mentaria. Se rechaza H0 cuando el valor del estad´ ıstico obtenido con la muestra tm pertenece 158
  • 169. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 a la regi´n cr´ o ıtica. El punto de partida para establecer la regi´n cr´ o ıtica es que se rechaza H0 si la discrepancia entre datos y H0 es grande. En el contraste bilateral, se rechazar´ H0 si y se ıa ¯ alejara mucho del valor establecido en H0 , lo que para el estad´ıstico implica que: y−3 ¯ |tm | = >c (A.21) Sy ¯ donde c es la discrepancia m´xima que estamos dispuestos a asumir y se denomina valor cr´ a ıtico. En caso contrario, si |t m | ≤ c, no se rechaza la hip´tesis nula. El valor de c depende de la o distribuci´n del estad´ o ıstico de contraste cuando H0 es cierta y del error que estemos dispuestos a aceptar. En un contraste siempre existe la posibilidad de cometer los siguientes errores: • Rechazar la hip´tesis nula cuando ´sta es cierta, que se llama error tipo I. El nivel de o e significaci´n o tama˜o de un contraste es la probabilidad de incurrir en el error tipo I y o n se denota por α. • No rechazar la hip´tesis nula cuando ´sta es falsa, llamado error tipo II. La potencia de o e un contraste es la probabilidad de no cometer un error tipo II. Deseamos cometer el menor error, pero no es posible eliminar los dos errores simult´neamente, es a decir, que el tama˜o sea 0 y la potencia igual a 1. En general, disminuir el error tipo I lleva consigo n un aumento del error tipo II. Por ejemplo, no cometemos error tipo I si decidimos no rechazar nunca la hip´tesis nula; pero la potencia del contraste ser´ 0 porque tampoco rechazaremos H0 o ıa cuando sea falsa. Daremos m´s importancia al error tipo I, por lo que elegiremos el tama˜o del a n contraste; los niveles m´s habituales son 10 %, 5 % y 1 %. Para el tama˜o elegido, trataremos de a n utilizar el contraste con mayor potencia. Ejemplo: zona cr´ ıtica en un contraste bilateral sobre la media de una distribuci´n normal. o Veamos c´mo se determina el valor cr´ o ıtico c en el ejemplo sobre la media del precio. El tama˜o n α es la probabilidad de rechazar H0 cuando ´sta es cierta. Como (A.21) es la condici´n para e o rechazar y (A.20) es la distribuci´n del estad´ o ıstico cuando H0 es cierta, esto implica que: α = P rob(|t| > c) cuando el estad´ ıstico t ∼ t(N − 1) En este caso, rechazaremos H0 si el valor del estad´ ıstico t obtenido con los datos es un valor poco probable en la distribuci´n del estad´ o ıstico bajo H0 . Este gr´fico muestra la distribuci´n del estad´ a o ıstico si H0: µ = 3 es cierta. La regi´n cr´ o ıtica es la zona pun- teada en las dos colas de la distribuci´n, de modo o que en cada cola se acumula una probabilidad α/2. As´ c es la ordenada de la distribuci´n t(N − 1) ı, o que deja en la cola derecha una probabilidad α/2. Por ejemplo, para α = 0, 05 y N = 50, entonces, c = 2, 01 y se rechaza H0 al nivel de significaci´n del o 5 % si |tm | > 2, 01. Ejemplo 1: Contraste sobre la media del precio por m2 en Gretl. Suponiendo que la variable precio por metro cuadrado pr m2 sigue una distribuci´n o normal, contrasta H0: µ = 3 frente a Ha: µ = 3. Los pasos son los siguientes: 159
  • 170. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 1. C´lculo del valor muestral del estad´ a ıstico t = (¯ − 3)/Sy , siendo y la media y ¯ ¯ muestral de pr m2: √ tm = 50(3, 9144 − 3)/0, 99341 = 6, 51 Se obtiene con la siguiente opci´n de Gretl: o Herramientas →Calculadora de estad´ ısticos de contraste En la siguiente ventana elige la pesta˜a media y en ella: n • Marca la opci´n Utilice una variable del conjunto de datos. o • Selecciona la variable pr m2. Aparecer´n los estad´ a ısticos descriptivos que intervienen en el c´lculo de t a m . En este caso: media muestral: 3,9144 desv. t´ ıpica: 0,99341 tama˜o muestral : n 50 • Escribe la hip´tesis nula a contrastar: H0: media = 3. o • Comprueba que la opci´n Suponer que la desv. t´ o ıpica es un valor poblacional no est´ activada y pincha en Aplicar. a El resultado es la tabla y el Gr´fico A.12. En el gr´fico se representa la distri- a a buci´n del estad´ o ıstico bajo H0 , en este caso t(49), junto con el valor muestral del estad´ ıstico (la l´ ınea verde). Hip´tesis nula: media poblacional = 3 o Tama~o muestral: n = 50 n Media muestral = 3,91439, desv. t´pica = 0,993407 ı Estad´stico de contraste: t(49) = (3,91439 - 3)/0,140489 = 6,50864 ı valor p a dos colas = 3,83e-008 (a una cola = 1,915e-008) 0.5 Distribucin muestral t(49) Estadstico de contraste 0.4 0.3 0.2 0.1 0 -6 -4 -2 0 2 4 6 Desviaciones tpicas Gr´fico A.12: Ejemplo 1: Resultado y distribuci´n del estad´ a o ıstico bajo H0 En este caso tenemos que el valor muestral del estad´ıstico cae en la cola su- perior, en una intervalo de valores poco probable si H0 es cierta. Por tanto, rechazaremos la hip´tesis nula. Pero calcularemos exactamente la regi´n cr´ o o ıti- ca. 2. Regi´n cr´ o ıtico c se obtiene con la opci´n de ıtica o zona de rechazo. El valor cr´ o Gretl Herramientas →Tablas estad´ ısticas. En la nueva ventana hay que elegir la pesta˜a de la variable t y en el siguiente n cuadro hay que rellenar: • gl = grados de libertad n, en este caso 49 • probabilidad en la cola derecha = α/2. Fijamos un nivel de significaci´n o del 5 %, por lo que escribimos 0,025. Tras pinchar en Aceptar, obtenemos el siguiente resultado: 160
  • 171. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 t(49) probabilidad en la cola derecha = 0,025 probabilidad complementaria = 0,975 probabilidad a dos colas = 0,05 Valor cr´tico = 2,00958 ı Interpretaci´n: P rob(t > 2, 00958) = 0, 025 o bien P rob(X < 2, 00958) = 0, 975. o Por tanto, el valor cr´ ıtico con alpha = 5 % es igual a c = 2, 00958. 3. Aplicaci´n de la regla de decisi´n. Como |6, 51| > c, al nivel de significaci´n o o o del 5 %, se rechaza la hip´tesis de que el precio medio sea igual a 3000e fren- o te a la alternativa. Cierra las ventanas de calculadora de estad´ ısticos y tablas estad´ ısticas. Ejemplo: regi´n cr´ o ıtica en el contraste unilateral sobre la media de una distribuci´n normal. o En los estudios econom´tricos a veces se plantean contrastes a una cola. Por ejemplo, en estudios e sociales interesa analizar si hay discriminaci´n salarial, de modo que las mujeres perciben salarios o m´s bajos que los hombres. Habitualmente, se contrasta la hip´tesis nula de que la media del a o salario que perciben las mujeres es igual al salario medio de los hombres frente a la hip´tesis o alternativa de que la media del salario es mayor en el grupo de hombres. En el estudio del precio del m2 , supongamos que interesa contrastar si la media es tres o mayor, por lo que planteamos las hip´tesis: o H0 : µ = 3 frente a Ha : µ > 3 √ Al mantenerse la misma hip´tesis nula, el estad´ o ıstico de contraste es (A.20), t = N (¯ − 3)/Sy , y que bajo H0 sigue una distribuci´n t(N − 1). La hip´tesis alternativa determina el criterio de o o decisi´n. Rechazaremos H0 cuando la discrepancia tome valores alejados de H0 y compatibles o con Ha , es decir, cuando t tome valores positivos grandes. La regi´n cr´ o ıtica est´ definida por la a condici´n t > c. El valor cr´ o ıtico c se determina por: α = P rob(t > c) cuando el estad´ ıstico t ∼ t(N − 1) La regi´n cr´ o ıtica del contraste es la zona pun- teada en una cola de la distribuci´n, la derecha. o As´ c es la ordenada de la distribuci´n t(N − 1) ı, o que acumula en la cola derecha una probabilidad α. Por ejemplo, si α = 0, 05 y N = 50, entonces el nivel cr´ ıtico es c = 1, 67655 (usar herramienta de tabla estad´ ıstica de Gretl) y no se rechaza H0 al nivel de significaci´n del 5 % si tm < 1, 67655. o En general, se usan las expresiones rechazar o no rechazar H0 . Esto es as´ porque en un contraste ı mantenemos la H0 mientras no haya suficiente evidencia en contra. Los datos pueden rechazar la hip´tesis, pero no pueden probar que H0 sea correcta, por lo que no se dice que se acepta H0 . o No rechazar H0 significa que los datos no son capaces de mostrar su falsedad. Ejemplo 2: Contraste de igualdad de varianzas. Los datos que estamos anali- zando sobre precio de la vivienda incluye dos tipos de viviendas: 161
  • 172. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a • Viviendas a reformar, es decir, es necesario realizar un gasto adicional para acondicionar la vivienda. • Viviendas acondicionadas para entrar a vivir. Es posible que el precio medio de las viviendas a reformar y reformadas sigan patrones diferentes. Esto implica que la distribuci´n del precio de los dos tipos de vivienda es o distinta. Por tanto, consideramos el siguiente modelo: • El precio por metro cuadrado de la vivienda que no necesita reforma, Y1 sigue 2 una distribuci´n normal de media µ1 y varianza σ1 . o • El precio por metro cuadrado de la vivienda a reformar, Y2 sigue una distribu- 2 ci´n normal de media µ2 y varianza σ2 . o • Ambas variables Y1 e Y2 son independientes. Vamos a contrastar si la varianza es la misma en ambas distribuciones frente a que sea menor en el grupo de pisos a reformar. Por tanto, planteamos el contraste de hip´tesis: o 2 2 2 2 H0 : σ1 = σ2 frente a Ha : σ1 > σ2 El procedimiento de contraste consiste en comparar las dos varianzas muestrales, ∗2 ∗2 S1 y S2 , que son estimadores insesgados de las respectivas varianzas poblacionales. ∗2 ∗2 ∗2 Valores cercanos de S1 y S2 , o ratios S1 /S2 ∗2 1, apoyan H0 . El estad´ ıstico de contraste y su distribuci´n bajo H0 son: o ∗2 S1 H0 F = ∗2 ∼ F(N1 − 1, N2 − 1) S2 donde N1 es el n´mero de pisos que no necesita reforma y N2 el n´mero de pisos a u u ∗2 ∗2 reformar. Dada Ha , rechazamos H0 si el ratio S1 /S2 est´ muy por encima de 1. La a regi´n cr´ o ∗2 ∗2 ıtica, por tanto, est´ definida por S1 /S2 > c, siendo c el valor cr´ a ıtico. Los pasos para realizar el contraste con Gretl son: 1. Seleccionar el subconjunto de pisos que no necesitan reforma. En el fichero de datos pisos.gdt son las observaciones para las que la variable Reforma = 1. En Gretl, seleccionamos la submuestra que cumple esta condici´n si: o a) Vamos a Muestra →Definir a partir de v. ficticia. b) En la nueva ventana aparece como opci´n Reforma y pinchamos en Aceptar o Si el proceso es correcto, en la parte inferior de la pantalla de Gretl aparece el mensaje Sin fecha: rango completo n=50; muestra actual n=31. Ahora s´lo o trabajamos con los datos de pisos que no necesitan reforma: si consultamos los datos en Datos →Mostrar valores ahora s´lo aparece la informaci´n de los 31 o o pisos que pertenecen a esta clase. 2. Crear la serie de datos y1 que incluye unicamente los precios por m2 de los pisos ´ reformados: en A˜adir →Definir nueva variable... escribimos y1 = pr m2. n 3. Seleccionar el subconjunto formado por los pisos que necesitan reforma, es decir, caracterizados por Reforma = 0 : a) Vamos a Muestra →Restringir, a partir de criterio. b) En la nueva ventana escribimos el criterio de selecci´n: o Reforma =0 c) Pinchamos en Reemplazar restricci´n actual y luego en o Aceptar. 162
  • 173. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 Ahora debe aparecer Sin fecha: rango completo n=50; muestra actual n=19. 4. Crear la serie de datos y2 de precios por m2 de pisos no reformados: en A˜adir n →Definir nueva variable... escribimos y2 = pr m2. 5. Recuperar la muestra completa en Muestra →Recuperar rango el completo. Comprobamos que las series y1 e y2 no tienen errores editando los datos de estas series. Las celdas de y1 estar´n vac´ en pisos no reformados y lo rec´ a ıas ıpro- co para y2. ıstico F m en Herramientas →Calculadora 6. Calcular el valor muestral del estad´ de estad´ ısticos de contraste →2 varianzas. En la siguiente ventana rellenamos los datos: - Marcar Utilice una variable del conjunto de datos y seleccionar y1. Aparecen los estad´ ∗2 ısticos necesarios de y1: S1 = 0, 77702 y N1 = 31 - Marcar Utilice una variable del conjunto de datos y seleccionar y2. Aparecen los estad´ ∗2 ısticos necesarios de y2: S2 = 0, 70340 y N2 = 19 - Comprobar la marca en Mostrar el gr´fico de la distribuci´n muestral y a o Aplicar. El resultado es una tabla y un gr´fico con la distribuci´n del estad´ a o ıstico bajo H0 , F(30, 18) y el valor muestral del estad´ ıstico. Hip´tesis nula: Las varianzas poblacionales son iguales o Muestra 1: n = 31, varianza = 0,777054 Muestra 2: n = 19, varianza = 0,703402 Estad´stico de contraste: F(30, 18) = 1,10471 ı valor p a dos colas = 0,8436 (a una cola = 0,4218) 1.2 Distribucin muestral F(30, 18) Estadstico de contraste 1 0.8 0.6 0.4 0.2 0 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 Gr´fico A.13: Ejemplo 2: Resultado y distribuci´n del estad´ a o ıstico bajo H0 7. El gr´fico anterior sugiere que no rechazaremos H0 . Calculamos la regi´n cr´ a o ıtica: se trata de un contraste a una cola, por tanto, buscamos c tal que 0, 05 = P rob(F > c). Vamos a Herramientas →Tablas estad´ ısticas →F. Los grados de libertad del numerador son gln 30 y los del denominador, gld 18. Finalmente, la probabilidad en la cola derecha es 0,05. El resultado es: F(30, 18) probabilidad en la cola derecha = 0.05 probabilidad complementaria = 0.95 Valor cr´tico = 2.10714 ı Por tanto, si α = 5 %, entonces c = 2, 107. 163
  • 174. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 8. Conclusi´n del contraste: F m = 1, 10 < 2, 11, por tanto, al nivel de significaci´n o o del 5 % no rechazamos la hip´tesis de igualdad de varianzas entre los dos tipos o de viviendas. Ejemplo 3: Contraste de igualdad de medias. Vamos a contrastar la hip´tesis o de que el precio medio del piso es mayor en los pisos reformados. Suponiendo que el precio por m2 de los dos tipos de pisos son variables independientes, ambas con distribuci´n normal de igual varianza, σ 2 y medias diferentes, µ1 y µ2 . o Para contrastar la hip´tesis anterior, planteamos o H0: µ1 = µ2 frente a Ha: µ1 > µ2 . El procedimiento de contraste se basa en la comparaci´n de las dos medias muestra- o les, y1 y y2 . Peque˜as diferencias entre ellas apoyan la H0 . El estad´ ¯ ¯ n ıstico de contraste y su distribuci´n bajo H0 son: o y1 − y2 ¯ ¯ H0 t= ∼ t(N1 + N2 − 2) S 1/N1 + 1/N2 donde S 2 es el estimador de la varianza com´n utilizando todos los datos: u N1 N2 1 S= (y1i − y1 )2 + ¯ (y2i − y2 )2 ¯ N1 + N2 − 2 i=1 i=1 Dada Ha , rechazamos H0 si la diferencia y1 − y2 es grande. La regi´n cr´ ¯ ¯ o ıtica, por tanto, est´ definida por t > c, siendo c el valor cr´ a ıtico. Aplicamos el procedimiento de contraste a los datos en Gretl. Las dos series de datos y1 e y2 se crean seg´n lo descrito en el ejemplo 2. A continuaci´n debemos: u o ıstico tm en Herramientas →Calculadora 1. Calcular el valor muestral del estad´ de estad´ ısticos de contraste →2 medias. En la siguiente ventana rellenamos los datos: - Marcar Utilice una variable del conjunto de datos y seleccionar y1. Aparecen los estad´ ∗ ısticos de y1: y1 = 4, 3040, S1 = 0, 88150675 y N1 = 31 ¯ - Marcar Utilice una variable del conjunto de datos y seleccionar y2. Aparecen los estad´ ∗ ısticos de y2: y2 = 3, 278717, S2 = 0, 83869 y N2 = 19 ¯ - Marcar Suponer desviaci´n t´ o ıpica poblacional com´n. u - Marcar Mostrar el gr´fico de la distribuci´n muestral y pinchar en Aplicar. a o El resultado es una tabla y un gr´fico con la distribuci´n t(50 − 2) y el valor a o muestral del estad´ ıstico. Hip´tesis nula: Diferencia de medias = 0 o Muestra 1: n = 31, media = 4,304, d.t. = 0,881507 desviaci´n t´pica de la media = 0,158323 o ı Intervalo de confianza 95% para la media: 3,98066 a 4,62734 Muestra 2: n = 19, media = 3,27872, d.t. = 0,838691 164
  • 175. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 desviaci´n t´pica de la media = 0,192409 o ı Intervalo de confianza 95% para la media: 2,87448 a 3,68295 Estad´stico de contraste: ı t(48)= (4,304-3,27872)/0,252229 =4,0649 valor p a dos colas = 0,0001774 (a una cola = 8,871e-005) 0.5 Distribucin muestral t(48) Estadstico de contraste 0.4 0.3 0.2 0.1 0 -4 -3 -2 -1 0 1 2 3 4 Desviaciones tpicas Gr´fico A.14: Ejemplo 3: Resultado y distribuci´n del estad´ a o ıstico bajo H0 2. Definir la regi´n cr´ o ıtica: se trata de un contraste a una cola, por tanto, buscamos c tal que 0, 05 = P rob(t > c). Vamos a Herramientas →Tablas estad´ ısticas →t, grados de libertad gl 48 y para α = 5 %, obtenemos c = 1, 229. 3. Resultado del contraste: 4, 06496 > 1, 229, por tanto, al nivel de significaci´n o del 5 % rechazamos la hip´tesis nula de igualdad de medias. Es decir, los datos o apoyan la hip´tesis de que el precio del m2 es mayor en los pisos reformados. o 165
  • 176. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 166
  • 177. Ap´ndice B e B.1. Otros recursos • Algunos organismos institucionales que publican datos macroecon´micos son: o • Banco Central Europeo: http://www.ecb.int/ • Banco de Espa˜a: http://www.bde.es → Estad´ n ısticas • Banco Mundial: http://www.worldbank.org • Bolsa de Madrid: http://www.bolsamadrid.es • Economic and Social Data Series: Gu´ a recursos de datos de libre acceso: ıa http://www.esds.ac.uk/internacional/access/access.asp • EUROSTAT: Oficina Estad´ ıstica de la Uni´n Europea: o http://europa.eu.int/comm/eurostat • Fondo Monetario Internacional (FMI): http://www.imf.org • Instituto Nacional de Estad´ ıstica (INE): http://www.ine.es → Inebase o Banco tempus • Instituto Vasco de Estad´ ıstica (EUSTAT): http://www.eustat.es • Organizaci´n para la Cooperaci´n y Desarrollo Econ´mico (OCDE): http://www.oecd.org o o o • Software estad´ ıstico y/o econom´trico: e • Eviews, http : //www.eviews.com. • SHAZAM, http : //shazam.econ.ubc.ca • Gretl, http : //gretl.sourcef orge.net • RATS, http : //www.estima.com • R, http : //www.r − project.org 167
  • 178. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a • Links a libros de Econometr´ y/o Estad´ ıa ıstica. • Greene, W. (2008), Econometric Analysis, http://prenhall.com/greene • Gujarati, D. (1997), Econometr´ b´sica, ıa a http://www.mhhe.com/economics/mhhe • Hill, R. C. Griffiths, W.E. y G. G. Judge (2001), Undergraduate Econometrics, http://eu.he.wiley.com/WileyCDA • Kennedy, P. (1992), A Guide to Econometrics., http://eu.he.wiley.com/WileyCDA • Ramanathan, R. (2002), Introductory Econometrics with applications, http://weber.ucsd.edu/∼rramanat/embook5.htm • Verbeek, M. (2004), A Guide to Modern Econometrics, http://eu.he.wiley.com/WileyCDA • Wooldridge, J. M. (2003), Introductory Econometrics. A Modern Approach, http://wooldridge.swcollege.com/ • Algunos libros de Econometr´ y/o Estad´ ıa ıstica que incluyen CD con datos para resolver ejer- cicios: • Alonso, A., Fern´ndez, F. J. e I. Gallastegui (2005), Econometr´ Prentice-Hall, Madrid a ıa, • Ramanathan, R. (2002), Introductory Econometrics with Applications, 5a edn., South- Western, Mason, Ohio. • Stock, J. y M. Watson (2003), Introduction to Econometrics, Addison-Wesley, Boston. • Verbeek, M. (2004), A Guide to Modern Econometrics, 2a edn., John Wiley, England. • Wooldridge, J. M. (2003), Introductory Econometrics. A Modern Approach, 2a edn., South- Western, Mason, Ohio. • Datos • http : //www.nber.org/data index.html • http : //www.estadief.minhac.es/ • http : //f isher.osu.edu/f in/osudown.htm • http : //econ.queensu.ca/jae/ • http : //www.psidonline.isr.umich.edu/data/ • http : //www.census.gov/ 168
  • 179. Econometr´ B´sica Aplicada con Gretl ıa a SARRIKO-ON 8/09 • Revistas de Econom´ ıa • http : //www.revecap.com. Revista de Econom´ Aplicada ıa • http : //www.revistaestudiosregionales.com. Revista de Estudios Regionales • http : //www.f unep.es/invecon/sp/sie.asp. Investigaciones Econ´micas o • http : //www1.euskadi.net/ekonomiaz. Ekonomiaz 169
  • 180. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a 170
  • 181. Bibliograf´ ıa Bibliograf´ B´sica: ıa a Ramanathan, R. (2002), Introductory Econometrics with Applications, 5th. edn., South-Western, Mason, Ohio. Bibliograf´ recomendada en los temas del curso: ıa Alonso, A., Fern´ndez, F. J. e I. Gallastegui (2005), Econometr´ Prentice-Hall, Madrid. a ıa, Davidson, D. y J. Mackinnon (2004), Econometric Theory and Methods, Oxford University Press, New York. Engle, R. F. (1982), “A general approach to Lagrangian Multiplier Modelo Diagnostics”, Jour- nal of Econometrics, vol. 20, pp. 83-104. Greene, W. (2008), Econometric Analysis, 6a edn., Prentice-Hall, New Jersey. Gujarati, D. (1997), Econometr´ B´sica, 4a edn., McGraw-Hill, Mexico. ıa a Heij, C., de Boer, P., Frances, P., Kloek, T. y H. Van Dijk (2004), Econometric Methods with Applications in Business and Economics, Oxford University Press, Oxford. Neter, J., Wasserman, W. y M. H. Kutner (1990), Applied Linear Statistical Models, 3a edn., M.A: Irwin, Boston. Pe˜ a, D. y J. Romo (1997), Introducci´n a la Estad´ n o ıstica para las Ciencias Sociales, McGraw- Hill, Madrid. Stock, J. y M. Watson (2003), Introduction to Econometrics, Addison-Wesley, Boston. Verbeek, M. (2004), A Guide to Modern Econometrics, 2a edn., John Wiley, England. Wooldridge, J. M. (2003), Introductory Econometrics. A Modern Approach, 2a edn., South- Western, Mason, Ohio. Bibliograf´ Complementaria: ıa Fern´ndez, A., Gonz´lez, P., Reg´ lez, M., Moral, P. y M. V. Esteban (2005), Ejercicios a a u de Econometr´ 2a edn., MacGraw-Hill, serie Schaum, Madrid. ıa, 171
  • 182. SARRIKO-ON 8/09 Econometr´ B´sica Aplicada con Gretl ıa a Hill, R. C. Griffiths, W.E. y G. G. Judge (2001), Undergraduate Econometrics, 2a edn., John Wiley and Sons, Inc., England. Johnston, J. y J. Dinardo (2001), M´todos de Econometr´ Vicens Vives, Barcelona. e ıa, Kennedy, P. (1992), A Guide to Econometrics., 3a edn., Blackwell, Oxford. Maddala, G. S. (1996), Introducci´n a la Econometr´ 2a edn., McGraw-Hill, M´xico. o ıa, e Novales, A. (1993), Econometr´ 2a edn., McGraw-Hill, Madrid. ıa, Pindyck, R.S. y D.L. Rubinfeld (1998), Econometric Models and Economic Forecast, 4a edn., McGraw-Hill, New York. 172